При работе с «офисными» файлами иногда возникает необходимость извлечь из документа вставленное в него изображение. Это элементарно, кликните по картинке правой кнопкой мыши и выберите «Сохранить как рисунок». Но если изображений много, процедура ручного сохранения может оказаться утомительной. В таких случаях первое, что обычно приходит в голову, это воспользоваться какой-нибудь специальной программой для извлечения графики из документов MS Office.
Решение в целом верное, но зачем вам стороннее ПО, если получить тот же результат можно средствами самой Windows? Как? Давайте разбираться. Что из себя по сути представляет DOCX, XLSX или ODT-файл? Это контейнер, содержащий набор мультимедийных и XML-файлов, сжатых с использованием ZIP. Следовательно, открыть его можно любым архиватором, в том числе встроенным в Windows. При этом иметь на компьютере Microsoft Office или сторонний бесплатный офисный пакет необязательно.
Измените расширение документа DOCX или XLSX на ZIP.
А затем просто распакуйте его как обычный архив.
В результате вы получите несколько папок. Перейдя в каталог word/media, вы найдете там все имеющиеся в документе изображения.
В архиве из ODT-файла папка media находится в корне папки. Подобным образом вы можете извлекать из офисных документов интегрированные шрифты и мультимедийные файлы — аудио и видео.
Последние сохраняются в папку embeddings переименованными и в формате BIN, поэтому вам придется определить, какой из них вам нужен. Это проблематично, поскольку при конвертировании изменяются заголовки файлов, да и не факт, что после изменения расширения они станут воспроизводиться. Что же касается старых форматов MS Office 97-2003 и RTF, то они не используют сжатие ZIP, поэтому их сначала необходимо пересохранить в DOCX, XLSX или ODT и лишь потом заменить расширение.
Лучше всего извлечь изображение правильно, чтобы вы могли взять копию изображения, максимально приближенную к оригиналу. Вы можете отбросить пару различных техник для выполнения этой задачи в зависимости от типа файла, с которым вы работаете, но обычно это быстрый и легкий маневр, когда вы знаете, что делаете. Если вы работаете с документом, созданным в Microsoft Office, самый простой способ извлечь изображение сохранить файл как веб-страницу. Ваш браузер отображает веб-страницы, читая документ HTML