Как извлечь данные из файлов PDF и Microsoft Office в MetaExtractor

Помимо основной информации, файлы Microsoft Office и PDF могут содержать достаточно большое количество метаданных, фактически сведений о файлах. Эти данные включают в себя имя автора, название темы, ключевые слова, приложение, в котором был создан документ, время его создания и редактирования, количество страниц и так далее. В свойствах документов для просмотра доступна только малая часть этих данных.

Чтобы получить полный список метаданных документа, вам понадобиться помощь стороннего программного обеспечения.

В интернете имеется масса бесплатных сервисов, позволяющих не только просматривать, но и редактировать метаинформацию PDF, однако, если файл содержит конфиденциальные данные, отправлять его куда-то на сторону будет не самым разумным решением.

В таких случаях лучше воспользоваться MetaExtractor — бесплатной утилитой для извлечения метаинформации из файлов PDF и офисных документов. MetaExtractor поддерживает анализ файлов OpenOffice, Microsoft Office, Adobe PDF, созданных в SolidWorks чертежей CAD, извлечение более 40 типов метаданных, работу в пакетном режиме, сохранение извлеченной информации в CSV-файл.

MetaExtractor

Установки MetaExtractor не требует.

Чтобы проанализировать файл, нужно нажать в главном меню иконку пустого файла, если файлов много, их нужно поместить в одну папку и указать ее через то же меню, нажав иконку в виде каталога.

Утилита проанализирует документы и выведет метаданные горизонтальным списком для каждого файла, тогда как сами файлы будут выведены вертикальным списком. При необходимости полученную информацию можно передать в CSV-файл. MetaExtractor не поддерживает редактирование метаданных, только их просмотр, из дополнительных возможностей утилиты можно отметить разве что сортировку полученной информации.

Сайт разработчика: 4discovery.com/our-tools/metaextractor

Оцените Статью:

1 Звезда2 Звезды3 Звезды4 Звезды5 Звезд (1 оценок, среднее: 5,00 из 5)
Загрузка...

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *