- PVSM.RU - https://www.pvsm.ru -

Удаление метаданных из PDF

image

Вот, казалось бы, тривиальная задача — удалить metadata из документа. Уже тысячу раз специалисты по паранойе информационной безопасности давали подобного рода рекомендации: «обязательно удаляйте избыточную метаинформацию из документов перед публикацией». И объясняли зачем это может понадобиться (пример [1]). В сети масса инструкций о том как это сделать для различных форматов изображений и документов, но в то же время про такой распространённый формат как PDF внятной информации довольно мало.

Я провел небольшой эксперимент и по результатам собрал небольшой toolchain и freeware утилит. Вот этим всем и хочу поделиться.

Итак, первое что было сделано — проведена попытка удалить данные средствами самого Adobe Acrobat по соответствующей инструкции [2]. Результат есть, но его никак нельзя назвать удовлетворительным, т.к. во-первых это стрельба из пушки по воробьям, а во-вторых объём файла на выходе почему-то увеличился почти на порядок.

Затем, среди кучи crapware [3] была найдена чудесная windows утилита BeCyPDFMetaEdit [4], но она уверенно справляется с PDF v 1.6 и ниже, а для более новых ревизий формата результат не гарантирован.

Ultimate решение как водится пришло из мира *nix и сообщества сторонников свободного ПО с отрытым исходным кодом. Это связка из утилит ExifTool [5], QPDF [6] и Xpdf [7], каждая их которых доступна также и под Windows. Т.к. лицензии этих утилит не запрещают их свободно распространять без изменений, то я смело собрал их в едином архиве [8] со скриптом и элементарной инструкцией по применению. Если кратко, то Вы распаковываете архив, кладете подлежащий очистке pdf файл в получившуюся папку и затем перетаскиваете его на DEMETA.bat. Скрипт отработает и ваш файл станет девственно чист.

Автор: zilia

Источник [16]


Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/metadanny-e/250120

Ссылки в тексте:

[1] пример: https://toster.ru/q/193551

[2] инструкции: https://www.adobe.com/content/dam/Adobe/en/products/acrobat/pdfs/adobe-acrobat-xi-pdf-sanitization-remove-hidden-data-from-pdf-files-tutorial-ue.pdf

[3] среди кучи crapware: https://www.google.ru/search?q=pdf+metadata+editor

[4] BeCyPDFMetaEdit: http://www.becyhome.de/becypdfmetaedit/description_eng.htm

[5] ExifTool: https://en.wikipedia.org/wiki/ExifTool

[6] QPDF: https://en.wikipedia.org/wiki/QPDF

[7] Xpdf: https://en.wikipedia.org/wiki/Xpdf

[8] едином архиве: https://mega.nz/#!Ds9nhJyJ!zQP2PXRy8IXnmS6TVJ79bOnGGmhZnU8x7eZkIrl3EOE

[9] www.metawiper.com/How-to-remove-metadata-from-pdf-file: https://www.metawiper.com/How-to-remove-metadata-from-pdf-file

[10] askubuntu.com/questions/27381/how-to-edit-pdf-metadata-from-command-line: http://askubuntu.com/questions/27381/how-to-edit-pdf-metadata-from-command-line

[11] gist.github.com/hubgit/6078384: https://gist.github.com/hubgit/6078384

[12] www.sno.phy.queensu.ca/~phil/exiftool: http://www.sno.phy.queensu.ca/~phil/exiftool/

[13] qpdf.sourceforge.net: http://qpdf.sourceforge.net/

[14] stackoverflow.com/questions/19263643/windows-equivalent-for-unixs-pdfinfo: http://stackoverflow.com/questions/19263643/windows-equivalent-for-unixs-pdfinfo

[15] www.foolabs.com/xpdf/download.html: http://www.foolabs.com/xpdf/download.html

[16] Источник: https://habrahabr.ru/post/324348/?utm_source=habrahabr&utm_medium=rss&utm_campaign=best