Рубрика «PDF»
Добавление OCR-слоя и другие преобразования PDF
2025-08-24 в 18:07, admin, рубрики: markitdown, ocr, ocrmypdf, PDF, syntax, конвертация
Самый загадочный баг в моей работе
2025-08-06 в 13:01, admin, рубрики: PDF, ruvds_перевод, конвертация данных, медицинские данные, медицинские информационные системы, преобразование данных
Предыстория
Моя команда занимается разработкой медицинского ПО: приложения для передачи направлений пациентов в системе здравоохранения Австралии.
ТОП-5 сервисов и программ для бесплатного редактирования PDF-файлов
2025-06-28 в 13:43, admin, рубрики: PDF, pdftotext, бесплатные сервисы, работа с pdf, работа с файлами, редактирование, редактирование pdfРанее мы уже писали о нейросетях для бесплатного анализа PDF-документов. Рекомендуем ознакомиться — ссылка ниже!

Топ-5 нейросетей для работы с PDF: модели для бесплатного извлечения данных в 2025 году
2025-06-28 в 13:42, admin, рубрики: AI, gpt-3.5, PDF, pdftotext, perplexity, анализ PDF, анализ файлов, нейросети, поиск информации, работа с pdf
Уже не сосчитать, сколько раз мы пытались найти в 50-страничном PDF всего одну цифруЧитать полностью »
Взлом зашифрованного pdf-файла. Часть 2
2025-05-07 в 16:42, admin, рубрики: aes, aes-128, AES-256, cracking, hacking, PDF, информационная безопасность, операционные системы, Софт, хакингВсех приветствую, читатели !
Вторая часть исследования безопаности файлов pdf. После того, как я опубликовал первую часть (https://habr.com/ru/articles/906076/Читать полностью »
Ян Лекун, создатель LeNet, формата DjVu и адвокат опенсорса
2025-05-05 в 9:01, admin, рубрики: cnn, CRF, deepseek, djvu, DWT, GTN, jpeg2000, lenet, llama, llm, Lush, ocr, PDF, ruvds_статьи, вейвлет-преобразование, Компьютерное зрение, машинное зрение, нейросети, распознавание символов, сверточные нейросети, тест тьюринга, условные случайные поля, Ян Лекун
Ян Лекун (Yann LeCun) — французский и американский учёный в области машинного обучения и компьютерного зрения. Известен как автор легендарной системы LeNet (1989 г.), где одним из первых начал применять методы биологических нейронных сетей для оптического распознавания символов (OCR).
Сейчас занимает должность вице-президента и ведущего исследователя ИИ в корпорации Meta (руководит разработкой опенсорсной языковой модели LLaMA, в том числе). При этом остаётся ярым приверженцем опенсорса, свободной науки и научно-технического прогресса человечества.Читать полностью »
От jsPDF к Chrome: решение сложной задачи рендеринга PDF с таблицами
2025-02-08 в 6:15, admin, рубрики: chrome, html, jspdf, PDF, pdftk, Puppeteer, WeasyPrint, wkhtmltopdf, Рендеринг pdfВведение
Расскажу вам о кейсе про генерацию PDF из HTML страницы основанной на Ant Design для на который ушло гораздо больше времени, чем планировалось, при этом решение оказалось довольно простым. Расскажу какие решения мы пытались применить и с какими проблемами пришлось столкнуться.
Описание задачи
Генерация PDF-файлов на Go
2025-01-03 в 10:15, admin, рубрики: fpdf, Go, gotenberg, html, PDF, wkhtmltopdfГенерация PDF-документов это практически неотъемлемая часть при создании отчетов. Ведь гораздо проще иметь один HTML-шаблон который просто редактируется, и в нужные места подставить необходимые данные.
В статье отобрал самые популярные (по звездам на GitHub на момент написания статьи) инструменты для генерирования PDF из HTML, DOCX и некоторых других форматов. Рассмотрим только те, которые реализованы непосредственно на Go ИЛИ имеют обертки над API на Go.
Список следующий:
GUI для исследования внутренностей PDF
2024-12-15 в 18:51, admin, рубрики: 010 Editor, Interactive PDF Analysis, ipa, iText RUPS, PDF, PDF Dissector, pdf-rs, PDFViewer, PDFXplorer, Polyfile, zynamics, анализ PDF, Дидье Стивенс, извлечение ресурсов, парсинг, форматы документов
Как известно, PDF-файлы часто используются как контейнеры для вирусов и эксплоитов. Они применяются в фишинговых кампаниях и социальной инженерии, когда жертве присылают для просмотра «безобидный документ» в формате PDF, а тот запускает на исполнение вредоносный код через незакрытую уязвимость в браузере или PDF-ридере.
Перед открытием документа всегда желательно посмотреть, что находится внутри. Для этих целей существуют парсеры, которые разбирают PDF. Например, Interactive PDF Analysis (IPA, на скриншоте вверху) и другие.
Даже если перед нами чистый PDF, иногда нужно изучить содержимое и извлечь полезные ресурсы в нетронутом виде — например, оригинальные изображения в JPG.
Читать полностью »
Создание PDF размером с Германию
2024-02-16 в 14:29, admin, рубрики: Acrobat Reader, Germany, PDF, pdf reader, ruvds_перевод, текстовые редакторы
Сегодня утром, пролистывая ленты социальных сетей, я уже в который раз встретил утверждение, что у PDF-документа есть максимально допустимый размер.
Подобное утверждение появилось на просторах интернета ещё в 2007 году. Этот твит является характерным примером постов с аналогичным заявлением, в которых оно преподносится как твёрдый факт без каких-либо подтверждающих свидетельств или объяснений. То есть мы должны просто принять, что один PDF может покрыть лишь около половины площади Германии, и нам никак не объясняют, почему его магический предел составляет 381 километр.
Тут мне стало интересно – а создавал ли кто-нибудь такой большой PDF? Насколько это сложно? А можно ли сделать документ ещё больше?
Несколько лет назад я из праздного любопытства немного поигрался с PostScript, предшественником PDF, и это оказалось очень увлекательным! Ранее мне не доводилось изучать внутреннее устройство PDF, так что здесь у меня возник для этого хороший повод.
Приступим!Читать полностью »
