Рубрика «PDF»

Как написать конвертер веб-страниц в PDF и не сойти с ума - 1

Вам когда-нибудь хотелось сохранить статью в PDF без лишних деталей, только в виде текста? Или сохранить только определённый элемент страницы? И чтобы всё это было на одной длинной странице, без разрывов?

Читать полностью »

Введение

Добрый день. Сегодня я расскажу о том, как я за 2 месяца с полного нуля создал доменную RAG систему с корпусом в 20+ книг. В статье затрону проблемы парсинга данных (особенно PDF документов, с которыми приходилось иметь дело), чанкинга, создания и индексации эмбеддингов, а также самого интересного – ретривера. Расскажу о latency, трейд-оффах, и сложностях реализации подобных систем локально на ноутбуке (хоть и «игровом») без использования API LLM.

Вся система делалась мной самостоятельно без использования LangChain Читать полностью »

В статье приводится практический опыт перехода от “офисных” документов к подходу Docs‑as‑Code на примере проекта ODS (Open Documentation Standard). Рассматриваются причины отказа от MS Word и выбор AsciiDoc, версионирование документации в Git, автоматизацию сборки PDF и публикацию документации на сайте, используя генератор статических сайтов – Antora.

Эта статья о проекте ODS (Open Documentation Standard) – открытом стандарте и инструментарии для автоматизации процессов создания и поддержки технической документации в ИТ и других проектах.
(Не связан с форматом OpenDocument Spreadsheet (.ods) или проектами Open Data.)

В открытом доступе находятся Читать полностью »

OCRmyPDF выравнивает и оптимизирует PDF-файлы вместе с распознаванием текста

OCRmyPDF выравнивает и оптимизирует PDF-файлы вместе с распознаванием текста

Читать полностью »

Самый загадочный баг в моей работе - 1

Предыстория

Моя команда занимается разработкой медицинского ПО: приложения для передачи направлений пациентов в системе здравоохранения Австралии.

Читать полностью »

Ранее мы уже писали о нейросетях для бесплатного анализа PDF-документов. Рекомендуем ознакомиться — ссылка ниже!

Перейти к статье!

ТОП-5 сервисов и программ для бесплатного редактирования PDF-файлов - 1

Читать полностью »

Топ-5 нейросетей для работы с PDF: модели для бесплатного извлечения данных в 2025 году - 1

Уже не сосчитать, сколько раз мы пытались найти в 50-страничном PDF всего одну цифруЧитать полностью »

Всех приветствую, читатели !

Вторая часть исследования безопаности файлов pdf. После того, как я опубликовал первую часть (https://habr.com/ru/articles/906076/Читать полностью »

Ян Лекун, создатель LeNet, формата DjVu и адвокат опенсорса - 1

Ян Лекун, один из крёстных отцов современного ИИ, в своём твиттере резко критикует корпоративных исследователей ИИ, которые ведут проприетарные разработки и занимаются «нагнетанием страха». Среди этих людей называются Сэм Альтман (OpenAI), Демис Хассабис (Google DeepMind) и Дарио Амодеи (Anthropic)

Ян Лекун (Yann LeCun) — французский и американский учёный в области машинного обучения и компьютерного зрения. Известен как автор легендарной системы LeNet (1989 г.), где одним из первых начал применять методы биологических нейронных сетей для оптического распознавания символов (OCR).

Сейчас занимает должность вице-президента и ведущего исследователя ИИ в корпорации Meta (руководит разработкой опенсорсной языковой модели LLaMA, в том числе). При этом остаётся ярым приверженцем опенсорса, свободной науки и научно-технического прогресса человечества.Читать полностью »

Введение

Расскажу вам о кейсе про генерацию PDF из HTML страницы основанной на Ant Design для на который ушло гораздо больше времени, чем планировалось, при этом решение оказалось довольно простым. Расскажу какие решения мы пытались применить и с какими проблемами пришлось столкнуться.

Описание задачи

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js