У истории про «элитный вайбкодинг», вызвавшей заметный интерес широких айтишных масс, есть не менее интересная предыстория.
Проектному управлению посвящается.

Низвержение в Мальстрем
Если никогда не бывали в ГонконгеЧитать полностью »
У истории про «элитный вайбкодинг», вызвавшей заметный интерес широких айтишных масс, есть не менее интересная предыстория.
Проектному управлению посвящается.

Если никогда не бывали в ГонконгеЧитать полностью »
Привет! Каждый, кто хоть раз пытался вытащить данные из скана акта или старого отчета, знает эту боль. Классические OCR-инструменты, вроде старого доброго Apache Tika, отлично справляются с простым печатным текстом, но пасуют перед реальными вызовами: таблицами со сложной вёрсткой, рукописными пометками, мелким курсивом и разными шрифтами в одном документе.
Чтобы не быть голословными, давайте посмотрим на типичный «сложный» документ и что с ним делает Tika.
Проект реализуется командой: Константин Кожин — руководитель проекта; Павел Шерстнев — ML-инженер; Антон Михалев — ML-инженер; Анна Пятаева — научный руководитель проекта; Владислава Жуковская — специалист по разметке данных; Алина Нуриманова — специалист по разметке данных. Работа ведётся при поддержке гранта (Фонд содействия инновациям, конкурс «Код-ИИ», VII очередь, декабрь 2024 – декабрь 2025).
Manuscript OCR — это open-source проект, опубликованный на GitHub и GitVerse.
Сначала был звонок. «Здравствуйте, мне нужно перевести документ с английского на русский. Только он не совсем обычный». Разберемся, подумал я. А вечером увидел на почте это.

Когда думаешь о «цифровой трансформации» в промышленности, в голове обычно всплывают роботы, датчики, большие экраны и дроны, которые сами разносят детали по цеху. В реальности всё часто упирается в куда более прозаичные вещи.
Недавно мы с научным руководителем задались вопросами: Какая лексика чаще всего встречается в учебнике, а какая появляется всего один раз? Какие упражнения присутствуют чаще – языковые или коммуникативные? Соответствует ли лексика в учебнике заявленному уровню? Сколько всего текстов в учебнике? О чем большинство?