Рубрика «ocr»

Извлечение параметров из 2D-чертежей: 6 YOLO-моделей, кастомный OCR и стрелочная логика

2026-05-11 в 15:46, admin, рубрики: ocr, OCR-технологии, детекция текста, инженерная оптимизация, Компьютерное зрение, машинное зрение, обработка изображений, распознавание документов

На машиностроительном производстве расчет стоимости детали начинается с чертежа. Входящий запрос выглядит так: PDF и строчка «нужно 50 штук». Чтобы назвать цену, технолог открывает чертеж и вручную снимает параметры: тип детали, габариты, квалитеты, шероховатости, резьбы, материал, массу. Один чертеж — от 5 до 15 минут. При потоке в несколько десятков запросов в день это основная нагрузка на технолога.

Читать полностью »

OneOCR — скрытая OCR внутри Windows 11

2026-05-06 в 13:29, admin, рубрики: ml, ocr

OneOCR — это набор из двух динамических библиотек и одной модели ONNX для распознавания текста в приложениях Snipping Tool и Photos в Windows 11.

Скажу сразу: статьи писать я не умею, а воды лить не хочу, поэтому писанины будет немного.

Итак, набор из трёх файлов состоит из: oneocr.dll, onnxruntime.dll и Читать полностью »

ChatGPT не промахнулся ни в одном из пяти медицинских кейсов. И всё равно проиграл. Разбираем, почему

2026-04-26 в 16:15, admin, рубрики: benchmark, chatgpt, gpt-5, llm, ocr, клинические решения, медицина, расшифровка анализов, русскоязычные LLM, эксперимент

TL;DR

В эксперимент мы шли с уверенностью, что ChatGPT хотя бы раз из пяти промахнётся с главным диагнозом. Не промахнулся. Пять из пяти: метаболический синдром, субклинический гипотиреоз, перименопауза, MGUS, статин-индуцированный рабдомиолиз. Ставка проиграна, но самое интересное оказалось не здесь.

Читать полностью »

Как техлид без навыка кодинга руками собрал Telegram-систему закупок с OCR, модерацией и безопасным деплоем

2026-04-19 в 6:15, admin, рубрики: AI, chatgpt, ocr, python, sqlite, systemd, telegram, vps, архитектура, техническое лидерство

Я технический лидер. Обычно моя работа не в том, чтобы писать код руками, а в том, чтобы запускать сложные hardware/software-проекты с нуля, собирать архитектуру, принимать ключевые технические решения, выстраивать команду и доводить систему до MVP в условиях неопределённости.

Я работаю на стыке механики, электроники, разработки и AI, связывая это в единый контур.

При этом я не владею языками программирования как разработчик.

Читать полностью »

BP Tracker: считываем давление с тонометра камерой iPhone. Часть 1 — выбор стека и первый экран

2026-03-22 в 11:45, admin, рубрики: avfoundation, computer vision, iOS, ocr, swift, swift charts, swiftdata, swiftUI, vision framework, открытый исходный код

Многие приложения для здоровья в России перестали нормально работать. Omron — одно из них. А давление мерить надо каждый день. Поэтому я решил сделать своё iOS-приложение, которое через камеру считывает показания с любого тонометра, сохраняет их и строит графики динамики.

Я Senior CV-инженер — компьютерное зрение моя основная работа. Так что OCR с дисплея тонометра технически не должен был стать проблемой. Но как iOS-разработчик я — полный ноль. Xcode открыл впервые. Swift видел мельком. Это честный рассказ о том, как это выглядит изнутри.

Читать полностью »

От OCR до ADE: как машины научились не просто читать, а понимать документы

2026-03-10 в 12:15, admin, рубрики: ai-агенты, computer vision, llm, ocr, python, rag, Vectorization, Компьютерное зрение, машинное обучение, обработка документов

Представьте что вы получили 500 кредитных заявок. В каждой — паспорт, банковская выписка, справка о доходах, налоговая форма. Всё в PDF. Имена файлов: upload1.pdf, upload2.pdf... Чтобы обработать их вручную — нужна неделя и несколько сотрудников. Чтобы обработать автоматически старым способом — нужно написать отдельный парсер под каждый тип документа, и молиться чтобы шрифт не поменялся. Эта статья о том как индустрия шла к решению этой задачи — и к чему пришла.

Читать полностью »

Стопроцентное распознавание

2026-02-24 в 15:27, admin, рубрики: ocr, OCR-технологии, проектное планирование, проектное управление, проектное финансирование, управление проектами

У истории про «элитный вайбкодинг», вызвавшей заметный интерес широких айтишных масс, есть не менее интересная предыстория.

Проектному управлению посвящается.

Низвержение в Мальстрем

Если никогда не бывали в Гонконге Читать полностью »

Как гуманитарий за 2 месяца с нуля RAG систему построил, или Парсинг PDF по-хардкору

2026-02-13 в 9:15, admin, рубрики: bm25, embeddings, faiss, nlp, ocr, PDF, rag, tesseract, машинное обучение. нейросети python, Построение поисковых систем

Введение

Добрый день. Сегодня я расскажу о том, как я за 2 месяца с полного нуля создал доменную RAG систему с корпусом в 20+ книг. В статье затрону проблемы парсинга данных (особенно PDF документов, с которыми приходилось иметь дело), чанкинга, создания и индексации эмбеддингов, а также самого интересного – ретривера. Расскажу о latency, трейд-оффах, и сложностях реализации подобных систем локально на ноутбуке (хоть и «игровом») без использования API LLM.

Вся система делалась мной самостоятельно без использования LangChain Читать полностью »

Современные OCR для сложных документов: сравниваем 6 open-source моделей на реальном кошмаре инженера

2025-11-16 в 6:31, admin, рубрики: gemma-3, llm, ocr, paddleocr, qwen3, vlm, мультимодальные модели, распознавание текста

Привет! Каждый, кто хоть раз пытался вытащить данные из скана акта или старого отчета, знает эту боль. Классические OCR-инструменты, вроде старого доброго Apache Tika, отлично справляются с простым печатным текстом, но пасуют перед реальными вызовами: таблицами со сложной вёрсткой, рукописными пометками, мелким курсивом и разными шрифтами в одном документе.

Чтобы не быть голословными, давайте посмотрим на типичный «сложный» документ и что с ним делает Tika.

Читать полностью »

Эффект Даннинга — Крюгера в нейросети. OCR распознавание текста LLM: доверяй, но проверяй

2025-11-01 в 5:21, admin, рубрики: llm, ocr, qwen, когнитивные искажения, распознавание текста

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «ocr»

Извлечение параметров из 2D-чертежей: 6 YOLO-моделей, кастомный OCR и стрелочная логика

OneOCR — скрытая OCR внутри Windows 11

ChatGPT не промахнулся ни в одном из пяти медицинских кейсов. И всё равно проиграл. Разбираем, почему

TL;DR

Как техлид без навыка кодинга руками собрал Telegram-систему закупок с OCR, модерацией и безопасным деплоем

BP Tracker: считываем давление с тонометра камерой iPhone. Часть 1 — выбор стека и первый экран

От OCR до ADE: как машины научились не просто читать, а понимать документы

Стопроцентное распознавание

Низвержение в Мальстрем

Как гуманитарий за 2 месяца с нуля RAG систему построил, или Парсинг PDF по-хардкору

Введение

Современные OCR для сложных документов: сравниваем 6 open-source моделей на реальном кошмаре инженера

Эффект Даннинга — Крюгера в нейросети. OCR распознавание текста LLM: доверяй, но проверяй