- PVSM.RU - https://www.pvsm.ru -
Команда Яндекса сообщила о новом достижении проекта по развитию нейросетей, распознающих текст. Разработчики научили фирменные нейросети расшифровывать архивные записи со сложной дореволюционной орфографией.
Пользователи могут протестировать технологию в действии в сервисе «Поиск по архивам [2]». В рамках проекта доступно более чем 2,5 миллионам страниц исторических документов XVIII — начала XX веков с текстовой расшифровкой, включая метрические книги, исповедные ведомости и ревизские сказки с результатами переписи населения.
Как отмечают разработчики, сервис «Поиск по архивам» пригодится историкам, социологам, демографам, генеалогам и простым пользователям, которые ищут сведения о своей семье.
Новый алгоритм оптического распознавания учитывает особенности почерка и структуру архивных документов, а также справляется с символами и буквами, опознаёт больше не использующимися в русском языке. Нейросеть прошла обучение на сотнях тысяч рукописных строк из реальных текстов XVIII–XIX веков и десятков миллионов сгенерированных примеров.
Руководитель «Поиска Яндекса» Елена Бубнова рассказала:
Для расшифровки одной страницы архивного рукописного текста профессионалу может потребоваться до получаса времени. Наш сервис справляется с этим за несколько секунд. В перспективе технологию можно использовать и для решения других задач в продуктах Яндекса.
Источник [3]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/news/382305
Ссылки в тексте:
[1] Image: #
[2] Поиск по архивам: https://www.ixbt.com/click/?c=53616c7465645f5f79edc14ff4158c2071cd9a9ffeb59452159785d6e559829d95c42ec330fd5fe44495ee711d8290ea9afca60a979c82c956293122c179ebad&h=ccc130c9fa44e8018486b7a4f34397969de26498
[3] Источник: https://www.ixbt.com/news/2023/01/25/mozhno-poprobovat-prjamo-sejchas-i-otyskat-predkaknjazja-nejroseti-jandeksa-teper-spravljajutsja-s-rasshifrovkoj.html
Нажмите здесь для печати.