Рубрика «ABBYY»

Сентябрь – волнительное время не только для школьников и студентов, но и для нас в ABBYY. Осенью студенты наших кафедр на Физтехе вернулись к учебе, а десятки наших коллег – к преподаванию. Каким будет этот учебный год – не загадываем. Просто пусть все будет хорошо. А в этом посте мы расскажем интересные подробности о Физтех-школе прикладной математики и информатики (ФПМИ МФТИ) и о том, как вместе с ней мы уже не первый год готовим крутых специалистов в области Natural Language Processing (NLP) и Computer Vision (CV).

image
Первокурсники ФПМИ на фоне самого популярного корпуса МФТИ для совместных фотографий.
Читать полностью »

Бизнес-процессы на прокачку: как Process Intelligence помогает компаниям определить, что, где и когда автоматизировать - 1

Как вы, возможно, слышали, в прошлом году ABBYY приобрела компанию TimelinePI – разработчика платформ Process Intelligence. Теперь, помимо интеллектуальной обработки информации, продукты ABBYY помогают компаниям решать новый класс задач – анализировать бизнес-процессы, понимать, как они устроены изнутри и как их изменить в лучшую сторону.

Для нас это логичный шаг. В недрах крупных компаний непрерывно генерируются и обрабатываются огромные объемы данных. Наши решения для корпоративных заказчиков помогают приводить в структурированный вид разнообразные сведения из бухгалтерских, кадровых, логистических и других документов и удобнее работать с ними. А почему бы не только упорядочивать информацию, но и делать на ее основе полезные выводы для бизнеса? Например, понимать, как устроены процессы, выявлять в них неочевидные закономерности, анализировать те метрики, которые раньше не учитывали, да еще и предсказывать, что будет, если автоматизировать процессы с помощью той или иной технологии?

Сегодня мы расскажем, что такое платформа для интеллектуального анализа бизнес-процессов ABBYY Timeline, для чего она нужна, и приведем примеры, как это решение работает и где оно полезно.
Читать полностью »

image

Привет. Хорошие новости: мы успешно завершили краудсорсинговый проект «Открой историю Большого» по оцифровке программ, афиш и фотографий, которые хранятся в музее Большого театра. Итогами делимся на сайте openbolshoi.ru, а в этом посте рассказываем, как технически был организован проект.

О том, почему мы начали заниматься этим проектом и что сделали на первом этапе, можно почитать здесь. А что же было дальше? После первой части проекта мы благодаря ABBYY FineReader PDF и с помощью волонтеров подготовили файлы программ и афиш в формате PDF с вычитанным текстовым слоем и передали их музею Большого театра. Теперь все данные хранятся в электронном виде, и сотрудники используют их, чтобы искать и копировать нужную информацию. Это быстрее и удобнее, чем перебирать документы в шкафах и перепечатывать текст из оригиналов.

Но как узнать больше о представлениях, а также о людях, чьи судьбы тесно связаны с историей театра? Как собрать статистику:

Помогли технологии Natural Language Processing (NLP), разработанные в ABBYY. Сегодня мы расскажем, как на втором этапе проекта алгоритмы извлекли из программ и афиш необходимые сведения, заполнили поля базы данных, а затем 7500 волонтеров проверили и дополнили информацию. А в конце поста читайте, как сейчас создается электронный архив музея с удобным поиском по всем представлениям и персонам.
Читать полностью »

Как писать код, когда вокруг тебя бегают дети и спрашивают: «А во что ты будешь работать?» - 1«Предвкушаю семейный дурдом», — ответила моя коллега за несколько дней до того, как начались трудовые будни на самоизоляции. До этого было легко спрятаться от семейства в офисе, где к тому же есть детская комната. Туда сотрудники приводили своих детей, и с ними занимался воспитатель. Но теперь все изменилось, и многим приходится выкручиваться самим, чтобы обрести, назовём это, work-children balance. А это вообще возможно? Мы попросили наших разработчиков и тимлидов поделиться опытом, как одновременно работать из дома, воспитывать маленьких детей и не сойти с ума выжить в этот месяц самоизоляции.
Читать полностью »

Про кафедру ABBYY в МФТИ. Мой личный опыт - 1Привет! Меня зовут Алексей, в этом году я заканчиваю учебу на бакалавриате ABBYY на Физтехе. А еще пишу диплом, работаю и все это делаю на удаленке. В этом посте я опишу свой опыт поступления на бакалавриат ABBYY: это было пару лет назад, в 2018 году, когда мир был более безопасным (на самом деле нет) и люди могли чаще трогать лицо руками.

Я расскажу о том, как я выбирал базовую кафедру и не сошел с ума, легко ли мне было поступить, поделюсь с вами впечатлениями от процесса обучения и стажировки и признаюсь, каково совмещать учебу с работой. Надеюсь, мой пост пригодится студентам, которые размышляют, на какую базовую кафедру в МФТИ поступать и на что при этом обратить внимание. Ведь выбор кафедры очень важен, от него зависит сфера развития на ближайшие несколько лет.
Читать полностью »

Помните историю с утечкой паспортных данных у 500 млн клиентов сети отелей Marriott? Данные могли оказаться у злоумышленников, и гостиничная группа даже обещала оплатить пострадавшим постояльцам расходы на смену паспортов. Подобных случаев происходит немало. Понятно, почему: на сегодняшний день более 50% компаний хранит больше половины своих документов в виде сканов, скриншотов, PDF. Еще три года назад таких документов в организациях было не более трети. По данным нового исследования «СёрчИнформ», 51% компаний отметили, что количество документов в формате изображений увеличилось.

В последнее время чаще всего утечкам в виде изображений подвергаются юридически значимые документы, например, договоры. На втором месте в «группе риска» — финансовые документы: бухгалтерские балансы, отчеты о прибылях и убытках и так далее. Потеря таких данных не только грозит репутационными рисками для компании, но и может привести к срыву сделок. Чтобы уберечь важные данные от посторонних и злоумышленников, в информационные системы компаний устанавливают DLP – системы предотвращения утечек информации.

Мы уже рассказывали на Хабре о том, как работает «СёрчИнформ Контур информационной безопасности» (КИБ) и модуль OCR на базе технологического продукта ABBYY FineReader Engine. Теперь вместе с сотрудниками отдела внедрения продуктов «СёрчИнформ» мы собрали четыре истории об утечках разных видов данных через корпоративные и личные почтовые ящики. И разобрались в том, как их выявить с помощью DLP-системы с модулем OCR.

Как DLP-система и модуль OCR помешали сотрудникам подделывать сканы паспортов - 1

Как DLP-система и модуль OCR помешали сотрудникам подделывать сканы паспортов - 2

В одной туристической компании сотрудник пересылал на личную почту файлы в графическом формате. Читать полностью »

Как NLP-технологии ABBYY научились мониторить новости и управлять рисками - 1Круг задач, которые можно решить с помощью технологий ABBYY, пополнился еще одной интересной возможностью. Мы обучили свой движок работе банковского андеррайтера – человека, который из гигантского потока новостей вылавливает события о контрагентах и оценивает риски.

Сейчас такие системы на базе технологий ABBYY используют уже несколько крупных российских банков. Мы хотим рассказать о нюансах внедрения этого решения – довольно нетривиальных и неожиданных вызовах, с которыми столкнулись наши онтоинженеры.
Читать полностью »

Как сделать из нейросети журналиста, или «Секреты сокращения текста на Хабре без лишних слов» - 1Только не удивляйтесь, но второй заголовок к этому посту сгенерировала нейросеть, а точнее алгоритм саммаризации. А что такое саммаризация?

Это одна из ключевых и классических задач Natural Language Processing (NLP). Она заключается в создании алгоритма, который принимает на вход текст и на выходе выдаёт его сокращённую версию. Причем в ней сохраняется корректная структура (соответствующая нормам языка) и правильно передается основная мысль текста.

Такие алгоритмы широко используются в индустрии. Например, они полезны для поисковых движков: с помощью сокращения текста можно легко понять, коррелирует ли основная мысль сайта или документа с поисковым запросом. Их применяют для поиска релевантной информации в большом потоке медиаданных и для отсеивания информационного мусора. Сокращение текста помогает в финансовых исследованиях, при анализе юридических договоров, аннотировании научных работ и многом другом. Кстати, алгоритм саммаризации сгенерировал и все подзаголовки для этого поста.

К моему удивлению, на Хабре оказалось совсем немного статей о саммаризации, поэтому я решил поделиться своими исследованиями и результатами в этом направлении. В этом году я участвовал в соревновательной дорожке на конференции «Диалог» и ставил эксперименты над генераторами заголовков для новостных заметок и для стихов с помощью нейронных сетей. В этом посте я вначале вкратце пробегусь по теоретической части саммаризации, а затем приведу примеры с генерацией заголовков, расскажу, какие трудности возникают у моделей при сокращении текста и как можно эти модели улучшить, чтобы добиться выдачи более качественных заголовков.
Читать полностью »

Здравствуй! Меня зовут Никита, я работаю над мобильными SDK в компании ABBYY и в том числе занимаюсь UI-компонентом для сканирования и удобного просмотра многостраничных документов на смартфоне. Этот компонент сокращает время на разработку приложений на базе технологии ABBYY Mobile Capture и состоит из нескольких частей. Во-первых, камера для сканирования документов; во-вторых, экран редактора с результатами захвата (то есть автоматически сделанными фотографиями) и экран исправления границ документа.

Разработчику достаточно вызвать пару методов – и вот в его приложении уже доступна камера, которая автоматически сканирует документы. Но, помимо настроенных камер, нужно предоставить клиентам удобный доступ к результатам сканирования, т.е. автоматически сделанным фотографиям. А если клиент сканирует договор или устав, то таких фотографий может быть очень много.

В этом посте я расскажу о трудностях, которые возникли в процессе реализации экрана редактора с результатами захвата документов. Сам экран представляет из себя две UICollectionView, я их буду называть большой и маленькой. Возможности ручной корректировки границ документа и другой работы с документом я опущу, а фокус сделаю на анимациях и особенностях layout-а во время скролла. Ниже на GIF можно посмотреть, что получилось в итоге. Ссылка на репозиторий будет в конце статьи.

Понимаем UICollectionViewLayout на примере Photos App - 1

В качестве референсов я часто обращаю внимание на системные приложения Apple. Когда внимательно смотришь на анимации и другие интерфейсные решения их приложений, то начинаешь восхищаться их внимательным отношением к разного рода мелочам. Сейчас мы в качестве референса будем смотреть на приложение Photos (iOS 12). Я обращу ваше внимание на конкретные фичи этого приложения, а дальше мы попробуем их реализовать.
Читать полностью »

Проблема автоматического поиска текста на изображениях существует достаточно давно, как минимум с начала девяностых годов прошлого века. Они могли запомниться старожилам повсеместным распространением ABBYY FineReader, умеющим переводить сканы документов в их редактируемые варианты.

Сканеры, подключённые к персональным компьютерам, отлично работают в компаниях, но прогресс не стоит на месте, и мир захватили мобильные устройства. Круг задач работы с текстом тоже поменялся. Теперь текст нужно искать не на идеально прямых листах А4 с чёрным текстом на белом фоне, а на различных визитках, красочных меню, вывесках магазинов и много ещё на чём, что человек может встретить в джунглях современного города.

Находим текст на вывесках и упаковках с помощью смартфона - 1
Реальный пример работы нашей нейросети. Картинка кликабельна.

Основные требования и ограничения

При таком разнообразии условий представления текста рукописные алгоритмы уже не справляются. Здесь на помощь нам приходят нейронные сети с их способностью обобщения. В этом посте мы расскажем о нашем подходе к созданию архитектуры нейросети, которая с хорошим качеством и высокой скоростью детектирует текст на сложных изображениях.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js