Рубрика «Блог компании ABBYY» - 10

Машинный перевод для профиВ конце мая в Москве мы (ABBYY Language Services) собирали представителей индустрии перевода и локализации на круглый стол TAUS, чтобы всем вместе поговорить об автоматизации перевода: что это такое, какая от этого польза, что с этим делать и кому это нужно. Разговор получился продуктивным, чем мы очень довольны. Теперь мы расскажем вам об одном из докладов, который стал лучшим по итогам круглого стола и позволил его автору получить специальную награду TAUS Excellence Award.

Небольшая справка про TAUS

TAUS — авторитетная международная организация, которая с 2004 года занимается вопросами автоматизации перевода. Среди её членов не только мы, но и Google, eBay, Cisco, Intel, Adobe, Siemens и многие другие корпорации. Основатель организации — Яп ван дер Меер (на фото), практически живая легенда индустрии. Узнать больше о TAUS можно в нашем корпоративном блоге или на сайте организации.

Доклад, на котором мы остановимся, был посвящен теме машинного перевода (MT). Вообще, о машинном переводе говорили многие участники. Например, что его популярность не снижается, и многие обычные пользователи и компании начали активнее использовать его в своей работе – только через Яндекс.Перевод ежедневно проходит около 100 Гб информации.
Читать полностью »

Систему распознавания текста в FineReader можно описать очень просто.

У нас есть страница с текстом, мы разбираем ее на текстовые блоки, затем блоки разбираем на отдельные строчки, строчки на слова, слова на буквы, буквы распознаем, дальше по цепочке собираем все обратно в текст страницы.

Распознавание текста в ABBYY FineReader

Выглядит очень просто, но дьявол, как обычно, кроется в деталях.

Про уровень от документа до строки текста поговорим как-нибудь в следующий раз. Это большая система, в которой есть много своих сложностей. В качестве некоторого введения, пожалуй, можно оставить здесь вот такую иллюстрацию к алгоритму выделения строк.

Распознавание текста в ABBYY FineReader

В этой статье мы начнём рассказ про распознавание текста от уровня строки и ниже.Читать полностью »

Такие часы плохо подходят для атаки по времениВ библиотеке OpenSSL есть довольно любопытная функция с многообещающим именем CRYPTO_memcmp(). Комментарии к ней объясняют, что обычная memcmp() обладает фатальным недостатком™ – время ее работы зависит не только от размера сравниваемых блоков, но и от их содержимого, а это может помочь атакующему осуществить так называемую атаку по времени.

Аналогичные функции есть в ряде других проектов — поиск по запросу constant time memcmp дает несколько тысяч результатов.

Не будем подвергать сомнению необходимость использования функции CRYPTO_memcmp(), а вместо этого рассмотрим, решает ли она поставленную ей задачу.
Читать полностью »

Участники Кубка Lingvo 2014 помогут с переводом CourseraСпешим сообщить, что сейчас проходит шестой онлайн-чемпионат по переводу — «Кубок Lingvo 2014». Как и раньше, в соревновании могут принять участие школьники старше 16 лет, студенты всех учебных заведений и форм обучения, а также аспиранты, получившие диплом об окончании вуза не ранее 2012 года. Участники поборются за звание лучшего переводчика, а также за призы и подарки, среди которых поездка в страну изучаемого языка.

В этом году задания Кубка составлены на основе лекций Coursera, а лучшие переводы наших участников станут доступны всем слушателям этого образовательного онлайн-проекта.
Читать полностью »

Новая версия ABBYY FineReader for Mac: не уходя в дебри сложных фичНедавно вышел новый FineReader for Mac – и пора про него написать пару слов. Признаюсь, я был первым человеком в компании, который решил полностью перейти на Mac в своей работе еще в далеком уже сейчас 2006 году. ABBYY до того делала в основном продукты только для Windows, и лишь немного для остальных платформ. Я тогда регулярно ходил в департамент FineReader и ныл, что у нас нет нормального FineReader для Mac (была только устаревшая версия для PowerPC), но потом прекратил нытье, и сел программировать. С тех пор утекло много воды, но мое усилие не прошло даром, и запустило процесс создания обновленных версий FineReader for Mac. Именно поэтому я к этому продукту очень неровно дышу.

К счастью, вышедший сейчас FineReader for Mac практически не имеет отношения к тому, что я тогда напрограммировал. Он стильный, быстрый и удобный. Он намного функциональнее FineReader Express for Mac, который был до сих пор. Я не буду делать подробный обзор продукта, потому что хорошие программы не выигрывают от расчленения на куски, как это принято делать в жанре традиционного обзора. Я лишь напишу, чем, с моей точки зрения, этот продукт отличается от его тезки для Windows.Читать полностью »

Итак, вы пытаетесь оценить надежность своего облачного сервисаSLA (Service Level Agreement) – часто встречающаяся у поставщиков сервиса форма гарантии надежности сервиса. Обычно SLA предлагается в виде оферты – и либо вы довольны и пользуетесь сервисом, либо ищете другой сервис. Типичная формулировка – «industry leading 99,95% monthly uptime SLA», который вроде бы должен устроить большинство пользователей.

Обычно потенциальный пользователь, прочитав про «99,95% monthly uptime SLA», бывает очень даже доволен – гарантия отсутствия простоев в течение более чем 21 минуты в месяц длиной 30 дней звучит довольно многообещающе.

Все относительно просто, пока вы только потребляете услугу облачного сервиса для собственных нужд. Посмотрели на 99,95%, подумали о не более чем 21 минуте в месяц – впечатлились и довольны. Что если вы сами создаете сервис на основе другого сервиса и решаете, какой SLA вы могли бы предложить?
Читать полностью »

Слова бумажники вокруг насС подачи коллег из Lingvo генерим очередной пост с тегом "уроки английского".

– Понимаешь, это слово как бумажник. Раскроешь, а там два отделения!
Так Шалтай-Болтай объяснял Алисе лингвистический феномен словосложения на примере слов «хливкие», «зелюки» и «варкалось» из знаменитой поэмы «Бармаглот».

Но «слова-бумажники» (portmanteau word), придуманные писателем Льюисом Кэроллом, оказывается, встречаются не только в сказках. Читать полностью »

Искусственный интеллект для программистовКак случилось, что искусственный интеллект успешно развивается, а «правильного» определения для него до сих пор нет? Почему не оправдались надежды, возлагавшиеся на нейрокомпьютеры, и в чем заключаются три главные задачи, стоящие перед создателем искусственного интеллекта?

На эти и другие вопросы вы найдете ответ в статье под катом, написанной на основе выступления Константина Анисимовича, директора департамента разработки технологий ABBYY, одного из ведущих экспертов страны в сфере искусственного интеллекта.
При его личном участии были созданы технологии распознавания документов, которые применяются в продуктах ABBYY FineReader и ABBYY FormReader. Константин рассказал об истории и основах разработки AI на одном из мастер-классов для студентов Технопарка Mail.Ru. Материал мастер-класса и стал базой для цикла статей.

Всего в цикле будет три поста:
Искусственный интеллект для программистов
• Применение знаний: алгоритмы поиска пространственных состояний
• Получение знаний: проектирование интеллектуальных систем и машинное обучение
Читать полностью »

Как прочитать патент за одну минутуДопустим, кто-то подал на вас в суд за нарушение патента. Вам нужно выяснить, насколько все плохо. Или, например, ваш начальник дал вам поручение проверить, нарушает ли кто-либо патент, который вы когда-то получили. А вы совершенно ничего про это не помните, потому что в среднем на патентную экспертизу уходит около четырех лет и к тому времени, когда случится что-то интересное, вы обо всем этом благополучно забудете.

Или, например, читаете вы одну из восьмидесяти сиксилиардов историй на Slashdot, в которых используется название патента, чтобы порассуждать на тему из разряда «догадайтесь, какую простую вещь додумались запатентовать». При этом вы понимаете, что название — это еще не само изобретение, и вам любопытно, о чем же все-таки идет речь.

На полную оценку патента может уйти несколько часов или даже дней. Если времени у вас мало, вот неприлично быстрый способ выяснить, что представляет собой патент, меньше чем за одну минуту.Читать полностью »

По гамбургскому счётуНедавно мы выпустили ABBYY FlexiCapture for Invoices – решение для потокового ввода европейских и счетов в СЭД (системы электронного документооборота). Строго говоря, обрабатывать счета умеет и «большой» ABBYY FlexiCapture, на основе которого сделано новое решение. Но в нем нужно самостоятельно задавать все настройки для работы со счетами, а многие наши клиенты, как выяснилось, предпочитают уже настроенные решения. Ну, вы понимаете – достать «из коробки» программу, установить на компьютер оператору Мэри (продукт продается пока только в странах Европы), подключить к СЭД – и пусть работает.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js