Привет! Меня зовут Станислав Семенов, я работаю над технологиями извлечения данных из документов в R&D ABBYY. В этой статье я расскажу об основных подходах к обработке полуструктурированных документов (инвойсы, кассовые чеки и т.д.), которые мы использовали совсем недавно и которые используем прямо сейчас. А еще мы поговорим о том, насколько для решения этой задачи применимы методы машинного обучения.
Читать полностью »
Рубрика «нейронные сети» - 20
Как научить машину понимать инвойсы и извлекать из них данные
2019-02-19 в 12:44, admin, рубрики: ABBYY, data augmentation, LSTM, machine learning, ner, ocr, Блог компании ABBYY, высокая производительность, документы, извлечение данных, инвойсы, искусственный интеллект, машинное обучение, нейронные сети, технологииКлассификация рукописных рисунков. Доклад в Яндексе
2019-02-18 в 7:00, admin, рубрики: Google, Блог компании Яндекс, классификатор, классификация изображений, Компьютерное зрение, конкурсы разработчиков, машинное обучение, нейронные сети, распознавание образов, рукописный, Спортивное программированиеНесколько месяцев назад наши коллеги из Google провели на Kaggle конкурс по созданию классификатора изображений, полученных в нашумевшей игре «Quick, Draw!». Команда, в которой участвовал разработчик Яндекса Роман Власов, заняла в конкурсе четвертое место. На январской тренировке по машинному обучению Роман поделился идеями своей команды, финальной реализацией классификатора и интересными практиками соперников.
— Всем привет! Меня зовут Рома Власов, сегодня я вам расскажу про Quick, Draw! Doodle Recognition Challenge.
Читать полностью »
GPT-2 нейросеть от OpenAI. Быстрый старт
2019-02-16 в 21:04, admin, рубрики: gpt, GPT-2, nlp, OpenAI, искусственный интеллект, машинное обучение, нейронные сети, обработка естественного языка
Не успели отшуметь новости о нейросети BERT от Google, показавшей state-of-the-art результаты на целом ряде разговорных (NLP) задач в машинном обучении, как OpenAI выкатили новую разработку: GPT-2. Это нейронная сеть с рекордным на данный момент числом параметров (1.5 млрд, против обычно используемых в таких случаях 100-300 млн) оказалась способна генерировать целые страницы связного текста.
Генерировать настолько хорошо, что в OpenAI отказались выкладывать полную версию, опасаясь что эту нейросеть будут использовать для создания фейковых новостей, комментариев и отзывов, неотличимых от настоящих.
Тем не менее, в OpenAI выложили в общий доступ уменьшенную версию нейросети GPT-2, со 117 млн параметров. Именно ее мы запустим через сервис Google Colab и поэкспериментруем с ней.
Как превратить спутниковые снимки в карты. Компьютерное зрение в Яндексе
2019-02-14 в 7:19, admin, рубрики: computer vision, Алгоритмы, Блог компании Яндекс, искусственный интеллект, Компьютерное зрение, машинное обучение, нейронные сети, обработка изображений, яндекс, яндекс.картыОдин из главных источников данных для сервиса Яндекс.Карты — спутниковые снимки. Чтобы с картой было удобно работать, на снимках многоугольниками размечаются объекты: леса, водоёмы, улицы, дома и т. п. Обычно разметкой занимаются специалисты-картографы. Мы решили помочь им и научить компьютер добавлять многоугольники домов без участия людей.
За операции с изображениями отвечает область ИТ, которая называется компьютерным зрением. Последние несколько лет большую часть задач из этой области очень удачно решают, применяя нейронные сети. О нашем опыте применения нейронных сетей в картографировании мы и расскажем сегодня читателям Хабра.

Как я помогал Алисе не откликаться на другие имена. Стажировка в Яндексе
2019-02-04 в 10:00, admin, рубрики: алиса, Блог компании Яндекс, голосовые помощники, декодер, диалоговые системы, искусственный интеллект, Карьера в IT-индустрии, нейронные сети, Промышленное программирование, разработка мобильных приложений, распознавание речи, речевые технологии, споттинг, стажировка, стажировка в it, стажировка в яндексеПривет. Меня зовут Алексей Рак, я разработчик голосового помощника Алиса в минском офисе Яндекса. Эту позицию я получил, пройдя здесь, в этой же команде, трехмесячную стажировку в прошлом году. О ней я и собираюсь вам рассказать. Если хотите сами попробовать — вот ссылка на стажировку 2019 года.

Как мы создали рекомендательный сервис по подбору одежды на нейронных сетях
2019-02-02 в 10:35, admin, рубрики: deeplearning, детектирование, классификация, машинное обучение, нейронные сети, обработка изображений, рекомендательные системы
В этой статье я хочу рассказать о том, как мы создали систему поиска похожей одежды (точнее одежды, обуви и сумок) по фотографии. То есть, выражаясь бизнес-терминами, рекомендательный сервис на основе нейронных сетей.
Как и большинство современных IT-решений, можно сравнить разработку нашей системы со сборкой конструктора Lego, когда мы берем много маленьких деталек, инструкцию и создаем из этого готовую модель. Вот такую инструкцию: какие детали взять и как их применить для того, чтобы ваша GPU смогла подбирать похожие товары по фотографии, — вы и найдете в этой статье.
Из каких деталей построена наша система:
- детектор и классификатор одежды, обуви и сумок на изображениях;
- краулер, индексатор или модуль работы с электронными каталогами магазинов;
- модуль поиска похожих изображений;
- JSON-API для удобного взаимодействия с любым устройством и сервисом;
- веб-интерфейс или мобильное приложение для просмотра результатов.
В конце статьи будут описаны все “грабли”, на которые мы наступили во время разработки и рекомендации, как их нейтрализовать.
Постановка задачи и создание рубрикатора
Задача и основной use-case системы звучит довольно просто и понятно:
- пользователь подает на вход (например, посредством мобильного приложения) фотографию, на которой присутствуют предметы одежды и/или сумки и/или обувь;
- система определяет (детектирует) все эти предметы;
- находит к каждому из них максимально похожие (релевантные) товары в реальных интернет-магазинах;
- выдает пользователю товары с возможностью перейти на конкретную страницу товара для покупки.
Говоря проще, цель нашей системы — ответить на знаменитый вопрос: “А у вас нет такого же, только с перламутровыми пуговицами?”
Читать полностью »
Сервис перевода патентов WIPO Translate – мои опыты
2019-01-27 в 21:02, admin, рубрики: автоматический перевод, нейронные сети, патентование, патенты, переводы, Читальный залCервис интерактивного перевода WIPO Translate (World Intellectual Property Organization, Всемирная организация интеллектуальной собственности)
весьма актуален, ибо ежегодно регистрируются миллионы патентов. При наличии множества международных заявок и патентов, представленных, в том числе, на английском, имеются документы, существующие только на японском, корейском, китайском языках.
Сообщение об обновлении версии появилось в сентябре 2017 г.
www.wipo.int/pressroom/ru/articles/2017/article_0007.html
Сервис предназначен для онлайн-перевода патентов, содержащихся в базе, которая непрерывно обновляется и содержит десятки миллионов файлов с текстами патентов. Работает с 18-тью языковыми парами: (Arabic, German, Spanish, French, Korean, Japanese, Portuguese, Russian, Chinese — into English and vice-versa). Форсируется применение нейронной версии машинного перевода, предыдущий вариант статистического машинного перевода (основанного на базах параллельных текстов) используется во все меньшей степени.
Настраивается пользователем на перевод патентной информации:
— выбирается пара из множества языков
— предметная область (с загруженным в нее корпусом параллельных текстов из патентов).
www3.wipo.int/patentscope/translate/translate.jsf
Примеры полностью автоматического перевода (без интерактивного взаимодействия и постредактирования):Читать полностью »
NLP. Основы. Техники. Саморазвитие. Часть 1
2019-01-23 в 13:05, admin, рубрики: ABBYY, machine learning, natural language processing, ner, nlp (natural language processing), RNN, Блог компании ABBYY, машинное обучение, нейронные сети, нейросети, саммаризацияПривет! Меня зовут Иван Смуров, и я возглавляю группу исследований в области NLP в компании ABBYY. О том, чем занимается наша группа, можно почитать здесь. Недавно я читал лекцию про Natural Language Processing (NLP) в Школе глубокого обучения – это кружок при Физтех-школе прикладной математики и информатики МФТИ для старшеклассников, интересующихся программированием и математикой. Возможно, тезисы моей лекции кому-то пригодятся, поэтому поделюсь ими с Хабром.
Поскольку за один раз все объять не получится, разделим статью на две части. Сегодня я расскажу о том, как нейросети (или глубокое обучение) используются в NLP. Во второй части статьи мы сконцентрируемся на одной из самых распространенных задач NLP — задаче извлечения именованных сущностей (Named-entity recognition, NER) и разберем подробно архитектуры ее решений.

Что не так с обучением с подкреплением (Reinforcement Learning)?
2019-01-21 в 23:25, admin, рубрики: reinforcement learning, искусственный интеллект, машинное обучение, нейронные сети, обучение с подкреплением
Еще в начале 2018 года вышла статья Deep Reinforcement Learning Doesn't Work Yet ("Обучение с подкреплением пока не работает"). Основная претензия которой сводилась к тому, что современные алгоритмы обучения с подкреплением требуют для решения задачи примерно столько же времени, как и обычный случайный поиск.
Изменилось ли что-то с того времени? Нет.
Обучение с подкреплением считается одним из трех основных путей к созданию сильного ИИ. Но трудности, с которыми сталкивается эта область машинного обучения, и методы, которыми ученые пытаются бороться с этими трудностями, наводят на мысль что, возможно, с самим этим подходом имеются фундаментальные проблемы.
Распознавание рентгеновских снимков: precision = 0.84, recall = 0.96. А нужны ли нам еще врачи?
2019-01-21 в 13:43, admin, рубрики: big data, data mining, kaggle, sna, Алгоритмы, алгоритмы обработки данных, анализ данных, анализ социальных сетей, Блог компании Школа Данных, искусственный интеллект, математика, машинное обучение, нейронные сети, нейросети, рекомендательные системы, Чат-боты, школа данных
В последнее время все чаще обсуждается применение AI в медицине. И, конечно, область медицины, которая прямо напрашивается для такого применения это областей диагностики.
Кажется, и раньше можно было применять экспертные системы и алгоритмы классификации к задачам постановки диагноза. Однако, есть одна область AI, которая добилась наибольших успехов в последние годы, а именно область распознавания изображений и сверточные нейронные сети. На некоторых тестах алгоритмы AI в распознавании картинок превзошли человека. Вот два примера: Large Scale Visual Recognition Challenge и German Traffic Sign Recognition Benchmark.
Соответственно, возникла идея применить AI к области распознавания изображений там, где и врачи занимаются распознаванием изображений, а именно к анализу снимков и, для начала, рентгеновских снимков.Читать полностью »
