Рубрика «natural language processing» - 9

Как Яндекс научил искусственный интеллект находить ошибки в новостях

2019-12-12 в 7:43, admin, рубрики: BERT, natural language processing, Блог компании Яндекс, заголовки новостей, искусственный интеллект, команда яндекс.новостей, машинное обучение, нейронные сети, нейросети, поисковые технологии

Мы часто рассказываем о технологиях и библиотеках, которые зародились и сформировались в Яндексе. На самом деле мы ничуть не реже применяем и развиваем сторонние решения.

Сегодня я расскажу сообществу Хабра об одном из таких примеров. Вы узнаете, зачем мы научили нейросеть BERT находить опечатки в заголовках новостей, а не воспользовались готовой моделью, почему нельзя взять и запустить BERT на нескольких видеокартах и как мы использовали ключевую особенность этой технологии — механизм attention.

Как Яндекс научил искусственный интеллект находить ошибки в новостях - 1

Читать полностью »

Индексируем миллиарды текстовых векторов

2019-12-11 в 15:14, admin, рубрики: natural language processing, Алгоритмы, Анализ и проектирование систем, Блог компании Mail.Ru Group, графы, никто не читает теги, поисковые системы, поисковые технологии

При извлечении информации часто возникает задача поиска подобных фрагментов текста. В контексте поиска запрос может быть сгенерирован пользователем (например, текст, который пользователь вводит в поисковом движке) или самой системой. Часто нам нужно сопоставлять входящий запрос с уже проиндексированными запросами. В этой статье мы рассмотрим, как можно построить систему, решающую эту задачу применительно к миллиардам запросов без траты целого состояния на серверную инфраструктуру.
Читать полностью »

Как сделать из нейросети журналиста, или «Секреты сокращения текста на Хабре без лишних слов»

2019-12-11 в 12:53, admin, рубрики: ABBYY, diy или сделай сам, natural language processing, pgen, RNN, seq2seq, Блог компании ABBYY, генерация заголовков, искусственный интеллект, машинное обучение, нейросеть, Новости, саммаризация, токены

Как сделать из нейросети журналиста, или «Секреты сокращения текста на Хабре без лишних слов» - 1 Только не удивляйтесь, но второй заголовок к этому посту сгенерировала нейросеть, а точнее алгоритм саммаризации. А что такое саммаризация?

Это одна из ключевых и классических задач Natural Language Processing (NLP). Она заключается в создании алгоритма, который принимает на вход текст и на выходе выдаёт его сокращённую версию. Причем в ней сохраняется корректная структура (соответствующая нормам языка) и правильно передается основная мысль текста.

Такие алгоритмы широко используются в индустрии. Например, они полезны для поисковых движков: с помощью сокращения текста можно легко понять, коррелирует ли основная мысль сайта или документа с поисковым запросом. Их применяют для поиска релевантной информации в большом потоке медиаданных и для отсеивания информационного мусора. Сокращение текста помогает в финансовых исследованиях, при анализе юридических договоров, аннотировании научных работ и многом другом. Кстати, алгоритм саммаризации сгенерировал и все подзаголовки для этого поста.

К моему удивлению, на Хабре оказалось совсем немного статей о саммаризации, поэтому я решил поделиться своими исследованиями и результатами в этом направлении. В этом году я участвовал в соревновательной дорожке на конференции «Диалог» и ставил эксперименты над генераторами заголовков для новостных заметок и для стихов с помощью нейронных сетей. В этом посте я вначале вкратце пробегусь по теоретической части саммаризации, а затем приведу примеры с генерацией заголовков, расскажу, какие трудности возникают у моделей при сокращении текста и как можно эти модели улучшить, чтобы добиться выдачи более качественных заголовков.
Читать полностью »

Расстояние Левенштейна и поиск контролёров

2019-12-03 в 8:15, admin, рубрики: data mining, natural language processing, python, боты для социальных сетей, Вконтакте API, машинное обучение, общественный транспорт, паблик вконтакте, расстояние Левенштейна, социальные сети

Наверное, в каждом городе Беларуси, где есть троллейбусы, существуют группы ВК или чаты в Telegram, в которых люди отслеживают местоположение контролёров. В основном это делается для того, чтобы не оплатить проезд и проехать бесплатно, хотя в описании групп почти всегда есть постскриптум “Платите за проезд”.
Читать полностью »

Julia NLP. Обрабатываем тексты

2019-11-15 в 8:45, admin, рубрики: BERT, embeddings, flux, Julia, natural language processing, nlp (natural language processing), term-document, модели анализа текстов, Программирование

Julia NLP. Обрабатываем тексты - 1

Анализ и обработка текстов на естественном языке является постоянно актуальной задачей, которая решалась, решается и будет решаться всеми доступными способами. На сегодня хотелось бы поговорить о средствах решения для решения этой задачи, именно, на языке Julia. Безусловно, в виду молодости языка, здесь нет столь развитых средств анализа, как, например Stanford CoreNLP, Apache OpenNLP, GATE и пр., как, например, для языка Java. Однако, даже уже разработанные библиотеки, вполне могут использоваться как для решения типовых задач, так и быть рекомендованными в качестве точки входа для студентов, которым интересна область обработки текстов. А синтаксическая простота Julia и её развитые математические средства, позволяют с лёгкостью погрузиться в задачи кластеризации и классификации текстов.

Читать полностью »

Machine Learning for your flat hunt. Part 3: The final push

2019-11-09 в 10:16, admin, рубрики: data mining, natural language processing, prediction, python, real estate market, yekaterinburg, машинное обучение, Программирование

Photo by Dugan Arnett on Boston GlobeAre
Photo by Dugan Arnett on Boston Globe

Are you still looking for a new flat? Ready to make the last attempt? If so - follow me and I show you how to reach the finish line.

Читать полностью »

Конференция Conversations: 8 часов теории и практики разговорного AI

2019-11-02 в 10:32, admin, рубрики: AI, google assistant, natural language processing, nlp, nlu, voice recognition, автоматизация бизнеса, алиса, Блог компании Just AI, боты, голосовой ассистент, искусственный интеллект, контакт-центр, конференции, конференция для разработчиков, разговорный ИИ, разговорный интерфейс, разработка игр, умные колонки, умный дом, чатботы, яндекс

26 ноября в Москве пройдет Conversations – конференция по разговорному искусственному интеллекту для разработчиков и бизнеса. Про инструменты, кейсы, фейлы, модели монетизации, перспективы и ограничения рынка будут говорить МТС, МегаФон, Билайн, Tikkurila, Банк Открытие, Яндекс.Облако, Speech Analytics, Cardif, iPavlov, «ДоДо пицца», МФТИ и другие интересные компании (например, международное аналитическое агентство Canalys!).

В общем, если вы неравнодушны к речевой аналитике и NLU, разрабатываете скиллы для голосовых ассистентов или чатботов, изучаете диалоговые платформы, хотите прокачать себя в voice UX/UI (или просто интересуетесь индустрией conversational AI), добро пожаловать под кат! Там подробнее про хедлайнеров и промокод на покупку билета.

Читать полностью »

Sberbank AI Journey. Как мы учили нейросеть сдавать экзамен

2019-10-16 в 11:52, admin, рубрики: AGI, artificial intelligence, natural language processing, python, Блог компании Сбербанк, искусственный интеллект, машинное обучение

Если вы закончили школу уже во времена ЕГЭ, то вам известно, что все задания в нём имеют набор стандартных формулировок и упорядочены по типам. С одной стороны, это облегчает подготовку к экзамену: школьник уже знает, что нужно делать в задании, даже не читая его условия. С другой, любое изменение порядка вопросов может вызвать у него проблемы. Грубо говоря, на результат начинает больше влиять то, насколько человек довёл решения до автоматизма, а не то, как он рассуждает. Экзамен становится похож на работу скрипта.

В рамках конференции AI Journey мы решили провести конкурс на разработку алгоритма, который сможет сдать экзамен не хуже человека. Участникам предоставляются тестовые варианты заданий, которые можно использовать для валидации решений и для обучения. Мы как сотрудники Сбера не можем претендовать на призовой фонд, но тем не менее попробовали решить эту задачу и хотим рассказать о том, как мы это сделали. Спойлер — аттестат мы получили.

Читать полностью »

Распознаём дату и время в естественной речи

2019-10-16 в 9:02, admin, рубрики: .net, C#, natural language processing, Алгоритмы, алиса, голосовой помощник, голосовые интерфейсы, дата и время, обработка естественного языка, яндекс

Распознаём дату и время в естественной речи - 1

Задача

Привет! Увлёкся я навыками для Алисы и стал думать, какую пользу они бы могли принести. На площадке много разных прикольных игр (в том числе мои), но вот захотелось сделать рабочий инструмент, который действительно нужен в голосовом исполнении, а не просто копирует существующего чат-бота с кнопками.

Голос актуален тогда, когда либо руки заняты, либо нужно выполнять много последовательных операций, особенно на экране телефона. Так возникла идея навыка, который по одной команде выделяет из текста указание на дату и время и добавляет событие с этим текстом в Google Calendar. Например, если пользователь скажет Послезавтра в 11 вечера будет красивый закат, то в календарь на послезавтра в 23:00 уходит строка Будет красивый закат.

Под катом описание алгоритма работы библиотеки Hors: распознавателя даты и времени в естественной русской речи. Хорс — это славянский бог солнца.

Github | NuGet

Читать полностью »

Почему Kaldi хорош для распознавания речи?

2019-10-08 в 16:06, admin, рубрики: kaldi, natural language processing, изучение языков, Компьютерная лингвистика, машинное обучение, нейросети, распознавание речи

Почему мне (и, надеюсь, вам) интересно распознавание речи? Во-первых, это направление является одним из самых популярных по сравнению с другими задачами компьютерной лингвистики, поскольку технология распознавания речи сейчас используется почти повсеместно – от распознавания простого «да/нет» в автоматическом колл-центре банка до способности поддерживать «светскую беседу» в «умной колонке» типа «Алисы». Во-вторых, чтобы система распознавания речи была качественным, необходимо найти самые эффективные средства для создания и настройки такой системы (одному из подобных средств и посвящена эта статья). Наконец, несомненным «плюсом» выбора специализации в области распознавания речи лично для меня является то, что для исследований в этой области необходимо владеть как программистскими, так и лингвистическими навыками. Это весьма стимулирует, заставляя приобретать знания в разных дисциплинах.
Читать полностью »

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «natural language processing» - 9

Как Яндекс научил искусственный интеллект находить ошибки в новостях

Индексируем миллиарды текстовых векторов

Как сделать из нейросети журналиста, или «Секреты сокращения текста на Хабре без лишних слов»

Расстояние Левенштейна и поиск контролёров

Julia NLP. Обрабатываем тексты

Machine Learning for your flat hunt. Part 3: The final push

Конференция Conversations: 8 часов теории и практики разговорного AI

Sberbank AI Journey. Как мы учили нейросеть сдавать экзамен

Распознаём дату и время в естественной речи

Задача

Почему Kaldi хорош для распознавания речи?

Архив

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «natural language processing» - 9

Задача

Новости

Актуальные темы

Архив