Рубрика «natural language processing» - 10

Как мы учили искусственный интеллект отвечать на вопросы в поддержку. Опыт Яндекс.Такси

2020-03-24 в 10:39, admin, рубрики: natural language processing, Блог компании Яндекс, искусственный интеллект, команда яндекс.такси, машинное обучение, поддержка, разработка мобильных приложений, такси, яндекс

Идеальных сервисов не бывает — иногда у пользователя возникают вопросы к техподдержке. Трудно сказать, что в таких случаях неприятнее — попытки сложить из шаблонных реплик бота комбинацию, способную решить проблему, или ожидание ответа специалиста, который уже полдня как вот-вот с вами свяжется.

В Яндекс.Такси из двух вариантов выбрали третий — с помощью машинного интеллекта создать техподдержку с человеческим лицом. Меня зовут Татьяна Савельева, моя группа занимается машинным обучением на неструктурированных данных. Под катом — делюсь пользовательскими инсайтами, рассказываю как автоматизировать сложный процесс, организовать работу совершенно разных команд и, конечно же, применить на практике Deep learning и технические хаки (куда без них).

Как мы учили искусственный интеллект отвечать на вопросы в поддержку. Опыт Яндекс.Такси - 1
Читать полностью »

Как я заработал 1 000 000 $ без опыта и связей, а потом потратил их, чтобы сделать свой переводчик

2020-03-17 в 8:25, admin, рубрики: natural language processing, искусственный интеллект, машинное обучение, мобильные приложения, переводчики, Развитие стартапа, разработка мобильных приложений, разработка приложений, стартапы

Как все начиналось

Эта история началась 15 лет назад. Работая программистом в столице, я накапливал деньги и увольнялся, чтобы потом создавать собственные проекты. Для экономии средств уезжал домой, в небольшой родной город, где работал над сайтом для студентов, программой для торговли, играми для мобильных телефонов. Но из-за отсутствия опыта ведения бизнеса это не приносило дохода, и вскоре проекты закрывались. Приходилось снова ехать в столицу и устраиваться на работу. Эта история повторилась несколько раз.

Когда у меня в очередной раз закончились деньги, наступил кризис. Я не смог найти работу, ситуация стала критической. Пришло время посмотреть на все вещи трезвым взглядом. Нужно было честно признаться себе, что я не знаю, какие ниши выбрать для бизнеса. Создавать проекты, которые просто нравятся, — путь в никуда.
Читать полностью »

Трансформеры как графовые нейронные сети

2020-03-11 в 11:14, admin, рубрики: data mining, deep learning, graph neural networks, natural language processing, transformer, глубокое обучение, машинное обучение, обработка естественного языка

TL;DR: перевод поста Chaitanya Joshi "Transformers are Graph Neural Networks": схемы, формулы, идеи, важные ссылки. Публикуется с любезного разрешения автора.

Друзья-датасаентисты часто задают один и тот же вопрос: графовые нейронные сети (Graph Neural Networks) — прекрасная идея, но были ли у них хоть какие-то настоящие истории успеха? Есть ли у них какие-нибудь полезные на практике приложения?

Трансформеры как графовые нейронные сети - 1

Можно привести в пример и без того известные варианты — рекомендательные системы в Pinterest, Alibaba и Twitter. Но есть и более хитрая история успеха: штурмом взявшая промышленную обработку естественного языка архитектура Transformer.

В этом посте мне бы хотелось установить связи между графовыми нейронными сетями и трансформерами (Transformers). Мы поговорим об интуитивном обосновании архитектур моделей в NLP- и GNN-сообществах, покажем их связь на языке формул и уравнений и порассуждаем, как оба "мира" могут объединить усилия, чтобы продвинуть прогресс.

Читать полностью »

Нормализация текста в задачах распознавания речи

2020-03-05 в 17:50, admin, рубрики: natural language processing, nlp, open source, seq2seq, speech recognition, text normalization, звук, машинное обучение

При решении задач, связанных с распознаванием (Speech-To-Text) и генерацией (Text-To-Speech) речи важно, чтобы транскрипт соответствовал тому, что произнёс говорящий — то есть реально устной речи. Это означает, что прежде чем письменная речь станет нашим транскриптом, её нужно нормализовать.

Другими словами, текст нужно провести через несколько этапов:

Замена числа прописью: 1984 год -> тысяча девятьсот восемьдесят четвёртый год;
Расшифровка сокращений: 2 мин. ненависти -> две минуты ненависти;
Транскрипция латиницы: Orwell -> Оруэлл и т.д.

Normalization

В этой статье я коротко расскажу о том, как развивалась нормализация в датасете русской речи Open_STT, какие инструменты использовались и о нашем подходе к задаче.

Как вишенка на торте, мы решили выложить наш нормализатор на базе seq2seq в открытый доступ: ссылка на github. Он максимально прост в использовании и вызывается одним методом:

norm = Normalizer()
result = norm.norm_text('С 9 до 11 котики кушали whiskas')

>>> 'С девяти до одиннадцати котики кушали уискас'

Читать полностью »

Курс Natural Language Processing (обработка естественного языка)

2020-03-02 в 13:35, admin, рубрики: data mining, huawei, machine learning, machine translation, natural language processing, Блог компании Huawei, искусственный интеллект, курс, машинное обучение, обработка естественного языка

Всем привет!

Huawei Russian Research Institute (Huawei RRI) в рамках программы взаимодействия с ведущими российскими университетами (МФТИ, МГУ, МГТУ им. Н. Э. Баумана) представляет открытый курс “Natural Language Processing” или “Обработка естественного языка”, который пройдет на площадке московского корпуса Физтеха.

Курс Natural Language Processing (обработка естественного языка) - 1 Читать полностью »

Новостной агрегатор за две недели

2020-02-28 в 15:49, admin, рубрики: c++, natural language processing, nlp, python, telegram, word2vec, кластеризация данных, машинное обучение, новостной агрегатор

18 ноября Telegram запустил соревнование по кластеризации данных: Data Clustering Contest. Нужно было за две недели сделать свой новостной агрегатор. Ограничения, которые были установлены в этом соревновании отпугнули кучу людей, но не меня и моих коллег. Я расскажу от том, каким путём мы прошли, какие выборы сделали и с какими сложностями столкнулись. Решение, которое мы заслали в соревнование обрабатывало 1000 документов за 3,5 секунды, занимало 150 Мб, заняло 6 место на публичном голосовании и 3 место в итоговых результатах. Мы допустили много ошибок, из-за которых не заняли место повыше, большинство из них сейчас исправлены. Весь код и все модели можно найти в репозитории. Все скрипты для обучения моделек перенесены на Colab.

Топ из публичного голосования

Читать полностью »

Как сжать модель fastText в 100 раз

2020-02-24 в 6:56, admin, рубрики: compression, data mining, FastText, gensim, machine learning, natural language processing, python, word embeddings, word2vec, Алгоритмы, машинное обучение, эмбеддинги

Модель fastText — одно из самых эффективных векторных представлений слов для русского языка. Однако её прикладная польза страдает из-за внушительных (несколько гигабайт) размеров модели. В этой статье мы показываем, как можно уменьшить модель fastText с 2.7 гигабайт до 28 мегабайт, не слишком потеряв в её качестве (3-4%). Спойлер: квантизация и отбор признаков работают хорошо, а матричные разложения — не очень. Также мы публикуем пакет на Python для этого сжатия и пример компактной модели для русских слов.
Как сжать модель fastText в 100 раз - 1

Читать полностью »

Прорывы #DeepPavlov в 2019 году: обзор и итоги года

2020-02-18 в 7:04, admin, рубрики: amazon alexaprize socialbot, chatbots, deep learning, deeppavlov, natural language processing, nlp (natural language processing), Блог компании Московский физико-технический институт (МФТИ), голосовые интерфейсы, искусственный интеллект, лаборатория нейронных систем мфти, машинное обучение, МФТИ, нейросети, физтех

Когда еще один плодотворный год подходит к концу, хочется оглянуться назад, подвести итоги и показать, что мы смогли сделать за это время. Библиотеке #DeepPavlov, на минуточку, уже два года, и мы рады, что наше сообщество с каждым днем растет.

За год работы над библиотекой мы достигли:

Скачивания библиотеки возросли на треть по сравнению с прошлым годом. Сейчас у DeepPavlov более 100 тысяч установок и более 10 тысяч установок контейнеров.
Увеличилось количество коммерческих решений за счет state-of-art технологий, реализованных в DeepPavlov, в разных отраслях от ритейла до промышленности.
Вышел первый релиз DeepPavlov Agent.
Количество активных участников сообщества возросло в 5 раз.
Наша команда студентов и аспирантов была отобрана для участия в Alexa Prize Socialbot Grand Challenge 3.
Библиотека стала призером конкурса от компании Google «Powered by TensorFlow Challenge».

Что же помогло достичь таких результатов и почему DeepPavlov — это лучший открытый источник для построения разговорного AI? Расскажем в нашей статье.

Прорывы #DeepPavlov в 2019 году: обзор и итоги года - 1
Читать полностью »

Null проблема в Data Science и Machine Learning

2020-02-17 в 2:40, admin, рубрики: data engineering, data science, machine learning, NaN, natural language processing, None, null, Алгоритмы, машинное обучение, Семантика

Существующее определение Null в Data Science сильно ограничено. Приложив немножко усилий? мы значительно улучшим обработку данных, ранее попадаемых в Null.

Читать полностью »

Natural Language Processing. Итоги 2019 и тренды на 2020

2020-02-11 в 14:04, admin, рубрики: data mining, data science, deep learning, machine learning, machine translation, natural language processing, neural networks, nlp, ods, recurrent neural network, Transformers, Блог компании Huawei, искусственный интеллект, машинное обучение

Всем привет. С некоторым запозданием я решил опубликовать эту статью. Каждый год я стараюсь подвести итоги произошедшего в области обработки естественного языка (natural language processing). Не стал исключением и этот год.

BERTs, BERTs are everywhere

Начнем по порядку. Если вы не уехали в глухую Сибирскую тайгу или отпуск на Гоа на последние полтора года, то вы наверняка слышали слово BERT. Появившись в самом конце 2018-ого за прошедшее время эта модель завоевала такую популярность, что в самый раз будет вот такая картинка:

Natural Language Processing. Итоги 2019 и тренды на 2020 - 1
Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «natural language processing» - 10

Как мы учили искусственный интеллект отвечать на вопросы в поддержку. Опыт Яндекс.Такси

Как я заработал 1 000 000 $ без опыта и связей, а потом потратил их, чтобы сделать свой переводчик

Трансформеры как графовые нейронные сети

Нормализация текста в задачах распознавания речи

Курс Natural Language Processing (обработка естественного языка)

Новостной агрегатор за две недели

Как сжать модель fastText в 100 раз

Прорывы #DeepPavlov в 2019 году: обзор и итоги года

Null проблема в Data Science и Machine Learning

Natural Language Processing. Итоги 2019 и тренды на 2020

BERTs, BERTs are everywhere