Рубрика «natural language processing» - 12

Расстояние Левенштейна и поиск контролёров

2019-12-03 в 8:15, admin, рубрики: data mining, natural language processing, python, боты для социальных сетей, Вконтакте API, машинное обучение, общественный транспорт, паблик вконтакте, расстояние Левенштейна, социальные сети

Наверное, в каждом городе Беларуси, где есть троллейбусы, существуют группы ВК или чаты в Telegram, в которых люди отслеживают местоположение контролёров. В основном это делается для того, чтобы не оплатить проезд и проехать бесплатно, хотя в описании групп почти всегда есть постскриптум “Платите за проезд”.
Читать полностью »

Julia NLP. Обрабатываем тексты

2019-11-15 в 8:45, admin, рубрики: BERT, embeddings, flux, Julia, natural language processing, nlp (natural language processing), term-document, модели анализа текстов, Программирование

Julia NLP. Обрабатываем тексты - 1

Анализ и обработка текстов на естественном языке является постоянно актуальной задачей, которая решалась, решается и будет решаться всеми доступными способами. На сегодня хотелось бы поговорить о средствах решения для решения этой задачи, именно, на языке Julia. Безусловно, в виду молодости языка, здесь нет столь развитых средств анализа, как, например Stanford CoreNLP, Apache OpenNLP, GATE и пр., как, например, для языка Java. Однако, даже уже разработанные библиотеки, вполне могут использоваться как для решения типовых задач, так и быть рекомендованными в качестве точки входа для студентов, которым интересна область обработки текстов. А синтаксическая простота Julia и её развитые математические средства, позволяют с лёгкостью погрузиться в задачи кластеризации и классификации текстов.

Читать полностью »

Machine Learning for your flat hunt. Part 3: The final push

2019-11-09 в 10:16, admin, рубрики: data mining, natural language processing, prediction, python, real estate market, yekaterinburg, машинное обучение, Программирование

Photo by Dugan Arnett on Boston GlobeAre
Photo by Dugan Arnett on Boston Globe

Are you still looking for a new flat? Ready to make the last attempt? If so - follow me and I show you how to reach the finish line.

Читать полностью »

Конференция Conversations: 8 часов теории и практики разговорного AI

2019-11-02 в 10:32, admin, рубрики: AI, google assistant, natural language processing, nlp, nlu, voice recognition, автоматизация бизнеса, алиса, Блог компании Just AI, боты, голосовой ассистент, искусственный интеллект, контакт-центр, конференции, конференция для разработчиков, разговорный ИИ, разговорный интерфейс, разработка игр, умные колонки, умный дом, чатботы, яндекс

26 ноября в Москве пройдет Conversations – конференция по разговорному искусственному интеллекту для разработчиков и бизнеса. Про инструменты, кейсы, фейлы, модели монетизации, перспективы и ограничения рынка будут говорить МТС, МегаФон, Билайн, Tikkurila, Банк Открытие, Яндекс.Облако, Speech Analytics, Cardif, iPavlov, «ДоДо пицца», МФТИ и другие интересные компании (например, международное аналитическое агентство Canalys!).

В общем, если вы неравнодушны к речевой аналитике и NLU, разрабатываете скиллы для голосовых ассистентов или чатботов, изучаете диалоговые платформы, хотите прокачать себя в voice UX/UI (или просто интересуетесь индустрией conversational AI), добро пожаловать под кат! Там подробнее про хедлайнеров и промокод на покупку билета.

Читать полностью »

Sberbank AI Journey. Как мы учили нейросеть сдавать экзамен

2019-10-16 в 11:52, admin, рубрики: AGI, artificial intelligence, natural language processing, python, Блог компании Сбербанк, искусственный интеллект, машинное обучение

Если вы закончили школу уже во времена ЕГЭ, то вам известно, что все задания в нём имеют набор стандартных формулировок и упорядочены по типам. С одной стороны, это облегчает подготовку к экзамену: школьник уже знает, что нужно делать в задании, даже не читая его условия. С другой, любое изменение порядка вопросов может вызвать у него проблемы. Грубо говоря, на результат начинает больше влиять то, насколько человек довёл решения до автоматизма, а не то, как он рассуждает. Экзамен становится похож на работу скрипта.

В рамках конференции AI Journey мы решили провести конкурс на разработку алгоритма, который сможет сдать экзамен не хуже человека. Участникам предоставляются тестовые варианты заданий, которые можно использовать для валидации решений и для обучения. Мы как сотрудники Сбера не можем претендовать на призовой фонд, но тем не менее попробовали решить эту задачу и хотим рассказать о том, как мы это сделали. Спойлер — аттестат мы получили.

Читать полностью »

Распознаём дату и время в естественной речи

2019-10-16 в 9:02, admin, рубрики: .net, C#, natural language processing, Алгоритмы, алиса, голосовой помощник, голосовые интерфейсы, дата и время, обработка естественного языка, яндекс

Распознаём дату и время в естественной речи - 1

Задача

Привет! Увлёкся я навыками для Алисы и стал думать, какую пользу они бы могли принести. На площадке много разных прикольных игр (в том числе мои), но вот захотелось сделать рабочий инструмент, который действительно нужен в голосовом исполнении, а не просто копирует существующего чат-бота с кнопками.

Голос актуален тогда, когда либо руки заняты, либо нужно выполнять много последовательных операций, особенно на экране телефона. Так возникла идея навыка, который по одной команде выделяет из текста указание на дату и время и добавляет событие с этим текстом в Google Calendar. Например, если пользователь скажет Послезавтра в 11 вечера будет красивый закат, то в календарь на послезавтра в 23:00 уходит строка Будет красивый закат.

Под катом описание алгоритма работы библиотеки Hors: распознавателя даты и времени в естественной русской речи. Хорс — это славянский бог солнца.

Github | NuGet

Читать полностью »

Почему Kaldi хорош для распознавания речи?

2019-10-08 в 16:06, admin, рубрики: kaldi, natural language processing, изучение языков, Компьютерная лингвистика, машинное обучение, нейросети, распознавание речи

Почему мне (и, надеюсь, вам) интересно распознавание речи? Во-первых, это направление является одним из самых популярных по сравнению с другими задачами компьютерной лингвистики, поскольку технология распознавания речи сейчас используется почти повсеместно – от распознавания простого «да/нет» в автоматическом колл-центре банка до способности поддерживать «светскую беседу» в «умной колонке» типа «Алисы». Во-вторых, чтобы система распознавания речи была качественным, необходимо найти самые эффективные средства для создания и настройки такой системы (одному из подобных средств и посвящена эта статья). Наконец, несомненным «плюсом» выбора специализации в области распознавания речи лично для меня является то, что для исследований в этой области необходимо владеть как программистскими, так и лингвистическими навыками. Это весьма стимулирует, заставляя приобретать знания в разных дисциплинах.
Читать полностью »

Keyword Tree: graph analysis for semantic extraction

2019-10-06 в 11:52, admin, рубрики: data cleaning, data mining, natural language processing, nlp (natural language processing), визуализация данных, машинное обучение

This post is a small abstract of full-scaled research focused on keyword recognition. Technique of semantics extraction was initially applied in field of social media research of depressive patterns. Here I focus on NLP and math aspects without psychological interpretation. It is clear that analysis of single word frequencies is not enough. Multiple random mixing of collection does not affect the relative frequency but destroys information totally — bag of words effect. We need more accurate approach for the mining of semantics attractors.

Читать полностью »

Применение сиамских нейросетей в поиске

2019-09-20 в 8:39, admin, рубрики: natural language processing, nlp (natural language processing), Блог компании Mail.Ru Group, машинное обучение, нейронные сети, поисковые системы, поисковые технологии, Семантика, сиамские нейросети, эмбеддинги

Применение сиамских нейросетей в поиске - 1

Всем привет! В этом посте я расскажу, какие подходы мы в Поиске Mail.ru используем для сравнения текстов. Для чего это нужно? Как только мы научимся хорошо сравнивать разные тексты друг с другом, поисковая система сможет лучше понимать запросы пользователя.

Что нам для этого нужно? Для начала строго поставить задачу. Нужно определить для себя, какие тексты мы считаем похожими, а какие не считаем и затем сформулировать стратегию автоматического определения схожести. В нашем случае будут сравниваться тексты пользовательских запросов с текстами документов.
Читать полностью »

Сэмплирование с температурой

2019-09-12 в 14:26, admin, рубрики: natural language processing, математика, машинное обучение, семплирование, Статистика в IT, языковая модель

Недавно натолкнулся на вопрос в чате ODS: почему алгоритм, генерирующий текст буква-за-буквой, сэмплит буквы не из p (вектор вероятностей следующей буквы, предсказанный языковой моделью), а из p'=softmax(log(p)/t) (где t — это ещё какой-то непонятный положительный скаляр)?

Быстрый и непонятный ответ: t — это "температура", и она позволяет управлять разнообразием генерируемых текстов. А ради длинного и детального ответа, собственно, и написан этот пост.
Сэмплирование с температурой - 1

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «natural language processing» - 12

Расстояние Левенштейна и поиск контролёров

Julia NLP. Обрабатываем тексты

Machine Learning for your flat hunt. Part 3: The final push

Конференция Conversations: 8 часов теории и практики разговорного AI

Sberbank AI Journey. Как мы учили нейросеть сдавать экзамен

Распознаём дату и время в естественной речи

Задача

Почему Kaldi хорош для распознавания речи?

Keyword Tree: graph analysis for semantic extraction

Применение сиамских нейросетей в поиске

Сэмплирование с температурой