Рубрика «natural language processing» - 15

Как тебе такое, Марк Райберт?

Наш ответ Boston Dynamics. Робот Борис - 1

Недавно, пару дней назад, в Ярославле прошел инновационный форум «Проектория» для молодежи.
На него приехали более 500 школьников со всей страны. На форуме было много выступлений. Кто-то собирался полететь в космос, кто-то собирался изобретать технологии будущего.

Возможно, кто-то из школьников посвятит себя робототехнике, тем более, что на форуме у них есть возможность посмотреть на самых современных роботов.
Читать полностью »

Задача

Одна из больших задач приложения для хранения и анализа покупок — поиск одинаковых или очень близких продуктов в базе данных, где собраны разномастные и непонятные наименования продуктов, полученные из чеков. Есть два вида входного запроса:

  1. Специфичное название с сокращениями, которое может быть понятно только кассирам местного супермаркета, либо заядлым покупателям.
  2. Запрос на естественном языке, введенный пользователем в поисковую строку

Запросы первого вида как правило исходят из продуктов в самом чеке, когда пользователю нужно подыскать продукты подешевле. Наша задача заключается в том, чтобы подобрать максимально похожий аналог товара из чека в других магазинах поблизости. Здесь важно подобрать наиболее соответствующую марку продукта и по возможности объём.

Как отличить шампунь от шампиньонов, а шампуры от шампанского… Elasticsearch — поиск товаров в магазинных базах данных - 1

Читать полностью »

Чем занимаются в департаменте R&D ABBYY: NLP Advanced Research Group - 1Чем занимаются в департаменте R&D в ABBYY? Чтобы ответить на этот вопрос, мы начинаем серию публикаций о том, как наши разработчики создают новые технологии и совершенствуют существующие решения. Сегодня расскажем про направление Natural Language Processing (NLP).

Мы в ABBYY занимаемся исследованиями в сфере обработки естественного языка и беремся за сложные научные задачи, для которых пока нет готовых решений. Так мы создаем инновации, которые ложатся в основу продуктов и помогают нашим заказчикам, да и нам двигаться вперед. Кстати, 24 ноября на лекции в Школе глубокого обучения при МФТИ руководитель NLP Advanced Research Group в департаменте R&D ABBYY Иван Смуров расскажет, какие в мире есть задачи по анализу текста и как современные нейросети позволяют их решать. А в этом посте Иван рассказал нам о трех задачах, которыми занимается сейчас. Читать полностью »

Building client routing / semantic search and clustering arbitrary external corpuses at Profi.ru

TLDR

This is a very short executive summary (or a teaser) about what we managed to do in approximately 2 months in the Profi.ru DS department (I was there for a bit longer, but onboarding myself and my team was a separate thing to be done at first).

Читать полностью »

image

Хакатон Google, и все, что нужно, чтобы начать разрабатывать свои приложения для ассистента.

Google организовал хакатон, посвященный технологии Actions On Google. Это хорошая возможность получить опыт и подумать, как начать делать conversation user interface (CUI) для наших приложений. Поэтому мы собрали команду из двух Android-разработчиков: shipa_o, raenardev и дизайнера comradeguest и отправились участвовать.

Читать полностью »

Здравствуйте, коллеги.

В последнее время мы вынашиваем планы издать книгу по обработке естественного языка. Одним из наиболее масштабных решений, которые определяют перспективы этой отрасли, несомненно, является платформа Google Cloud, как нельзя лучше адаптированная для машинного обучения. Просим высказываться о востребованности этой книги

Google Cloud: новая платформа и возможности машинного обучения - 1

и почитать под катом о небольшой библиотеке, предназначенной для обработки естественного языка на R.
Читать полностью »

Обработка текстов на естественных языках - 1

Сегодня мы затрагиваем такую интересную тему, как естественные языки. Сейчас в эту область вкладываются очень большие деньги и в ней решают немало разнообразных задач. Она привлекает внимание не только индустрии, но и научного сообщества.
Читать полностью »

Новый год — время чудес и подарков. Главным чудом, которое подарила нам природа, безусловно является естественный язык и человеческая речь. А мы, в свою очередь, хотим сделать новогодний подарок всем исследователям этого феномена и поделиться датасетом по открытой семантике русского языка.

В статье мы позволим себе немного подискутировать на тему смыслов, расскажем как мы пришли к необходимости создания открытой семантической разметки, расскажем о настоящих результатах и будущих направлениях этой большой работы. И, конечно, дадим ссылку на датасет, который вы сможете скачать и использовать для своих экспериментов и исследований.Читать полностью »

Недавно мы рассказывали про генератор стихов. Одной из особенностей языковой модели, лежащей в его основе, было использование морфологической разметки для получения лучшей согласованности между словами. Однако же у использованной морфоразметки был один фатальный недостаток: она была получена с помощью “закрытой” модели, недоступной для общего использования. Если точнее, выборка, на которой мы обучались, была размечена моделью, созданной для Диалога-2017 и основанной на закрытых технологиях и словарях ABBYY.

Мне очень хотелось избавить генератор от подобных ограничений. Для этого нужно было построить собственный морфологический анализатор. Сначала я делал его частью генератора, но в итоге он вылился в отдельный проект, который, очевидно, может быть использован не только для генерации стихов.

Вместо морфологического движка ABBYY я использовал широко известный pymorphy2. Что в итоге получилось? Спойлер — получилось неплохо.

Читать полностью »

Мы часто говорим о задачах, которые лежат на стыке той или иной классической науки и анализа данных. В сегодняшнем докладе эта идеология представлена воочию — большую часть доклада читает учёный, а о конкретных методах и инструментах рассказывает программист.

Под катом — расшифровка и основная часть слайдов.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js