Рубрика «nlp (natural language processing)»

Как машинное обучение помогает проекту «ЗабастКом» освещать трудовые конфликты

2023-01-16 в 9:14, admin, рубрики: diy или сделай сам, IT в НКО, nlp, nlp (natural language processing), Алгоритмы, Блог компании Open Data Science, искусственный интеллект, классификация текстов, НКО, Новости, новостной агрегатор, общество, общество и IT, текстовая аналитика

Как машинное обучение помогает проекту «ЗабастКом» освещать трудовые конфликты - 1

В посте расскажу о моем успешном взаимодействии с некоммерческим проектом ЗабастКом, который поддерживает наемных работников в отстаивании своих трудовых прав и интересов. Моя цель была реализовать что-то похожее на ML4SG проект, где волонтеры-специалисты по анализу данных направляют свою энергию на пользу обществу. Например, применяют алгоритмы искусственного интеллекта для спасения потерявшихся людей, для мониторинга качества воздуха или для анализа новостного потока.

Для Забасткома получилось улучшить систему автоматической обработки новостей с помощью алгоритмов машинного обучения. Это привело к увеличению охвата важных событий и уменьшению ручного труда редакторов. Добавлю, что работа с ребятами была похожа на мечту любого DS специалиста: "заказчик" легко шел на контакт; присутствовала заинтересованность и неплохое понимание ML алгоритмов; некоторая продакшн-система уже функционировала; данные для обучения алгоритмов легко собирались. А под катом — поделюсь подробностями и кодом.

Читать полностью »

Обучение Russian SuperGLUE моделей с помощью библиотеки DeepPavlov

2022-12-03 в 19:53, admin, рубрики: AI, BERT, deep learning, deeppavlov, natural language processing, nlp (natural language processing), open source, python, pytorch, transfer learning, искусственный интеллект, машинное обучение, нейронные сети, обработка текстов

Соревнования GLUE и SuperGLUE

В последние годы соревнования GLUE и SuperGLUE Читать полностью »

Что такое компьютерная лингвистика и как технологии на её основе помогают людям с ограниченными возможностями здоровья

2022-03-19 в 16:19, admin, рубрики: data engineering, natural language processing, nlp, nlp (natural language processing), Блог компании Нетология, голосовые интерфейсы, искусственный интеллект, Компьютерная лингвистика, лингвистика, лингвистическое по

Многие из нас ежедневно пользуются поисковыми системами, голосовыми помощниками и переводчиками текстов. Появление этих технологий стало возможным благодаря компьютерной лингвистике — области искусственного интеллекта, которая занимается описанием естественных языков при помощи математических моделей. Рассказываем, что такое компьютерная лингвистика и обработка естественного языка, какие задачи они решают и как помогают расширять возможности людей с инвалидностью.

Благодарим Елену Герасимову, руководителя отдела дополнительного профессионального образования в Нетологии, ранее руководившую направлением «Читать полностью »

Векторное представление товаров Prod2Vec: как мы улучшили матчинг и избавились от кучи эмбеддингов

2022-01-28 в 7:59, admin, рубрики: computer vision, data mining, deep learning, machine learning, natural language processing, nlp (natural language processing), ozon tech, Блог компании Ozon Tech, машинное обучение, обработка изображений

Привет! Меня зовут Александр, я работаю в команде матчинга Ozon. Ежедневно мы имеем дело с десятками миллионов товаров, и наша задача — поиск и сопоставление одинаковых предложений (нахождение матчей) на нашей площадке, чтобы вы не видели бесконечную ленту одинаковых товаров.
На странице любого товара на Ozon есть картинки, заголовок, описание и дополнительные атрибуты. Всю эту информацию мы хотим извлекать и обрабатывать для решения разных задач. И особенно она важна для команды матчинга.
Чтобы извлекать признаки из товара, мы строим его векторные представления (эмбеддинги), используя различные текстовые модели (fastText, трансформеры) для описаний и заголовков и целый набор архитектур свёрточных сетей (ResNet, Effnet, NFNet) — для картинок. Далее эти векторы используются для генерации фичей и товарного сопоставления.
На Ozon ежедневно появляются миллионы обновлений — и считать эмбеддинги для всех моделей становится проблематично. А что, если вместо этого (где каждый вектор описывает отдельную часть товара) мы получим один вектор для всего товара сразу? Звучит неплохо, только как бы это грамотно реализовать…

Векторное представление товаров Prod2Vec: как мы улучшили матчинг и избавились от кучи эмбеддингов - 1
Читать полностью »

Сравнительный анализ тональности комментариев в YouTube (осторожно, ненормативная лексика)

2022-01-06 в 17:51, admin, рубрики: data mining, data science, nlp, nlp (natural language processing), sentiment analysis, машинное обучение, Научно-популярное

Читать полностью »

Как из четырёх минут речи мы воссоздали голос молодого Леонида Куравлёва

2020-12-02 в 9:03, admin, рубрики: natural language processing, nlp (natural language processing), Блог компании Сбер, голосовые интерфейсы, голосовые технологии, машинное обучение, синтез речи, центр речевых технологий

Всем привет! Меня зовут Олег Петров, я руковожу группой R&D в Центре речевых технологий. Мы давно работаем не только над распознаванием речи, но и умеем синтезировать голоса. Самый простой пример, для чего это нужно бизнесу: чтобы для каждого нового сценария, которому обучают голосовых роботов, не нужно было организовывать новую запись с человеком, который его когда-то озвучил. Ещё мы развиваем продукты на основе голосовой и лицевой биометрии и аналитики по голосовым данным. В общем, работаем над серьёзными и сложными задачами для разного бизнеса.

Но недавно к нам пришли коллеги из Сбера с предложением поучаствовать в развлекательной истории — «озвучить» героя Леонида Куравлёва в новом ролике. Для него лицо Куравлева было воссоздано по кадрам из фильма «Иван Васильевич меняет профессию» и наложено на лицо другого актера с помощью технологии Deepfake. Чтобы мы смогли не только увидеть, но и услышать в 2020 году Жоржа Милославского, мы решили помочь коллегам. Ведь с годами голос у всех нас меняется и даже если бы Леонид Вячеславович озвучил героя, эффект был бы не тот.

Под катом я расскажу, почему эта, уже во многом привычная задача голосового синтеза, оказалась чуть сложнее, чем мы ожидали, и поясню, почему такие голоса не смогут обмануть качественные системы биометрической авторизации.
Читать полностью »

Как построить полнотекстовый поиск с помощью нейронных сетей

2020-10-25 в 10:55, admin, рубрики: machine learning, nlp (natural language processing), Алгоритмы, деревья поиска, машинное обучение, поисковые технологии, полнотекстовый поиск

Почему с помощью обычного полнотекстового поиска сложно искать очень короткие документы и как быть, если хочется это сделать.

Как построить полнотекстовый поиск с помощью нейронных сетей - 1

Читать полностью »

Попытка определить язык манускрипта Войнича, Random Forest Classifier

2020-08-15 в 16:51, admin, рубрики: ml, nlp (natural language processing), python, криптография

Пытаемся определить язык таинственной рукописи — манускрипта Войнича — простыми методами обработки естественных языков на Python.

Читать полностью »

Нейронки «с нуля», или Как мы делали помощника для наших диспетчеров техподдержки

2020-07-23 в 8:55, admin, рубрики: Encog, nlp (natural language processing), service desk, Алгоритмы, Блог компании DataLine, векторизация, классификация, машинное обучение, нейронные сети, обучение с учителем, Программирование

Привет! Меня зовут Александр Соловьев, я программист компании DataLine.

Хочу поделиться опытом внедрения модных нынче нейронных сетей в нашей компании. Все началось с того, что мы решили строить свой Service Desk. Зачем и почему именно свой, можно почитать моего коллегу Алексея Волкова (cface) тут.

Я же расскажу о недавнем новшестве в системе: нейросеть в помощь диспетчеру первой линии поддержки. Если интересно, добро пожаловать под кат.

Нейронки «с нуля», или Как мы делали помощника для наших диспетчеров техподдержки - 1
Читать полностью »

Сравниваем работу open source Python — библиотек для распознавания именованных сущностей

2020-05-17 в 10:20, admin, рубрики: named entity recognition, natural language processing, nlp (natural language processing), open source, python

Введение

Мы в компании создаем сервис, который позволяет автоматически создавать, управлять и безопасно хранить лицензионные соглашения и прочие договоры между фрилансерами и их клиентами.

Для решения это задачи я опробовал десятки решений в области обработки естественного языка, в том числе решения с открытым кодом и хотел бы поделиться опытом работы с open source Python — библиотеками для распознавания именованных сущностей.

Распознавание именованных сущностей

Несколько слов о самой проблеме. Named Entity Recognition (NER) — это направление технологии обработки человеческого языка, программная реализация которой позволяет находить в речи и тексте опредмеченные категории слов и словосочетаний. Сначала это были географические наименования, имена людей, организаций, адреса, однако в настоящее время это понятие сильной расширилось и с помощью NER мы ищем в тексте относительные и абсолютные даты, числа, номера и т.д.
Выявление именованных сущностей — это «ворота» в человеческий язык, оно позволяет выявлять и обрабатывать намерения человека, устанавливать связи слов в его речи и реальным миром.

Читать полностью »

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «nlp (natural language processing)»

Как машинное обучение помогает проекту «ЗабастКом» освещать трудовые конфликты

Обучение Russian SuperGLUE моделей с помощью библиотеки DeepPavlov

Соревнования GLUE и SuperGLUE

Что такое компьютерная лингвистика и как технологии на её основе помогают людям с ограниченными возможностями здоровья

Векторное представление товаров Prod2Vec: как мы улучшили матчинг и избавились от кучи эмбеддингов

Сравнительный анализ тональности комментариев в YouTube (осторожно, ненормативная лексика)

Как из четырёх минут речи мы воссоздали голос молодого Леонида Куравлёва

Как построить полнотекстовый поиск с помощью нейронных сетей

Попытка определить язык манускрипта Войнича, Random Forest Classifier

Нейронки «с нуля», или Как мы делали помощника для наших диспетчеров техподдержки

Сравниваем работу open source Python — библиотек для распознавания именованных сущностей

Введение

Распознавание именованных сущностей

Архив

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «nlp (natural language processing)»

Соревнования GLUE и SuperGLUE

Введение

Распознавание именованных сущностей

Новости

Актуальные темы

Архив