Рубрика «диалог»

АНО «Диалог», специализирующаяся на выстраивании коммуникации власти и общества в интернете, подготовилаЧитать полностью »

А слабо сделать нормального чат-бота для банка? — challenge accepted - 1

Сначала оказалось, что простые эвристики не работают. Ну вот совсем. То есть тупой чат-бот, который умеет распознавать с десяток жёстких тематик или показывать клавиатуру вроде «Нажмите 1, чтобы узнать свой баланс», несильно экономит время контакт-центру. Люди как не читали инструкции, так и не читают, а при виде такого сразу стремятся выйти на живого оператора.

То есть бот должен быть реально полезным. Таким, чтобы пользователь чувствовал, что диалог с ним — это не конкурс «обойти железного идиота», а что-то всё же даёт.

Здесь ждут следующие грабли: предположим, вы собрали всю базу диалогов контакт-центра с 2002 года. Разметили её и даже обучили на ней бота. Дальше произойдёт следующее:

  1. Либо актуальность этого обучения будет падать, и так же будет падать процент автоматизации. С каждым месяцем меняются тематики и запросы.
  2. Либо же вы можете переобучить модели слишком подробными выборками, которые имеют пересечения по категориям.

Речь идёт про то, что если обучать базу на всех диалогах без исключения так, как это подразумевает философия полной автоматизации, то очень быстро база начнёт забиваться откровенным мусором, снижающим точность классификации. Про это вендоры вам не скажут, но нужно либо постоянно что-то подкручивать, либо чистить выборку для обучения, либо обучать не на всех диалогах, которые закончились каким-то удовлетворительным ответом. Иначе очень быстро у вас перепутаются ответы для кредитных и дебетовых карт, например, потому, что клиенты либо путают их в своих стартовых запросах тоже, либо вообще не видят между ними разницы.

Ниже я хочу рассказать про те не совсем очевидные вещи в поддержке чат-бота, которые могут очень сильно уронить качество его работы. Ну или не дать до этого качества дорасти вообще, если архитектура не совсем правильная.
Читать полностью »

На конференции «Mobile 360» в Москве обсудили вопрос радиофобии: боятся ли граждане 5G и нужны ли им сети нового поколения. Представитель «Билайна» рассказал, что количество атак на их вышки выросло в 16 раз за последние три года, «а 22% россиян уверены, что мобильная связь может быть опасной для здоровья».

В свою очередь,Читать полностью »

Компания «Диалог», разработчик одноимённого мессенджера для безопасной корпоративной коммуникации, выиграла грант Российского фонда развития информационных технологий. Он должен был пойти на разработку «федеративной многоконтурной платформы унифицированных коммуникаций с поддержкой ботов и микроприложений».

Но компания была вынуждена от него тказатьсяЧитать полностью »

Каждый год в Москве проходит конференция "Диалог", в которой участвуют лингвисты и специалисты по анализу данных. Они обсуждают, что такое естественный язык, как научить машину его понимать и обрабатывать. В рамках конференции традиционно проводятся соревнования (дорожки) Dialogue Evaluation. В них могут участвовать как представители крупных компаний, создающих решения в области обработки естественного языка (Natural Language Processing, NLP), так и отдельные исследователи. Может показаться, что если ты простой студент, то тебе ли тягаться с системами, которые крупные специалисты больших компаний создают годами. Dialogue Evaluation — это как раз тот случай, когда в итоговой турнирной таблице простой студент может оказаться выше именитой компании.

Этот год станет уже 9-ым по счету, когда на «Диалоге» проводится Dialogue Evaluation. Каждый год количество соревнований разное. Темами для дорожек уже становились такие задачи NLP, как анализ тональности (Sentiment Analysis), разрешение лексической многозначности (Word Sense Induction), нахождение опечаток (Automatic Spelling Correction), выделение сущностей (Named Entity Recognition) и другие.

Соревнование ML-систем на лингвистическом материале. Как мы учились заполнять пропуски - 1В этом году четыре группы организаторов подготовили такие дорожки:

  • Генерация заголовков для новостных статей.
  • Разрешение анафоры и кореференции.
  • Морфологический анализ на материале малоресурсных языков.
  • Автоматический анализ одного из видов эллипсиса (гэппинга).

Сегодня мы расскажем про последнюю из них: что такое эллипсис и зачем учить машину восстанавливать его в тексте, как мы создавали новый корпус, на котором можно решить эту задачу, как проходили сами соревнования и каких результатов смогли добиться участники.
Читать полностью »

Инженеров и компьютерных лингвистов – к «Диалогу» - 1С 30 мая по 2 июня в Российском государственном гуманитарном университете (РГГУ) пройдет 24-ая международная научная конференция по компьютерной лингвистике «Диалог». Мы уже рассказывали о том, что такое «Диалог» и почему ABBYY его основной организатор. В этом посте мы анонсируем основные темы конференции, ключевых спикеров и их доклады, публикуем информацию о соревнованиях по разрешению лексической многозначности на русском языке Dialogue Evaluation и другие подробности о конференции. Читать полностью »

Тестирование лингвистических технологий: соревнования по автоматическому разрешению кореферентности и анафорыИтак, как и обещали, рассказываем: недавно были подведены итоги соревнований по автоматическому разрешению анафоры и кореферентности. Такие соревнования для русского языка проводились впервые а организовала их команда из ВШЭ-МГУ.

Мы уверены, что среди наших читателей много лингвистов, которые и без нас отлично знают, что такое анафора и кореференция, остальным рассказываем. Один и тот же объект реального мира может упоминаться в тексте несколько раз разными способами. «Вася – миллионер, он хочет купить остров». В этой фразе местоимение «он» и существительное «Вася» относятся к одному человеку (т.е. имеют одного и того же референта). Если система анализа текста понимает, что «он» – это и есть «Вася», значит, она умеет разрешать анафору.

Сложнее, когда Вася появляется в тексте еще несколько раз – например, как «Иванов», «клиент», «глава компании» или «футболист». Тогда речь идет уже не о местоименной анафоре, а о кореферентности именных групп. Задача системы в этом случае – объединить все слова, за которыми скрывается этот человек, в одну кореферентную цепочку. Приведем несколько примеров, а заодно покажем, как это делает наша технология Compreno.Читать полностью »

Этим постом я хочу привлечь внимание к интересной области прикладного программирования, бурно развивающейся в последние годы — компьютерной лингвистике. А именно — системам, способным к разбору и пониманию текста на русском языке. Но основной фокус внимания я хочу сместить с академических и промышленных систем, в которые вложены десятки и тысячи человеко-часов, к описанию тех способов, какими успехов на этом поприще могут добиться любители.
Читать полностью »

Инженеры и лингвисты снова вступили в ДиалогВ начале июня в подмосковном «Бекасово» состоялась международная конференция по компьютерной лингвистике «Диалог», которую уже много лет делает наша компания. О том, что представляет собой «Диалог», мы писали здесь, поэтому не будем повторяться, а расскажем, что было нового.

Пожалуй, одно из самых важных для нас событий – сборник научных трудов «Диалога» наконец-то будет индексироваться международной системой SCOPUS. Почему это важно? Для подтверждения своего научного статуса все отечественные ученые должны иметь публикации в наиболее авторитетных изданиях, входящих в т.н. список ВАК (Высшей аттестационной комиссии). К таковым относятся, в частности, журналы, входящие в базу SCOPUS. Скопусовский статус сборника Диалога, придает конференции более высокий статус и мы рады, что теперь участие в «Диалоге» будет придавать больше «веса» научным трудам наших докладчиков.

В этом году одной из доминант «Диалога» была вычислительная семантика, ей был посвящен первый день конференции. Эта область компьютерной лингвистики изучает различные способы компьютерного моделирования значений слов, фраз, предложений, целых текстов. Читать полностью »

На Хабре уже прошла информация о рекурсивном документе от Роскомнадзора. История получила свое развитие.
В тви развернулся очень интересный диалог между представителями Роскомнадзора (roscomnadzor, mksenzov), СМИ и общественности.
В ходе которого выявилось ряд интересных моментов.
Во-первых, подтвердилось мое предположение, что п.5.4 готовящегося Роскомнадзором межведомственного приказа был специально добавлен для ограждения госорганов от общественных мониторингов их деятельности.
Подробнее о сути данного пункта я изложил на ресурсе «РосКомСвободы», приведу небольшую выдержку и наглядную схему. Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js