Голосовые помощники не учатся на тесте Тьюринга

Три года назад чат-бот Соня Гусева стала победителем первого теста Тьюринга на русском языке ^[1]. После трёх минут разговора, 47% судей приняли её за человека. Сегодня голосовые ассистенты Яндекса и Google соревнуются в умении общаться на великом и могучем. Конечно, помощник не обязан имитировать человека и не должен никого обманывать, но есть ли чему поучиться Алисе и Ассистенту у Сони?

Под катом авторские комментарии к реальному диалогу чат-бота с судьёй в тесте Тьюринга, а также сравнительный анализ поведения современных голосовых помощников.

Логи диалогов с теста Тьюринга 2015 года доступны всем желающим ^[2]. В качестве примера я выбрал такой:

И - бот, С - судья

2015-06-03 12:04:13 И: я Соня Гусева, здраствуйте!
2015-06-03 12:04:25 С: Привет
2015-06-03 12:04:25 И: можно вас спросить кое-что?
2015-06-03 12:04:43 С: Конечно
2015-06-03 12:04:43 И: кто вы по знаку зодиака?
2015-06-03 12:04:54 С: Скорпион
2015-06-03 12:04:54 И: водные знаки — это люди, которые могут многое :)))
2015-06-03 12:05:24 С: У каждого человека есть потенциал
2015-06-03 12:05:24 И: хм… а как вас зовут?
2015-06-03 12:05:37 С: Евгений
2015-06-03 12:05:37 И: будем занкомы, Евгений!
2015-06-03 12:05:54 С: а как тебя зовут?
2015-06-03 12:05:54 И: Соня, я же сразу сказала :)))
2015-06-03 12:06:18 С: Да, совсем плохо с памятью
2015-06-03 12:06:18 И: ну, хорошо
2015-06-03 12:06:35 С: А чем ты занимаешься, Анна?
2015-06-03 12:06:35 И: не Анна, а Соня!!!
2015-06-03 12:06:53 С: Но все равно чем же ты занимаешься?
2015-06-03 12:06:53 И: ещё не решила
2015-06-03 12:07:03 С: Учишься?
2015-06-03 12:07:03 И: щас каникулы, а так я учусь в школе 506, перешла в 8 класс

Для анализа и сравнения Сони Гусевой, Алисы и Google Ассистента я пользуюсь критериями ЛЁГКОГО диалога ^[3]. По каждому критерию расставляю ботов от 1 до 3 места, а затем суммирую результаты.

Л — Личностый

Соня Гусева создана специально для теста Тьюринга. И как у большинства подобных чат-ботов, у неё есть не только имя и фамилия, но и подробная легенда, включающая информацию об увлечениях, членах семьи, вплоть до конфликтов со школьными учителями (по легенде Соне 12 лет и она ходит в школу). Вы сможете отличить её по особой манере ставить смайлики и игнорировать некоторые правила письменной речи.

2015-06-03 12:05:54 С: а как тебя зовут?
2015-06-03 12:05:54 И: Соня, я же сразу сказала :)))

У Алисы тоже есть своя легенда, хоть и несколько ограниченная. Оно обладает своеобразным чувством юмора. Ещё, говорят, она влюблена в Константина Хабенского.

Голосовые помощники не учатся на тесте Тьюринга - 2

А вот личность Google Ассистента менее ярко выражена: имени у него действительно нет.

Голосовые помощники не учатся на тесте Тьюринга - 3

По личностному критерию места распределяются следующим образом: 1 — Победитель теста Тьюринга; 2 — Алиса; 3 — Google Ассистент.

Ё — Естественный

Соня усердно мимикрирует под человека: допускает ошибки, использует смайлы и серии знаков препинания для пущей выразительности, никогда не повторяется в рамках разговора.

2015-06-03 12:05:24 И: хм... а как вас зовут?
2015-06-03 12:05:37 С: Евгений
2015-06-03 12:05:37 И: будем занкомы, Евгений!

Алиса тоже держится по возможности естественно, но исключительно в границах грамотности и приличности, видимо, обозначенных брендом Яндекса. Google Ассистент приятно отличается живостью: использованием смайлов, отсутствием точек в конце предложений и несколькими баблами ответа.

Игнорирую естественность синтезированной речи, которой у Сони нет, и по естественности расставляю ботов так: 1 — Победитель теста Тьюринга; 2 — Google Ассистент; 3 — Алиса.

Г — Гибкий

Поведение Сони Гусевой ограничено тысячью правил. Для сравнения, у Евгения Густмана (прошедшего тест Тьюринга ^[4] на английском языке в 2014 году) их было в три раза больше. Поэтому ответы Сони не всегда точно соответствуют вопросу.

2015-06-03 12:06:53 С: Но все равно чем же ты занимаешься?
2015-06-03 12:06:53 И: ещё не решила

В рамках болталки Алиса управляется не только жёстко заданными правилами, но и специальными алгоритмами, позволяющими ей давать подходящие ответы на реплики в самых разных формулировках и таким образом демонстрировать гибкость. В навыках Алиса не столь гибка: например, на прямой вопрос, будет ли завтра дождь, вместо прямого ответа она упорно сообщает прогноз.

Голосовые помощники не учатся на тесте Тьюринга - 4

Google Ассистент пока не понимает даже, казалось бы, простых формулировок.

Голосовые помощники не учатся на тесте Тьюринга - 5

По гибкости боты занимают места в таком порядке: 1 — Алиса; 2 — Победитель теста Тьюринга; 3 — Google Ассистент.

К — Контекстный

Соня Гусева активно наполняет контекст разговора, запрашивая информацию о пользователе и впоследствии используя её. Она понимает, что уже представлялась пользователю и адекватно реагирует, когда судья пытается игнорировать общий контекст.

2015-06-03 12:06:35 С: А чем ты занимаешься, Анна?
2015-06-03 12:06:35 И: не Анна, а Соня!!!

Алиса, увы, редко использует контекстную информацию. Google Ассистент хотя бы приветствует меня по имени.

Голосовые помощники не учатся на тесте Тьюринга - 6

По критерию контекста позиции ботов таковы: 1 — Победитель теста Тьюринга; 2 — Google Ассистент; 3 — Алиса.

И — Инициативный

При разработке чат-ботов я часто руководствуюсь правилом “И чё?”: если после реплики бота хочется сказать эту фразу, видимо, робот нарушает принципы кооперации и что-то идёт не так.

Следуя принципу “лучшая защита — это нападение”, Соня Гусева смело перехватывает инициативу и ведёт разговор.

2015-06-03 12:04:25 И: можно вас спросить кое-что?
2015-06-03 12:04:43 С: Конечно
2015-06-03 12:04:43 И: кто вы по знаку зодиака?
2015-06-03 12:04:54 С: Скорпион

Алиса тоже делает попытки продемонстрировать смешанную инициативу, иногда задавая вопросы. А Google Ассистент, хоть и предлагает подсказки, инициативу предпочитает оставлять за собеседником.

Голосовые помощники не учатся на тесте Тьюринга - 7

По критерию инициативы места распределяются так: 1 — Победитель теста Тьюринга; 2 — Алиса; 3 — Google Ассистент.

Й — И краткое

Все ответы Сони выверены по длине, впрочем Алиса и Google Ассистент тоже следят за речью и в рамках болталки стараются соблюдать правило “одного дыхания” для своих реплик. А вот в навыках этот принцип часто игнорируется.

Отдаю 1-е место победителю теста Тьюринга, а 2-е делят Алиса и Google Ассистент.

Заключение

Как автор одного из чат-ботов, я не мог быть объективным, в результате Соня Гусева оказалась на первом месте. Что касается помощников от Яндекса и Google, они показали схожие результаты. Надо понимать, что их показатели во многом зависят от сторонних разработчиков навыков.

Голосовые помощники не учатся на тесте Тьюринга - 8

Повторюсь, что голосовые помощники не ставят себе цель пройти тест Тьюринга и для их полноценного сравнения нужны иные проверки. Однако, как показывает проведённый анализ, создатели Алисы и Google Ассистента при проектировании диалогов взяли на вооружение некоторые принципы первых чат-ботов, и разработчикам приложений с разговорным интерфейсом есть чему поучиться у ботов-победителей.

Автор: IvanGolubev

Источник ^[5]

Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/interfejsy/288635

Ссылки в тексте:

[1] первого теста Тьюринга на русском языке: http://turingtest.inf.net/2015/06/%D1%84%D0%B8%D0%BD%D0%B0%D0%BB-%D1%82%D0%B5%D1%81%D1%82%D0%B0-%D1%82%D1%8C%D1%8E%D1%80%D0%B8%D0%BD%D0%B3%D0%B0-%D0%BF%D0%BE%D0%B4%D1%80%D0%BE%D0%B1%D0%BD%D0%BE%D1%81%D1%82%D0%B8-%D0%B8/

[2] доступны всем желающим: http://turingtest.inf.net/2015/06/%D0%B4%D0%B8%D0%B0%D0%BB%D0%BE%D0%B3%D0%B8-%D0%BD%D0%B5%D0%B7%D0%B0%D0%B2%D0%B8%D1%81%D0%B8%D0%BC%D1%8B%D1%85-%D1%81%D1%83%D0%B4%D0%B5%D0%B9-%D1%81-%D1%80%D0%BE%D0%B1%D0%BE%D1%82%D0%B0%D0%BC%D0%B8/

[3] ЛЁГКОГО диалога: https://medium.com/@igolubev/%D0%BB%D1%91%D0%B3%D0%BA%D0%B8%D0%B9-%D0%B4%D0%B8%D0%B0%D0%BB%D0%BE%D0%B3-%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82%D0%B8%D1%80%D1%83%D0%B5%D0%BC-%D0%BD%D0%B0%D0%B2%D1%8B%D0%BA-%D0%B4%D0%BB%D1%8F-%D0%B3%D0%BE%D0%BB%D0%BE%D1%81%D0%BE%D0%B3%D0%BE-%D0%BF%D0%BE%D0%BC%D0%BE%D1%89%D0%BD%D0%B8%D0%BA%D0%B0-4a795a366d20

[4] прошедшего тест Тьюринга: http://www.lookatme.ru/mag/live/industry-research/204961-turing

[5] Источник: https://habr.com/post/419549/?utm_campaign=419549

Нажмите здесь для печати.