В MIT разработали новый тип интерфейса, позволяющий превращать «мысли» в голос

В MIT разработали новый тип интерфейса, позволяющий превращать «мысли» в голос - 1
Арнав Капур, один из разработчиков нового типа интерфейса, демонстрирует работу устройства

Инженеры MIT создали систему ^[1], которая транскрибирует проговариваемые про себя слова и предложения в текст. Для успешной работы системы ее носителю нужно четко проговаривать слова и фразы про себя. В этом случае начинают работать мышцы лица, горла и языка, отвечающие за речь. Они не работают в полную силу, а лишь активируются, чего вполне достаточно новой системе для «чтения».

Со стороны это выглядит так — человек просто молчит, а система «говорит», вернее печатает. Разработка состоит из двух частей: гаджета, который необходимо носить на лице и специально «обученной» нейросети, которая анализирует получаемую информацию и ассоциирует ее с буквами и словами. Кроме того, интерфейс позволяет управлять гаджетами — переключать каналы на ТВ, вести учет затрат и вести вполне обычную активность.

Гаджет, который нужно надевать на ухо, включает в конструкцию «костяной наушник», то есть наушник, проводящий звук по кости к внутреннему уху. Внешний канал остается открытым и человек слышит все, что происходит вокруг.

Такая система весьма портативна и подходит для ношения как на улице, так и дома. Некоторые способы ее применения необычны. Например, можно играть в шахматы, проговаривая про себя ходы противника и получать помощь от компьютера.

Использовать разработку можно не только людям с физическими проблемами, но и обычным пользователям в самых разных ситуациях. Задачей разработчиков было создание системы, которая позволяет улучшить способности человека, дополнить его интеллект и в некотором роде органы чувств.

«Мы уже неспособны жить без смартфонов и других цифровых устройств», — говорит Петти Маес, один из участников проекта. «Но использование этих гаджетов мешает нам, необходимо прерываться для того, чтобы с ними работать. Например, идет беседа, и вдруг возникает нужда воспользоваться телефоном. Нужно его найти, взять в руки, ввести пароль и открыть приложение. Поэтому мои студенты и я долгое время экспериментировали с новыми типами систем и их форм-факторами, которые позволяют людям использовать преимущества современных технологий и сервисов, не отвлекаясь на, собственно, гаджеты».

Результаты работы были доложены на конференции Association for Computing Machinery’s ACM Intelligent User Interface.

В принципе, идея, предложенная учеными, не нова. Она появилась где-то в 19-м веке, а с появлением новых технологий над ее реализацией стали работать уже серьезно. В 60-х годах проговаривание про себя фраз и слов во время чтения стали считать сторонним фактором, который препятствует скорочтению (собственно, так оно и есть). Но у проговаривания есть свои преимущества, оно может использоваться при разработке компьютерных интерфейсов. Один из примеров был приведен выше.

В ходе создания системы ученым понадобилось вначале понять, какие мышцы на лице человека задействуются в ходе проговаривания активнее всего. После этого стартовала разработка прототипа устройства для преобразования «мыслей в текст». Основным считывающим сигналы элементом системы были электроды в количестве 16 штук.

С них снимали показания и сверяли с тем, что произносил про себя человек. Затем на основе полученного массива данных разработчики стали обучать нейросеть. Кстати, изначально устройство охватывало обе стороны лица. Но затем оказалось, что нейросеть преобразовывает сигналы в текст без проблем даже в том случае, если электроды находятся лишь на одной стороне лица. Поэтому для снижения габаритов системы ее уменьшили вдвое.

Обучение нейросети начали с малого — всего с 20 слов. С течением времени словарь увеличивали, и нейросеть стала более «умной». По словам ученых, ее можно персонализировать под любого человека, увеличивая точность распознавания «мыслей». Чем больше будет тренировок, тем лучше сможет работать система.

У разработчиков не было планов доводить ее до совершенства, это лишь proof-of-concept. Технология может использоваться во многих сферах, включая производство. Можно представить себе промышленное предприятие, уровень шума на котором мешает нормальному общению сотрудников по рабочим вопросам. В этом случае можно использовать такую систему. Аналогичная ситуация — с пожарниками или водолазами. Им не нужно будет говорить, система озвучит «мысли».

Пока что о коммерциализации технологии речь не идет, но такое развитие событий тоже не исключается.

^[2]
^[3]

Автор: Ekaterina_T

Источник ^[4]

Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/razrabotka/277521

Ссылки в тексте:

[1] создали систему: http://news.mit.edu/2018/computer-system-transcribes-words-users-speak-silently-0404

[2] Image: http://madrobots.ru?utm_source=geektimes.ru&utm_medium=pr&utm_campaign=arnav

[3] Image: http://madrobots.ru/about/mails/?utm_source=geektimes.ru&utm_medium=pr&utm_campaign=arnav

[4] Источник: https://geektimes.ru/post/299865/?utm_campaign=299865

Нажмите здесь для печати.