Активность мозга человека впервые транслировали в чёткую речь

Активность мозга человека впервые транслировали в чёткую речь - 1
Схема метода реконструкции речи. Человек прослушивает слова, в результате активируются нейроны его слуховой коры. Данные интерпретируются четырьмя способами: сочетанием двух типов регрессионных моделей и двух типов речевых представлений, затем поступают в систему нейросетей для извлечения признаков, которые впоследствии используются для настройки параметров вокодера

Нейроинженеры Колумбийского университета (США) первыми в мире создали систему ^[1], которая переводит мысли человека в понятную, различимую речь, вот звукозапись слов ^[2] (mp3), синтезированных по мозговой активности.

Наблюдая за активностью в слуховой коре головного мозга ^[3], система с беспрецедентной ясностью восстанавливает слова, которые слышит человек. Конечно, это не озвучивание мыслей в прямом смысле слова, но сделан важный шаг в этом направлении. Ведь похожие паттерны мозговой активности возникают в коре головного мозга ^[3], когда человек воображает, что слушает речь, или когда мысленно проговаривает слова.

Этот научный прорыв с использованием технологий искусственного интеллекта приближает нас к созданию эффективных нейроинтерфейсов, связывающих компьютер непосредственно с мозгом ^[3]. Он также поможет общаться людям, которые не могут говорить, а также тем, кто восстанавливается после инсульта или по каким-то другим причинам временно или постоянно не способен произносить слова.

Десятилетия исследований доказали, что, в процессе речи или даже мысленного проговаривания слов в мозге ^[3] появляются контрольные модели активности. Кроме того, отчётливый (и узнаваемый) паттерн сигналов возникает, когда мы слушаем кого-то или представляем, что слушаем. Эксперты давно пытаются записать и расшифровать эти паттерны, чтобы «освободить» мысли человека из черепной коробки — и автоматически переводить их в устную форму.

Активность мозга человека впервые транслировали в чёткую речь - 2
(А) Сверху показана оригинальная спектрограмма образца речи. Ниже приведены восстановленные слуховые спектрограммы четырёх моделей. (B) Магнитудная мощность частотных полос в течение невокализованной (t = 1,4 с) и вокализованной речи (t = 1,15 с: промежуток показан пунктирными линиями для оригинальной спектрограммы ит четырёх реконструкций)

«Это та же технология, которая используется Amazon Echo и Apple Siri для устных ответов на наши вопросы», — объясняет ^[1] д-р Нима Месгарани, ведущий автор научной работы. Чтобы научить вокодер интерпретировать мозговую активность, специалисты нашли пятерых пациентов с эпилепсией, уже перенёсших операцию на головном мозге ^[3]. Их попросили прослушать предложения, сказанные разными людьми, в то время как электроды измеряли мозговую активность, которую обрабатывали четыре модели. Эти нейронные паттерны обучали вокодер. Затем исследователи попросили тех же пациентов послушать, как динамики произносят цифры от 0 до 9, записывая сигналы мозга ^[3], которые можно было пропустить через вокодер. Звук, производимый вокодером в ответ на эти сигналы, проанализирован и очищен несколькими нейронными сетями.

В результате обработки на выходе нейросети был получен голос робота, произносящий последовательность чисел. Для проверки точности распознавания людям дали прослушать звуки, синтезированные по их собственной мозговой активности: «Мы обнаружили, что люди могут понимать и повторять звуки в 75% случаев, что намного выше и превосходит любые предыдущие попытки», — сказал д-р Месгарани.

Активность мозга человека впервые транслировали в чёткую речь - 3
Объективные оценки для разных моделей. (A) Средний балл по стандартной оценке ESTOI ^[4] по всем испытуемым для четырёх моделей. B) Охват и расположение электродов и оценка ESTOI по каждому из пяти человек. У всех оценка ESTOI вокодера DNN выше, чем других моделей.

Сейчас учёные планируют повторить эксперимент с более сложными словами и предложениями. Кроме того, те же тесты запустят для сигналов мозга ^[3], когда человек воображает, что он говорит. В конечном счете они надеются, что система станет частью имплантата, который переводит мысли владельца непосредственно в слова.

Научная статья опубликована ^[5] 29 января 2019 года в открытом доступе в журнале Scientific Reports (doi: 10.1038/s41598-018-37359-z).

Программный код для проведения фонемного анализа, расчёта высокочастотных амплитуд и восстановления слуховой спектрограммы выложен в открытый доступ ^[6].

Автор: alizar

Источник ^[7]

Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/interfejsy/307365

Ссылки в тексте:

[1] создали систему: https://zuckermaninstitute.columbia.edu/columbia-engineers-translate-brain-signals-directly-speech

[2] звукозапись слов: https://zuckermaninstitute.columbia.edu/sites/default/files/m5_dnn_vocoder.mp3

[3] мозга: http://www.braintools.ru

[4] ESTOI: https://www.researchgate.net/publication/306046797_An_Algorithm_for_Predicting_the_Intelligibility_of_Speech_Masked_by_Modulated_Noise_Maskers

[5] опубликована: https://www.nature.com/articles/s41598-018-37359-z

[6] выложен в открытый доступ: http://naplab.ee.columbia.edu/naplib.html

[7] Источник: https://habr.com/ru/post/438508/?utm_campaign=438508

Нажмите здесь для печати.