- PVSM.RU - https://www.pvsm.ru -

Схема метода реконструкции речи. Человек прослушивает слова, в результате активируются нейроны его слуховой коры. Данные интерпретируются четырьмя способами: сочетанием двух типов регрессионных моделей и двух типов речевых представлений, затем поступают в систему нейросетей для извлечения признаков, которые впоследствии используются для настройки параметров вокодера
Нейроинженеры Колумбийского университета (США) первыми в мире создали систему [1], которая переводит мысли человека в понятную, различимую речь, вот звукозапись слов [2] (mp3), синтезированных по мозговой активности.
Наблюдая за активностью в слуховой коре головного , система с беспрецедентной ясностью восстанавливает слова, которые слышит человек. Конечно, это не озвучивание мыслей в прямом смысле слова, но сделан важный шаг в этом направлении. Ведь похожие паттерны мозговой активности возникают в коре головного
Этот научный прорыв с использованием технологий искусственного интеллекта приближает нас к созданию эффективных нейроинтерфейсов, связывающих компьютер непосредственно с
Десятилетия исследований доказали, что, в процессе речи или даже мысленного проговаривания слов в

(А) Сверху показана оригинальная спектрограмма образца речи. Ниже приведены восстановленные слуховые спектрограммы четырёх моделей. (B) Магнитудная мощность частотных полос в течение невокализованной (t = 1,4 с) и вокализованной речи (t = 1,15 с: промежуток показан пунктирными линиями для оригинальной спектрограммы ит четырёх реконструкций)
«Это та же технология, которая используется Amazon Echo и Apple Siri для устных ответов на наши вопросы», — объясняет [1] д-р Нима Месгарани, ведущий автор научной работы. Чтобы научить вокодер интерпретировать мозговую активность, специалисты нашли пятерых пациентов с эпилепсией, уже перенёсших операцию на головном
В результате обработки на выходе нейросети был получен голос робота, произносящий последовательность чисел. Для проверки точности распознавания людям дали прослушать звуки, синтезированные по их собственной мозговой активности: «Мы обнаружили, что люди могут понимать и повторять звуки в 75% случаев, что намного выше и превосходит любые предыдущие попытки», — сказал д-р Месгарани.

Объективные оценки для разных моделей. (A) Средний балл по стандартной оценке ESTOI [4] по всем испытуемым для четырёх моделей. B) Охват и расположение электродов и оценка ESTOI по каждому из пяти человек. У всех оценка ESTOI вокодера DNN выше, чем других моделей.
Сейчас учёные планируют повторить эксперимент с более сложными словами и предложениями. Кроме того, те же тесты запустят для сигналов
Научная статья опубликована [5] 29 января 2019 года в открытом доступе в журнале Scientific Reports (doi: 10.1038/s41598-018-37359-z).
Программный код для проведения фонемного анализа, расчёта высокочастотных амплитуд и восстановления слуховой спектрограммы выложен в открытый доступ [6].
Автор: alizar
Источник [7]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/interfejsy/307365
Ссылки в тексте:
[1] создали систему: https://zuckermaninstitute.columbia.edu/columbia-engineers-translate-brain-signals-directly-speech
[2] звукозапись слов: https://zuckermaninstitute.columbia.edu/sites/default/files/m5_dnn_vocoder.mp3
[3] мозга: http://www.braintools.ru
[4] ESTOI: https://www.researchgate.net/publication/306046797_An_Algorithm_for_Predicting_the_Intelligibility_of_Speech_Masked_by_Modulated_Noise_Maskers
[5] опубликована: https://www.nature.com/articles/s41598-018-37359-z
[6] выложен в открытый доступ: http://naplab.ee.columbia.edu/naplib.html
[7] Источник: https://habr.com/ru/post/438508/?utm_campaign=438508
Нажмите здесь для печати.