№12 декабрь 2024

Портал функционирует при финансовой поддержке Министерства цифрового развития, связи и массовых коммуникаций.

Человеческую речь синтезировали из мозга

Компьютерный алгоритм смог научиться речи по движениям рта.

Когда мы хотим что-то сказать, мозг мгновенно находит в памяти нужные слова и комбинирует их в соответствии с правилами языка – всё это сопровождается массой нейронных сигналов, которые носятся по центрам памяти мозга, речевым центрам и пр. И если попытаться нейронные сигналы озвучить прямо из мозга, сопоставив с ними нужные звуки, которые мог бы произносить робот, это будет очень сложно.

Движения рта помогают компьютерному алгоритму понять, что хочет сказать мозг. (Фото: SergeyNivens / Depositphotos
Электроды, которые вводят в мозг, чтобы считывают нейронную активность. (Фото: UCSF)

Но можно поступить иначе. Ведь в итоге мозг посылает речевые сигналы на речевой аппарат – то есть к языку, гортани, губам, нижней челюсти. А импульсы, направленные к мышцам, различить в куче нейронных сигналов уже проще. Исследователи из Калифорнийского университета в Сан-Франциско работали с пятью добровольцами, которые лечились от эпилепсии – им в мозг в лечебных целях вводили электроды, чтобы отслеживать эпилептические импульсы. Часто такие больные участвуют в нейробиологических экспериментах на самые разные темы – ведь у них можно подсмотреть, как работает живой человеческий мозг.

С этими электродами в речевом центре мозга их просили громко и внятно прочитывать несколько сотен предложений. Запись нейронной активности совмещали с данными о том, как двигаются язык, губы и т. д. во время говорения. Специальный компьютерный алгоритм искал соответствия между нейронной активностью и движениями рта.

Движения рта отправлялись на декодер, который подбирал к ним звуки, произносимые компьютерным голосом. Из звуков составлялись те же самые предложения, которые зачитывали участники эксперимента. И уже эти синтетические предложения прокручивали другим людям, которые должны были сказать, сколько слов они могут из них разобрать.

В статье в Nature говорится, что в синтетических предложениях удавалось разобрать в среднем 70% слов, хотя многое зависело от длины предложения и от других параметров. В целом такой метод считывания речи из мозга гораздо более эффективен, чем когда звуки речи пытаются определить напрямую по активности нейронов, без посредничества голосового аппарата.

Можно предположить, что подобное устройство помогло бы обрести речь парализованным людям, утратившим речь, например, из-за инсульта, который затронул нейроны, контролирующие движения языка и челюсти. Однако пока неясно, как это будет работать с теми, кто как раз не может двигать ртом. Всё-таки алгоритм тренировали на предложениях, которые произносили громко и внятно. С другой стороны, все мы друг друга понимаем, то есть, очевидно, делаем похожие движения губами, челюстью и пр., так что, может быть, можно обучить систему синтеза речи на здоровых людях так, чтобы она работала у больных.

Автор: Кирилл Стасевич


Портал журнала «Наука и жизнь» использует файлы cookie и рекомендательные технологии. Продолжая пользоваться порталом, вы соглашаетесь с хранением и использованием порталом и партнёрскими сайтами файлов cookie и рекомендательных технологий на вашем устройстве. Подробнее