Речь в голове: как мозг кодирует слова, даже если их не произносят

Автор: Денис Аветисян

Новое исследование показывает, что нейронные паттерны, возникающие при произнесении, проговаривании и простом воображении речи, имеют удивительное сходство.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"

Линейные и нелинейные подходы к декодированию сигналов электроэнцефалографии, зарегистрированных с использованием инвазивных электродов, исследуются для анализа вокализованных, мимических и воображаемых речевых актов; в то время как линейные декодеры обучаются специфично для каждого условия, нелинейная архитектура нейронной сети, используемая для реконструкции спектрограмм, позволяет оценить возможности более комплексного анализа речевых намерений, как продемонстрировано в работе [He2025VocalMind].

Исследователи продемонстрировали возможность декодирования речи из нейронной активности, полученной при различных формах её выражения, включая воображение, с использованием как линейных, так и нелинейных моделей.

Несмотря на значительный прогресс в декодировании речи по нейронным сигналам, взаимосвязь между нейронными представлениями произнесенной, имитируемой и воображаемой речи оставалась малоизученной. В настоящей работе, ‘Relating the Neural Representations of Vocalized, Mimed, and Imagined Speech’, исследованы общие структуры нейронных ответов, зарегистрированных с помощью стереотаксической ЭЭГ. Показано, что линейные декодеры, обученные на данных одного типа речевой активности, успешно обобщаются на другие, что свидетельствует о наличии общих нейронных представлений. Каким образом эта общность отражает иерархическую организацию когнитивных процессов, лежащих в основе речевой коммуникации и внутреннего диалога?

Раскрытие Нейронных Оснований Речи

Понимание механизмов кодирования речи в мозге является основополагающим для восстановления коммуникативных способностей у людей с неврологическими нарушениями. Нейронные цепи, отвечающие за формирование речевого сигнала, могут быть повреждены вследствие инсульта, травмы или нейродегенеративных заболеваний, приводя к афазии или другим речевым расстройствам. Детальное изучение того, как мозг преобразует намерения в конкретные звуки и слова, открывает перспективы для разработки нейропротезов и интерфейсов мозг-компьютер, способных декодировать речевые намерения и преобразовывать их в понятную речь или текст. Это позволит людям, утратившим способность говорить, вновь обрести голос и полноценно взаимодействовать с окружающим миром, значительно улучшая качество их жизни и социальную интеграцию.

Современные методы реконструкции речи из нейронной активности сталкиваются со значительными трудностями, что ограничивает возможности интерфейсов мозг-компьютер. Несмотря на прогресс в нейробиологии и машинном обучении, точное воссоздание речи на основе анализа мозговой деятельности остается сложной задачей. Существующие алгоритмы часто не способны уловить тонкие нюансы и динамику, необходимые для синтеза естественной и разборчивой речи. Это особенно критично для пациентов с параличом или другими нарушениями речи, которые надеются восстановить коммуникативные навыки с помощью таких интерфейсов. Низкая точность реконструкции может приводить к искаженным или неразборчивым сообщениям, что снижает эффективность и практическую ценность подобных технологий. Поэтому, разработка более совершенных алгоритмов и методов анализа нейронных сигналов является ключевым направлением исследований в области нейропротезирования и восстановления речи.

Декодирование речи из нейронной активности представляет собой сложную задачу, поскольку нейронные представления, лежащие в основе ее производства, характеризуются высокой степенью сложности и изменчивости. Исследования показывают, что отдельные нейроны не кодируют конкретные фонемы или слова, а формируют распределенные паттерны активности, отражающие различные аспекты речевого сигнала — от артикуляции и просодии до семантического содержания. Понимание этих сложных взаимодействий между нейронами и их вкладом в формирование речи требует разработки новых методов анализа, способных улавливать тонкие изменения в паттернах нейронной активности и выявлять скрытые закономерности, определяющие речевое производство. Особую сложность представляет вариабельность этих паттернов, обусловленная индивидуальными особенностями произношения, эмоциональным состоянием говорящего и контекстом речи, что требует создания адаптивных алгоритмов декодирования, способных учитывать эти факторы и обеспечивать высокую точность реконструкции речи.

Анализ показал, что корреляция между восстановлением огибающей сигнала и различимостью предложений на уровне всего высказывания выше для нейронных сетей (квадраты) по сравнению с линейными декодерами (круги), что подтверждается соответствующими линейными аппроксимациями.

От Нейронных Сигналов к Реконструкции Речи

Для регистрации мозговой активности во время произносимой, мимикрируемой и воображаемой речи использовалась стереотаксическая электроэнцефалография (ЭЭГ) в сочетании с набором данных VocalMind. Стереотаксическая ЭЭГ обеспечивает высокую точность позиционирования электродов, что критически важно для точной локализации источников нейронной активности, связанной с речью. Набор данных VocalMind содержит записи ЭЭГ, полученные от участников, выполняющих различные речевые задачи, включая произнесение слов, имитацию речи без звука и мысленное произнесение слов. Полученные данные позволили исследовать нейронные корреляты различных аспектов речевой деятельности и разработать алгоритмы для реконструкции речи на основе мозговой активности.

Для преобразования исходных нейронных сигналов в представления, отражающие обработку звука в слуховой коре, была использована биологически обоснованная модель ‘NSL Cortical Model’. Данная модель преобразует временные ряды нейронной активности в спектрограммы, представляющие распределение энергии сигнала во времени и частоте. Этот подход имитирует принципы функционирования слуховой коры головного мозга, где звуковые стимулы анализируются по частоте и времени, позволяя извлечь важные характеристики звука из исходных нейронных данных. Полученные представления во временной и частотной области служат основой для дальнейшего декодирования и реконструкции речи.

Для сопоставления нейронных представлений с речевыми характеристиками использовались два типа декодеров: линейный и нелинейный. Линейный декодер представляет собой простую модель, устанавливающую линейную связь между нейронной активностью и признаками речи. Нелинейный декодер, напротив, использует более сложные алгоритмы для моделирования нелинейных взаимосвязей, что позволяет ему потенциально улавливать более тонкие и сложные закономерности в данных. Оба декодера были обучены на преобразованных сигналах, полученных из стереотаксической ЭЭГ, и использовались для реконструкции речевых признаков на основе активности мозга.

При тестировании декодеров на вокализованных данных, обученных на тех же вокализованных данных, была достигнута дискриминационная способность на уровне предложений, измеренная с помощью площади под ROC-кривой (AUC). Линейный декодер показал результат 0.32, в то время как нелинейный декодер достиг дискриминационной способности 0.59. Данные результаты демонстрируют, что нелинейный декодер обеспечивает более высокую точность распознавания речи на основе анализа нейронных сигналов, полученных в ходе вокализации.

Распределения корреляции огибающих показывают, что линейные и нейросетевые декодеры демонстрируют различную производительность в зависимости от условий обучения и тестирования, при этом серая шкала представляет собой производительность нулевой модели.

Оценка Обобщающей Способности и Надежности Декодера

В ходе кросс-условной оценки было продемонстрировано, что разработанные декодеры способны реконструировать речь на основе различных модальностей — явной речи, имитированной речи и ‘воображаемой речи’ (речи, формируемой в уме без физической артикуляции). Данный результат указывает на способность декодеров абстрагироваться от конкретного способа проявления речевого сигнала и извлекать информацию непосредственно из нейронных представлений, связанных с речевым намерением. Реконструкция речи осуществлялась для всех трех модальностей, подтверждая универсальность предложенного подхода к декодированию речевых процессов.

Анализ на основе рангов подтвердил, что реконструируемая речь сохраняла информацию, специфичную для конкретного предложения, что свидетельствует о точности декодирования. Данный метод заключался в сравнении рангов корреляций между реконструируемым и целевым предложениями для различных тестовых данных. Высокие значения ранговой корреляции указывают на то, что декодер успешно выделяет и воспроизводит характеристики, уникальные для каждого предложения, даже при вариациях в модальности или исполнении. Статистическая значимость этого сохранения информации подтверждена $p < 0.001$ для всех случаев, превышающих показатели нулевой модели, что позволяет сделать вывод об эффективной передаче семантического содержания.

Статистическая значимость результатов реконструкции речи была подтверждена с использованием p-значений, которые были меньше 0.001 для всех корреляций реконструкции, превосходящих показатели нулевой модели. Это указывает на то, что наблюдаемые корреляции не возникли случайно, а отражают реальную способность декодера восстанавливать речевой сигнал. Полученные p-значения свидетельствуют о высокой вероятности того, что декодер действительно способен извлекать информацию о произносимой речи из входных данных, даже если эти данные представляют собой непрямые проявления речевой активности.

При анализе обобщающей способности декодера была получена величина эффекта Коэна $d = 0.29$ для разницы в производительности сети, обученной на воображаемой речи, при декодировании мимической речи. Это значение указывает на умеренный размер эффекта, подтверждающий способность модели успешно переносить знания, полученные при обработке воображаемой речи, на данные, полученные из невербальных источников, таких как мимика. Полученное значение эффекта Коэна свидетельствует о статистически значимом различии в производительности между условиями и подтверждает способность модели к обобщению.

Полученные результаты подтверждают возможность декодирования внутренних речевых процессов, даже при отсутствии физической артикуляции. Данное утверждение основывается на успешной реконструкции речи из модальностей, отличных от явной речи — в частности, из мимики и «воображаемой речи», что указывает на то, что декодер способен извлекать речевую информацию непосредственно из нейронной активности, связанной с речевым намерением, а не с его физическим проявлением. Это демонстрирует потенциал для разработки интерфейсов «мозг-компьютер», позволяющих интерпретировать мыслительные процессы, связанные с речью, без необходимости в вокализации или видимых движениях речевого аппарата.

Площадь под кривой ROC (AUC) демонстрирует, что как линейные, так и нейросетевые декодеры способны различать предложения, при этом положительные значения (отображенные красным) указывают на производительность выше случайного уровня.

Влияние на Интерфейсы Мозг-Компьютер и Перспективы Развития

Исследование продемонстрировало возможность декодирования внутренней речи, то есть речевых намерений, формирующихся в мозге, даже при полном отсутствии каких-либо видимых движений речевого аппарата. Ученые смогли восстановить предполагаемый речевой контент, анализируя активность мозга испытуемых, которые лишь мысленно произносили слова и фразы. Этот прорыв позволяет предположить, что мозг содержит достаточно информации для восстановления речи исключительно на основе нейронных сигналов, открывая новые перспективы для разработки систем коммуникации, не требующих физического выражения речи. Полученные данные подтверждают, что нейронные паттерны, связанные с планированием и формированием речевых намерений, могут быть успешно декодированы и интерпретированы, даже если эти намерения не приводят к фактическому произнесению звуков.

Данное достижение открывает значительные перспективы для развития технологий “интерфейс мозг-компьютер” в помощи людям с нарушениями речи. Возможность декодирования намерений к речи, даже при отсутствии видимых движений, позволяет создать системы, способные преобразовывать мысли в слова или текст, обходя физические ограничения. Это не только расширяет коммуникативные возможности для людей, потерявших способность говорить вследствие паралича или других заболеваний, но и потенциально позволяет им управлять вспомогательными устройствами, такими как компьютеры или роботизированные протезы, исключительно силой мысли. Такие системы могут вернуть пациентам утраченную независимость и значительно улучшить качество их жизни, предоставляя им возможность полноценно взаимодействовать с окружающим миром.

Декодирование процессов артикуляторного планирования — то есть, мозговой подготовки к речи — открывает принципиально новые возможности для управления внешними устройствами посредством мысли. Исследование демонстрирует, что анализ нейронной активности, предшествующей фактическому произнесению слов, позволяет с высокой точностью предсказывать планируемые движения речевого аппарата. Это, в свою очередь, создает основу для разработки интерфейсов, позволяющих людям управлять протезами, компьютерами или другими устройствами, просто представляя себе слова или фразы, без необходимости использования мышц или голосовых связок. Такой подход особенно важен для людей с параличом или другими нарушениями, ограничивающими их способность к общению и взаимодействию с окружающим миром, предлагая им новый уровень независимости и контроля.

Проведенный тест Штайгера продемонстрировал статистически значимую связь (p = 1.24 x 10^-4) между площадью под кривой (AUC) и средним коэффициентом реконструкции для линейных и нелинейных моделей. Этот результат подтверждает эффективность предложенного подхода к декодированию, указывая на то, что используемые алгоритмы способны достоверно восстанавливать информацию о планируемой речи на основе анализа нейронной активности. Значимость полученной корреляции подчеркивает, что нелинейные модели обладают большей способностью захватывать сложные взаимосвязи в данных, что, в свою очередь, повышает точность декодирования и открывает перспективы для создания более совершенных систем «мозг-компьютер».

Исследование вносит значительный вклад в понимание нейронных механизмов, лежащих в основе языка, проливая свет на взаимосвязь между активностью мозга и формированием речи. Ученые смогли установить более четкую связь между нейронными сигналами, предшествующими произнесению слов, и процессами артикуляционного планирования. Это позволяет глубже понять, как мозг организует и подготавливает речевой аппарат к произнесению, а также как информация кодируется и декодируется в нейронных сетях. Полученные данные расширяют представления о когнитивных процессах, связанных с языком, и открывают новые возможности для изучения нарушений речи и разработки эффективных методов реабилитации. Такое углубленное понимание нейронной основы языка имеет потенциал для создания более совершенных моделей обработки естественного языка и искусственного интеллекта.

Исследование демонстрирует, что нейронные репрезентации вокальной, мимизированной и воображаемой речи обладают общими структурами, что позволяет использовать декодирование между этими условиями. Этот факт подтверждает идею о том, что структура определяет поведение, поскольку общая нейронная основа позволяет переносить информацию между различными формами речевого выражения. Как однажды заметил Г.Х. Харди: «Математика — это искусство делать правильные выводы из предпосылок, которые никто не оспаривает». Аналогично, данная работа демонстрирует, что, имея общую нейронную базу, можно успешно декодировать различные формы речи, подчеркивая важность лежащих в основе общих принципов организации нейронных процессов.

Что дальше?

Представленные результаты, демонстрирующие общность нейронных представлений при произнесении, имитации и воображении речи, лишь подчёркивают сложность кажущегося простым акта коммуникации. Вместо поиска универсального “речевого центра”, исследование указывает на распределенную, иерархическую структуру, где различные модальности лишь слегка варьируют общую базовую организацию. Однако, как и в любом хорошо спроектированном городе, возникают вопросы об инфраструктуре: как эти представления интегрируются с другими когнитивными процессами, и каковы пределы этой “кросс-модальной обобщаемости”?

Очевидно, что текущая работа закладывает основу для более продвинутых интерфейсов “мозг-компьютер”, но практическая реализация требует решения ряда проблем. Например, стабильность декодированных сигналов во времени и адаптация к индивидуальным особенностям мозга остаются серьезными вызовами. Попытки «перестроить квартал» — то есть, создать универсальный декодер, работающий для всех — вероятно, обречены на провал. Более перспективным представляется эволюционный подход: создание систем, способных адаптироваться и обучаться, подобно живым организмам.

В конечном счете, исследование подчеркивает, что понимание нейронных механизмов речи требует не только анализа сигналов, но и понимания принципов, лежащих в основе организации мозга в целом. Задача не в том, чтобы найти «код» речи, а в том, чтобы понять, как мозг строит реальность. И, как и в любом сложном градостроительном проекте, здесь важно помнить: элегантность рождается из простоты и ясности.

Оригинал статьи: https://arxiv.org/pdf/2602.22597.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-02 03:44