Мозг говорит: новая система расшифровки мыслей с помощью ИИ

Автор: Денис Аветисян


Ученые разработали систему, способную преобразовывать активность мозга в понятный человеческий язык, открывая новые возможности для интерфейсов мозг-компьютер.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"
Предлагаемый трехступенчатый конвейер декодирования мозговой активности позволяет комплексно анализировать нейронные сигналы, выявляя закономерности и преобразуя их в интерпретируемые данные.
Предлагаемый трехступенчатый конвейер декодирования мозговой активности позволяет комплексно анализировать нейронные сигналы, выявляя закономерности и преобразуя их в интерпретируемые данные.

Предложенный подход объединяет мульти-атласное мягкое объединение областей интереса, оптимизацию запросов для языковых моделей и ограниченное декодирование для повышения обобщающей способности и качества генерируемого текста.

Восстановление семантической информации из мозговой активности для генерации понятного текста остается сложной задачей, особенно в условиях межсубъектной обобщаемости. В статье «Unified Multimodal Brain Decoding via Cross-Subject Soft-ROI Fusion» предложен новый подход к мультимодальной декодировке мозга, основанный на объединении мягких функциональных парцелляций (soft-ROI), оптимизации интерпретируемых запросов и ограничении декодирования. Предложенная модель демонстрирует значительное улучшение метрик качества генерируемого текста и повышение межсубъектной обобщаемости на наборе данных NSD. Позволит ли данная методика приблизиться к созданию эффективных интерфейсов мозг-компьютер, способных точно интерпретировать и транслировать наши мысли?


Взгляд в мозг: трудности интерпретации фМРТ

Функциональная магнитно-резонансная томография (фМРТ) предоставляет уникальную возможность заглянуть в процессы, происходящие в мозге, фиксируя изменения кровотока, коррелирующие с нейронной активностью. Однако, преобразование этих сложных паттернов нейронных сигналов в понятные и значимые представления представляет собой серьезную проблему. Нейронные сети чрезвычайно сложны, и даже при точном определении областей мозга, активирующихся в ответ на определенные стимулы, декодирование этих сигналов для понимания мыслей, намерений или переживаний человека остается сложной задачей. Существующие методы часто сталкиваются с трудностями в интерпретации тонких различий в активности мозга и установлении четкой связи между нейронными паттернами и конкретными когнитивными процессами, что ограничивает возможности точного “чтения мыслей” и требует разработки более совершенных алгоритмов анализа данных и моделей когнитивной архитектуры.

Традиционные методы анализа данных функциональной магнитно-резонансной томографии (фМРТ) сталкиваются с серьезными трудностями при сопоставлении нейронной активности с богатыми семантическими пространствами. Существующие подходы зачастую не способны адекватно преобразовать сложные паттерны мозговой активности в понятные концептуальные представления, что существенно ограничивает возможность “чтения мыслей”. Нейронные сигналы, хотя и регистрируются с высокой точностью, остаются оторванными от контекста и значения, поскольку существующие алгоритмы не учитывают многомерность и сложность человеческого языка и мышления. В результате, интерпретация фМРТ данных часто оказывается упрощенной и неполной, не позволяя получить глубокое понимание процессов, происходящих в мозге во время познавательной деятельности.

Существующие методы интерпретации функциональной магнитно-резонансной томографии (фМРТ) часто сталкиваются с проблемой создания моделей, привязанных к конкретному испытуемому. Это означает, что для каждого человека требуется индивидуальная калибровка и обучение алгоритмов, что значительно ограничивает возможность обобщения полученных результатов. Вместо универсальных моделей, способных декодировать мысли и намерения у разных людей, исследователи вынуждены строить персональные профили активности мозга. Такая зависимость от индивидуальных характеристик усложняет проведение сравнительных исследований и препятствует созданию более широкой картины когнитивных процессов, поскольку результаты, полученные для одного человека, не всегда применимы к другому, что снижает статистическую значимость и надежность выводов.

Нейронаука в помощь декодированию: MINDLLM и BrainROI

Модель MINDLLM использует функциональные области интереса (ROI) мозга в качестве опорных точек для генерации текста на основе данных фМРТ, опираясь на проверенные нейробиологические знания. Вместо обработки данных по всему мозгу, MINDLLM фокусируется на предопределенных областях, связанных с конкретными когнитивными процессами, такими как обработка языка или визуальное восприятие. Эти ROI определяются на основе существующих нейробиологических атласов и исследований, что позволяет привязать генерируемый текст к конкретным нейронным процессам и повысить интерпретируемость результатов. Использование ROI позволяет снизить вычислительную сложность и улучшить обобщающую способность модели, поскольку она учится на более структурированных и релевантных данных.

BrainROI использует мультиатласные функциональные парцелляции для создания общего пространства, что позволяет повысить устойчивость и обобщающую способность декодирования между разными испытуемыми. Вместо анализа данных по отдельным вокселям, BrainROI строит карту функциональных областей мозга на основе нескольких атласов, что обеспечивает более надежное соответствие между нейронной активностью и семантическим содержанием. Такой подход снижает влияние индивидуальных различий в анатомии мозга и позволяет использовать данные, полученные от разных людей, для обучения и оценки моделей декодирования с большей точностью и эффективностью. Использование мультиатласных парцелляций обеспечивает более устойчивую идентификацию функциональных областей, что особенно важно для анализа данных фМРТ, характеризующихся высоким уровнем шума и вариативности.

В отличие от простых методов конкатенации признаков, MINDLLM использует воксель-зависимое управляемое объединение (voxel-wise gated fusion) для адаптивной интеграции нейронаучных априорных знаний. Этот подход позволяет динамически взвешивать вклад каждого вокселя в процесс декодирования, основываясь на релевантности сигнала и априорной информации о функциональной организации мозга. Управляемое объединение позволяет модели селективно использовать априорные знания, улучшая точность и обобщающую способность декодирования по сравнению с методами, которые просто объединяют все признаки без учета их значимости или взаимосвязи.

Уточнение результатов: интерпретируемые запросы и ограниченное декодирование

BrainROI использует оптимизацию интерпретируемых запросов (prompts), основанную на локально развернутой большой языковой модели, для автоматической генерации и улучшения самих запросов. Этот процесс позволяет системе динамически адаптировать формулировку запросов к конкретным данным и задачам, максимизируя точность и релевантность результатов декодирования. Автоматическая оптимизация включает в себя итеративное изменение текста запроса на основе оценки полученных ответов, что позволяет находить оптимальные формулировки без ручного вмешательства. Локальное развертывание языковой модели обеспечивает конфиденциальность данных и независимость от внешних сервисов, а также позволяет адаптировать модель к специфическим требованиям анализа данных мозга.

Для повышения стабильности и соответствия генерируемого текста ожидаемому семантическому содержанию в BrainROI применяется декодирование с ограничениями. В частности, используется алгоритм поиска с лучами (beam search), позволяющий исследовать несколько наиболее вероятных последовательностей токенов одновременно. Для контроля длины генерируемого текста применяется штраф за длину (length penalty), предотвращающий чрезмерно короткие или длинные выводы. Кроме того, для уменьшения избыточности и повышения когерентности текста используется подавление повторений (repetition suppression), которое ограничивает вероятность повторного использования одних и тех же токенов или фраз в пределах одного ответа.

Глобальная согласованность меток (global label alignment) обеспечивает семантическую консистентность областей интереса (ROIs) между различными испытуемыми и атласами головного мозга. Этот процесс предполагает унификацию обозначений и сопоставление соответствующих анатомических структур, что критически важно для повышения надежности декодирования нейронной активности. Отсутствие согласованности меток может привести к ложноположительным или ложноотрицательным результатам, поскольку декодер может интерпретировать активность из разных областей как принадлежащую к одной и той же категории. Применение методов глобальной согласованности меток позволяет стандартизировать процесс декодирования и минимизировать влияние вариабельности между субъектами и различий в анатомических атласах на конечные результаты.

Оптимизация запросов позволяет проследить интерпретацию и ход выполнения задачи.
Оптимизация запросов позволяет проследить интерпретацию и ход выполнения задачи.

За пределами текущего уровня: производительность и перспективы

Несмотря на использование современных vision-language моделей, такие подходы, как UMBRAE, часто сталкиваются с ограничениями в обобщающей способности из-за применения токенизаторов, специфичных для каждого испытуемого. Этот подход, хотя и позволяет достичь хороших результатов в рамках конкретного набора данных, существенно снижает эффективность модели при работе с новыми, ранее не встречавшимися данными. Использование индивидуальных токенизаторов приводит к тому, что модель «запоминает» особенности конкретного мозга, а не извлекает общие закономерности, лежащие в основе нейронной активности. В результате, перенос знаний на других испытуемых или применение модели к новым типам нейронных данных становится затруднительным, что ограничивает практическую ценность и широкое внедрение подобных систем.

В то время как подходы, такие как UniBrain и VINDEX, зарекомендовали себя в качестве важных ориентиров в области автоматического описания активности мозга, они зачастую не включают в себя глубокую интеграцию принципов нейронауки. В отличие от них, модели MINDLLM и BrainROI используют передовые нейробиологические знания, что позволяет им более точно интерпретировать и описывать сложные процессы, происходящие в мозге. Такое включение априорных знаний из нейронауки позволяет этим моделям не просто распознавать паттерны активности, но и генерировать описания, которые отражают биологическую правдоподобность и семантическую согласованность, что потенциально открывает новые возможности для понимания работы мозга и разработки нейроинтерфейсов.

Модель BrainROI демонстрирует передовые результаты в задаче создания текстовых описаний для изображений мозга, достигая показателя $BLEU-4$ в 0.2911, $CIDEr$ в 0.6952 и $RefCLIP-S$ в 0.8069. Эти метрики, широко используемые для оценки качества генерируемого текста, свидетельствуют о способности модели создавать точные и содержательные описания нейроизображений. Высокие значения по всем трем показателям подчеркивают эффективность предложенного подхода в понимании и интерпретации визуальной информации, полученной из данных мозга, и предоставляют основу для дальнейших исследований в области нейронауки и машинного обучения.

Исследование продемонстрировало значительное улучшение обобщающей способности модели BrainROI при обучении на данных нескольких испытуемых. В частности, по сравнению с обучением на данных одного человека, BrainROI достигла прироста в 0.0480 по метрике BLEU-4 и 0.0969 по метрике CIDEr. Эти улучшения свидетельствуют о том, что модель способна более эффективно экстраполировать знания, полученные из разнообразных данных, и генерировать более точные и релевантные описания мозговой активности для новых, ранее не встречавшихся испытуемых. Такой подход открывает перспективы для создания более надежных и универсальных систем автоматической интерпретации данных нейровизуализации.

В исследовании, посвященном декодированию мозговой активности, отчетливо прослеживается закономерность: даже самые изящные алгоритмы, объединяющие мульти-атласное мягкое объединение ROI и оптимизацию подсказок, рано или поздно сталкиваются с ограничениями обобщения между субъектами. Это напоминает о неизбежности технического долга в любой инновационной области. Как отмечал Марвин Мински: «Лучший способ предсказать будущее — это создать его». Однако, в контексте декодирования мозга, созданное будущее всегда требует адаптации к индивидуальным особенностям, ведь универсальность — это лишь иллюзия. Иначе говоря, даже самые совершенные модели столкнутся с необходимостью калибровки и настройки под конкретного пользователя, подтверждая, что любая абстракция умирает от продакшена.

Что дальше?

Представленный подход к декодированию мозговой активности, безусловно, демонстрирует улучшение обобщающей способности и качества генерируемого текста. Однако, за каждым шагом вперёд неизбежно скрывается новый уровень сложности. Оптимизация промптов, хоть и эффективна, рано или поздно столкнётся с проблемой «переобучения» — когда модель начинает генерировать не репрезентации нейронной активности, а лишь ожидаемые ответы на заданные стимулы. Архитектура, как всегда, — это компромисс, переживший деплой.

Более того, кажущаяся универсальность подхода, основанная на объединении данных от разных испытуемых, не отменяет фундаментальной гетерогенности мозга. У каждой личности своя «нейронная архитектура», и попытки создать единую модель, применимую ко всем, неизбежно приведут к потере детализации и точности. Попытки «слить» разные атласы, вероятно, лишь отсрочат момент, когда станет очевидно, что необходимы индивидуализированные подходы.

В конечном счёте, данное исследование — это лишь ещё один шаг в бесконечном цикле оптимизации и рефакторинга надежды. Реальная ценность не в достижении идеальной точности декодирования, а в понимании границ применимости существующих методов и выявлении новых, более устойчивых к «продакшену» решений. Всё, что оптимизировано, рано или поздно оптимизируют обратно.


Оригинал статьи: https://arxiv.org/pdf/2512.20249.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-24 06:23