Мозг в коде: новая модель для симуляции работы мозга

Автор: Денис Аветисян

Ученые разработали универсальную модель, способную предсказывать реакцию мозга на звук, видео и язык, открывая новые возможности для изучения сознания и проведения виртуальных экспериментов.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"

Функциональная магнитно-резонансная томография (фМРТ) мозга здоровых добровольцев, регистрирующая активность при восприятии как естественных стимулов (фильмы, подкасты), так и экспериментальных (вспышки объектов, отдельные слова), послужила основой для обучения модели TRIBE v2, способной предсказывать высокоразрешающие фМРТ-сигналы на основе аудио-, видео- и текстовых данных, используя эмбеддинги из предварительно обученных моделей искусственного интеллекта, что позволяет реконструировать среднюю мозговую активность (на примере ответа на фрагмент фильма) непосредственно из входных стимулов.

Представлена TRIBE v2 — тримодальная основа для моделирования активности коры головного мозга, способная к обобщению и проведению ин-силика экспериментов.

Фрагментация когнитивных нейронаук, обусловленная специализацией моделей на отдельных парадигмах, препятствует созданию единой модели когнитивных процессов в мозге человека. В настоящей работе, посвященной созданию фундаментальной модели для исследований в области нейронаук — ‘A foundation model of vision, audition, and language for in-silico neuroscience’, представлена TRIBE v2 — тримодальная (видео, аудио и язык) модель, способная предсказывать активность мозга человека в различных естественных и экспериментальных условиях. Данная модель, обученная на обширном наборе данных фМРТ, включающем более 1000 часов активности 720 испытуемых, демонстрирует превосходство над традиционными линейными моделями кодирования и позволяет проводить ин-сико эксперименты, воспроизводя результаты десятилетий эмпирических исследований. Способна ли TRIBE v2 стать унифицирующей платформой для изучения функциональной организации человеческого мозга и открывать новые горизонты в понимании когнитивных процессов?

За пределами усреднения: Индивидуальность в нейронных сетях

Традиционный анализ функциональной магнитно-резонансной томографии (фМРТ) часто опирается на усредненные групповые реакции, что приводит к сокрытию индивидуальных особенностей мозговой активности и снижает прогностическую ценность исследований. Такой подход предполагает, что мозг всех испытуемых функционирует одинаково, игнорируя значительные различия в нейронных процессах, которые могут существовать между отдельными людьми. В результате, усредненные данные могут маскировать важные детали, связанные с конкретным индивидуумом, и приводить к неточным выводам о том, как мозг обрабатывает информацию или реагирует на различные стимулы. Более того, эта практика ограничивает способность выявлять тонкие, но значимые различия в мозговой активности, которые могут быть ключевыми для понимания когнитивных процессов и разработки персонализированных методов лечения.

Традиционный анализ фМРТ часто рассматривает мозг как единую, однородную структуру, игнорируя значительные различия в нейронной активности между отдельными индивидуумами. Такой подход предполагает, что универсальные паттерны мозговой деятельности существуют для всей популяции, что является упрощением сложной биологической реальности. На самом деле, индивидуальные особенности — генетические предрасположенности, жизненный опыт, даже текущее состояние — оказывают существенное влияние на то, как мозг обрабатывает информацию. Игнорирование этого разнообразия приводит к усредненным результатам, которые могут скрывать важные детали и снижать точность прогнозирования, поскольку уникальные характеристики каждого мозга остаются невыявленными и не учитываются при интерпретации данных. Более современные методы, стремящиеся к анализу индивидуальных траекторий нейронной активности, обещают более полное и точное понимание работы мозга.

Традиционные методы анализа фМРТ, такие как линейная регрессия, часто оказываются недостаточными для адекватного моделирования сложной работы мозга. Ограниченность этих подходов связана с упрощенным представлением нейронной активности и неспособностью улавливать тонкие, индивидуальные различия в обработке информации. В результате, прогностическая сила этих моделей, измеряемая показателем кодирования, обычно не превышает 0.2, что указывает на существенные потери информации и неполное понимание механизмов, лежащих в основе когнитивных процессов. Это подчеркивает необходимость разработки более сложных и чувствительных методов анализа, способных учитывать вариабельность и динамику нейронных сетей для повышения точности прогнозов и углубления знаний о мозге.

Модель TRIBE v2 демонстрирует высокую точность предсказания fMRI-активности во всех областях мозга, что подтверждается высокими показателями кодирования как в коре (включая области, определенные HCP), так и в подкорковых структурах, а также масштабируемостью точности с увеличением объема обучающих данных.

TRIBE v2: Многомодальный фундамент для декодирования индивидуального мозга

TRIBE v2 представляет собой новую модель глубокого обучения, разработанную для предсказания реакций функциональной магнитно-резонансной томографии (фМРТ) на естественные стимулы — аудио, видео и текст. В отличие от предыдущих моделей, TRIBE v2 способна обрабатывать и интегрировать информацию из различных модальностей, что позволяет ей более точно моделировать нейронные процессы, происходящие при восприятии комплексных сенсорных данных. Модель предназначена для использования в исследованиях, направленных на декодирование когнитивных состояний и процессов на основе данных нейровизуализации.

Модель TRIBE v2 использует мультимодальную интеграцию для создания комплексного представления активности мозга. Это достигается путем объединения признаков, извлеченных из различных модальностей стимулов — аудио, видео и текста. Вместо обработки каждой модальности отдельно, TRIBE v2 комбинирует их представления, что позволяет модели учитывать взаимосвязи между различными типами стимулов и более точно предсказывать реакцию мозга. Такой подход позволяет захватить более полную картину сенсорной информации, поступающей в мозг, и улучшить точность декодирования нейронной активности.

Модель TRIBE v2 использует архитектуру Transformer Encoder для обработки последовательных данных, что позволяет улавливать сложные взаимосвязи как внутри отдельных модальностей стимулов (аудио, видео, текст), так и между ними. Применение Transformer Encoder обеспечивает эффективное моделирование временных зависимостей и контекстуальной информации, что критически важно для декодирования активности мозга. Результаты показывают, что показатели кодирования (encoding scores) варьируются в диапазоне от 0.2 до 0.4, при этом конкретное значение зависит от исследуемой области коры головного мозга и используемого набора данных.

Анализ с использованием TRIBE v2 показал, что человеческий мозг мультимодально обрабатывает информацию, причем различные области коры лучше всего кодируются текстом, аудио или видео, а также их комбинациями, что демонстрируется различиями в кодировании данных в различных областях мозга и индивидуальных особенностях участников исследования.

От популяции к индивидууму: Прогнозы мозговой активности, адаптированные к личности

TRIBE v2 использует подход, основанный на индивидуальных особенностях мозга каждого испытуемого. В отличие от универсальных моделей, TRIBE v2 адаптируется к уникальным характеристикам мозговой активности конкретного человека, что достигается путем калибровки и обучения модели на данных, полученных от этого конкретного субъекта. Это позволяет модели более точно предсказывать сигналы, регистрируемые методом функциональной магнитно-резонансной томографии (фМРТ), поскольку учитываются индивидуальные различия в нейронной обработке информации. Такой подход значительно повышает точность декодирования мозговой активности и позволяет достичь более высоких результатов в задачах, связанных с нейронаукой и нейроинтерфейсами.

Модель TRIBE v2 использует извлечение признаков из аудио (Wav2Vec-Bert-2.0), видео (Video-JEPA-2-Giant) и текста (Llama-3.2-3B) для формирования комплексного входного представления. Wav2Vec-Bert-2.0 преобразует аудиосигналы в векторные представления, отражающие акустические характеристики. Video-JEPA-2-Giant выполняет аналогичную функцию для видеоданных, кодируя визуальную информацию. Llama-3.2-3B обрабатывает текстовые данные, извлекая семантические признаки и контекст. Комбинирование признаков, полученных из этих трех модальностей, обеспечивает модель богатой информацией для последующего прогнозирования активности мозга.

Модель TRIBE v2 напрямую предсказывает сигнал BOLD (blood-oxygen-level dependent) на основе мультимодальных признаков, извлеченных из аудио, видео и текста. Такой подход значительно повышает точность декодирования индивидуальных состояний мозга, что подтверждено достижением передовых результатов в соревновании Algonauts 2025. Прямое предсказание BOLD сигнала позволяет модели более эффективно соотносить внешние стимулы с нейронной активностью конкретного индивидуума, обеспечивая более детальное и точное представление о его когнитивных процессах.

Модель TRIBE v2 демонстрирует способность к обобщению на новые задачи и объекты, а также может быть дообучена на небольшом объеме данных для повышения точности индивидуальных предсказаний, что подтверждается высокой корреляцией между индивидуальными и средними реакциями мозга (<span class="katex-eq" data-katex-display="false">r</span> > 0.7) и улучшенными показателями кодирования, особенно при дообучении на части данных, как для речи, так и для видео. — Модель TRIBE v2 демонстрирует способность к обобщению на новые задачи и объекты, а также может быть дообучена на небольшом объеме данных для повышения точности индивидуальных предсказаний, что подтверждается высокой корреляцией между индивидуальными и средними реакциями мозга ( $r$ > 0.7) и улучшенными показателями кодирования, особенно при дообучении на части данных, как для речи, так и для видео.

За пределами декодирования: Новая эра в нейронауке — исследование мозга in silico

TRIBE v2 представляет собой значительный прорыв в области нейронауки, открывая новые горизонты для проведения экспериментов непосредственно в цифровой среде. Данная платформа позволяет исследователям моделировать активность мозга с беспрецедентной точностью, создавая виртуальные аналоги, на которых можно тестировать различные гипотезы без необходимости проведения сложных и дорогостоящих физиологических исследований. Возможность симулировать нейронные процессы в контролируемых условиях позволяет глубоко изучать механизмы работы мозга, прогнозировать реакции на различные стимулы и разрабатывать новые подходы к лечению неврологических заболеваний. Благодаря TRIBE v2, изучение когнитивных функций и нейронных основ поведения становится более эффективным и доступным, что способствует более быстрому прогрессу в понимании сложнейшей системы, которой является человеческий мозг.

Благодаря внедрению фреймворка Индивидуального Картографирования Мозга (IBC), исследователи получили возможность проводить виртуальные эксперименты непосредственно на моделях индивидуальных мозгов. Этот подход кардинально обходит ограничения, свойственные традиционным методам нейронауки, такие как сложность получения данных от живых испытуемых и этические вопросы, связанные с инвазивными исследованиями. IBC позволяет создавать цифровые двойники мозга, учитывающие уникальные особенности нейронных сетей каждого индивидуума, что открывает перспективы для персонализированной диагностики и разработки терапевтических стратегий. Использование виртуальных экспериментов существенно ускоряет процесс проверки гипотез и позволяет исследовать сложные когнитивные процессы с беспрецедентной точностью и контролем.

Модель демонстрирует впечатляющую способность предсказывать реакции мозга, открывая новые возможности для изучения когнитивных процессов и нейронных основ поведения. Уточнение параметров модели, или «файнтьюнинг», приводит к двукратному, а в некоторых случаях и четырехкратному увеличению показателей кодирования по сравнению с результатами, полученными без предварительной настройки. Это означает, что модель не просто регистрирует активность мозга, но и способна с высокой точностью интерпретировать и предсказывать его реакции на различные стимулы, что позволяет исследователям более глубоко понимать механизмы работы сознания и поведения, а также разрабатывать новые подходы к диагностике и лечению неврологических расстройств.

Модель TRIBE v2 успешно воспроизводит результаты исследований в области визуальной нейронауки, демонстрируя высокую корреляцию между предсказанными и фактическими паттернами мозговой активности, что подтверждается анализом данных из Individual Brain Charting (IBC) и согласованием с результатами, полученными на уровне отдельных участков коры головного мозга <span class="katex-eq" data-katex-display="false"> (r>0.5) </span>. — Модель TRIBE v2 успешно воспроизводит результаты исследований в области визуальной нейронауки, демонстрируя высокую корреляцию между предсказанными и фактическими паттернами мозговой активности, что подтверждается анализом данных из Individual Brain Charting (IBC) и согласованием с результатами, полученными на уровне отдельных участков коры головного мозга $(r>0.5)$ .

Заглядывая в будущее: Прогнозирование как основа нейронауки

Будущие исследования сосредоточены на усилении прогностических возможностей TRIBE v2 и изучении его потенциала в области персонализированной нейронауки. Разработчики стремятся не просто декодировать текущую активность мозга, но и предсказывать его будущие состояния, что открывает перспективы для создания индивидуальных моделей работы мозга. Улучшение алгоритмов прогнозирования позволит более точно понимать, как различные стимулы и задачи влияют на конкретного человека, а также выявлять ранние признаки неврологических расстройств на основе отклонений от персональной нормы. Такой подход обещает революцию в диагностике и терапии, позволяя разрабатывать индивидуальные стратегии лечения, учитывающие уникальные особенности каждого пациента.

Для дальнейшего повышения точности анализа мозговой активности, исследователи планируют активно использовать метод независимого компонентного анализа (ICA). Этот статистический подход позволяет разделить сложные нейронные сигналы на отдельные, независимые компоненты, каждый из которых предположительно отражает активность определенного нейронного процесса или источника. Применяя ICA к данным, полученным с помощью TRIBE v2, ученые надеются более четко выявить и интерпретировать лежащие в основе мозговой деятельности механизмы, что, в свою очередь, позволит лучше понять взаимосвязь между нейронными процессами и когнитивными функциями. Такой подход открывает перспективы для более глубокого анализа работы мозга и выявления тонких изменений, связанных с различными состояниями и заболеваниями.

Технология, основанная на расшифровке и прогнозировании активности мозга, обладает потенциалом кардинально изменить подход к пониманию и лечению неврологических расстройств. Мультимодальное кодирование, объединяющее различные типы данных о мозге, демонстрирует значительное повышение точности — до 50% в таких критических областях, как височно-теменно-затылочный переход, что открывает новые возможности для ранней диагностики и разработки персонализированных терапевтических стратегий. Эта инновация позволяет не только выявлять отклонения от нормы, но и предсказывать развитие заболеваний, создавая основу для превентивных мер и более эффективного лечения, направленного на восстановление нарушенных функций мозга.

Независимый компонентный анализ (ICA) демонстрирует, что TRIBE v2 выявляет паттерны, релевантные для нейронауки, коррелирующие с известными функциональными сетями мозга.

Исследование, представленное в данной работе, демонстрирует, что TRIBE v2 — это не просто модель, а скорее растущая экосистема понимания человеческого мозга. Авторы не стремились построить идеальную систему декодирования, а создали основу, способную адаптироваться и развиваться, предсказывая реакции коры на разнообразные стимулы. Это соответствует убеждению, что контроль над сложными системами — иллюзия, требующая постоянной поддержки и адаптации. Как заметил Фридрих Ницше: «Тот, кто сражается с чудовищами, должен следить, чтобы самому не стать чудовищем». Подобно этому, разработчики моделей должны помнить о потенциальных искажениях и непредвиденных последствиях, возникающих при попытке «прочесть» мозг.

Что дальше?

Представленная работа, хоть и демонстрирует впечатляющую способность модели TRIBE v2 к предсказанию кортикальных ответов, лишь обнажает глубину нерешенных вопросов. Архитектура, стремясь к универсальности, неминуемо создает новые точки отказа. Модель предсказывает ответы, но не понимает причинности. Разделение данных на модальности — удобство для разработчика, иллюзия разделения в самой системе. Каждая добавленная связь, каждое усложнение — пророчество о будущем сбое, о синхронном падении, когда неочевидная зависимость проявится в самый неподходящий момент.

Следующий этап неизбежно потребует перехода от простого предсказания к моделированию механизмов. Недостаточно знать, что происходит в коре; необходимо понять, почему. И здесь кроется парадокс: стремление к детализации неизбежно ведет к усложнению, а усложнение — к большей хрупкости. Система становится всё более сложной, но не более устойчивой.

Попытки масштабировать модель на всё большее количество данных и субъектов — лишь откладывают неизбежное. Все взаимосвязанное когда-нибудь упадёт синхронно. Задача заключается не в создании идеальной модели мозга, а в понимании пределов моделирования, в признании того, что некоторые аспекты сложной системы принципиально непредсказуемы.

Оригинал статьи: https://arxiv.org/pdf/2605.04326.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-05-07 12:21