Автор: Денис Аветисян
Новое исследование показывает, что замена текстовых данных визуальными существенно ухудшает способность моделей искусственного интеллекта удерживать информацию в рабочей памяти.
Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.
Купить акции "голубых фишек"
Эксперименты с пространственной задачей n-back на визуально-языковых моделях выявили влияние кодирования представлений на стратегии, используемые в задачах рабочей памяти.
Несмотря на успехи мультимодальных моделей, вопрос о том, насколько эффективно визуальная информация может заменить текстовую в задачах, требующих поддержания информации во времени, остается открытым. В работе «Can Vision Replace Text in Working Memory? Evidence from Spatial n-Back in Vision-Language Models» исследованы возможности моделей Qwen2.5 и Qwen2.5-VL в решении пространственной задачи n-back с использованием как текстовых, так и визуальных стимулов. Полученные результаты демонстрируют, что производительность моделей в задаче значительно снижается при переходе от текстового представления к визуальному, указывая на разницу в вычислительных стратегиях, используемых для кодирования и удержания информации. Каким образом различные репрезентационные коды влияют на механизмы рабочей памяти в мультимодальных моделях и какие архитектурные решения могут повысить эффективность обработки визуальной информации?
Рабочая память: Основа когнитивного контроля
Эффективная когнитивная деятельность в значительной степени зависит от рабочей памяти — системы, обеспечивающей временное хранение и манипулирование информацией. В отличие от долговременной памяти, предназначенной для хранения обширного объема знаний, рабочая память выступает в роли своеобразного «черновика», где происходит активная обработка данных, необходимых для выполнения текущих задач. Эта система позволяет удерживать в уме ограниченное количество информации, например, последовательность цифр или набор инструкций, и одновременно оперировать с ней, комбинировать, изменять и использовать для принятия решений. По сути, рабочая память является «оперативной памятью» мозга, обеспечивающей гибкость и адаптивность мышления, а также позволяющей эффективно решать проблемы и планировать действия.
Рабочая память играет ключевую роль в выполнении сложных задач, требующих постоянного обновления информации. Этот когнитивный механизм не просто удерживает данные, но и активно манипулирует ими, интегрируя новую информацию с уже существующей. Особенно важна способность рабочей памяти связывать данные во времени — устанавливать последовательность событий и использовать её для прогнозирования и принятия решений. Более того, она обладает устойчивостью к помехам, позволяя концентрироваться на текущей задаче, несмотря на отвлекающие факторы и конкурирующие стимулы. Эффективность этих процессов определяет способность человека к планированию, рассуждению и адаптации к меняющимся обстоятельствам, что делает рабочую память фундаментальным компонентом интеллектуальной деятельности.
Понимание механизмов рабочей памяти является основополагающим для создания адекватных моделей человеческого познания и разработки интеллектуальных систем. Исследования в этой области позволяют не только глубже понять, как мозг временно хранит и обрабатывает информацию, но и воспроизвести эти процессы в искусственном интеллекте. Создание алгоритмов, имитирующих способность к удержанию и манипулированию информацией, открывает перспективы для создания более эффективных систем машинного обучения, способных к решению сложных задач, требующих гибкости и адаптации. Более того, изучение нейронных основ рабочей памяти может пролить свет на когнитивные нарушения, связанные с её дисфункцией, и способствовать разработке новых методов диагностики и лечения.
Проверка рабочей памяти с помощью пространственной задачи N-Back
Пространственная задача N-Back является широко распространенным методом оценки рабочей памяти (WM) и когнитивного контроля. Она основана на предъявлении участникам последовательности стимулов и требует от них указания на совпадения со стимулом, представленным ‘n’ шагов ранее в этой последовательности. Эффективность рабочей памяти оценивается по точности и скорости реакции, при этом задача активирует процессы поддержания информации в краткосрочной памяти, манипулирования ею и подавления интерференции. Благодаря своей относительной простоте и чувствительности к изменениям когнитивных функций, задача N-Back активно используется в когнитивных исследованиях, нейропсихологической диагностике и для оценки эффективности когнитивных тренингов.
В задаче N-Back участникам предлагается последовательность стимулов, и они должны определить, совпадает ли текущий стимул со стимулом, представленным n шагов назад в той же последовательности. Это требует поддержания и постоянного обновления информации в рабочей памяти, а также непрерывного внимания для отслеживания текущей позиции в последовательности и сравнения стимулов. Успешное выполнение требует не только удержания информации, но и способности оперативно обновлять ее, исключая устаревшие данные и интегрируя новую информацию по мере поступления.
Эффективность выполнения задания Spatial N-Back подвержена влиянию таких факторов, как размер сетки и эффект проактивных интерференций. Исследования показывают, что увеличение размера сетки приводит к снижению точности ответов и увеличению времени реакции, поскольку возрастает когнитивная нагрузка, связанная с поиском и удержанием информации. Проактивные интерференции, возникающие из-за сохранения в рабочей памяти информации из предыдущих шагов, также снижают производительность. При этом, наблюдаются существенные различия в результатах между текстовыми и графическими представлениями сетки: графические сетки, как правило, демонстрируют более высокую точность и скорость реакции, предположительно из-за лучшего визуального кодирования и более эффективного использования ресурсов рабочей памяти.

Количественная оценка: Точность, чувствительность и за её пределами
В исследовании была проведена оценка производительности модели с использованием метрики точности (Accuracy) как базового показателя. Результаты демонстрируют существенное снижение точности в условиях vision-grid по сравнению с text-grid. В частности, наблюдалось, что точность выполнения задачи снижается при использовании визуальных стимулов в сетке, что указывает на сложность для модели в обработке визуальной информации в данном формате. Данное различие подчеркивает необходимость использования более детализированных метрик для оценки производительности, особенно когда условия предъявления информации различаются.
В отличие от метрики точности, показатели чувствительности (d’) и площадь под ROC-кривой (AUC) обеспечивают более надежную оценку способности различения, не зависящую от предвзятости ответов. Исследование показало, что способность различения (d’) резко снижается с увеличением когнитивной нагрузки: переход от задачи 1-back к задачам 2/3-back приводит к значительному ухудшению этого показателя. Это указывает на то, что при повышении требований к рабочей памяти способность модели эффективно отделять релевантную информацию от нерелевантной существенно снижается, что отражается в уменьшении значения d’.
Оценка соответствия (Match Evidence Score) является важным компонентом при вычислении площади под ROC-кривой (AUC), отражая уверенность модели в идентификации корректных совпадений. Данный показатель используется для количественной оценки способности модели различать правильные и неправильные ответы. Результаты исследования показали, что значение AUC снижается до уровня, близкого к случайному, при увеличении когнитивной нагрузки (от задачи 1-back до 2/3-back), что указывает на снижение способности модели к надежному определению соответствий в условиях повышенной сложности.

Роль временной привязки и интерференции
Успешное выполнение задания N-Back напрямую зависит от эффективности временной привязки, или способности мозга ассоциировать стимулы с их положением в последовательности событий. Этот когнитивный процесс позволяет удерживать информацию о недавних стимулах и сравнивать ее с текущим, определяя, является ли текущий стимул повторением предыдущего, находящегося на определенном расстоянии в прошлом. Эффективная временная привязка требует поддержания временного контекста, то есть, способности не просто запомнить стимул, но и помнить, когда он был представлен. Нарушения в этой области могут приводить к снижению рабочей памяти и трудностям в выполнении задач, требующих отслеживания последовательности событий и выявления повторений, что делает временную привязку ключевым компонентом когнитивной гибкости и адаптации.
Проактивная интерференция, возникающая из-за сохранения информации о предыдущих стимулах, может существенно затруднять выполнение когнитивных задач, таких как N-Back. Особенно выражен этот эффект при повторении стимулов в ближайшем прошлом — так называемые “Recent Repeats”. Исследования показывают, что частота ложных срабатываний (lure rate) снижается по мере увеличения размера сетки, в которой происходит стимуляция. Это говорит о том, что расширение рабочей памяти и увеличение объема информации, которую необходимо обработать, может ослабить влияние старой информации и улучшить способность различать текущий стимул от предыдущих, тем самым уменьшая количество ошибок, вызванных интерференцией.
В ходе выполнения задач на рабочую память, таких как N-Back, широко распространена эвристика сравнения по недавней памяти. Данный подход позволяет снизить влияние интерференции, возникающей из-за ранее представленной информации, однако ограничивает глубину анализа временного контекста. Исследования показали, что максимальное значение площади под кривой (AUC) достигается при лаге в 1 единицу времени, что указывает на преобладание сравнения с самым недавним стимулом. При этом, в задачах с сеткой 3×3, медианный процент совпадений составляет 0%, демонстрируя, что участники практически не используют информацию из более отдаленного прошлого для принятия решений. Таким образом, хотя сравнение по недавней памяти эффективно для снижения интерференции, оно может приводить к упущению важных деталей из более широкого временного контекста, что влияет на общую точность выполнения задачи.

Исследование демонстрирует, что замена текстовых представлений визуальными в задаче n-back приводит к существенному снижению производительности у моделей, работающих с визуальным и текстовым контентом. Этот результат указывает на то, что кодирование информации влияет на вычислительные стратегии, используемые в задачах рабочей памяти. Как однажды заметил Алан Тьюринг: «Иногда люди, у которых нет воображения, способны к логическому мышлению, но у них нет ни одного из двух». Данное наблюдение перекликается с тем, как модели обрабатывают информацию: изменение способа представления данных, от текста к визуальному, нарушает привычные логические цепочки и снижает эффективность выполнения задачи, подчеркивая важность согласованности и типа кодирования для успешной работы с рабочей памятью.
Куда дальше?
Наблюдаемое снижение эффективности моделей при замене текстовых представлений на визуальные в задаче n-back заставляет задуматься не столько о “рабочей памяти” как таковой, сколько о природе кодирования информации. Очевидно, что само представление — не просто контейнер данных, но и активный участник процесса обработки. Упрощенное понимание “рабочей памяти” как буфера для удержания информации явно недостаточно. Более того, провал при переходе к визуальным данным указывает на то, что существующие модели, возможно, используют текстовые представления не для семантического понимания, а как удобный, но хрупкий, способ организации вычислительных шагов.
Дальнейшие исследования должны сосредоточиться на выяснении, что именно в текстовом коде позволяет модели поддерживать последовательность операций в задаче n-back. Необходимо исследовать, можно ли создать визуальные представления, которые будут столь же эффективны, не копируя структуру текстовых данных, а используя принципиально иные методы организации информации. Особенно интересно было бы увидеть эксперименты с моделями, использующими представления, вдохновленные принципами работы человеческого мозга — например, разреженные представления или нейронные ансамбли.
В конечном итоге, задача заключается не в том, чтобы заставить модель “запоминать” больше, а в том, чтобы понять, как она организует свои вычисления. Именно в этом понимании и кроется ключ к созданию действительно интеллектуальных систем. Ведь, как известно, хаос рождает понимание быстрее, чем документация, и именно в этом парадоксе и заключается вся соль научного поиска.
Оригинал статьи: https://arxiv.org/pdf/2602.04355.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- CSAM используя стримера ‘Lacari’ пойман с поличным … Microsoft Notepad — опубликовал извинения и отрицание после получения перманентного бана.
- Российский рынок акций: рост золота и зерна поддерживают позитивный тренд (31.01.2026 10:32)
- Российский рынок: между санкциями, геополитикой и ростом ВТБ – что ждать инвесторам? (03.02.2026 02:32)
- Неважно, на что вы фотографируете!
- Сургутнефтегаз акции привилегированные прогноз. Цена SNGSP
- Лучшие смартфоны. Что купить в феврале 2026.
- Калькулятор глубины резкости. Как рассчитать ГРИП.
- Новые смартфоны. Что купить в феврале 2026.
- Прогноз курса доллара к рублю на 2026 год
- uBlock Origin перестал работать в Microsoft Edge — вот как это исправить.
2026-02-05 19:43