Ожившие диалоги: новая модель ViBES для реалистичных 3D-агентов

Автор: Денис Аветисян


Исследователи представили ViBES — инновационную систему, позволяющую создавать 3D-агентов, способных к естественному общению и выразительному невербальному поведению.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"
Исследование демонстрирует возможность управления генерацией видео с помощью трехмерных моделей движений головы, где полученные данные служат поведенческим условием для коммерческой модели генерации видео (Runway AI), что позволяет создавать реалистичные видео с говорящими аватарами.
Исследование демонстрирует возможность управления генерацией видео с помощью трехмерных моделей движений головы, где полученные данные служат поведенческим условием для коммерческой модели генерации видео (Runway AI), что позволяет создавать реалистичные видео с говорящими аватарами.

ViBES объединяет возможности генеративного искусственного интеллекта и мультимодального обучения для создания реалистичных 3D-агентов, способных синхронизировать речь, язык и движения тела.

Несмотря на то, что человеческое общение по своей природе мультимодально и социально обусловлено, большинство существующих систем фокусируются на переводе речи в движение, игнорируя необходимость в осознанном выборе моментов, способов и адаптации поведения в ходе диалога. В данной работе представлена система ViBES: A Conversational Agent with Behaviorally-Intelligent 3D Virtual Body, объединяющая планирование речи и движений для создания реалистичного 3D-агента, способного к естественному взаимодействию. Ключевым нововведением является модель SLB (Speech-Language-Behavior) с архитектурой MoME, обеспечивающей синхронное выполнение речи, языка и движений. Не откроет ли это путь к созданию действительно «живых» виртуальных агентов, способных к полноценному социально-ориентированному взаимодействию?


Понимание системы: Необходимость воплощённого интеллекта

Традиционные системы искусственного интеллекта часто демонстрируют ограниченные возможности в преобразовании лингвистических команд в правдоподобное и тонкое поведение. Отсутствие воплощения — ключевое препятствие, поскольку модели, лишенные физического представления и возможности взаимодействия с миром, испытывают трудности в интерпретации и выражении неявных смыслов, эмоциональных оттенков и контекстуальных нюансов, присущих человеческому общению. В результате, даже при безупречной грамматике и логической последовательности, действия таких агентов могут казаться неестественными, скованными или попросту неадекватными ситуации, что снижает эффективность взаимодействия и ограничивает потенциал применения в различных сферах, от робототехники до виртуальной реальности.

Для создания действительно интерактивных агентов необходимы модели, способные синхронизировать речь, язык и движения. Такая интеграция не просто объединяет эти компоненты, а позволяет им функционировать как единое целое, что критически важно для достижения реалистичного и правдоподобного поведения. Исследования показывают, что согласованность между вербальным и невербальным поведением существенно влияет на восприятие и понимание со стороны человека. Если речь не подкрепляется соответствующими жестами или мимикой, взаимодействие становится неестественным и может вызывать недоверие. Поэтому разработка моделей, способных генерировать когерентные и взаимосвязанные речевые, языковые и двигательные паттерны, является ключевой задачей в области искусственного интеллекта и робототехники, открывая путь к созданию агентов, способных к полноценному и осмысленному взаимодействию с человеком.

Существующие методы генерации поведения искусственного интеллекта зачастую демонстрируют несостоятельность в создании последовательных, реалистичных и соответствующих контексту действий. Проблемой является фрагментарность подходов, где отдельные компоненты — обработка языка, планирование действий и генерация анимации — развиваются изолированно друг от друга. В результате, виртуальные агенты могут генерировать грамматически верные высказывания, но сопровождать их нелогичными или неуместными жестами и движениями, что разрушает иллюзию реалистичности и затрудняет взаимодействие. Неспособность учесть тонкие нюансы невербальной коммуникации и взаимосвязь между речью, интонацией и физическим выражением приводит к тому, что поведение агентов кажется неестественным и роботизированным, снижая степень доверия и вовлеченности со стороны пользователя.

Существенная сложность в создании искусственного интеллекта, способного к естественному взаимодействию, заключается в улавливании тонкой взаимосвязи между содержанием речи, её просодикой и соответствующими физическими проявлениями. Исследования показывают, что люди не просто воспринимают что говорится, но и как это говорится — интонация, темп, жесты и мимика неразрывно связаны со смыслом. Воссоздание этого сложного танца между словами и телом требует от моделей не просто понимания семантики, но и способности генерировать когерентные и правдоподобные невербальные сигналы, которые дополняют и усиливают речевое сообщение. Отсутствие синхронизации между этими компонентами приводит к неестественному и даже отталкивающему поведению ИИ, снижая доверие и затрудняя эффективное взаимодействие.

Наша модель генерирует более плавные и естественные движения по текстовому описанию, превосходя существующие методы, не учитывающие контекст поведения.
Наша модель генерирует более плавные и естественные движения по текстовому описанию, превосходя существующие методы, не учитывающие контекст поведения.

ViBES: Модель синтеза речи, языка и поведения

ViBES представляет собой новую модель синтеза речи, языка и поведения, построенную на архитектуре Mixture-of-Modality-Experts (MoME). Данная архитектура позволяет модели эффективно обрабатывать и объединять данные из различных модальностей — речи, текста и поведенческих сигналов — за счет использования нескольких экспертов, каждый из которых специализируется на определенной модальности или их комбинации. MoME обеспечивает динамическую маршрутизацию входных данных к наиболее подходящим экспертам, что повышает общую производительность и позволяет генерировать согласованные мультимодальные выходные данные. В основе архитектуры лежит концепция разделения и объединения информации, что позволяет модели более эффективно использовать доступные данные и избегать перегрузки отдельными компонентами.

Модель ViBES объединяет потоки речи, языка и поведения в единую структуру, что позволяет генерировать синхронизированные мультимодальные выходные данные. Это достигается за счет совместной обработки и корреляции информации из каждого потока, обеспечивая согласованность между речью, текстовым содержанием и невербальными проявлениями поведения. Синхронизация критически важна для создания реалистичных и правдоподобных взаимодействий, поскольку позволяет модели генерировать ответы, которые соответствуют не только содержанию запроса, но и контексту и эмоциональному состоянию, выраженному в речи и поведении.

В основе модели ViBES лежит мощная языковая модель GLM-4, отвечающая за обработку и понимание текстовых входных данных. GLM-4 выполняет роль центрального модуля для интерпретации семантики текста, генерируя внутренние представления, которые затем используются для управления синтезом речи и поведения. Благодаря своей архитектуре и предварительному обучению на обширном корпусе текстов, GLM-4 обеспечивает высокую точность понимания намерений пользователя, выраженных в текстовой форме, что критически важно для генерации согласованных и релевантных мультимодальных выходных данных.

Модель ViBES использует вращательное позиционное кодирование (Rotary Positional Encoding, RoPE) для сохранения информации о временной последовательности в мультимодальных данных. В отличие от традиционных методов позиционного кодирования, RoPE применяет вращения к векторам эмбеддингов в зависимости от их позиции в последовательности. Это позволяет модели эффективно учитывать относительные позиции токенов, что критически важно для синхронизации речевых, языковых и поведенческих потоков. В частности, RoPE оперирует с векторами, применяя к ним вращения, определяемые функцией, зависящей от позиции токена. Такой подход обеспечивает сохранение информации о времени, что особенно важно при генерации последовательностей, где точная синхронизация между модальностями является ключевым требованием. Формально, вращение для токена в позиции $i$ описывается матрицей вращения, зависящей от $i$ и угла вращения, определяемого параметрами модели.

ViBES, разработанный для реалистичного диалогового поведения, также демонстрирует возможности генерации движения по текстовому описанию, что позволяет сравнить его с существующими методами.
ViBES, разработанный для реалистичного диалогового поведения, также демонстрирует возможности генерации движения по текстовому описанию, что позволяет сравнить его с существующими методами.

Обучение на данных: Реализм, основанный на Converse3D

Модель ViBES обучается на наборе данных Converse3D, представляющем собой 1000-часовой корпус данных, содержащий синхронизированные аудио-, текстовые и данные о движении. Этот набор данных обеспечивает основу для обучения модели генерации реалистичного поведения в диалоге. Синхронизация данных по времени является ключевым аспектом, позволяющим модели корректно сопоставлять речь, текст и соответствующие движения тела, что необходимо для генерации когерентных и естественных анимаций. Объем данных в 1000 часов обеспечивает достаточное количество примеров для обучения сложной модели, способной улавливать нюансы человеческого поведения.

Набор данных Converse3D создан на основе HumanML3D, крупномасштабного репозитория данных захвата движений человека. HumanML3D содержит более 30 часов многомодальных данных, включающих видеозаписи, аудио, данные захвата движений тела и лица. Он включает в себя данные, собранные с использованием нескольких камер и датчиков, что обеспечивает точное и всестороннее представление человеческих движений. Использование HumanML3D в качестве основы для Converse3D гарантирует наличие надежной и проверенной базы данных для обучения моделей генерации реалистичного поведения человека, включая жесты и мимику.

Модель ViBES использует параметрические модели SMPL-X и FLAME для представления трехмерной анимации человеческого тела и лица. SMPL-X является расширением модели SMPL, обеспечивающим более детальное и реалистичное представление человеческой формы и позы, включая поддержку одежды и аксессуаров. FLAME, в свою очередь, специализируется на моделировании лицевой анимации, позволяя генерировать реалистичные выражения лица и движения губ, синхронизированные с речью. Использование этих параметрических моделей позволяет ViBES эффективно кодировать и декодировать движения, обеспечивая плавную и реалистичную генерацию анимации на основе входных данных.

Обучение на обширном наборе данных Converse3D позволило модели ViBES достичь передовых результатов в различных бенчмарках, оценивающих качество моделирования поведения в диалоге. В частности, ViBES демонстрирует высокую производительность в задачах синтеза реалистичных «говорящих голов», генерации жестов, синхронизированных с речью, и преобразования текста в последовательность движений. Это подтверждается результатами сравнительного анализа с другими существующими моделями, где ViBES показывает лучшие или сопоставимые показатели по ключевым метрикам оценки качества генерируемых данных.

Визуализация данных Converse3D из различных источников показывает наиболее часто встречающиеся слова и темы в обсуждениях.
Визуализация данных Converse3D из различных источников показывает наиболее часто встречающиеся слова и темы в обсуждениях.

Оценка воплощённого интеллекта с помощью GPT-4o

Для оценки сгенерированных ViBES поведенческих реакций используется мультимодальный судья на основе большой языковой модели GPT-4o. Данный судья способен анализировать не только текстовое описание действия, но и визуальные компоненты, такие как движения и жесты, обеспечивая комплексную оценку качества, связности и естественности сгенерированного поведения. В отличие от традиционных метрик, опирающихся на отдельные аспекты, GPT-4o позволяет учитывать контекст и взаимосвязь между различными модальностями, что обеспечивает более объективную и всестороннюю оценку “интеллектуальности” виртуального агента и его способности к реалистичному взаимодействию.

Оценка сгенерированных действий осуществлялась посредством мультимодальной LLM-модели, основанной на GPT-4o, что позволило провести всесторонний анализ их качества, связности и естественности. Такой подход выходит за рамки простых метрик, позволяя оценить, насколько органично и правдоподобно поведение виртуального агента соотносится с заданным контекстом и выражаемыми эмоциями. Использование GPT-4o в качестве судьи позволило учесть сложные нюансы, которые трудно формализовать традиционными способами, например, плавность переходов между жестами и соответствие мимики речи. В результате, стало возможным получить более объективную и детализированную картину эффективности генерируемых действий, выявляя даже незначительные недостатки в их реализации и способствуя созданию по-настоящему реалистичных и убедительных виртуальных персонажей.

Результаты исследований демонстрируют значительное превосходство ViBES над существующими подходами в области создания виртуальных агентов. Система показала наивысший показатель соответствия содержания и движения, оцениваемый по специальному бенчмарку Content-Motion Match. Более того, ViBES достигла более низкого значения Fréchet Gesture Distance (FGD), что указывает на большую реалистичность и естественность жестов, и одновременно более высокой корреляции с ритмом (Beat Correlation), подтверждая способность системы к созданию динамичных и выразительных движений. Эти достижения позволяют говорить о существенном шаге вперед в создании виртуальных агентов, способных к более правдоподобному и убедительному взаимодействию с пользователями.

Данное достижение открывает принципиально новые перспективы в создании действительно разумных и эмпатичных виртуальных агентов. Возможность генерировать согласованные движения и действия, точно отражающие содержание, позволяет создавать цифровых персонажей, способных не только реалистично взаимодействовать с пользователем, но и демонстрировать понимание и сочувствие. Это имеет огромное значение для широкого спектра приложений — от реалистичных игровых персонажей и интерактивных тренажеров до виртуальных помощников, способных оказывать эмоциональную поддержку, и роботизированных систем, способных к более естественному и интуитивно понятному взаимодействию с человеком. Разработка подобных агентов выходит за рамки простой имитации и приближает нас к созданию искусственного интеллекта, способного к настоящему эмоциональному интеллекту и взаимодействию на человеческом уровне.

Модель использует авторегрессивную архитектуру, объединяющую аудио, движение и текст в единое токенизированное пространство с помощью механизма внимания Speech-Language-Behavior (SLB-Attn) и экспертной системы Mixture-of-Modality-Experts (MoME).
Модель использует авторегрессивную архитектуру, объединяющую аудио, движение и текст в единое токенизированное пространство с помощью механизма внимания Speech-Language-Behavior (SLB-Attn) и экспертной системы Mixture-of-Modality-Experts (MoME).

Исследование, представленное в данной работе, демонстрирует стремление к созданию более реалистичных и естественных взаимодействий между человеком и искусственным интеллектом. ViBES, как модель, объединяющая речь, язык и поведение, открывает новые горизонты в области человеко-машинного взаимодействия. Как однажды заметил Джеффри Хинтон: «Я думаю, что нейронные сети — это, вероятно, самый важный инструмент, который у нас есть на данный момент». Эта мысль перекликается с подходом, представленным в статье, поскольку модель ViBES использует сложные алгоритмы для обработки и генерации поведения, стремясь к более глубокому пониманию и имитации человеческих реакций. Особое внимание к синхронизации данных и кросс-модальному вниманию подчеркивает важность целостного подхода к моделированию поведения, что позволяет создавать агентов, способных к более убедительному и естественному взаимодействию.

Что дальше?

Представленная работа, несомненно, открывает новые горизонты в создании правдоподобных виртуальных агентов. Однако, стоит признать, что имитация поведения — это лишь часть сложной задачи. Понимание нюансов человеческой коммуникации, её подтекстов и невербальных сигналов требует не просто генерации движений, но и моделирования когнитивных процессов, лежащих в их основе. Визуальное представление данных, каким бы точным оно ни было, всегда является упрощением реальности, и необходимо помнить о потенциальных структурных ошибках, скрытых за кажущейся плавностью.

Перспективы развития лежат в области интеграции моделей, способных к обучению с подкреплением и адаптации к индивидуальным особенностям собеседника. Особый интерес представляет задача создания агентов, способных не только реагировать на внешние стимулы, но и проявлять инициативу, демонстрируя признаки «внутреннего мира». Следующим этапом станет преодоление разрыва между статичными наборами данных и динамическими, контекстуально-зависимыми взаимодействиями.

В конечном счете, успех этого направления исследований будет зависеть не только от совершенствования алгоритмов, но и от способности сформулировать фундаментальные вопросы о природе сознания и коммуникации. Иначе, мы рискуем создать лишь искусно иллюстрированные «черные ящики», лишенные истинного понимания.


Оригинал статьи: https://arxiv.org/pdf/2512.14234.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-17 17:54