Геометрический интеллект: как нейросети решают головоломки Танграма

Исследование демонстрирует способность к пространственному мышлению посредством задач, требующих сборки фигур из одной или двух частей танграма.

Новое исследование показывает, что современные модели, объединяющие зрение и язык, способны значительно улучшить свои навыки в решении задач, требующих понимания геометрии и пространственного мышления.

Умный взгляд и чуткий слух: новая модель для комплексного анализа видео

Предварительно обученные мультимодальные модели, такие как Qwen3-Omni, зачастую демонстрируют недостаточно эффективное аудио-визуальное рассуждение из-за присущей им модальной предвзятости, которую можно скорректировать путем усиления способности к аудио-визуальному рассуждению за счет использования намерения запроса и внимания к модальности.

Исследователи представили инновационную систему, способную лучше понимать видеоконтент благодаря одновременной обработке видео- и аудиоинформации и учету намерений пользователя.

Робот-визионер: Восстановление сцен и захват объектов без единого примера

На основе входного RGBD-изображения и ограничивающих рамок система выполняет реконструкцию сцены и манипуляции с объектами, используя сегментацию SAM для инициализации масок, вероятностную оценку формы объектов с помощью эллипсоидальных примитивов, последующую оптимизацию сетки посредством деформации на основе каркаса, что позволяет получить полноценное представление сцены, включающее сетки, позы, материалы, маски и освещение, и, в конечном итоге, найти оптимальный захват для роботизированной системы как в симуляции, так и в реальном времени.

Новая нейрографическая модель позволяет роботам реконструировать трехмерные сцены и планировать захват объектов, используя всего одно изображение RGBD, без предварительного обучения на 3D-данных.

Пространственное мышление без привязки к себе: новый подход к обучению моделей «зрения и языка»

Для преодоления разрыва между системами отсчёта, разработанная структура явно отделяет пространственное рассуждение от эгоцентричных визуальных априорных знаний, функционируя в три этапа: преобразование двухмерных визуальных наблюдений в унифицированное трёхмерное метрическое пространство [latex]\mathcal{W}[/latex], построение согласованной с запросом аллоцентрической системы отсчёта [latex]\mathcal{F}\_{allo}[/latex] посредством явного преобразования координат и, наконец, вывод окончательного ответа посредством логического вывода, основанного на геометрии.

Исследователи предлагают метод, позволяющий моделям лучше понимать пространственные отношения в окружающем мире, отделив объективное описание сцены от субъективной точки зрения.