Автор: Денис Аветисян
Новое исследование демонстрирует, что современные искусственные интеллекты испытывают трудности с поиском объектов в реальном окружении, особенно когда требуется активное восприятие и пространственное мышление.
Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.
Купить акции "голубых фишек"
Представлен новый бенчмарк H∗Bench для оценки возможностей гуманоидных роботов в задачах визуального поиска и навигации, выявляющий ограничения существующих мультимодальных моделей.
Несмотря на развитые алгоритмы визуального поиска, существующие подходы часто игнорируют активную роль наблюдателя и взаимодействие с трехмерным пространством. В работе «Thinking in 360°: Humanoid Visual Search in the Wild» представлен новый бенчмарк H*Bench и фреймворк для изучения визуального поиска с использованием гуманоидных агентов, демонстрирующий ограниченные возможности современных мультимодальных больших языковых моделей в сложных реальных сценариях. Эксперименты выявили существенные трудности в решении задач поиска объектов и путей, особенно в ситуациях, требующих развитого пространственного мышления. Сможем ли мы создать интеллектуальных агентов, способных эффективно ориентироваться и взаимодействовать с окружающим миром подобно человеку?
За пределами статических изображений: ограничения пассивного визуального поиска
Традиционные методы визуального поиска, такие как пассивный визуальный поиск, анализируют всю сцену целиком, не осуществляя активного исследования окружающей среды. Такой подход, хотя и кажется интуитивно понятным, значительно снижает эффективность в сложных условиях. В перегруженных деталями изображениях, где целевой объект может быть частично скрыт или замаскирован, полный анализ всей сцены требует огромных вычислительных ресурсов и времени. По сути, система пытается обработать весь поток визуальной информации, не фокусируясь на наиболее вероятных областях, что приводит к снижению скорости и точности обнаружения. В результате, пассивный поиск часто оказывается неэффективным в реальных сценариях, где важна не только точность, но и оперативность обнаружения объекта.
Традиционные методы визуального поиска, анализирующие всю сцену целиком, часто сталкиваются с проблемой перегрузки информацией, особенно в сложных условиях. Этот подход требует огромных вычислительных ресурсов для обработки каждого пикселя и сопоставления его с базой данных, что делает его непрактичным для применения в реальном времени и на устройствах с ограниченной мощностью. В ситуациях с большим количеством объектов или сложным фоном, вычислительная сложность возрастает экспоненциально, приводя к замедлению работы системы и снижению точности результатов. Таким образом, пассивный анализ всей сцены становится узким местом, ограничивающим возможности визуального поиска в динамичных и перегруженных информационно средах.
Эффективный поиск информации требует динамического подхода, отличного от пассивного анализа целых сцен. Вместо того чтобы просто «принимать» визуальные данные, система должна активно исследовать окружение, фокусируясь на наиболее перспективных областях. Такой процесс напоминает целенаправленное сканирование, где внимание последовательно перемещается к потенциально релевантным объектам, а не охватывает все пространство одновременно. Данный подход позволяет значительно сократить вычислительные затраты и повысить скорость обнаружения, особенно в сложных и загроможденных средах, где традиционные методы пассивного поиска оказываются неэффективными из-за перегрузки информацией. Активный поиск позволяет системе «учиться» на своих действиях, корректируя стратегию исследования и повышая точность результатов.

Воплощение инициативы: активный поиск и вращение головы
В отличие от пассивных методов поиска, активный визуальный поиск позволяет агентам динамически изменять угол обзора посредством поворота головы, что повышает эффективность сбора информации. Традиционные пассивные системы анализируют статичную сцену, в то время как активный поиск позволяет агенту целенаправленно исследовать окружение, уменьшая объем данных для обработки. Вместо анализа всей доступной информации, агент фокусируется на наиболее перспективных областях, что снижает вычислительную нагрузку и время, необходимое для обнаружения целевых объектов. Эта способность к активному сканированию значительно увеличивает скорость и точность визуального поиска, особенно в сложных и динамичных средах.
В задачах визуального поиска, особенно применительно к гуманоидным роботам, активное изменение угла обзора (поворот головы) имитирует поведение человека и существенно сокращает область поиска. В отличие от статических методов анализа сцены, динамический подход позволяет агенту целенаправленно направлять взгляд на потенциально релевантные области, последовательно уменьшая количество анализируемых элементов и повышая эффективность обнаружения целей. Этот принцип, основанный на моделировании человеческого зрительного восприятия, позволяет значительно снизить вычислительные затраты и время, необходимые для завершения задачи визуального поиска.
Стратегическое направление взгляда позволяет агентам приоритизировать релевантные области поиска и преодолеть ограничения статического анализа сцены. В отличие от пассивных методов, где анализ осуществляется на основе фиксированной точки зрения, активное управление направлением взгляда позволяет агенту динамически выбирать наиболее информативные участки изображения. Это существенно сокращает объем данных, требующих обработки, и повышает эффективность поиска, особенно в сложных и загроможденных сценах. Фокусировка на приоритетных областях, определяемых алгоритмами оценки релевантности, позволяет агенту игнорировать неважную информацию и концентрироваться на потенциальных объектах интереса, что приводит к снижению вычислительной нагрузки и ускорению процесса обнаружения.

Рассуждения с помощью зрения: инструменты для расширения MLLM
Мультимодальные большие языковые модели (MLLM), особенно с инструментальным расширением, представляют собой мощную архитектуру, объединяющую возможности визуального восприятия и логического вывода. В отличие от традиционных LLM, работающих исключительно с текстовыми данными, MLLM способны обрабатывать и интерпретировать визуальную информацию, такую как изображения и видео. Интеграция визуального ввода позволяет моделям лучше понимать контекст, выявлять объекты и взаимосвязи в окружающей среде, и, как следствие, выполнять более сложные задачи, требующие как зрительного восприятия, так и когнитивных способностей. Такой подход позволяет создавать агентов, способных взаимодействовать с реальным миром, ориентироваться в пространстве и решать проблемы, требующие анализа визуальной информации.
Обучение с учителем (Supervised Fine-Tuning) и интеграция инструментов, таких как поворот головы, позволяют мультимодальным большим языковым моделям (MLLM) активно исследовать сцены и находить целевые объекты. В результате, наблюдается значительное увеличение успешности выполнения задач: точность поиска объектов для гуманоидных агентов увеличилась с 14.83% до 40.83%, а успешность поиска пути — с 6.44% до 23.00%. Данный подход позволяет агентам более эффективно взаимодействовать с визуальной информацией и принимать обоснованные решения в сложных средах.
Бенчмарк $H^\ast$Bench представляет собой строгую платформу для оценки производительности агентов, использующих мультимодальные большие языковые модели (MLLM), в разнообразных реалистичных сценариях. Он включает в себя задачи, такие как поиск объектов и прокладка маршрута для гуманоидных роботов ($Humanoid Object Search$ и $Humanoid Path Search$), что позволяет количественно оценить способность агентов к визуальному восприятию и рассуждению в сложных условиях. Бенчмарк обеспечивает стандартизированную среду для сравнения различных подходов и алгоритмов, способствуя прогрессу в области автономных агентов и робототехники.

Уточнение интеллекта: обучение с подкреплением и пространственное рассуждение
Обучение с подкреплением, в частности, с использованием алгоритмов, таких как Group Relative Policy Optimization, позволяет усовершенствовать политику агента, стимулируя долгосрочное планирование и эффективное исследование среды. Алгоритм Group Relative Policy Optimization оптимизирует политику, группируя схожие состояния и действия, что повышает скорость обучения и стабильность, особенно в сложных задачах, требующих планирования на несколько шагов вперёд. Данный подход позволяет агенту не только находить краткосрочные решения, но и учитывать долгосрочные последствия своих действий, что критически важно для успешной навигации и достижения целей в динамических окружениях.
Процесс обучения с подкреплением значительно улучшает возможности пространственного рассуждения агентов, позволяя им точно ориентироваться в окружающей среде и планировать пути к поставленным целям. В ходе тестирования на задаче «Поиск объекта гуманоидом» (Humanoid Object Search) агенты, использующие данный подход, демонстрируют успешность в 47.38% случаев, что превосходит результат модели Gemini2.5-Pro, составляющий 31.96%. Данный показатель свидетельствует о повышенной эффективности алгоритмов в задачах, требующих точного позиционирования и планирования маршрута в сложных пространствах.
Интеграция здравого смысла является критически важной для успешного планирования пути агентами. Отсутствие понимания базовых физических принципов и свойств объектов может привести к неэффективным или невозможным траекториям. Например, агент, не обладающий здравым смыслом, может попытаться пройти сквозь препятствие или игнорировать гравитацию. Реализация механизмов, позволяющих агенту учитывать такие факторы, как проходимость поверхности, стабильность объектов и взаимосвязь между элементами окружения, существенно повышает надежность и эффективность навигации в сложных условиях. Это позволяет агенту не только избегать столкновений, но и выбирать оптимальные маршруты, минимизируя затраты энергии и времени на выполнение задачи.

Будущее визуального познания: за пределами текущих ограничений
Современные интеллектуальные агенты всё чаще используют подход, известный как “визуальное обоснование”, для преодоления ограничений традиционного компьютерного зрения. Этот метод заключается не просто в распознавании объектов на изображении, а в установлении связи между визуальной информацией и её семантическим значением. Благодаря этому, агент способен не только “видеть” предмет, но и “понимать” его роль в контексте окружающей среды и предвидеть возможные взаимодействия. Например, система, обученная на основе визуального обоснования, сможет не просто идентифицировать стул, но и понять, что на нём можно сидеть, или что он может служить препятствием. Такое сочетание визуального восприятия и семантического понимания позволяет агентам выполнять сложные задачи, ориентироваться в реальном мире и взаимодействовать с ним более естественно и эффективно, приближая их возможности к человеческому интеллекту.
Дальнейшие исследования направлены на повышение устойчивости систем визуального восприятия в сложных условиях окружающей среды и расширение их функциональных возможностей для решения более масштабных задач. Особое внимание уделяется адаптации к непредсказуемым ситуациям, таким как изменения освещения, наличие препятствий и нечеткость изображений. Разрабатываются новые алгоритмы, позволяющие системам не только распознавать объекты, но и понимать их взаимосвязь в динамично меняющейся обстановке, что критически важно для автономной навигации и взаимодействия с окружающим миром. Планируется интеграция этих систем с более продвинутыми моделями искусственного интеллекта, что позволит им не просто реагировать на визуальные стимулы, а предвидеть возможные сценарии и принимать обоснованные решения, приближая создание по-настоящему интеллектуальных агентов.
Несмотря на достижение 47,38% успешных результатов в задаче поиска объектов гуманоидным роботом, дальнейшее совершенствование системы представляется необходимым. Сравнение с моделью Gemini2.5-Pro демонстрирует превосходство последней в задаче поиска пути для гуманоида — 33,00% успеха против 24,94% в данной работе. Это указывает на необходимость сосредоточения усилий на оптимизации алгоритмов планирования пути и повышения их устойчивости к сложным условиям окружающей среды, что позволит создать более эффективных и надежных интеллектуальных агентов.
Данное исследование закладывает фундамент для создания действительно интеллектуальных агентов, способных решать задачи, возникающие в реальном мире, и оказывать помощь людям в широком спектре деятельности. Развитие систем, способных к визуальному восприятию и семантическому пониманию, открывает перспективы для автоматизации сложных процессов, от поиска и манипулирования объектами до навигации в незнакомой среде. В перспективе такие агенты смогут выполнять задачи, требующие адаптации к динамичным условиям и взаимодействия с людьми, значительно расширяя возможности применения искусственного интеллекта в повседневной жизни и профессиональной сфере. Предполагается, что в будущем они станут незаменимыми помощниками в областях, требующих сочетания зрительного восприятия, логического мышления и способности к обучению.

Исследование, представленное в данной работе, подчеркивает важность пространственного рассуждения и активного восприятия для создания по-настоящему интеллектуальных агентов. Система H∗Bench, разработанная авторами, выявляет существующие ограничения у современных мультимодальных больших языковых моделей в сложных, реальных условиях. Как однажды заметила Фэй-Фэй Ли: «Искусственный интеллект должен быть полезен, и он должен быть безопасен». Это особенно актуально в контексте воплощенного ИИ, где способность эффективно ориентироваться и взаимодействовать с окружающим миром требует не только понимания визуальной информации, но и способности к целенаправленным действиям, что является ключевым аспектом, исследуемым в этой работе и демонстрируемым через предложенный бенчмарк.
Куда же дальше?
Представленные результаты, несомненно, обнажают любопытную дихотомию. Мощные мультимодальные модели демонстрируют впечатляющие способности в контролируемых условиях, однако сталкиваются с трудностями, когда речь заходит о реальном мире — хаотичном, неструктурированном и требующем активного восприятия. Ошибка, как это ни парадоксально, становится отправной точкой для понимания. H∗Bench, как инструмент, лишь подчеркивает существующую пропасть между декларативным знанием и способностью к действию.
Будущие исследования, вероятно, потребуют смещения акцента с пассивного распознавания образов на активное исследование среды. Разработка алгоритмов, способных к эффективному обучению с подкреплением в 360-градусном пространстве, представляется ключевой задачей. Необходимо выйти за рамки простой интерпретации визуальных данных и перейти к созданию агентов, способных формулировать гипотезы о мире и проверять их посредством целенаправленных действий.
В конечном итоге, истинный прогресс в области воплощенного искусственного интеллекта будет зависеть не от увеличения вычислительных мощностей, а от способности к абстракции и адаптации. Понимание системы — это исследование её закономерностей, а не просто накопление информации. Именно эта перспектива, возможно, и станет определяющей для следующего этапа развития.
Оригинал статьи: https://arxiv.org/pdf/2511.20351.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Motorola Moto G06 Power ОБЗОР: плавный интерфейс, большой аккумулятор, удобный сенсор отпечатков
- Аналитический обзор рынка (20.11.2025 13:32)
- Новые смартфоны. Что купить в ноябре 2025.
- Лучшие смартфоны. Что купить в ноябре 2025.
- Аналитический обзор рынка (23.11.2025 04:32)
- Неважно, на что вы фотографируете!
- Подводная съёмка. Как фотографировать под водой.
- Прогнозы цен на LSETH: анализ криптовалюты LSETH
- Xiaomi 17 Pro Max ОБЗОР: замедленная съёмка видео, много памяти, скоростная зарядка
- Прогноз курса евро к йене на 2025 год
2025-11-26 15:09