Понять, чтобы выполнить: Новый тест для мобильных ИИ-агентов

Исследователи представили AmbiBench — комплексную платформу для оценки способности ИИ-агентов, управляющих мобильными устройствами, справляться с нечеткими инструкциями и запрашивать уточнения.
![Предлагаемая структура PRISM позволяет моделировать индивидуальные траектории развития формы, учитывая как вариации в темпах развития, отраженные в деформациях, так и присущие характеристики формы, независимые от времени, что, в свою очередь, обеспечивает возможность оценки временной неопределенности посредством информации Фишера [latex]\text{Eq. (9)}[/latex] и последующего решения задач анализа формы, включая построение популяционных траекторий, определение стадии развития, прогнозирование будущих форм и выявление отклонений от нормы на основе оценки правдоподобия наблюдаемой формы в рамках популяционного распределения.](https://arxiv.org/html/2602.11467v1/x1.png)




