За гранью двоичности: Новый взгляд на оценку графических интерфейсов

Предлагаемый фреймворк семантического выравнивания, основанный на функциональном эквиваленте инструкций и действий, использует общую кодирующую сеть для отображения входных данных в пространство аффордансов, позволяя количественно оценить их выравнивание посредством двухэтапной стратегии построения данных, включающей начальную разметку на основе анализа макета и последующую детализацию посредством rollouts большой языковой модели.

Исследователи предлагают подход к автоматизированной проверке GUI, основанный на контрастном обучении и моделировании функциональных возможностей, позволяющий повысить надежность и эффективность автономных агентов.