Уверенность хвата: как точность определения положения объекта влияет на успех робота
![В ходе анализа эффективности захвата, основанного на точности оценки позы, установлено, что взаимосвязь между различными метриками ошибки позы и расчетной вероятностью успешного захвата [latex]SestS\_{est}[/latex], усредненная по FoundationPose и MegaPose на основе 8 250 испытаний и 18 882 842 симуляций, демонстрирует влияние точности оценки на стабильность захвата, при этом детальный анализ результатов, основанный на физической модели, показывает пропорции различных причин неудачных попыток захвата для каждого объекта, где зеленая часть диаграммы отражает итоговое значение [latex]SestS\_{est}[/latex], а остальные цвета - вклад конкретных режимов отказа.](https://arxiv.org/html/2602.17101v1/figures/comprehensive_analysis_collage.png)
Новое исследование показывает, что для надежного захвата предмета роботом важна не только точность определения его положения в пространстве, но и качество трехмерной модели, используемой для планирования захвата.

![Устройство, ориентированное на пользователя, использует естественные движения руки для синтеза виртуальной апертуры, что позволяет измерять расстояние и пропорционально регулировать мощность, при этом для обеспечения когерентного синтеза необходимо компенсировать погрешность [latex]\bm{\delta}\_{m}=\hat{\mathbf{q}}\_{m}-\mathbf{q}\_{m}[/latex] между оценкой [latex]\hat{\mathbf{q}}\_{m}[/latex] и фактической траекторией [latex]\{\mathbf{q}\_{m}\}[/latex] фазового центра массива.](https://arxiv.org/html/2602.17609v1/x1.png)

![Наблюдения показывают, что орбитальный крутящий момент, вызванный инъекциями состояний [latex]|L_z\rangle|L_{z}\rangle[/latex] и [latex]|L_x\rangle|L_{x}\rangle[/latex], зависит от координаты <i>zz</i> и модулируется величиной кристаллического поля <i>rr</i>, что согласуется с результатами, представленными на рисунке 1.](https://arxiv.org/html/2602.17220v1/x4.png)
![Архитектура CORAL формирует скрытое пространство [latex]\mathbf{z}_t[/latex] путём горизонтального объединения скрытых представлений одежды [latex]\mathbf{z}_{\text{g},t}[/latex] и человека [latex]\mathbf{z}_{\text{p},t}[/latex], после чего к ним присоединяются каналы с информацией об условиях - холсте [latex]\mathbf{z}_{\text{diptych}}[/latex] и маске [latex]\mathbf{m}_{\text{diptych}}[/latex], а поза вводится в виде токенов с использованием RoPE для согласования пространственных позиций; оптимизация [latex]\mathcal{L}_{\text{CORAL}}[/latex] достигается за счёт минимизации стоимости соответствия одежды и человека [latex]A^{t,l}_{\mathcal{P}\rightarrow\mathcal{G}}[/latex], оцениваемой посредством MM-Attention в блоках DiT, где [latex]\mathcal{L}_{\text{corr}}[/latex] выравнивает эту стоимость с псевдо-основой, полученной из DINOv3, а [latex]\mathcal{L}_{\text{ent}}[/latex] стимулирует более чёткие и локализованные соответствия.](https://arxiv.org/html/2602.17636v1/x4.png)
