Геометрический интеллект: как нейросети решают головоломки Танграма

Новое исследование показывает, что современные модели, объединяющие зрение и язык, способны значительно улучшить свои навыки в решении задач, требующих понимания геометрии и пространственного мышления.



![Траектории семантического поиска, формируемые кумулятивными списками слов, анализируются с использованием динамических метрик, таких как скорость, ускорение и энтропия [latex] x^{\prime} [/latex], [latex] x^{\prime\prime} [/latex], для последующей оценки дисперсии этих траекторий вокруг общего центроида, что позволяет выявить закономерности в организации семантического пространства.](https://arxiv.org/html/2602.05971v1/figures/pipeline.png)


![Для преодоления разрыва между системами отсчёта, разработанная структура явно отделяет пространственное рассуждение от эгоцентричных визуальных априорных знаний, функционируя в три этапа: преобразование двухмерных визуальных наблюдений в унифицированное трёхмерное метрическое пространство [latex]\mathcal{W}[/latex], построение согласованной с запросом аллоцентрической системы отсчёта [latex]\mathcal{F}\_{allo}[/latex] посредством явного преобразования координат и, наконец, вывод окончательного ответа посредством логического вывода, основанного на геометрии.](https://arxiv.org/html/2602.05789v1/x4.png)
