Что привлекает взгляд: нейросети учатся видеть как человек
![Исследование предлагает шесть различных методологий извлечения концептуальных векторов [latex]v_{CI}[/latex] из скрытых состояний [latex]h \in \mathbb{R}^{d}[/latex] многомодальных нейронных сетей, включающих геометрические подходы, анализирующие представления напрямую (например, вычисление разницы средних и отбор на основе главных компонент - PCA1st и PCABest), методы, основанные на зондировании, обучающие предсказательные направления посредством логистической регрессии и гребневой регрессии, и методы, использующие автоэнкодеры (SAE) для разложения плотных состояний на разреженные атомы, формируя концептуальный вектор как взвешенную сумму наиболее коррелированных атомов.](https://arxiv.org/html/2605.08188v1/x2.png)
Новое исследование показывает, что современные мультимодальные модели, обрабатывающие текст и изображения, формируют внутренние представления, отражающие принципы визуальной привлекательности, схожие с человеческими.




