Рекомендации без границ: Новая архитектура для объединения данных

Автор: Денис Аветисян

Представлена инновационная модель TokenFormer, объединяющая возможности анализа последовательностей и неструктурированных данных для повышения точности и надежности рекомендательных систем.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"

Модель TokenFormer представляет многопольные признаки <span class="katex-eq" data-katex-display="false">\mathcal{F}</span>, последовательные токены поведения <span class="katex-eq" data-katex-display="false">\mathcal{T}</span> и целевые признаки <span class="katex-eq" data-katex-display="false">\mathcal{V}</span> в виде унифицированного потока токенов, обрабатываемого последовательно соединенными блоками унифицированного взаимодействия (UIB), каждый из которых сочетает в себе разработанный механизм внимания Bottom-Full-Top-Sliding (BFTS), применяющий полную причинно-следственную связь на неглубоких слоях и сокращенное скользящее окно внимания (SWA) на более глубоких, с представлением нелинейного взаимодействия признаков (NLIR) для мультипликативного взаимодействия признаков. — Модель TokenFormer представляет многопольные признаки $\mathcal{F}$ , последовательные токены поведения $\mathcal{T}$ и целевые признаки $\mathcal{V}$ в виде унифицированного потока токенов, обрабатываемого последовательно соединенными блоками унифицированного взаимодействия (UIB), каждый из которых сочетает в себе разработанный механизм внимания Bottom-Full-Top-Sliding (BFTS), применяющий полную причинно-следственную связь на неглубоких слоях и сокращенное скользящее окно внимания (SWA) на более глубоких, с представлением нелинейного взаимодействия признаков (NLIR) для мультипликативного взаимодействия признаков.

TokenFormer решает проблему ‘последовательного коллапса’ и обеспечивает более эффективное моделирование сложных взаимодействий между различными типами данных.

Исторически сложилось разделение между моделями рекомендаций, основанными на взаимодействии признаков и учитывающими динамику пользовательского поведения. В данной работе, представленной под названием ‘TokenFormer: Unify the Multi-Field and Sequential Recommendation Worlds’, исследуется проблема «последовательного коллапса» при объединении этих подходов, когда не-последовательные признаки приводят к ухудшению качества представления последовательностей. Для решения этой задачи предложена архитектура TokenFormer, использующая схему внимания Bottom-Full-Top-Sliding и нелинейное преобразование признаков, что позволяет добиться повышения точности и устойчивости рекомендаций. Сможет ли TokenFormer стать основой для новых, более эффективных систем, объединяющих различные типы данных в единую модель?

Преодоление Утраты Выразительности в Унифицированных Рекомендациях

Современные унифицированные модели рекомендаций, использующие архитектуру Transformers, часто сталкиваются с трудностями в поддержании выразительности при объединении последовательных и статических признаков. Несмотря на мощь Transformers в обработке последовательностей, интеграция статических данных, таких как демографические характеристики пользователя или свойства товара, может приводить к снижению способности модели различать тонкие нюансы в поведении пользователя. Это происходит потому, что информация из статических признаков, будучи включенной в процесс обработки последовательности, может доминировать над сигналами из истории взаимодействий, нивелируя индивидуальные предпочтения и снижая точность прогнозов. В результате, модель теряет способность эффективно улавливать сложные паттерны поведения и адаптироваться к изменяющимся интересам пользователя, что негативно сказывается на качестве рекомендаций.

В процессе обучения унифицированных рекомендательных систем, использующих архитектуру Transformer, часто наблюдается явление, получившее название “пропажа размерности последовательных представлений”. Суть проблемы заключается в том, что статические признаки, такие как демографические данные пользователя или характеристики товара, могут приводить к сужению пространства, в котором кодируются последовательные взаимодействия пользователя (например, история просмотров или покупок). Это «схлопывание» размерности ограничивает способность модели различать тонкие нюансы в поведении пользователя, препятствуя эффективному моделированию сложных предпочтений и снижая общую точность рекомендаций. По сути, модель теряет способность улавливать богатый контекст последовательности действий, что негативно сказывается на качестве предсказываемых рейтингов и релевантности предлагаемого контента.

Сужение размерности, возникающее в процессе обработки данных, оказывает существенное влияние на способность модели точно отражать сложные предпочтения пользователей и их взаимодействие с системой. Когда статичные характеристики, такие как демографические данные или базовые интересы, подавляют выразительность последовательных данных — историю просмотров, покупок или кликов — модель теряет возможность выявлять нюансы в поведении пользователя. Это приводит к упрощению представления предпочтений, где, например, различные варианты выбора воспринимаются как эквивалентные, что снижает точность рекомендаций и ограничивает способность модели адаптироваться к изменяющимся потребностям. В результате, даже при наличии богатой информации о пользователе, система может предлагать нерелевантные или неинтересные варианты, упуская возможности для формирования долгосрочного взаимодействия и повышения удовлетворенности.

Объединение последовательных и не последовательных признаков в рекомендательных системах приводит к снижению устойчивости размерности последовательных представлений (уменьшению эффективного ранга), что BFTS и NLIR успешно смягчают, восстанавливая устойчивость и одновременно повышая различимость представлений по сравнению с традиционными Transformer-моделями.

Сохранение Устойчивости Представлений: Ключ к Эффективности

Поддержание «пространственной устойчивости» (Dimensional Robustness) — способности представления избегать коллапса и сохранять свою размерность — является критически важным фактором для эффективных систем рекомендаций. Коллапс представления происходит, когда векторы признаков сходятся к одному значению, что приводит к потере различительной способности и, следовательно, к снижению качества рекомендаций. Сохранение размерности представления обеспечивает, что информация о различных элементах и пользователях кодируется в достаточном количестве измерений, что необходимо для точного моделирования их взаимосвязей и предоставления релевантных рекомендаций. Потеря размерности приводит к потере информации и ухудшению способности модели различать элементы и пользователей.

Оценка устойчивости векторных представлений осуществляется с помощью различных метрик, в частности, ‘Effective Rank’ и показателей взаимной информации, которые количественно оценивают степень сохранения информации. ‘Effective Rank’ измеряет количество информативных измерений в представлении, предотвращая его коллапс в маломерное пространство. Анализ спектра показывает увеличение ‘Effective Rank’ при использовании предложенного подхода, что свидетельствует о лучшем сохранении информации и, как следствие, о повышении эффективности рекомендаций. Взаимная информация, в свою очередь, позволяет оценить, насколько представление сохраняет информацию об исходных данных, обеспечивая более точное соответствие между входными признаками и выходными предсказаниями.

Метод RotaryPositionalEncoding (RoPE) способствует сохранению размерности векторных представлений за счет кодирования позиционной информации посредством вращения векторов в пространстве. Это позволяет модели более эффективно обрабатывать последовательности различной длины, улучшая экстраполяцию на новые, более длинные последовательности, и предотвращая коллапс представлений, когда информация о позиции теряется или становится недостаточно различимой. В отличие от абсолютного позиционного кодирования, RoPE использует относительные позиции, что повышает устойчивость к изменениям длины последовательности и улучшает обобщающую способность модели. Применение RoPE позволяет избежать потери информации о порядке элементов в последовательности, что критически важно для задач, где порядок имеет значение, например, в рекомендательных системах.

Сравнение эффективного ранга последовательных поведенческих токенов (𝒯\mathcal{T}) по слоям показывает, что нелинейный механизм управления в TokenFormer (уравнение 17) значительно смягчает снижение ранга, характерное для линейного внимания (уравнение 11), обеспечивая стабильность на ранних стадиях обработки.

TokenFormer: Новая Архитектура для Устойчивых Рекомендаций

Модель TokenFormer представляет собой новый унифицированный подход к построению систем рекомендаций, разработанный для решения проблемы “Последовательного Коллапса Распространения” (Sequential Collapse Propagation). В отличие от традиционных моделей, которые обрабатывают статические и последовательные признаки раздельно, TokenFormer интегрирует оба типа признаков в единую архитектуру. Это позволяет модели более эффективно улавливать взаимосвязи между долгосрочными предпочтениями пользователя (статические признаки, такие как демографические данные и история покупок) и краткосрочным поведением (последовательные признаки, такие как последовательность просмотров или кликов). Такая интеграция направлена на повышение точности и устойчивости рекомендаций, особенно в ситуациях, когда последовательности взаимодействий пользователя короткие или содержат пропуски.

В архитектуре TokenFormer для оптимизации взаимодействия признаков используется усовершенствованный механизм внимания “BottomFullTopSliding”. Он предполагает применение полного внимания (full attention) в нижних слоях модели, что позволяет учитывать взаимосвязи между всеми признаками на ранних этапах обработки. В верхних слоях применяется скользящее окно внимания (sliding window attention), ограничивающее область внимания и снижающее вычислительную сложность при обработке последовательностей. Такая комбинация позволяет эффективно использовать информацию как о глобальных, так и о локальных зависимостях между признаками, обеспечивая баланс между выразительностью модели и вычислительной эффективностью.

Ключевым компонентом архитектуры TokenFormer является ‘NonLinearInteractionRepresentation’ — механизм на основе гейтов, расширяющий возможности ‘FactorizationMachines’. Данный механизм позволяет повысить выразительность модели за счет нелинейного моделирования взаимодействий между признаками. В отличие от стандартных FactorizationMachines, которые ограничиваются линейными взаимодействиями, ‘NonLinearInteractionRepresentation’ использует гейты для управления степенью влияния каждого взаимодействия, что позволяет моделировать более сложные зависимости. Это также способствует смягчению проблемы коллапса размерности, часто возникающей при работе с большим количеством признаков, за счет более эффективного представления и использования информации о взаимодействиях.

В отличие от стандартного Transformer, который страдает от избыточного повторного обращения к статичным полям на последних слоях, TokenFormer эффективно разделяет процессы взаимодействия и уточнения последовательных представлений, сначала устанавливая связи на ранних слоях, а затем используя локальное окно внимания для их детализации.

TokenFormer в Действии: Повышенная Выразительность и Производительность

Модель TokenFormer эффективно противодействует явлению “Последовательного Коллапса Распространения” (Sequential Collapse Propagation), которое часто приводит к потере информации в последовательных данных о взаимодействиях пользователей. В отличие от традиционных подходов, где последовательности данных сжимаются и теряют свою выразительность, TokenFormer сохраняет размерность этих последовательностей. Это достигается за счет инновационной архитектуры, позволяющей модели более полно учитывать историю действий пользователя и, как следствие, формировать более точные и персонализированные рекомендации. Сохранение информации в последовательностях особенно важно для выявления тонких закономерностей в предпочтениях, что в конечном итоге приводит к повышению релевантности предлагаемого контента и улучшению пользовательского опыта.

В основе способности модели TokenFormer точно отражать сложные предпочтения пользователей лежит интеграция нелинейного представления взаимодействий (NonLinearInteractionRepresentation) и продуманное применение механизмов внимания. Данный подход позволяет модели выявлять и учитывать тонкие, нелинейные связи между элементами, формирующими пользовательский профиль и историю взаимодействия. Вместо упрощенных линейных моделей, TokenFormer способен улавливать сложные зависимости, например, когда интерес к определенному товару возрастает лишь при сочетании с другими, казалось бы, несвязанными категориями. Механизмы внимания, в свою очередь, позволяют модели динамически фокусироваться на наиболее релевантных взаимодействиях, игнорируя несущественные детали и повышая точность прогнозирования. В результате, TokenFormer демонстрирует более глубокое понимание индивидуальных предпочтений каждого пользователя, что приводит к более релевантным и персонализированным рекомендациям.

Исследования показали, что TokenFormer значительно превосходит существующие унифицированные модели рекомендаций. Набор данных KuaiRand-27K продемонстрировал улучшение метрики AUC на 5.00‰, что указывает на более точную ранжировку рекомендованных элементов. Более того, онлайн A/B тестирование выявило увеличение GMV (валового объема продаж) на 4.03%, подтверждая практическую значимость модели для повышения коммерческих показателей. Дополнительно, оптимизация для обслуживания позволила добиться 5.5-кратного увеличения пропускной способности, что свидетельствует о высокой эффективности TokenFormer в реальных условиях эксплуатации и масштабируемости системы.

Спектры сингулярных чисел, нормализованные по слоям, демонстрируют, что TokenFormer, в отличие от базовой модели, обеспечивает более сбалансированное распределение дисперсии по скрытым измерениям.

Представленная работа демонстрирует стремление к математической чистоте в области рекомендательных систем. Авторы, подобно тем, кто стремится к доказательству теоремы, выявляют проблему ‘Sequential Collapse Propagation’ и предлагают архитектуру TokenFormer для ее решения. Подход, основанный на унификации моделирования последовательных и не-последовательных признаков, можно рассматривать как поиск инвариантов, обеспечивающих устойчивость и точность рекомендаций. Как отмечал Линус Торвальдс: «Если вы не пишете код, который можно проверить, то вы, вероятно, делаете что-то не так». Аналогично, в данной работе акцент сделан на создании модели, чья логика и корректность могут быть строго доказаны, а не просто эмпирически подтверждены на тестовых данных.

Куда Далее?

Представленная архитектура TokenFormer, безусловно, демонстрирует элегантное решение проблемы коллапса последовательностей, однако истинная проверка любого алгоритма — не в его способности превзойти существующие методы на ограниченном наборе данных, а в его универсальности. По сути, проблема не в объединении последовательных и не последовательных признаков, а в построении модели, способной корректно обрабатывать любые данные, вне зависимости от их структуры. Следующим шагом видится отказ от искусственных категорий признаков и переход к полностью адаптивным моделям, способным самостоятельно определять значимость каждого элемента информации.

Важно признать, что внимание к механизмам внимания, хоть и оправдано, может оказаться лишь временным решением. В конечном счете, истинная элегантность заключается в минимизации сложности, а не в ее маскировке. Следует исследовать альтернативные подходы, основанные на более фундаментальных принципах математической логики и теории информации, стремясь к построению моделей, требующих минимального количества параметров и вычислительных ресурсов.

В конечном счете, задача рекомендательных систем — не просто предсказать следующее действие пользователя, а понять его истинные потребности. И пока алгоритмы оперируют лишь поверхностными проявлениями поведения, они останутся лишь бледной имитацией интеллекта. Настоящий прогресс требует глубокого понимания когнитивных процессов, лежащих в основе принятия решений.

Оригинал статьи: https://arxiv.org/pdf/2604.13737.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-16 16:20