От взаимодействия признаков к их генерации: новый взгляд на предсказание CTR

Автор: Денис Аветисян


Исследование представляет подход к предсказанию вероятности клика (CTR), смещающий акцент с традиционного взаимодействия признаков на генерацию новых, более эффективных признаков.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"
В предложенной структуре генерации признаков энкодер, построенный на основе всех доступных признаков в качестве источника $x_{\text{source}}$, формирует выходное представление, которое затем используется для одновременного предсказания всех признаков в качестве цели $x_{\text{target}}$, при этом для многослойной генерации, выходные представления каждого слоя служат источником и целью для следующего, где энкодер реализован как однослойный нелинейный MLP, а декодер - с использованием функций взаимодействия признаков, характерных для предыдущих моделей CTR.
В предложенной структуре генерации признаков энкодер, построенный на основе всех доступных признаков в качестве источника $x_{\text{source}}$, формирует выходное представление, которое затем используется для одновременного предсказания всех признаков в качестве цели $x_{\text{target}}$, при этом для многослойной генерации, выходные представления каждого слоя служат источником и целью для следующего, где энкодер реализован как однослойный нелинейный MLP, а декодер — с использованием функций взаимодействия признаков, характерных для предыдущих моделей CTR.

Предлагается Supervised Feature Generation — методика, направленная на смягчение проблемы коллапса вложений и снижение избыточности признаков в моделях машинного обучения.

Несмотря на значительные успехи в предсказании вероятности кликов (CTR), существующие модели часто страдают от коллапса эмбеддингов и избыточности информации из-за чрезмерной зависимости от явных взаимодействий признаков. В данной работе, ‘From Feature Interaction to Feature Generation: A Generative Paradigm of CTR Prediction Models’, предложен новый подход — Supervised Feature Generation (SFG), смещающий парадигму от дискриминативного взаимодействия признаков к генерации новых, более компактных представлений. SFG, состоящий из энкодера и декодера, использует контролируемый сигнал (клик или отсутствие клика) для снижения коллапса эмбеддингов и повышения эффективности модели. Сможет ли данная генеративная парадигма открыть новые горизонты в разработке более точных и устойчивых систем рекомендаций?


За гранью статических признаков: когда теория встречает практику

Традиционные методы машинного обучения часто опираются на заранее определенные характеристики данных, создаваемые вручную экспертами. Однако, этот подход имеет существенные ограничения, поскольку зачастую не способен уловить сложные взаимосвязи и нелинейные взаимодействия, присущие реальным данным. Представление данных в виде фиксированного набора характеристик игнорирует тонкие нюансы и скрытые закономерности, которые могут быть критически важны для точного прогнозирования или классификации. В результате, модели, основанные на таких характеристиках, могут демонстрировать сниженную производительность, особенно при работе с данными высокой размерности или в условиях меняющейся среды, где важно учитывать динамику взаимосвязей между признаками.

Статические признаки, используемые в традиционных алгоритмах машинного обучения, зачастую демонстрируют неспособность к адаптации к изменяющимся закономерностям в данных. Это особенно критично в динамичных средах, где данные постоянно эволюционируют, например, в финансовых рынках или системах мониторинга. Неспособность учитывать временные зависимости и новые тенденции приводит к ухудшению производительности моделей, снижению точности прогнозов и, как следствие, к неоптимальным результатам. В подобных ситуациях модель, обученная на устаревших данных с использованием фиксированных признаков, быстро теряет свою актуальность и эффективность, уступая место более гибким подходам, способным к самообучению и адаптации к меняющимся условиям.

Ограниченность использования заранее определенных признаков неизбежно требует перехода к новому подходу, где представление признаков формируется непосредственно из данных. Традиционные методы машинного обучения часто полагаются на экспертные знания для выделения ключевых характеристик, однако такой подход не способен эффективно адаптироваться к сложным и меняющимся закономерностям в данных. Вместо этого, современные алгоритмы стремятся автоматически извлекать наиболее релевантные признаки, позволяя модели самостоятельно определять, какие аспекты данных наиболее важны для решения поставленной задачи. Этот переход к обучению представлений открывает возможности для создания более гибких и эффективных моделей, способных к самообучению и адаптации к новым условиям, что особенно важно в динамичных средах и при работе со сложными данными.

В данной генеративной модели используется энкодер для преобразования исходных данных в векторное представление, которое затем декодер преобразует в целевые данные, при этом качество генерации оценивается функцией потерь, а для предсказания каждой характеристики используется подход “все предсказывают все” с оптимизацией кросс-энтропии на основе меток.
В данной генеративной модели используется энкодер для преобразования исходных данных в векторное представление, которое затем декодер преобразует в целевые данные, при этом качество генерации оценивается функцией потерь, а для предсказания каждой характеристики используется подход “все предсказывают все” с оптимизацией кросс-энтропии на основе меток.

Динамическое представление признаков: контролируемое обучение в действии

Предлагаемый подход к генерации признаков на основе контролируемого обучения (Supervised Feature Generation) предполагает динамическое создание представлений признаков посредством решения задач контролируемого обучения. В отличие от статических методов, данный фреймворк адаптирует признаки в процессе обучения, что позволяет учитывать изменяющиеся характеристики данных и повышать эффективность моделей. Ключевым аспектом является обучение модели для создания новых представлений признаков, опирающееся на сигналы, полученные в ходе обучения с учителем. Это обеспечивает возможность автоматического выявления и использования наиболее релевантных признаков для конкретной задачи, что приводит к улучшению обобщающей способности модели и повышению точности прогнозов.

В рамках данной структуры используется подход «All-Predict-All», заключающийся в обучении моделей предсказывать значение каждой характеристики на основе всех остальных. Этот метод позволяет эффективно моделировать сложные взаимосвязи между признаками, поскольку каждая характеристика рассматривается как функция от всех остальных. В процессе обучения, для каждой характеристики $x_i$ создается модель, которая принимает на вход все остальные характеристики $x_1, …, x_{i-1}, x_{i+1}, …, x_n$ и предсказывает $x_i$. Такой подход позволяет выявить нелинейные зависимости и скрытые корреляции, которые могут быть упущены при использовании стандартных методов извлечения признаков.

Архитектура кодировщика-декодировщика используется для обучения сжатым и информативным представлениям признаков, что позволяет преодолеть ограничения, присущие сырым (raw) вложениям. В отличие от непосредственного использования исходных признаков, кодировщик преобразует входные данные в латентное пространство меньшей размерности, извлекая наиболее важные характеристики. Декодировщик затем восстанавливает исходные признаки из этого сжатого представления. Такой подход позволяет уменьшить вычислительную сложность, повысить устойчивость к шуму и улучшить обобщающую способность модели, поскольку латентное пространство вынуждает модель фокусироваться на наиболее существенной информации, содержащейся в исходных данных. Использование кодировщика-декодировщика эффективно решает задачу снижения размерности и извлечения признаков, сохраняя при этом максимальное количество информации.

Предложенная генеративная модель обеспечивает более устойчивые значения вклада признаков по всем измерениям, эффективно смягчая проблему коллапса размерности по сравнению с дискриминативной DCN V2 и другими методами улучшения признаков.
Предложенная генеративная модель обеспечивает более устойчивые значения вклада признаков по всем измерениям, эффективно смягчая проблему коллапса размерности по сравнению с дискриминативной DCN V2 и другими методами улучшения признаков.

Усиление производительности: проверено на практике

Интеграция сгенерированных признаков в существующие модели, такие как DeepFM, FM, DCN V2 и XDeepFM, демонстрирует существенное повышение производительности в различных задачах предсказания. Наблюдается средний прирост AUC на 0.272% и снижение Logloss на 0.435%. Данные результаты подтверждают, что использование расширенного набора признаков позволяет улучшить точность и устойчивость моделей машинного обучения, что положительно сказывается на качестве прогнозов.

Интеграция сгенерированных признаков значительно улучшает производительность моделей, таких как DeepFM, FM, DCN V2 и XDeepFM, за счет предоставления более информативных и детализированных представлений данных. Обогащенные признаки позволяют моделям более эффективно выявлять сложные зависимости и закономерности в данных, что приводит к повышению точности прогнозов и устойчивости к шуму и выбросам. Улучшенное представление данных способствует более надежной генерализации модели на новых, ранее не встречавшихся данных, что критически важно для практического применения в реальных сценариях.

В ходе A/B тестирования на рекламных платформах Tencent, внедрение разработанного фреймворка продемонстрировало ощутимый практический эффект. Зафиксировано увеличение GMV (Gross Merchandise Volume — общий объем продаж) на 2.68% и повышение CTR (Click-Through Rate — кликабельность) на 2.46%. Эти результаты подтверждают эффективность предложенного подхода и его потенциал для оптимизации рекламных кампаний в реальных условиях эксплуатации.

Исследование отмены показало, что использование DCN V2 в рамках предложенной схемы генерации признаков существенно влияет на производительность модели на наборе данных Avazu.
Исследование отмены показало, что использование DCN V2 в рамках предложенной схемы генерации признаков существенно влияет на производительность модели на наборе данных Avazu.

Расширение горизонтов: генеративные приложения и перспективы развития

Сгенерированные признаки оказались эффективным инструментом для улучшения работы генеративных моделей, таких как VAR, MAR, и, в частности, моделей, использующих предсказание следующего токена, что продемонстрировано на примере SASRec. Использование этих признаков позволяет значительно повысить качество и разнообразие генерируемых образцов, расширяя возможности модели по созданию реалистичных и новых данных. В результате, модели способны производить более правдоподобные и вариативные последовательности, что особенно важно в задачах, требующих высокой степени детализации и оригинальности генерируемого контента. Этот подход открывает новые перспективы в области генеративного моделирования и позволяет создавать более совершенные и адаптивные системы.

Возможности, открываемые сгенерированными признаками, простираются на различные сферы применения. В частности, в области дополнения данных, сгенерированные примеры могут значительно расширить обучающие выборки, повышая надежность и обобщающую способность моделей. В контексте обнаружения аномалий, сгенерированные данные позволяют лучше определить границы нормального поведения системы, облегчая выявление отклонений. Наиболее перспективным направлением представляется применение в персонализированных рекомендательных системах, где сгенерированные признаки помогают более точно моделировать предпочтения пользователей и предлагать релевантный контент, существенно улучшая пользовательский опыт и повышая эффективность рекомендаций.

В дальнейшем исследования будут направлены на изучение методов самообучения для усовершенствования процесса генерации признаков и снижения зависимости от размеченных данных. Такой подход позволит моделям самостоятельно извлекать полезную информацию из неструктурированных данных, минимизируя потребность в трудоемкой ручной разметке. Ожидается, что применение самообучения повысит эффективность и масштабируемость генерации признаков, открывая возможности для создания более адаптивных и интеллектуальных систем, способных к обучению на больших объемах неразмеченных данных и, как следствие, к более точным прогнозам и рекомендациям. Особенно перспективным представляется комбинирование самообучения с другими методами машинного обучения, что позволит создать гибридные модели, сочетающие преимущества различных подходов и обеспечивающие наилучшие результаты в различных задачах.

Сравнение различных нелинейных функций активации (ReLU, Sigmoid, Tanh, SiLU) в энкодере показало их влияние на производительность рекомендаций и спектр сингулярных значений в пространстве вложений, используя DCN V2.
Сравнение различных нелинейных функций активации (ReLU, Sigmoid, Tanh, SiLU) в энкодере показало их влияние на производительность рекомендаций и спектр сингулярных значений в пространстве вложений, используя DCN V2.

Исследование, представленное в статье, логично подводит к мысли о неизбежном усложнении любой системы, даже той, что изначально создавалась для упрощения прогнозирования CTR. Авторы стремятся перейти от дискриминативных методов взаимодействия признаков к генеративному подходу, чтобы смягчить проблему коллапса в пространстве вложений и уменьшить избыточность. Однако, подобная трансформация, как показывает практика, лишь добавляет новый слой абстракции, создавая новые проблемы наряду с решением старых. Как заметил Анри Пуанкаре: «Наука не состоит из ряда истин, а из методов». Попытка обойти ограничения дискриминативных моделей путём генерации признаков — это не столько поиск истины, сколько совершенствование метода, который, вероятно, потребует дальнейшей оптимизации и, возможно, породит новые формы техдолга.

Куда же это всё ведёт?

Предложенный переход от дискриминативного взаимодействия признаков к генеративному, конечно, выглядит элегантно. Но не стоит забывать: любая «революция» в машинном обучении неизбежно порождает новый вид техдолга. Проблема «коллапса вложений» и избыточности признаков смягчается, но не исчезает. В конце концов, продакшен всегда найдёт способ завалить даже самую изящную архитектуру потоком новых данных и непредсказуемых взаимодействий. Багтрекер, как дневник боли, будет пополняться новыми строками.

Следующим этапом, вероятно, станет попытка автоматизировать сам процесс генерации признаков, переложив эту задачу на ещё более сложные генеративные модели. Но здесь кроется опасность: мы рискуем создать чёрный ящик, в котором даже понять, почему сгенерированный признак работает, станет невозможно. И тогда предсказание CTR превратится в гадание на кофейной гуще, прикрытое сложной математикой.

Впрочем, возможно, это и не страшно. В конечном итоге, мы не деплоим модели — мы их отпускаем в дикий мир продакшена. И пусть разбираются, как им выживать. Скрам — это всего лишь способ убедить людей, что хаос управляем. Иногда достаточно просто создать иллюзию контроля.


Оригинал статьи: https://arxiv.org/pdf/2512.14041.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-17 16:12