Взгляд на красоту: Как искусственный интеллект оценивает дизайн интерьеров

Автор: Денис Аветисян


Новая модель объединяет данные отслеживания взгляда с видеоанализом, чтобы предсказать, насколько эстетически приятен интерьер для человека.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"
Визуализация Grad-CAM раскрывает специфическую для задачи структуру внимания, демонстрируя, какие области изображения оказывают наибольшее влияние на принятие решений моделью.
Визуализация Grad-CAM раскрывает специфическую для задачи структуру внимания, демонстрируя, какие области изображения оказывают наибольшее влияние на принятие решений моделью.

Исследование представляет двухканальную CNN-LSTM архитектуру для интеграции данных отслеживания взгляда и видео, повышая точность и интерпретируемость оценок эстетики жилых помещений.

Оценка эстетического восприятия интерьерных пространств человеком представляет собой сложную задачу, обусловленную субъективностью оценок и многогранностью визуальных реакций. В данной работе, посвященной теме ‘Incorporating Eye-Tracking Signals Into Multimodal Deep Visual Models For Predicting User Aesthetic Experience In Residential Interiors’, предложена двухканальная архитектура CNN-LSTM, объединяющая визуальные признаки с данными айтрекинга для прогнозирования эстетических оценок жилых интерьеров. Эксперименты показали, что предложенный подход позволяет достичь точности в 72.2% для объективных характеристик (например, освещенности) и 66.8% для субъективных (например, расслабленности), превосходя существующие модели. Какие перспективы открывает использование айтрекинга в качестве дополнительной информации для создания более эффективных и персонализированных инструментов оценки дизайна интерьеров?


За гранью самоотчетов: Изучение эстетического опыта

Традиционные методы оценки эстетических предпочтений, такие как опросы и анкеты, зачастую страдают от присущей им субъективности и предвзятости. Ответы респондентов могут быть искажены желанием соответствовать социальным нормам, стремлением произвести определенное впечатление или просто неспособностью точно сформулировать свои ощущения. Более того, на восприятие пространства влияют индивидуальные воспоминания, культурный контекст и текущее эмоциональное состояние, которые сложно учесть и стандартизировать в рамках стандартных опросников. В результате, полученные данные могут не отражать истинные, нефильтрованные реакции на интерьер, что ставит под сомнение их надежность и валидность для изучения эстетического опыта.

Для глубокого понимания того, как человек воспринимает и оценивает интерьерные пространства, недостаточно полагаться исключительно на субъективные отчеты. Традиционные методы, такие как опросы и анкеты, подвержены влиянию личных предубеждений, памяти и способности к самоанализу, что затрудняет получение объективной картины. Поэтому всё большее внимание уделяется поиску объективных показателей когнитивных и эмоциональных реакций, которые могут непосредственно отражать процесс восприятия. Исследования, использующие физиологические измерения, такие как частота сердечных сокращений, кожно-гальваническая реакция и активность мозга, позволяют выявить неосознанные процессы, определяющие эстетическую оценку. Такой подход открывает возможности для более точного и всестороннего изучения взаимодействия человека с пространством, позволяя выявить факторы, влияющие на комфорт, удовольствие и общее восприятие интерьера.

Технология отслеживания взгляда представляет собой перспективное решение для изучения эстетического восприятия, поскольку позволяет напрямую фиксировать направление внимания, минуя субъективные отчеты. В отличие от традиционных методов, полагающихся на самооценку, данная технология регистрирует, на какие элементы пространства человек действительно смотрит и как долго, предоставляя объективные данные о визуальном внимании. Это позволяет исследователям обходить искажения, связанные с сознательным или подсознательным стремлением представить себя в определенном свете, или с трудностями в вербализации личных предпочтений. Таким образом, отслеживание взгляда открывает новые возможности для понимания того, какие аспекты интерьера действительно привлекают внимание и формируют эстетическую оценку, предлагая более точный и непредвзятый взгляд на процесс восприятия.

Несмотря на перспективность технологии отслеживания взгляда для изучения эстетического восприятия, сырые данные, получаемые с помощью этого метода, требуют сложной обработки и интерпретации. Простое фиксирование направлений и длительности взглядов недостаточно для определения эстетической оценки пространства. Ученым необходимо разрабатывать специальные алгоритмы и статистические модели, чтобы выявить закономерности между паттернами взгляда — такими как частота посещения определенных областей, время фиксации на ключевых элементах дизайна, и последовательность перемещения взгляда — и субъективными ощущениями красоты или гармонии. Особое внимание уделяется выявлению корреляций между визуальным вниманием и эмоциональными реакциями, которые могут быть зафиксированы параллельно с помощью других методов, например, измерения кожно-гальванической реакции или анализа мимики. Только комплексный анализ данных, учитывающий как объективные показатели визуального внимания, так и субъективные оценки, позволяет получить глубокое понимание механизмов эстетического восприятия.

Двухканальный подход: Визуальное восприятие и внимание взгляда

Предлагается двухканальная CNN-LSTM архитектура, разработанная для прогнозирования эстетической оценки интерьерных пространств. Данная архитектура использует сверточные нейронные сети (CNN) для извлечения признаков из видеоданных интерьеров и данных об ответах зрачка, а также рекуррентные нейронные сети LSTM для моделирования временной динамики взгляда. Комбинация CNN и LSTM позволяет системе учитывать как пространственные характеристики интерьера, так и временные закономерности, связанные с восприятием этого пространства пользователем. Использование двухканальной архитектуры обеспечивает более комплексный анализ и, как следствие, повышение точности прогнозирования эстетической оценки.

Предлагаемая архитектура включает в себя две основные ветви обработки данных: ветвь временного внимания (Temporal Frame Attention Branch) и ветвь пространственного внимания, управляемого взглядом (Spatial Gaze-Guided Attention Branch). Ветвь временного внимания предназначена для анализа последовательности кадров видеозаписи интерьера и соответствующих изменений в реакции зрачка, что позволяет учитывать динамику взгляда во времени. В свою очередь, ветвь пространственного внимания обрабатывает данные о паттернах взгляда, представленные в виде карт визуального внимания, одновременно анализируя содержание видеокадров. Совместная работа этих двух ветвей обеспечивает комплексный анализ как временных, так и пространственных характеристик взгляда при оценке эстетических свойств интерьеров.

Временная ветвь внимания (Temporal Frame Attention Branch) обрабатывает видеоданные интерьеров и данные об изменениях размера зрачка (pupil responses) для фиксации динамики взгляда во времени. Обработка видео позволяет уловить последовательность визуальных стимулов, а анализ изменений размера зрачка предоставляет информацию о когнитивной нагрузке и внимании зрителя к различным элементам интерьера. Комбинирование этих данных позволяет моделировать процесс восприятия интерьера во времени и выявлять наиболее привлекающие внимание участки и моменты в видео.

Пространственная ветвь, управляемая взглядом, анализирует паттерны взгляда, представленные в виде карт визуального внимания, совместно с видеоконтентом. Карты внимания формируются на основе данных отслеживания взгляда и отображают области изображения, на которые пользователь фокусирует внимание в каждый момент времени. Совместный анализ видеоданных и карт внимания позволяет модели учитывать не только визуальные характеристики интерьера, но и то, какие элементы интерьера привлекают внимание наблюдателя, что повышает точность предсказания эстетической оценки. Данная ветвь использует информацию о координатах взгляда и времени фиксации, чтобы определить наиболее значимые области на изображении и интегрировать эти данные в процесс оценки.

Предложенная двухветвящаяся CNN-LSTM модель объединяет сверточные и рекуррентные нейронные сети для обработки данных.
Предложенная двухветвящаяся CNN-LSTM модель объединяет сверточные и рекуррентные нейронные сети для обработки данных.

Расшифровка эстетического восприятия: Как работает модель

Пространственная ветвь внимания, управляемая взглядом, использует модуль мультимодального переноса для эффективной интеграции визуальных данных и данных о направлении взгляда. Этот модуль позволяет модели объединять информацию из двух источников, что повышает точность определения эстетической привлекательности изображения. Данные о направлении взгляда, полученные с помощью айтрекера, предоставляют информацию о том, на какие области изображения обращает внимание наблюдатель, в то время как визуальные данные обеспечивают информацию о содержании изображения. Мультимодальный перенос позволяет модели установить корреляции между этими двумя типами данных и использовать их совместно для более точной оценки эстетических характеристик.

Обучение предложенной системы производится с использованием оптимизатора Adam, алгоритма адаптивной оценки скорости обучения, позволяющего эффективно настраивать веса модели для минимизации функции потерь. В качестве функции потерь применяется Binary Cross-Entropy (двоичная кросс-энтропия), которая подходит для задач бинарной классификации, в данном случае — определения эстетической привлекательности изображения. Данный подход позволяет модели эффективно обучаться на размеченных данных и достигать высокой точности в прогнозировании эстетических оценок.

Для визуализации областей входных изображений, оказывающих наибольшее влияние на предсказания эстетической привлекательности, используется метод Gradient-weighted Class Activation Mapping (Grad-CAM). Grad-CAM вычисляет градиенты выходной функции по отношению к активациям последних слоев сверточной нейронной сети. Эти градиенты используются для взвешивания активаций, что позволяет определить, какие пространственные области изображения наиболее важны для классификации. В результате формируется карта тепловой активности, наглядно демонстрирующая, на какие участки изображения модель обращает наибольшее внимание при оценке эстетики.

Использование Gradient-weighted Class Activation Mapping (Grad-CAM) позволяет визуализировать области входных изображений, которые оказывают наибольшее влияние на предсказания модели об эстетической привлекательности. Grad-CAM вычисляет градиенты выходной функции относительно карт признаков сверточных слоев, что позволяет определить, какие участки изображения наиболее важны для принятия решения. Полученные карты активации накладываются на исходное изображение, показывая, какие визуальные элементы (например, объекты, текстуры, композиция) в наибольшей степени способствуют оценке эстетики, обеспечивая тем самым интерпретируемость процесса принятия решений моделью.

Временное внимание к размерности 'Вход-Выход' позволяет модели фокусироваться на ключевых моментах изменения состояния.
Временное внимание к размерности ‘Вход-Выход’ позволяет модели фокусироваться на ключевых моментах изменения состояния.

Превосходя текущие модели: Новый стандарт предсказания эстетики

Представленная разработка значительно превосходит существующие модели видеопонимания, такие как I3D, X3D, Video Swin Transformer, TimeSformer и VideoMamba, в задачах оценки эстетики. В ходе исследований, новая архитектура продемонстрировала повышенную точность анализа визуального контента, что позволяет более эффективно прогнозировать восприятие пространства. Преимущество достигается за счет инновационного подхода к обработке информации, позволяющего извлекать и учитывать более тонкие визуальные характеристики, влияющие на эстетическую оценку. Этот прогресс открывает возможности для создания более интеллектуальных систем, способных адаптироваться к предпочтениям пользователей и создавать визуально привлекательные среды.

Разработанная система продемонстрировала высокую точность в предсказании эстетической оценки интерьерных пространств, достигнув 72,2% на объективных задачах и 66,8% на субъективных. Этот результат подтверждает эффективность интеграции данных отслеживания взгляда с визуальным контентом. Использование информации о движении зрачка позволяет модели более точно учитывать факторы, влияющие на восприятие красоты и гармонии в интерьере, что значительно превосходит возможности традиционных методов анализа изображений и видео. Полученные данные свидетельствуют о том, что визуальное внимание человека играет ключевую роль в формировании эстетических суждений, и учет этой информации существенно повышает качество предсказаний.

Исследования показали, что разработанная модель демонстрирует высокую эффективность в предсказании эстетической оценки интерьеров, даже при использовании исключительно видеоданных. При анализе видеоматериалов без дополнительных модальностей, точность модели составила 72.8% для объективных оценок и 67.0% для субъективных. Этот результат подчеркивает значительную ценность использования мультимодального подхода, поскольку интеграция данных с различных источников позволяет добиться более точного и всестороннего понимания визуального восприятия и эстетических предпочтений. Полученные данные свидетельствуют о том, что модель способна эффективно извлекать и анализировать эстетически значимые признаки непосредственно из видео, что открывает новые возможности для автоматизированной оценки дизайна интерьеров и персонализации пользовательского опыта.

Исследования показали, что исключение данных о движении зрачка значительно снижает точность предсказания эстетической оценки интерьеров. При удалении информации о зрачке, объективная точность модели упала на 4.3%, с 72.2% до 67.9%. Этот результат подчеркивает критическую важность данных о направлении взгляда для понимания того, как люди воспринимают визуальную информацию и формируют эстетические суждения. Очевидно, что направление взгляда предоставляет ценные подсказки о том, какие элементы в пространстве привлекают внимание, и, следовательно, играют ключевую роль в формировании общего впечатления и оценки.

Совершенствование понимания эстетики: Перспективы развития

Предстоящие исследования направлены на адаптацию разработанной методологии к разнообразным типам внутренних пространств, уделяя особое внимание уникальным архитектурным особенностям, таким как планировка традиционных тайваньских домов. Исследователи планируют изучить, как особенности этих пространств — узкие фасады, внутренние дворы и многоуровневая структура — влияют на визуальное восприятие и эстетическую оценку. Анализ зрительных паттернов в этих условиях позволит уточнить модель, учитывая специфику культурного контекста и архитектурных решений, и расширить её применимость к другим, нетипичным интерьерам, что в конечном итоге позволит более точно понимать и прогнозировать эстетическую реакцию человека на окружающую среду.

Исследования показывают, что восприятие эстетики и паттерны взгляда тесно связаны с индивидуальными особенностями личности и личными предпочтениями. Устойчивые черты характера, такие как открытость новому опыту, добросовестность и экстраверсия, могут существенно влиять на то, как человек фокусируется на элементах интерьера и оценивает их привлекательность. Например, люди с высокой степенью открытости, как правило, уделяют больше внимания деталям и сложным композициям, в то время как более практичные личности могут сосредотачиваться на функциональности и простоте дизайна. Учет этих индивидуальных различий позволит создать более персонализированные и комфортные пространства, отвечающие уникальным потребностям и вкусам каждого человека, что является важным шагом к разработке действительно «умных» и адаптивных интерьеров.

Для более полного понимания эстетического опыта, исследования планируют расширить существующую структуру, включив в неё анализ физиологических показателей, таких как вариабельность сердечного ритма и электропроводность кожи. Эти показатели позволяют объективно оценить эмоциональную реакцию человека на окружающее пространство, выявляя подсознательные предпочтения и степень вовлечённости. В отличие от субъективных оценок, физиологические данные предоставляют непредвзятую информацию о том, как конкретные элементы дизайна влияют на нервную систему и общее самочувствие. Интеграция этих данных позволит создать более точную и всеобъемлющую модель эстетического восприятия, учитывающую как когнитивные, так и эмоциональные аспекты взаимодействия человека с окружающей средой.

В конечном счете, проводимые исследования направлены на создание интеллектуальных сред обитания, способных адаптироваться к потребностям человека и значительно повышать качество жизни. Разрабатываемая система предполагает, что окружение не просто отвечает функциональным требованиям, но и активно взаимодействует с пользователем, учитывая его эмоциональное состояние и эстетические предпочтения. Предполагается, что такие пространства смогут динамически изменять освещение, цветовую гамму, звуковое сопровождение и даже планировку, чтобы создать оптимальную атмосферу для работы, отдыха или общения. Эта адаптивность, основанная на анализе физиологических данных и паттернов взгляда, позволит создать персонализированные и комфортные условия, способствующие благополучию и продуктивности человека, а также гармоничному взаимодействию с окружающей средой.

Данная работа, стремящаяся объединить визуальную информацию с данными отслеживания взгляда, напоминает о сложности интерпретации любого сигнала. Авторы предлагают дуальную архитектуру CNN-LSTM, пытаясь уловить не только что видит пользователь, но и как он это делает. Однако, даже самые сложные модели, как и любое заклинание, работают лишь до момента столкновения с реальностью продакшена. Как справедливо отмечает Фэй-Фэй Ли: «Данные — это не цифры, а шёпот хаоса. Их нельзя понять, только уговорить». Именно эту «уговор» авторы и пытаются осуществить, используя пространственное и временное внимание, чтобы выявить скрытые закономерности в предпочтениях пользователей относительно эстетики интерьеров. Шум, неизбежно присутствующий в данных отслеживания взгляда, здесь не ошибка, а лишь правда без бюджета, которую необходимо фильтровать и интерпретировать.

Куда же дальше?

Представленная работа, как и любое заклинание, лишь приоткрывает завесу над хаосом эстетического восприятия. Успешное слияние данных отслеживания взгляда с визуальной информацией — это не победа над неопределенностью, а лишь временное умиротворение шума. Попытки «украсить хаос», предсказывая оценку интерьера, неизбежно наталкиваются на субъективность самого понятия «красиво». Следующим шагом представляется не столько повышение точности предсказаний, сколько понимание причин расхождений между моделью и человеческим глазом.

Очевидным ограничением является зависимость от конкретного набора интерьеров и культурного контекста. Следует исследовать, насколько хорошо полученные модели переносятся на другие стили и пространства, и как можно адаптировать их к индивидуальным предпочтениям. Не менее важным представляется изучение динамики взгляда во времени — как взгляд скользит по пространству, какие элементы привлекают внимание, и как это связано с эмоциональной реакцией. И, конечно, стоит задуматься о добавлении иных модальностей — звука, тактильных ощущений, даже запахов — чтобы создать более полное представление об эстетическом опыте.

В конечном счете, задача не в том, чтобы создать идеальную модель предсказания, а в том, чтобы лучше понять саму природу красоты — ускользающую, субъективную и всегда немного иррациональную. И помнить, что данные всегда правы — пока не попадут в прод.


Оригинал статьи: https://arxiv.org/pdf/2601.16811.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-26 13:59