Вкус на кончиках пальцев: ИИ учится понимать еду по картинке

Автор: Денис Аветисян


Новая разработка позволяет искусственному интеллекту предсказывать вкус, запах, текстуру и даже звук еды, основываясь только на её изображении.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"
Набор данных о мультисенсорном восприятии пищи демонстрирует разнообразие оценок: среднее число аннотаторов на изображение составляет 22, а стандартное отклонение - 2,02, при этом надежность оценок отдельных участников, измеренная коэффициентом ICC(1,1), варьируется, а общая надежность агрегированных оценок, рассчитанная по среднему значению примерно 21 аннотатора (ICC(1,k)), достигает значений выше 0,70, что указывает на стабильность восприятия сенсорных свойств пищи даже при наличии индивидуальных различий.
Набор данных о мультисенсорном восприятии пищи демонстрирует разнообразие оценок: среднее число аннотаторов на изображение составляет 22, а стандартное отклонение — 2,02, при этом надежность оценок отдельных участников, измеренная коэффициентом ICC(1,1), варьируется, а общая надежность агрегированных оценок, рассчитанная по среднему значению примерно 21 аннотатора (ICC(1,k)), достигает значений выше 0,70, что указывает на стабильность восприятия сенсорных свойств пищи даже при наличии индивидуальных различий.

Представлен датасет FoodSense и методика обучения моделей, способных к мультисенсорному анализу пищевых продуктов.

Несмотря на развитость когнитивных исследований восприятия пищи, современные модели машинного зрения и обработки естественного языка редко учитывают мультисенсорный характер пищевого опыта. В данной работе представлена база данных ‘FoodSense: A Multisensory Food Dataset and Benchmark for Predicting Taste, Smell, Texture, and Sound from Images’ — новый набор данных и методология для обучения моделей предсказывать и объяснять вкусовые, обонятельные, тактильные и звуковые характеристики пищи на основе изображений. Разработанный подход позволяет не только оценивать сенсорные ожидания, но и генерировать обоснованные объяснения, связывающие визуальные признаки с мультисенсорным восприятием. Способны ли такие модели приблизить нас к созданию более реалистичных и информативных систем анализа пищевых продуктов и взаимодействия с ними?


За пределами зрения: Вызовы мультисенсорного ИИ

Современные модели, объединяющие зрение и язык, в большинстве случаев полагаются преимущественно на визуальную информацию, игнорируя важнейшие сенсорные детали, такие как вкус, запах и текстура. Этот акцент на зрительном восприятии ограничивает их способность к полноценному “пониманию” окружающего мира, особенно когда речь идет о сложных объектах, требующих комплексной оценки. Например, анализ пищи, основанный лишь на внешнем виде, не позволяет определить её истинные вкусовые качества или свежесть. В результате, возможности этих моделей в таких областях, как кулинарное искусство, разработка диетических рекомендаций и контроль качества продуктов питания, остаются существенно ограниченными. Несмотря на прогресс в области компьютерного зрения, полноценное восприятие мира требует интеграции всех органов чувств, что представляет собой серьезную задачу для современных искусственных интеллектов.

Ограниченность современных моделей, полагающихся преимущественно на визуальную информацию, существенно препятствует их способности к полноценному “пониманию” пищи. В то время как визуальное восприятие может определить внешний вид блюда, оно не раскрывает тонкостей вкуса, аромата и текстуры, формирующих общее впечатление. Это, в свою очередь, ограничивает потенциал применения искусственного интеллекта в кулинарии — от разработки новых рецептов и персонализированных диет до объективной оценки качества продуктов питания. Невозможность полноценного анализа сенсорных характеристик затрудняет создание систем, способных рекомендовать блюда, учитывая индивидуальные предпочтения, или определять свежесть и безопасность продуктов, что является критически важным для здоровья потребителей и оптимизации пищевой промышленности.

В конвейере обработки изображений блюд Gemma 3 27B IT расширяет изображения с аннотациями, генерируя обоснования, Food-Llama фильтрует галлюцинации, а FoodSense-VL предсказывает рейтинги и объяснения, как показано на примере прогноза текстуры.
В конвейере обработки изображений блюд Gemma 3 27B IT расширяет изображения с аннотациями, генерируя обоснования, Food-Llama фильтрует галлюцинации, а FoodSense-VL предсказывает рейтинги и объяснения, как показано на примере прогноза текстуры.

FoodSense: Предсказание палитры вкусов с помощью ИИ

Представляется FoodSense-VL — новая мультимодальная языковая модель (VLM), разработанная для прогнозирования сенсорных оценок продуктов питания — вкуса, запаха, текстуры и звука — на основе изображений. Модель способна анализировать визуальную информацию о еде и предсказывать, как она будет восприниматься органами чувств. Обучение модели осуществлялось с использованием большого набора данных, включающего изображения продуктов питания и соответствующие сенсорные характеристики, что позволяет ей выявлять корреляции между визуальными признаками и сенсорным восприятием.

Оптимизация модели FoodSense-VL достигается за счет двухэтапной стратегии обучения QLoRA (Quantization-aware Low-Rank Adaptation). Данный подход позволяет существенно снизить вычислительные затраты и требования к памяти за счет квантизации весов модели и адаптации только небольшого числа параметров низкого ранга. Первый этап фокусируется на квантизации исходной большой языковой модели, уменьшая ее размер без значительной потери производительности. Второй этап предполагает тонкую настройку адаптированных параметров на специализированном наборе данных FoodSense, что позволяет достичь высокой точности прогнозирования сенсорных характеристик продуктов питания при ограниченных вычислительных ресурсах.

Модель FoodSense-VL обучается на основе датасета FoodSense, представляющего собой обширный ресурс мультисенсорных данных о продуктах питания. Этот датасет позволяет добиться устойчивого обучения корреляций между визуальными характеристиками и сенсорными свойствами пищи, такими как вкус, запах, текстура и звук. В результате, модель демонстрирует коэффициент корреляции Пирсона r = 0.372 при предсказании этих сенсорных характеристик, что подтверждает эффективность подхода к обучению на основе мультисенсорных данных.

Оценка человеком вкуса, запаха, текстуры и звука блюда
Оценка человеком вкуса, запаха, текстуры и звука блюда «Стейк с рисом» составила 4.3, 4.3, 4.4 и 4.1 соответственно, что служит ориентиром для качественных оценок, полученных четырьмя моделями.

Обоснования вкуса: Объяснение сенсорных суждений ИИ

В отличие от моделей, ограничивающихся прогнозированием сенсорных оценок продуктов питания, FoodSense-VL генерирует обоснования, привязанные к изображению, объясняющие, почему была присвоена конкретная оценка. Эти обоснования представляют собой визуально-подкрепленные объяснения, которые позволяют понять, какие элементы изображения (например, текстура, цвет, форма) повлияли на оценку конкретного сенсорного атрибута. Данный подход обеспечивает большую прозрачность и интерпретируемость результатов, позволяя не только предсказывать восприятие, но и понимать, какие визуальные характеристики продукта формируют это восприятие.

В основе работы модели FoodSense-VL лежит Фреймворк расширения, ориентированный на визуальную информацию. Данный фреймворк позволяет обогатить ограниченные аннотации, предоставленные человеком, детальными визуальными характеристиками, извлеченными из изображений продуктов. Это достигается путем анализа визуальных признаков, таких как цвет, текстура и форма, и их сопоставления с сенсорными характеристиками, что позволяет модели генерировать более обоснованные и детализированные объяснения своих оценок. Фактически, фреймворк расширения служит для преодоления ограничений, связанных с недостаточным объемом и детализацией аннотаций, предоставляемых экспертами-оценщиками.

Оценка модели FoodSense-VL с использованием коэффициента корреляции Пирсона показала высокую степень соответствия между предсказанными сенсорными оценками и реальными данными, подтверждая её точность. Значение коэффициента составило 0.372. Дополнительная валидация с использованием коэффициента конкордации Лина (Lin’s Concordance Correlation Coefficient) дала результат 0.343, что свидетельствует о превосходстве модели над базовыми решениями в задачах оценки сенсорных характеристик продуктов питания. Полученные показатели демонстрируют надежность и эффективность FoodSense-VL в прогнозировании восприятия вкуса и текстуры.

Участникам демонстрировался интерфейс онлайн-опроса Qualtrics, включающий изображения продуктов питания, семибалльные шкалы для оценки сенсорных характеристик и поля для ввода текстовых описаний.
Участникам демонстрировался интерфейс онлайн-опроса Qualtrics, включающий изображения продуктов питания, семибалльные шкалы для оценки сенсорных характеристик и поля для ввода текстовых описаний.

От кулинарного искусства к персонализированному питанию

Система FoodSense-VL открывает захватывающие перспективы в области кулинарии, предлагая возможности виртуальной помощи в приготовлении пищи. Модель способна предсказывать вкусовые профили ингредиентов и, на основе этого, предлагать оптимальные сочетания продуктов. Представьте себе, что система может порекомендовать необычные, но гармоничные комбинации, вдохновляя на кулинарные эксперименты и помогая создавать уникальные блюда. Благодаря способности прогнозировать вкусовые качества, FoodSense-VL может стать незаменимым помощником как для опытных поваров, стремящихся к новым вкусовым решениям, так и для начинающих кулинаров, желающих расширить свой репертуар и избежать неудачных сочетаний.

Система FoodSense-VL открывает перспективы для создания персонализированных рекомендаций по питанию, адаптированных к индивидуальным сенсорным предпочтениям человека. Вместо универсальных диет, модель способна учитывать, какие вкусы и ароматы наиболее приятны конкретному пользователю, формируя рацион, который не только полезен, но и доставляет удовольствие. Это достигается за счет анализа данных о вкусовых профилях продуктов и предсказания, какие сочетания ингредиентов будут наиболее восприняты положительно. Такой подход позволяет не просто соблюдать диету, а наслаждаться едой, повышая мотивацию и эффективность долгосрочного следования здоровому питанию. В перспективе, система может учитывать и другие факторы, такие как аллергии или диетические ограничения, создавая действительно уникальный и оптимальный план питания для каждого.

Модель FoodSense-VL демонстрирует заметное увеличение разнообразия предсказаний, что подтверждается значением индекса Шеннона в 1.77. Этот показатель свидетельствует о способности модели генерировать более широкий спектр комбинаций ингредиентов и вкусовых профилей, избегая предсказуемых или повторяющихся результатов. В настоящее время проводятся исследования, направленные на расширение обучающего набора данных, чтобы включить в него более широкий спектр кухонь мира и учитывать разнообразные диетические потребности. Ожидается, что увеличение объема и разнообразия данных позволит значительно повысить универсальность и точность модели, делая ее более эффективным инструментом для разработки персонализированных рекомендаций в области питания и кулинарии.

Участникам предъявлялись изображения еды (например, тако) для оценки по четырем сенсорным параметрам по шкале от 1 до 7, с предоставлением текстовых описаний для каждого параметра, что позволяло получить структурированные данные о восприятии вкуса и внешнего вида.
Участникам предъявлялись изображения еды (например, тако) для оценки по четырем сенсорным параметрам по шкале от 1 до 7, с предоставлением текстовых описаний для каждого параметра, что позволяло получить структурированные данные о восприятии вкуса и внешнего вида.

Исследователи стремятся обуздать хаос сенсорного восприятия, создавая модели, способные предсказывать вкус, запах и текстуру пищи лишь по изображению. FoodSense — это попытка уговорить этот хаос, заставить его шептать о скрытых свойствах еды. Как будто заклинание, направленное на то, чтобы увидеть за пикселями нечто большее. Янн Лекун однажды заметил: «Машинное обучение — это просто поиск закономерностей». И в этом поиске FoodSense — ещё один шаг к обнаружению этих закономерностей, скрытых в многообразии вкусовых ощущений. Ведь любая модель лжет, но именно в этих искажениях и кроется истина, которую мы пытаемся уловить.

Что дальше?

Набор данных FoodSense, безусловно, открывает двери для более правдоподобных кулинарных иллюзий, создаваемых искусственным интеллектом. Однако, не стоит обольщаться. Предсказательная модель, даже обученная на столь богатом наборе ощущений, остаётся всего лишь способом обмануть будущее, экстраполировать вкус из пикселей. Попытка свести субъективное восприятие к векторам — акт веры, не более. Данные не врут, они просто помнят избирательно, фокусируясь на тех аспектах еды, которые удалось зафиксировать в изображениях.

Ключевым ограничением остаётся зависимость от визуальной информации. Запах, текстура, звук — всё это существует вне рамок изображения, и их реконструкция будет всегда лишь приблизительной. Будущие исследования должны сосредоточиться на интеграции дополнительных модальностей — химического состава, физических свойств — для создания более полной картины. Метрика точности, в данном контексте, — это лишь форма самоуспокоения, иллюзия контроля над хаосом гастрономического опыта.

По-настоящему интересным направлением представляется не просто предсказание ощущений, а понимание почему определённое изображение вызывает именно такие ассоциации. Рационализация, обоснование предсказаний — это следующий шаг, который позволит создать не просто «умную» еду, а еду, способную рассказать свою историю. И пусть эта история будет не более правдивой, чем любой другой кулинарный миф.


Оригинал статьи: https://arxiv.org/pdf/2604.14388.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-19 04:56