Автор: Денис Аветисян
Новое исследование показывает, что небольшие модели, объединяющие зрение и язык, могут превосходить более крупные аналоги в создании эффективных описаний видео для людей с нарушениями зрения.
Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.
Купить акции "голубых фишек"
Оценка эффективности моделей обработки изображений и текста для автоматического создания видеоописаний, особенно при использовании на мобильных устройствах.
Несмотря на значительные успехи в области мультимодальных моделей, обеспечение доступности видео-описаний для людей с нарушениями зрения остается сложной задачей. В работе ‘Towards Blind and Low-Vision Accessibility of Lightweight VLMs and Custom LLM-Evals’ исследуется возможность создания эффективных и экономичных систем для описания видео, ориентированных на потребности слепых и слабовидящих пользователей. Показано, что уменьшение размера моделей не всегда приводит к ухудшению качества описаний, а тщательно разработанные оценочные метрики и стратегии проектирования запросов позволяют добиться оптимальных результатов даже на мобильных устройствах. Какие новые подходы к разработке и оценке мультимодальных моделей позволят еще больше расширить возможности доступности для всех?
Неизбежный компромисс: проблема понимания видео для тех, кто не видит
Несмотря на значительный прогресс в области компьютерного зрения, создание полноценных описаний видеоконтента для слепых и слабовидящих пользователей остается сложной задачей. Существующие алгоритмы часто сосредотачиваются на распознавании отдельных объектов, упуская из виду контекст, динамику событий и сложные взаимосвязи, необходимые для формирования целостной картины происходящего. Это приводит к тому, что даже при точном определении объектов, описание видео может оказаться неинформативным или затруднять навигацию по видеоряду для людей с нарушениями зрения. Для обеспечения действительно доступного видеоопыта требуется разработка систем, способных не просто «видеть», но и «понимать» видеоконтент на уровне, сопоставимом с человеческим восприятием.
Современные методы автоматического анализа видеоконтента, несмотря на значительный прогресс в области компьютерного зрения, зачастую оказываются недостаточно чувствительны к контексту и деталям, необходимым для создания полноценного и удобного опыта для слепых и слабовидящих пользователей. Простое обнаружение объектов на экране не позволяет сформировать целостную картину происходящего; важно понимать взаимосвязи между ними, динамику событий, а также социальные и эмоциональные нюансы. Отсутствие этих деталей приводит к тому, что автоматически сгенерированные описания видео могут быть неполными, нелогичными или даже вводящими в заблуждение, лишая пользователей возможности полноценно ориентироваться в видеоинформации и получать от неё максимальную пользу. Поэтому, для создания действительно доступных видеоматериалов, требуется разработка моделей, способных к более глубокому и комплексному пониманию видеоконтента, учитывающего все аспекты происходящего.
Для создания действительно информативного аудиоописания видео требуется не просто распознавание объектов на экране, но и глубокое понимание происходящих событий, их пространственного контекста и социальных взаимодействий. Современные модели машинного обучения стремятся к этому, анализируя не только статичные изображения, но и временные связи между кадрами, что позволяет выявлять динамику происходящего. Определение таких элементов, как направление взгляда персонажей, их эмоциональное состояние или взаимосвязь между действиями и окружением, значительно повышает ценность аудиоописания для незрячих и слабовидящих зрителей, обеспечивая полноценное восприятие визуального контента. Эффективные модели должны уметь выводить не только “что” происходит, но и “как” и “почему”, предоставляя комплексное и понятное описание сцены.
SmolVLM2: прагматичный подход к описанию видео
В качестве основы для генерации доступных описаний видео мы используем SmolVLM2, включая версии с 500 миллионами и 2,2 миллиардами параметров. SmolVLM2 представляет собой архитектуру, разработанную для эффективного понимания видео и следования инструкциям, что позволяет создавать краткие и информативные описания. Выбор моделей меньшего размера, чем у многих современных аналогов, обусловлен стремлением к повышению доступности и возможности развертывания на потребительском оборудовании без значительных вычислительных затрат. Использование обеих версий (500M и 2.2B) позволяет оценить компромисс между скоростью работы и качеством генерируемых описаний.
Модели SmolVLM2, подвергшиеся тонкой настройке для задач понимания видео и следования инструкциям, показали перспективные результаты в эффективной автоматической генерации кратких описаний видеоконтента. В процессе обучения модели используют размеченные данные, позволяющие им соотносить визуальную информацию с текстовыми описаниями и отвечать на запросы, касающиеся содержания видео. Это обеспечивает возможность создания лаконичных и информативных резюме, охватывающих ключевые события и объекты, представленные в видеоматериале, при относительно небольших вычислительных затратах.
Особенностью SmolVLM2, как 500M, так и 2.2B-параметрических версий, является их компактный размер, позволяющий развертывать модели непосредственно на потребительском оборудовании. Использование фреймворков, таких как llama.cpp, обеспечивает возможность запуска моделей на устройствах с ограниченными вычислительными ресурсами, включая обычные персональные компьютеры и ноутбуки, без необходимости использования специализированного оборудования или облачных сервисов. Это значительно расширяет доступность технологий автоматического описания видео для широкого круга пользователей и разработчиков, снижая стоимость и сложность внедрения.
Для получения содержательных описаний видео модели SmolVLM2 используют методику Prompt Engineering, заключающуюся в разработке и оптимизации текстовых запросов, направляющих процесс генерации. Эффективность данной методики значительно повышается за счет использования размеченных данных, полученных в результате Human Annotations – ручной разметки видеоматериалов экспертами. Разметка включает в себя детальные описания ключевых событий, объектов и действий, что обеспечивает модели богатый контекст и позволяет генерировать более точные и релевантные описания видеоконтента.
Строгая оценка: многоконтекстный подход к анализу качества
Для оценки качества генерируемых описаний видео используется комбинация двух фреймворков: Navigational Assistance Framework и Multi-Context BLV Framework. Navigational Assistance Framework фокусируется на пространственной ориентации и навигационных аспектах видео, в то время как Multi-Context BLV Framework охватывает более широкий спектр контекстов, включая социальное взаимодействие, действия/события и общую атмосферу. Совместное использование этих фреймворков позволяет провести всестороннюю оценку, учитывая различные потребности пользователей с нарушениями зрения (BLV) и обеспечивая полноту и релевантность генерируемых описаний.
Оценка генерируемых видеоописаний осуществляется по четырем ключевым аспектам: пространственная ориентация, социальное взаимодействие, действия/события и общая атмосфера. Данные измерения соответствуют потребностям пользователей с нарушениями зрения (BLV), которым необходима подробная информация о происходящем в видео, включая описание местоположения объектов и людей, характера их взаимодействия, совершаемых действий и общего контекста сцены. Оценка по данным направлениям позволяет определить, насколько полно и точно сгенерированное описание передает визуальный контент для незрячих и слабовидящих зрителей.
Для количественной оценки генерируемых видеоописаний используются объективные метрики $BLEU Score$ и $CIDEr Score$. В рамках оценки доступности видеоконтента, типичные значения $BLEU-1$ составляют диапазон от 0.135 до 0.327, а $CIDEr$ – от 0.072 до 0.207. Эти метрики позволяют оценить степень совпадения с эталонными описаниями и качество генерируемого текста, обеспечивая возможность сравнения различных моделей и алгоритмов генерации описаний для видео.
Для формирования эталонных описаний видео, используемых в качестве основы для оценки качества сгенерированных текстов, применяется модель $Qwen\ 2.5\ VL\ 7B\ Instruct$. Данная модель, обладающая возможностями визуального и языкового анализа, генерирует описания, которые служат «золотым стандартом» для сравнения с результатами работы других систем. Использование $Qwen\ 2.5\ VL\ 7B\ Instruct$ позволяет обеспечить объективность и воспроизводимость оценки, поскольку эталонные описания формируются автоматически, исключая субъективность, связанную с ручной аннотацией данных. Полученные описания используются в рамках предложенных оценочных фреймворков для расчета метрик качества, таких как BLEU и CIDEr.
Баланс между производительностью и качеством: точность и эффективность
Исследование влияния различных уровней точности – $FP32$ и $INT8$ – на производительность и качество генерируемого текста выявило существенные различия. Хотя формат $FP32$ обеспечивает более высокую точность вычислений и, как следствие, потенциально более качественные описания, переход к $INT8$ значительно снижает вычислительную нагрузку. Это позволяет развертывать модели на устройствах с ограниченными ресурсами, таких как современные смартфоны, без критической потери в качестве генерируемого контента. Наблюдалось, что квантизация до $INT8$ не только ускоряет процесс вывода, но и, в некоторых случаях, увеличивает объем сгенерированного текста, что может быть обусловлено более эффективным использованием ресурсов и оптимизацией алгоритмов.
Несмотря на то, что формат данных $FP32$ обеспечивает повышенную точность вычислений, переход к $INT8$ значительно снижает вычислительные затраты. Это достигается за счет уменьшения разрядности представления чисел, что позволяет существенно ускорить обработку информации и снизить потребление памяти. Такой подход делает модели, использующие $INT8$, особенно привлекательными для устройств с ограниченными ресурсами, таких как смартфоны или встраиваемые системы, где важна не только точность, но и скорость работы и энергоэффективность. В результате, модели, оптимизированные для $INT8$, способны выполнять сложные задачи в реальном времени, обеспечивая высокую производительность даже на маломощном оборудовании.
Исследование продемонстрировало, что 500-миллиардная параметрическая модель, работающая с 8-битной целочисленной точностью (INT8), обеспечивает время инференса в диапазоне от 60 до 83 секунд на потребительском смартфоне. Этот результат указывает на значительный потенциал для развертывания моделей искусственного интеллекта в реальном времени непосредственно на мобильных устройствах, что открывает возможности для широкого спектра приложений, не требующих подключения к облачным серверам. Достигнутая скорость позволяет обрабатывать данные и генерировать результаты непосредственно на устройстве, обеспечивая конфиденциальность и снижая задержки, что особенно важно для интерактивных приложений и сценариев, требующих немедленной реакции.
Исследования показали, что модель с 500 миллионами параметров демонстрирует более высокий уровень объективности – в диапазоне от 5.02 до 5.11 – по сравнению с более крупной 2.2-миллиардной моделью. Этот показатель свидетельствует о том, что меньшая модель генерирует описания, которые в большей степени соответствуют фактическим данным и содержат меньше субъективных интерпретаций или вымышленных деталей. Полученные результаты указывают на то, что оптимизация размера модели не только способствует повышению эффективности вычислений, но и может положительно влиять на качество генерируемого контента, обеспечивая более достоверные и информативные описания.
Исследования показали, что применение 8-битной квантизации (INT8) к 500-миллиардной параметрической модели значительно увеличивает объем генерируемого текста по сравнению с использованием 32-битной точности (FP32). В частности, модель, работающая в режиме INT8, смогла сгенерировать 111 токенов, тогда как ее FP32-эквивалент – всего 68. Данный результат демонстрирует, что снижение вычислительной точности не только снижает требования к ресурсам, но и способствует повышению производительности модели, позволяя ей генерировать более развернутые и содержательные ответы при сохранении качества.
Исследования показали, что для оптимизации скорости обработки информации была применена адаптивная методика выделения ключевых кадров. Данный алгоритм позволяет динамически определять наиболее значимые фрагменты данных, исключая из рассмотрения избыточную или незначимую информацию. В результате достигается существенное ускорение процесса обработки без потери информативности и качества генерируемых описаний. Адаптивность алгоритма заключается в способности автоматически регулировать частоту выделения ключевых кадров в зависимости от сложности и динамики входных данных, обеспечивая оптимальный баланс между скоростью и точностью.
Исследование демонстрирует, что уменьшение размера модели не всегда означает потерю качества, а порой и вовсе приводит к улучшению результатов, особенно при работе с конкретной задачей вроде генерации видео-описаний для людей с нарушениями зрения. Всё это, конечно, не ново. Как говорил Эндрю Ын: «Самый быстрый способ построить продукт — это версия 1, а затем итерации». Удивительно, как часто сложные архитектуры оказываются избыточными, а более простые решения демонстрируют лучшую производительность в реальных условиях, особенно когда речь идёт о развёртывании на устройствах с ограниченными ресурсами. Это закономерность, которую можно наблюдать снова и снова: элегантная теория разбивается о суровую реальность продакшена.
Куда всё это ведёт?
Результаты, представленные в данной работе, закономерно демонстрируют, что «меньше – не всегда хуже». Однако, эйфория от возможности развернуть «достаточно хорошее» описание видео на смартфоне, вероятно, утихнет быстро. Продакшен найдет способ сломать даже самую элегантную архитектуру. Вопрос не в том, что модель может сгенерировать, а в том, что произойдет, когда она столкнется с реальным, грязным видеопотоком, снятым на телефон в метро. Тесты – это форма надежды, а не уверенности.
Следующим шагом, очевидно, станет гонка за оптимизацией. Но, скорее всего, это будет не оптимизация алгоритмов, а оптимизация ожиданий. Вместо того чтобы стремиться к идеальному описанию, нужно научиться генерировать приемлемое описание, которое не потребует ресурсов суперкомпьютера. И да, автоматизация нас не спасет. Скрипт уже удалял прод.
В конечном счете, настоящая проблема заключается не в технологиях, а в том, кто будет поддерживать и обновлять эти модели. Кто будет следить за тем, чтобы они не начали генерировать оскорбительные или вводящие в заблуждение описания? Каждая «революционная» технология завтра станет техдолгом, а значит, вопрос о долгосрочной поддержке и ответственности остается открытым.
Оригинал статьи: https://arxiv.org/pdf/2511.10615.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Лучшие смартфоны. Что купить в ноябре 2025.
- Аналитический обзор рынка (15.11.2025 02:32)
- Motorola Moto G86 Power ОБЗОР: чёткое изображение, объёмный накопитель, замедленная съёмка видео
- Motorola Moto G06 Power ОБЗОР: плавный интерфейс, удобный сенсор отпечатков, большой аккумулятор
- Типы дисплеев. Какой монитор выбрать?
- Как правильно фотографировать портрет
- Новые смартфоны. Что купить в ноябре 2025.
- Как научиться фотографировать. Инструкция для начинающих.
- Аналитический обзор рынка (12.11.2025 12:32)
- Motorola Edge 60 Fusion ОБЗОР: замедленная съёмка видео, плавный интерфейс, мощный процессор
2025-11-16 20:27