Понимание поведения приматов: новая модель для анализа видеозаписей дикой природы

Для обработки данных PriVi.YouTube применяется конвейер, включающий фильтрацию с использованием классификатора релевантности, субдискретизацию R&O на основе метаданных подмножеств, обнаружение приматов без обучения и отбраковку пустых кадров, в результате чего формируется набор из 424 часов уникальных видеоматериалов, дополненных ограничивающими рамками и CLIP-вложениями для ключевых кадров.

Исследователи представили PriVi – масштабный набор данных и модель, способную значительно улучшить распознавание поведения приматов в естественной среде обитания.

Зрение для всех: Как компактные нейросети делают видео доступнее для слабовидящих

В исследовании оценивались четыре стратегии подсказок, варьирующиеся от базовых запросов до комплексных, включающих контекст и аудиоописания, для различных версий SmolVLM и базовой модели Qwen, с целью оценки генерируемых описаний как стандартными метриками NLP, так и специализированными метриками доступности, ориентированными на пользователей с нарушениями зрения.

Новое исследование показывает, что небольшие модели, объединяющие зрение и язык, могут превосходить более крупные аналоги в создании эффективных описаний видео для людей с нарушениями зрения.

Расширяя границы неявных представлений: Новый подход к увеличению мощности нейронных сетей

Разделение слоёв в архитектуре SIREN, как продемонстрировано на примере модели с девятью скрытыми нейронами, значительно расширяет пространство признаков и обеспечивает более разнообразную основу для решения задачи подгонки изображения по сравнению с оригинальной моделью, причём увеличение числа разделений до трёх оказывает дополнительное влияние на разнообразие признаков.

В статье представлена инновационная модификация полносвязных слоев, позволяющая значительно повысить выразительность неявных представлений без увеличения вычислительных затрат.

Окружение для развития: Как научить ИИ-агентов взаимодействовать с миром

Опыт в обучении с подкреплением формируется посредством цикла генерации-исполнения-обратной связи, где среда создает задачи, агент их выполняет, а среда оценивает и отбирает полезный опыт для обучения; систематизация методов масштабирования среды, основанная на этом цикле, выявляет асимметрию между генератором и верификатором, представляющую собой уникальную проблему.

В статье представлен всесторонний анализ современных подходов к созданию масштабируемых интерактивных сред для обучения ИИ-агентов, способных к эффективному взаимодействию и адаптации.

Невидимая угроза: уязвимость моделей «зрение-язык-действие» перед физическими атаками

Модели визуально-слухового анализа (VLA) оказались уязвимы к физическим атакам на сенсоры, когда лазерное, электромагнитное и ультразвуковое излучение, направленное на камеры и микрофоны, способно вызвать критические сбои в их работе, что подтверждается разработанной автоматизированной схемой “Реальность-Симуляция-Реальность”, позволяющей оценить степень влияния и предложить эффективные методы защиты.

Новое исследование демонстрирует, как легко обмануть современные мультимодальные системы, воздействуя на физические сенсоры, и предлагает способы защиты от подобных атак.