Живые Пространства: Эксперименты с Интерактивным Окружением

В статье рассматривается практический опыт создания адаптивных пространств для иммерсивных перформансов, основанный на отказе от программирования и акценте на коллективное взаимодействие.

Понимание поведения приматов: новая модель для анализа видеозаписей дикой природы

Для обработки данных PriVi.YouTube применяется конвейер, включающий фильтрацию с использованием классификатора релевантности, субдискретизацию R&O на основе метаданных подмножеств, обнаружение приматов без обучения и отбраковку пустых кадров, в результате чего формируется набор из 424 часов уникальных видеоматериалов, дополненных ограничивающими рамками и CLIP-вложениями для ключевых кадров.

Исследователи представили PriVi – масштабный набор данных и модель, способную значительно улучшить распознавание поведения приматов в естественной среде обитания.

Зрение для всех: Как компактные нейросети делают видео доступнее для слабовидящих

В исследовании оценивались четыре стратегии подсказок, варьирующиеся от базовых запросов до комплексных, включающих контекст и аудиоописания, для различных версий SmolVLM и базовой модели Qwen, с целью оценки генерируемых описаний как стандартными метриками NLP, так и специализированными метриками доступности, ориентированными на пользователей с нарушениями зрения.

Новое исследование показывает, что небольшие модели, объединяющие зрение и язык, могут превосходить более крупные аналоги в создании эффективных описаний видео для людей с нарушениями зрения.

Расширяя границы неявных представлений: Новый подход к увеличению мощности нейронных сетей

Разделение слоёв в архитектуре SIREN, как продемонстрировано на примере модели с девятью скрытыми нейронами, значительно расширяет пространство признаков и обеспечивает более разнообразную основу для решения задачи подгонки изображения по сравнению с оригинальной моделью, причём увеличение числа разделений до трёх оказывает дополнительное влияние на разнообразие признаков.

В статье представлена инновационная модификация полносвязных слоев, позволяющая значительно повысить выразительность неявных представлений без увеличения вычислительных затрат.