Наука — Страница 130

Понимание поведения приматов: новая модель для анализа видеозаписей дикой природы

16.11.2025 от Denis

Для обработки данных PriVi.YouTube применяется конвейер, включающий фильтрацию с использованием классификатора релевантности, субдискретизацию R&O на основе метаданных подмножеств, обнаружение приматов без обучения и отбраковку пустых кадров, в результате чего формируется набор из 424 часов уникальных видеоматериалов, дополненных ограничивающими рамками и CLIP-вложениями для ключевых кадров.

Исследователи представили PriVi – масштабный набор данных и модель, способную значительно улучшить распознавание поведения приматов в естественной среде обитания.

Зрение для всех: Как компактные нейросети делают видео доступнее для слабовидящих

16.11.2025 от Denis

В исследовании оценивались четыре стратегии подсказок, варьирующиеся от базовых запросов до комплексных, включающих контекст и аудиоописания, для различных версий SmolVLM и базовой модели Qwen, с целью оценки генерируемых описаний как стандартными метриками NLP, так и специализированными метриками доступности, ориентированными на пользователей с нарушениями зрения.

Новое исследование показывает, что небольшие модели, объединяющие зрение и язык, могут превосходить более крупные аналоги в создании эффективных описаний видео для людей с нарушениями зрения.

Расширяя границы неявных представлений: Новый подход к увеличению мощности нейронных сетей

16.11.2025 от Denis

Разделение слоёв в архитектуре SIREN, как продемонстрировано на примере модели с девятью скрытыми нейронами, значительно расширяет пространство признаков и обеспечивает более разнообразную основу для решения задачи подгонки изображения по сравнению с оригинальной моделью, причём увеличение числа разделений до трёх оказывает дополнительное влияние на разнообразие признаков.

В статье представлена инновационная модификация полносвязных слоев, позволяющая значительно повысить выразительность неявных представлений без увеличения вычислительных затрат.

Визуальные Трансформеры: Обнаружение и удаление избыточности для повышения эффективности

16.11.2025 от Denis

Уменьшение объёма информации, извлекаемой из токенов, приводит к снижению сложности и повышению эффективности обработки данных.

Новый подход позволяет значительно ускорить работу Vision Transformers, выявляя и отсеивая ненужные элементы обработки изображений.

Свобода взгляда: Защита приватности в системах управления взглядом

16.11.2025 от Denis

Сравнение методов сохранения конфиденциальности демонстрирует, что понижающая дискретизация уменьшает количество выборок, сохраняя при этом структуру исходного сегмента данных, что и объясняет его более раннее завершение.

Новое исследование демонстрирует, как обеспечить конфиденциальность данных отслеживания взгляда в реальном времени, не жертвуя точностью и удобством взаимодействия.

Искусственный интеллект: взгляд сквозь объектив и текст

16.11.2025 от Denis

Архитектура LLaViT преобразует большую языковую модель в расширенный кодировщик визуальной информации, используя отдельные параметры проекций QKV для визуальных токенов, инициализированные весами QKV самой языковой модели, и обеспечивая двунаправленное внимание к этим токенам, а также интегрируя как локальные, так и глобальные признаки, извлечённые из различных слоёв CLIP ViT.

Новое исследование предлагает переосмыслить обработку визуальной информации в многомодальных моделях, объединяя возможности зрения и языка.

Окружение для развития: Как научить ИИ-агентов взаимодействовать с миром

16.11.2025 от Denis

Опыт в обучении с подкреплением формируется посредством цикла генерации-исполнения-обратной связи, где среда создает задачи, агент их выполняет, а среда оценивает и отбирает полезный опыт для обучения; систематизация методов масштабирования среды, основанная на этом цикле, выявляет асимметрию между генератором и верификатором, представляющую собой уникальную проблему.

В статье представлен всесторонний анализ современных подходов к созданию масштабируемых интерактивных сред для обучения ИИ-агентов, способных к эффективному взаимодействию и адаптации.

Невидимая угроза: уязвимость моделей «зрение-язык-действие» перед физическими атаками

15.11.2025 от Denis

Новое исследование демонстрирует, как легко обмануть современные мультимодальные системы, воздействуя на физические сенсоры, и предлагает способы защиты от подобных атак.

Самоорганизация и обучение: как создать форму?

15.11.2025 от Denis

Разделение труда и амплитуда управления находятся в неразрывной связи, демонстрируя, как специализация задач влияет на степень контроля над системой и её реакцию на внешние воздействия.

Новая гибридная модель объединяет возможности централизованного обучения и самоорганизующихся систем для достижения оптимального формирования структур.

Скрытый смысл: новая эра семантической коммуникации

15.11.2025 от Denis

Предлагаемая архитектура семантической коммуникации представляет собой основу для построения системы, способной к эффективной передаче и интерпретации информации.

Исследователи предлагают принципиально новый подход к передаче информации, позволяющий восстанавливать глубинный смысл даже при наличии помех.