Ваш робот может повиноваться знаку, а не вам, благодаря внедрению запросов в ИИ для роботов.

Уже недостаточно беспокоиться о манипулировании ИИ-роботами с помощью текста на экране. Новые исследования показывают, что роботов можно обмануть и сбить с толку текстом, с которым они сталкиваются в реальном мире – например, вывесками или сообщениями, мимо которых просто проходит человек.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"

Эта атака не включает в себя взлом системы робота или подделку данных с датчиков. Вместо этого, она работает путем манипулирования окружением робота – например, путем размещения ложного знака или этикетки там, где ее может видеть его камера.

Исследователи протестировали свою систему с помощью симуляций и реальных роботов. В смоделированных сценариях автономного вождения и посадок дронов атаки преуспевали 81,8% и 68,1% времени соответственно. При тестировании на небольшом роботизированном автомобиле в различных условиях, печатные подсказки успешно захватывали управление его навигацией как минимум в 87% случаев.

Когда знак становится приказом

CHAI — это новая техника, которая фокусируется на этапе планирования в системах ИИ, управляющих физическими действиями. Она работает путем вмешательства в момент, когда ИИ решает *как* двигаться, до того, как эти инструкции будут фактически выполнены. Это важно, потому что даже без вредоносного программного обеспечения, ошидочный план может привести к непредвиденным и потенциально вредным действиям, если система добросовестно следует неверным инструкциям.

Эта оценка безопасности фокусируется на простых атаках. Мы предполагаем, что у злоумышленника нет специальных технических навыков или доступа к внутренним системам транспортного средства – ему нужно только уметь отображать текст, который может увидеть камера.

Он разработан для путешествий.

CHAI не просто улучшает формулировку ваших запросов; он также корректирует то, как текст *выглядит* – такие вещи, как цвет, размер и макет. Это связано с тем, что легкость, с которой модель может ‘прочитать’ текст, влияет на результаты.

Это исследование показывает, что метод не ограничивается конкретными изображениями; он надёжно работает с новыми, ранее невидимыми картинками. Команда разработала запросы, которые последовательно достигают как минимум 50% успеха в различных задачах и моделях ИИ, и даже достигла более 70% успеха с одной настройкой, используя GPT. Примечательно, что он также функционирует с несколькими языками – включая китайский, испанский и запросы, которые комбинируют языки – потенциально делая скрытые сообщения менее заметными для окружающих.

Список проверки безопасности меняется.

Исследователи предлагают три основных подхода к защите. Во-первых, они предлагают методы фильтрации и обнаружения для выявления потенциально вредного текста в изображениях или на этапах обработки моделью. Во-вторых, они рекомендуют работу над выравниванием, чтобы предотвратить интерпретацию моделью безобидного текста как команд. Наконец, они подчеркивают необходимость продолжающихся исследований для создания более последовательно надежных и безопасных моделей.

Хорошим следующим шагом всегда является предположение, что любой текст, который получает ваш робот, может быть неверным или злонамеренным. Прежде чем использовать этот текст для управления движениями робота, его следует тщательно проверить на безопасность и точность. Например, если робот считывает дорожные знаки, вам следует протестировать, что произойдет, если знаки предоставят ложную информацию. Это исследование будет представлено на SaTML 2026, что, вероятно, повысит осведомленность и контроль этих мер безопасности.

Смотрите также

2026-01-22 15:59