«Мы автоматизировали 150 задач с помощью ИИ-агентов, просто скопируйте нас»: Windows Agent Arena от Microsoft позволяет использовать ИИ-помощников на ПК с Windows, но есть критические проблемы с безопасностью и производительностью

Что вам нужно знать

Ранее в этом месяце Microsoft представила новый тест под названием Windows Agent Arena, предназначенный для предоставления платформы для тестирования агентов искусственного интеллекта в реалистичных средах операционной системы Windows.
Ранние тесты показывают, что мультимодальные агенты ИИ имеют средний показатель успешной работы 19,5% по сравнению с желаемым средним показателем эффективности человека в 74,5%.
Этот тест имеет открытый исходный код и предоставляет возможность для глубоких исследований, которые могут значительно улучшить разработку агентов искусственного интеллекта. Однако существует множество критических проблем с безопасностью и производительностью.

Как опытный энтузиаст технологий с многолетним опытом работы за плечами, я должен сказать, что сфера искусственного интеллекта действительно развивается с головокружительной скоростью! Последние разработки, такие как Windows Agent Arena от Microsoft и Copilot Studio от Salesforce, раздвигают границы того, что мы считали возможным всего несколько лет назад.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"

Поскольку генеративный ИИ становится все более распространенным, речь идет уже не только о создании простого текста и изображений. Генеральный директор NVIDIA Дженсен Хуанг ожидает, что будущее искусственного интеллекта будет определяться автономными транспортными средствами и роботами, напоминающими людей, а такие компании, как Tesla, уже добились существенного прогресса в этой области.

За последние несколько недель я пришел к выводу, что согласен с генеральным директором Salesforce Марком Бениоффом, поскольку он критиковал Microsoft за ее вклад в индустрию искусственного интеллекта. По его словам, «Copilot — это просто новый Microsoft Clippy», подразумевая, что это скорее неприятность, чем полезный инструмент. Он далее подчеркнул, что оно не работает эффективно и не приносит никакой реальной пользы.

Как преданный поклонник, я не мог не поделиться интересной новостью! Генеральный директор Salesforce не уклонился от того, чтобы подчеркнуть, что компания является ведущим в мире поставщиком ИИ, способным выполнять ошеломляющее количество транзакций, составляющих несколько триллионов каждую неделю. С другой стороны, Microsoft представила свой предстоящий проект Copilot Studio, который обещает поддержку создания автономных агентов, аналогичных решению Agentforce от Salesforce. Эти интеллектуальные агенты предназначены для оптимизации задач в различных секторах, таких как ИТ, маркетинг, продажи, обслуживание клиентов и финансы.

Бениофф воспринял заявление Microsoft как свидетельство их отчаяния. Он также заявил, что Copilot терпит неудачу из-за неспособности Microsoft собрать необходимые данные и создать надежные системы корпоративной безопасности для разработки подлинного корпоративного интеллекта. По сути, он игриво предположил: «Клиппи 2.0 где-нибудь есть?

В этом месяце Microsoft представила новый стандарт под названием Windows Agent Arena. В качестве дополнительной информации отметим, что этот тест создан для поощрения тестирования агентов ИИ в настройках операционной системы Windows. Другими словами, это может ускорить процесс разработки ИИ-помощников с расширенными и сложными способностями для управления сложными задачами в нескольких приложениях.

Согласно исследованиям:

Большие модели искусственного интеллекта демонстрируют значительные перспективы в качестве цифровых помощников, повышая эффективность работы человека и улучшая удобство использования программного обеспечения для решения широкого спектра задач, включающих вдумчивое принятие решений и решение проблем. Тем не менее, сложно оценить эффективность работы агента в реальных сценариях, где ему необходимо планировать, рассуждать и адаптироваться.

Что такое Windows Agent Arena и насколько она важна в революции искусственного интеллекта?

Windows Agent Arena служит испытательной площадкой для агентов ИИ, позволяя им взаимодействовать с аутентичными системными настройками Windows, такими как Microsoft Edge, Paint, приложение Clock, медиаплеер VLC и другие.

По данным Microsoft:

Мы модифицируем структуру OSWorld для создания более 150 различных задач Windows, охватывающих несколько доменов, что требует от агента навыков планирования, визуального понимания и использования инструментов. Наш набор тестов является гибким и может быть эффективно распределен по Azure для комплексной оценки всего за 20 минут.

Microsoft Research создала универсальный объект искусственного интеллекта под названием Navi, призванный продемонстрировать потенциал платформы. На испытательном полигоне Windows Agent Arena этому искусственному интеллекту давались различные задания, например, преобразование веб-сайта в PDF-документ и размещение его на основном дисплее. Результаты этих тестов показывают, что мультимодальный агент достиг среднего показателя успеха 19,5% по сравнению со средним показателем эффективности человека 74,5%.

Несмотря на то, что в настоящее время сложно полностью автоматизировать определенные задачи с помощью ИИ, он предлагает прочную основу для расширения возможностей объектов искусственного интеллекта.

Конфиденциальность и безопасность продолжают беспокоить большинство пользователей. Например, спорная функция Windows Recall от Microsoft вызвала беспокойство у большинства пользователей Windows, что вызвало пристальное внимание со стороны регулирующих органов. Технический гигант внезапно вспоминает спорную функцию, чтобы улучшить работу и сделать ее более безопасной. Эта функция должна скоро появиться, но пользователи могут ее удалить.

Как аналитик, я не могу не разделять подобные настроения по мере появления более сложных агентов ИИ, таких как Navi. С развитием этих инструментов они получают доступ ко все более сложным приложениям, которые часто хранят наши личные данные. Потенциально это может создать существенный риск, особенно потому, что киберпреступники применяют сложные тактики, такие как стратегии, усиленные искусственным интеллектом, что делает их проникновения менее заметными.

Windows Agent Arena с открытым исходным кодом предлагает множество перспектив для исследований, тем самым способствуя быстрому прогрессу в создании надежных и эффективных моделей. При решении проблем безопасности и скорости группа исследователей Microsoft, занимающихся этой платформой, поговорила об этом с Windows Central.

Система искусственного интеллекта, которую мы называем «Navi», доступна всем бесплатно, и в наших исследованиях используются такие модели, как GPT-4V от OpenAI и Phi3 от Microsoft. Несмотря на то, что и Navi, и Windows Agent Arena имеют открытый исходный код, важно отметить, что конкретные модели, используемые каждой из них, управляются соответствующими разработчиками независимо.

Несоответствие между производительностью систем искусственного интеллекта и интеллектом человеческого уровня остается серьезной проблемой для всей отрасли. Мы работаем над решением этой проблемы посредством постоянного курирования, тонкой настройки и оптимизации данных, добиваясь устойчивого прогресса в сокращении этого разрыва.

В нашей работе над этическим ИИ мы подчеркиваем принципы правильного поведения и сохраняем конфиденциальность и безопасность пользователей в качестве главных приоритетов. Мы принимаем меры для предотвращения неправомерного использования ИИ, такого как несанкционированный доступ или утечка данных, и даем пользователям возможность понимать, направлять или отменять действия ИИ, когда это необходимо. Поскольку мы продолжаем внедрять инновации в этой области, наша приверженность остается сильной: создавать искусственный интеллект, который защищает конфиденциальность, способствует справедливости и повышает ценность общества.

В других местах Anthropic представила новый API под названием «Использование компьютера» во время фазы открытого бета-тестирования. Используя этот API, программисты могут помочь Клоду использовать компьютеры так же, как люди: наблюдая за экраном, маневрируя курсором, нажимая кнопки и вводя текст.

Смотрите также

2024-10-28 12:39