Модернизированная модель искусственного интеллекта Claude от Anthropic превосходит OpenAI-o1 в кодировании и может использовать ПК с Windows 11, как люди, что потенциально подтверждает заявление генерального директора NVIDIA о том, что разработка программного обеспечения мертва.

Что вам нужно знать

Недавно Anthropic выпустила обновленную версию Claude 3.5 Sonnet вместе с новой моделью, получившей название Claude 3.5 Haiku, с расширенными возможностями кодирования и многим другим.
Фирма, занимающаяся искусственным интеллектом, также представила использование компьютера — новую возможность, которая позволяет пользователям побуждать Клода использовать компьютеры так, как это делают люди.
Компания признает, что предоставление этой возможности широкой публике сопряжено с большими рисками, но она планирует использовать эту возможность для наблюдения за тем, как люди используют этот инструмент. В нем предусмотрены тщательно продуманные меры для предотвращения злоупотреблений, такие как ограничение доступа к Интернету во время обучения.

Как наблюдатель с более чем двадцатилетним опытом работы в технологической индустрии, я одновременно заинтригован и настороженно отношусь к последнему релизу Anthropic — Claude 3.5 Sonnet и Haiku. Будучи свидетелем быстрой эволюции ИИ с момента его зарождения, интересно видеть, как такая модель, как Клод, отправляется на неизведанную территорию – использование компьютеров в публичной бета-версии.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"

Похоже, что область генеративного искусственного интеллекта переходит на новый этап, выходя за рамки простого создания изображений и текста. Недавно Anthropic представила обновленную версию Claude 3.5 Sonnet, а также свежую модель под названием Claude 3.5 Haiku. Как заявляет компания, эта обновленная версия оснащена расширенными навыками кодирования и соответствует стандартам производительности Claude 3 Opus LLM от Anthropic.

Интересно, что последняя функция под названием «Использование компьютера» теперь открыта для бета-тестирования. Используя API, разработчики теперь могут поручить Claude 3.5 Sonnet управлять компьютерами так, как это делают люди: просматривая экран, манипулируя курсором, нажимая кнопки и вводя текст. Таким образом, Claude 3.5 Sonnet становится первой моделью ИИ, предлагающей использование компьютера в публичной бета-версии.

Anthropic признает, что пользователи могут столкнуться с различными препятствиями при работе с моделью, такими как ошибки и негладкое взаимодействие. Их цель — использовать отзывы пользователей для уточнения и оптимизации модели, делая ее более эффективной и действенной.

Такие компании, как Asana, Canva, Cognition, DoorDash, Replit и The Browser Company, теперь являются частью группы, занимающейся оптимизацией сложных процессов, которые обычно включают множество шагов. Для иллюстрации: «Replit использует функциональные возможности Claude 3.5 Sonnet с точки зрения использования компьютера и навигации по пользовательскому интерфейсу для создания важной функции. Эта функция оценивает приложения во время их разработки для продукта Replit Agent.

Как аналитик, я рад сообщить, что расширенный вариант Claude 3.5 Sonnet теперь доступен через Anthropic API, Amazon Bedrock и Vertex AI от Google Cloud. В ожидании релиза Anthropic планирует выпустить Claude 3.5 Haiku позднее в этом месяце.

Согласно предоставленным тестам, обновленная версия Claude 3.5 Sonnet от Anthropic демонстрирует существенное улучшение производительности, особенно в задачах кодирования. Например, производительность инструмента на SWE-bench Verified выросла с 33,4% до 49,0%, что позволяет предположить, что он значительно превосходит общедоступные модели, такие как ИИ рассуждения Strawberry от OpenAI, при этом сохраняя ту же стоимость и скорость, что и его более ранняя версия. .

Модель корректирует свои ошибки, повторяя попытку, когда обнаруживает проблему, избегая намеченного результата. Стоит отметить, что модели OpenAI o1 и o1-mini превосходно справляются с задачами кодирования и успешно прошли часть собеседования OpenAI по кодированию на инженера-исследователя с впечатляющим показателем 90-100%.

Агенты ИИ здесь, но действуйте осторожно.

Хотя внесенные улучшения заслуживают внимания, обновленной модели искусственного интеллекта Claude 3.5 Sonnet удалось выполнить лишь около половины задач, поставленных в ходе оценки, направленной на определение ее способности изменять бронирование рейсов. Примерно в трети случаев модель столкнулась с трудностями при попытке организовать обратную поездку.

Модель Anthropic испытывает проблемы с масштабированием и прокруткой, что приводит к пропуску всплывающих предупреждений из-за метода обработки снимков экрана», — отметили в компании, добавив, что «использование компьютера Клодом по-прежнему медленное и подвержено ошибкам.

Компания признает, что запуск этой модели может повлечь за собой существенные риски, но подчеркивает, что понимание ее применения в реальных сценариях приносит больше преимуществ, чем потенциальных опасностей.

По данным Антропика:

Более практичным подходом было бы предоставление доступа к современным, менее сложным компьютерным системам. Поступая таким образом, мы можем отслеживать и изучать любые проблемы, которые могут возникнуть на базовом уровне, что позволяет нам одновременно постепенно совершенствовать как использование компьютера, так и меры безопасности.

Чтобы гарантировать, что Сонет Клода 3.5 не будет использован злоумышленниками во вред или ненамеренно причинит вред, процесс его обучения построен по-другому. Он не учится на скриншотах или подсказках пользователей и во время обучения остается в автономном режиме, чтобы ограничить доступ к Интернету. Кроме того, Anthropic включила классификаторы, которые уводят модель от рискованных действий, таких как создание учетных записей и публикации в социальных сетях.

Смотрите также

2024-10-23 12:39