Google обнаружил, что ИИ-чат-боты точны лишь на 69%… в лучшем случае.

Недавно Google оценил, насколько можно доверять современным AI-чат-ботам, и результаты оказались не слишком хорошими. Используя новую систему тестирования под названием FACTS, они обнаружили, что даже самые продвинутые AI-модели часто испытывают трудности с точностью, редко превышая 70%. Gemini 3 Pro показал наилучший результат – 69%, но другие популярные чат-боты от таких компаний, как OpenAI, Anthropic и xAI, набрали меньше. По сути, эти чат-боты по-прежнему допускают ошибки примерно в одной трети случаев, и они могут звучать очень убедительно, даже когда ошибаются.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"

Текущие тесты ИИ часто проверяют, *может ли* модель ответить на вопрос, но не проверяют, верен ли сам ответ. Это проблема для таких областей, как финансы, здравоохранение и юриспруденция, где неточная информация может быть дорогостоящей. Чат-бот может звучать убедительно, но если он уверенно выдает неправильные ответы – и люди предполагают, что он компетентен – последствия могут быть серьезными.

Что раскрывает тест Google на точность

Команда FACTS от Google создала набор тестов FACTS Benchmark Suite в партнерстве с Kaggle, чтобы тщательно оценить, насколько хорошо модели искусственного интеллекта обрабатывают фактическую информацию в четырех практических сценариях. Эти тесты охватывают способность модели вспоминать выученные факты, эффективно использовать поисковые системы для поиска точных данных, оставаться сосредоточенной на предоставленном исходном материале, не придумывая детали, и правильно интерпретировать информацию из различных типов визуальных материалов, таких как диаграммы и изображения.

Модели показали совершенно разные результаты. Gemini 3 Pro достигла наивысшего балла (69% в тесте FACTS), за ней тесно следует Gemini 2.5 Pro и OpenAI’s ChatGPT-5 (оба около 62%). Claude 4.5 Opus набрала примерно 51%, а Grok 4 – около 54%. Все модели испытывали наибольшие трудности с задачами, требующими обработки изображений, графиков и диаграмм – точность в этих областях часто была ниже 50%. Это вызывает опасения, поскольку означает, что чат-боты могут легко неправильно интерпретировать визуальную информацию, например, неверно прочитать график или извлечь неправильные данные из документа, что потенциально может привести к тонким, но значительным ошибкам.

В последнее время я много экспериментировал с чат-ботами, и мне стало ясно, что дело не в том, чтобы они *ошибались*, а в том, что им необходима здоровая доля скептицизма. Статистика Google на самом деле показывает, что ИИ постоянно улучшается, что здорово! Но даже с этим прогрессом нам все еще нужно перепроверять то, что они нам говорят, принимать некоторые меры безопасности и привлекать реальных людей, чтобы убедиться в точности информации. По сути, не верьте слепо всему, что говорит ИИ – относитесь к этому как к отправной точке, а не к окончательному ответу.

Смотрите также

2025-12-15 23:58