
Недавно Google оценил, насколько можно доверять современным AI-чат-ботам, и результаты оказались не слишком хорошими. Используя новую систему тестирования под названием FACTS, они обнаружили, что даже самые продвинутые AI-модели часто испытывают трудности с точностью, редко превышая 70%. Gemini 3 Pro показал наилучший результат – 69%, но другие популярные чат-боты от таких компаний, как OpenAI, Anthropic и xAI, набрали меньше. По сути, эти чат-боты по-прежнему допускают ошибки примерно в одной трети случаев, и они могут звучать очень убедительно, даже когда ошибаются.
Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.
Купить акции "голубых фишек"Текущие тесты ИИ часто проверяют, *может ли* модель ответить на вопрос, но не проверяют, верен ли сам ответ. Это проблема для таких областей, как финансы, здравоохранение и юриспруденция, где неточная информация может быть дорогостоящей. Чат-бот может звучать убедительно, но если он уверенно выдает неправильные ответы – и люди предполагают, что он компетентен – последствия могут быть серьезными.
Что раскрывает тест Google на точность

Команда FACTS от Google создала набор тестов FACTS Benchmark Suite в партнерстве с Kaggle, чтобы тщательно оценить, насколько хорошо модели искусственного интеллекта обрабатывают фактическую информацию в четырех практических сценариях. Эти тесты охватывают способность модели вспоминать выученные факты, эффективно использовать поисковые системы для поиска точных данных, оставаться сосредоточенной на предоставленном исходном материале, не придумывая детали, и правильно интерпретировать информацию из различных типов визуальных материалов, таких как диаграммы и изображения.

Модели показали совершенно разные результаты. Gemini 3 Pro достигла наивысшего балла (69% в тесте FACTS), за ней тесно следует Gemini 2.5 Pro и OpenAI’s ChatGPT-5 (оба около 62%). Claude 4.5 Opus набрала примерно 51%, а Grok 4 – около 54%. Все модели испытывали наибольшие трудности с задачами, требующими обработки изображений, графиков и диаграмм – точность в этих областях часто была ниже 50%. Это вызывает опасения, поскольку означает, что чат-боты могут легко неправильно интерпретировать визуальную информацию, например, неверно прочитать график или извлечь неправильные данные из документа, что потенциально может привести к тонким, но значительным ошибкам.
В последнее время я много экспериментировал с чат-ботами, и мне стало ясно, что дело не в том, чтобы они *ошибались*, а в том, что им необходима здоровая доля скептицизма. Статистика Google на самом деле показывает, что ИИ постоянно улучшается, что здорово! Но даже с этим прогрессом нам все еще нужно перепроверять то, что они нам говорят, принимать некоторые меры безопасности и привлекать реальных людей, чтобы убедиться в точности информации. По сути, не верьте слепо всему, что говорит ИИ – относитесь к этому как к отправной точке, а не к окончательному ответу.
Смотрите также
- CSAM используя стримера ‘Lacari’ пойман с поличным … Microsoft Notepad — опубликовал извинения и отрицание после получения перманентного бана.
- Российский рынок акций: рост золота и зерна поддерживают позитивный тренд (31.01.2026 10:32)
- Сургутнефтегаз акции привилегированные прогноз. Цена SNGSP
- Российский рынок акций: Ралли на фоне нефти, золота и смягчения ДКП (28.01.2026 16:32)
- Типы дисплеев. Какой монитор выбрать?
- Новые смартфоны. Что купить в феврале 2026.
- Российский рынок: Оптимизм на фоне трехсторонних переговоров – чего ждать 1 февраля? (25.01.2026 17:32)
- Лучшие смартфоны. Что купить в феврале 2026.
- Неважно, на что вы фотографируете!
- vivo X300 Ultra ОБЗОР: беспроводная зарядка, замедленная съёмка видео, портретная/зум камера
2025-12-15 23:58