Модель ИИ за 50 долларов разрушает OpenAI

Внедрение DeepSeek и ее модели ИИ, обусловленного технологией R1 V3, опередив модель рассуждения Operai O1 в разных контрольных показателях в таких областях, как математика, наука и кодирование, вызвало опасения инвесторов в отношении высоких расходов, связанных с достижениями искусственного интеллекта. Похоже, что это ставит под сомнение амбициозные проекты, такие как инициатива Stargate Openai за 500 миллиардов долларов, поскольку их можно считать непрактичными.

Исследователи из Стэнфорда и Вашингтонского университета создали модель искусственного интеллекта под названием S1, которая предназначена для того, чтобы бросить вызов модели рассуждения Operai O1. Эта новая модель была обучена с использованием набора данных в размере около 1000 вопросов менее чем за 50 долларов (как сообщает TechCrunch). Команда совершила этот подвиг, извлекая информацию из более крупных, проприетарных моделей ИИ.

📊 Хочешь понимать, куда дует ветер на рынке? ТопМоб — мощная аналитика, без воды и хайпа. Не прозевай разворот!

Включай мозг — подписывайся

В более простых терминах дистилляция относится к методу, в котором меньшая модель ИИ учится из более крупных, собирая у них информацию. Исследователи обнаружили, что модель S1 получила свои ответы от продвинутой модели рассуждений Google AI, известной как экспериментальный флэш -мышление Gemini 2.0. Тем не менее, было замечено, что соглашение об использовании API Gemini явно утверждает, что создание моделей для конкурирования собственных моделей ИИ Google не разрешено.

Процесс разработки позволяет как появляющимся стартапам ИИ, так и созданию компаний искусственного интеллекта для создания передовых предложений, не подвергая их чрезмерному напряжению их ресурсы. Тем не менее, ведущие исследовательские учреждения ИИ, такие как Openai и Microsoft, выразили обеспокоенность по поводу небольших предприятий искусственного интеллекта, используя методику, называемую дистилляцией для улучшения их моделей ИИ, поскольку DeepSeek обвиняется в использовании данных об авторских правах из этих лабораторий для обучения своей экономической модели.

1. Для обучения S1 потребовалось всего менее 30 минут, используя 16 графических процессоров NVIDIA H100, причем модель строилась на QWEN2.5, решении Alibaba AI с открытым исходным кодом. Что делает это интригующим, так это то, что исследователи поручили ИИ «паузу» на этапе решения проблем, побуждая его более глубоко думать, прежде чем предоставить ответ. Этот метод, по -видимому, заставил модель пересмотреть свои ответы, часто исправляя ошибочную логику в ее ответах, как указано исследователями. В конечном счете, это привело к производству хорошо продуманных и точных результатов модели ИИ.

Вы можете проверить модель S1 на GitHub.

Смотрите также

2025-02-07 15:09