Microsoft заявляет, что «rStar-Math» демонстрирует, как небольшие языковые модели (SLM) могут конкурировать или даже превосходить возможности математического рассуждения OpenAI o1 на + 4,5%.

Недавно я стал свидетелем интригующего развития в мире моделей малых языков (SLM) от Microsoft. Они представили новую технику под названием rStar-Math, которая значительно расширяет возможности SLM. Это нововведение позволяет этим моделям соответствовать или даже превосходить возможности математического рассуждения модели o1 OpenAI, и все это без необходимости использования более продвинутых моделей.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"

Согласно исследовательской работе, опубликованной на arXiv.org:

Метод RStar-Math достигает своей цели, используя глубокие рассуждения, в частности, поиск по дереву Монте-Карло (MCTS). Здесь, на этапе выполнения, математическая политика под названием SLM направляет процесс поиска на основе модели вознаграждения, которая сама создается с использованием SLM.

Как технический энтузиаст, я бы сказал, что MCTS позволяет rStar-Math глубоко вникать в сложные математические задачи и запросы, разбивая их на выполнимые шаги. Это позволяет библиотекам символьной математики (SML) с легкостью решать даже самые сложные математические задачи. Но вот что отличает rStar-Math: исследователи раздвигают границы обычного ИИ, поручая модели раскрыть свой мыслительный процесс. Речь идет не только о решении проблем; речь идет о понимании того, как он приходит к решениям, дополненным объяснениями на естественном языке и кодом Python.

Метод демонстрирует три достижения, направленные на решение общих проблем, возникающих во время обучения УУЗР:

(или)

Этот подход включает в себя три усовершенствования для решения проблем, часто возникающих при обучении УУЗР.

  • Новый метод синтеза данных CoT с дополненным кодом, который выполняет обширное развертывание MCTS для создания пошаговых проверенных траекторий рассуждений, используемых для обучения политике SLM.
  • Новый метод обучения модели вознаграждения процесса, который позволяет избежать наивной аннотации оценок на уровне шагов и обеспечивает более эффективную модель предпочтений процесса (PPM).
  • Рецепт саморазвития, в котором политики SLM и PPM создаются с нуля и итеративно развиваются для улучшения возможностей рассуждения.

Исследование углубляется в четыре этапа самосовершенствования, включая миллионы сгенерированных решений для более чем 747 000 математических задач. Этот инновационный подход, известный как rStar-Math, значительно повышает способность решать математические задачи до передовых стандартов.

Как показали представленные тесты, этот метод повышает производительность Qwen2.5-Math-7B с 58,8% до впечатляющих 90,0%, а производительность Phi3-mini-3.8B с 41,4% до впечатляющих 86,4%. Примечательно, что эти улучшения превосходят модель рассуждений o1 OpenAI на 4,5% и 0,9% соответственно.

Наконец, стоит отметить, что этот метод успешно решил 3,3% задач, войдя в число 20% лучших участников старшей школы на Американском приглашенном экзамене по математике (AIME).

По данным Hugging Face, исследователи намерены поделиться rStar-Math на GitHub, но один из авторов, Ли Лина Чжан, упомянула, что код проходит проверку, прежде чем его можно будет опубликовать (как сообщает Venture Beat). На данный момент репозиторий останется частным. Следите за обновлениями!

В апреле Microsoft представила Phi-3 Mini — компактную модель искусственного интеллекта, обладающую возможностями, сравнимыми с GPT-3.5, но при этом более легкую. Он разработан с использованием меньшего количества данных, чем GPT-4 и другие большие языковые модели (LLM), но ему удается превзойти более крупные модели, такие как Llama 2, по производительности.

Инновационный подход Microsoft демонстрирует, что размер не обязательно гарантирует превосходство, предполагая, что он может привести к повышению эффективности и производительности. Эта разработка направлена ​​на смягчение растущих опасений по поводу чрезмерной вычислительной мощности, необходимой для поддержки передовых моделей искусственного интеллекта.

Смотрите также

2025-01-10 17:10