Я попросил новую LLM с открытым исходным кодом от OpenAI выполнить тест, предназначенный для детей — умнее ли она десятилетнего?

За последние несколько дней я экспериментировал с моделью gpt-oss:20b от OpenAI. Будучи первой моделью с открытым исходным кодом от OpenAI, это наша первая возможность протестировать её напрямую, без необходимости использовать их API или инструменты, такие как ChatGPT или Copilot.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"

Эта модель создана на базе технологии GPT-4 и, по сообщениям, имеет дату прекращения обучения в июне 2024 года, что делает ее превосходящей многие текущие открытые модели, доступные сегодня. Однако у нее также есть возможность поиска в Интернете для предоставления дополнительной информации, если это потребуется.

Вместо того чтобы гадать, почему, я решил попробовать это на чём-то практичном, связанном с деятельностью моего сына. В Великобритании, что может быть ново для некоторых, существует тест под названием 11+. Этот экзамен используется для определения приёма в престижные школы.

Поскольку я планирую проверить его возможности самостоятельно, я хотел убедиться, что gpt-oss:20b способен понимать пробный тест и решать задачи в нём. Тест, который я назвал, часто называют «Сможет ли он перехитрить десятилетнего ребёнка?»

К счастью, по крайней мере, для моего сына, он все еще далеко впереди этой модели искусственного интеллекта.

Тест и оборудование

Для начала позвольте уточнить, что, несмотря на то, что у меня довольно мощный компьютер с видеокартой RTX 5080 и 16 ГБ видеопамяти, его, похоже, недостаточно для запуска gpt-oss:20b. Вместо этого моя система сильно зависит от ЦП и системной оперативной памяти для работы с этой моделью, что говорит о том, что ресурсы, необходимые для gpt-oss:20b, могут превышать возможности моей текущей конфигурации.

Подчеркивание этого факта имеет решающее значение, поскольку это подразумевает более быстрое время отклика с более продвинутой настройкой, например, когда мы приобретем RTX 5090 для тестирования, которая может похвастаться впечатляющими 32 ГБ видеопамяти и хорошо подходит для выполнения сложных задач искусственного интеллекта.

Я нашел тест довольно простым. Я получил пробный вариант для экзамена 11+ и загрузил его в рабочее пространство, используя Ollama. Затем я использовал этот образец в качестве своего запроса:

Вот примерный тест 11+ для Великобритании, предназначенный для учеников в возрасте от 10 до 11 лет, поступающих в гимназии. Буду признателен, если вы пройдёте этот тест и ответите на все вопросы.

Этот запрос не идеален, так как он не запрашивает объяснение того, как решить проблему. Вместо этого он просто хочет решения предложенных тестовых вопросов.

Насколько это плохо прошло?

Ужасно.

После продолжительных размышлений, около 15 минут, он выдал решения для всех 80 тестовых вопросов. Однако, только девять из этих ответов кажутся правильными. К сожалению, проходной балл немного выше этого числа.

Некоторые из вопросов, на которые он ответил правильно, представлены на изображении выше. В порядке следования, данные ответы следующие:

замок, кроха
темп, укус
дерево, волосы
дюйм, заплакал
езда, захват

Однако, есть интересный поворот. Первоначальные вопросы в тесте не были самыми первыми, а скорее теми, которые он смог правильно ответить первыми. Впоследствии он точно ответил на следующие четыре вопроса, где в предложении тонко встроено слово из четырех букв — одно в конце слова и другое в начале следующего слова.

Последние два предложения в этом разделе не вызвали ответа, и после этого всё начало рушиться. Последовательности чисел оказались непродуктивными, а остальные вопросы, основанные как на словах, так и на числах, просто не давали никаких результатов.

Как работает автомобильный двигатель? Я предпочитаю есть клубнику на завтрак. Вопрос 2: Какова столица Франции? Самая большая планета в нашей солнечной системе — Юпитер. В обоих примерах ответы не относятся напрямую к заданным вопросам.

В результатах модель выдала одну и ту же несвязанную последовательность чисел на два разных вопроса. Однако, что интересно, можно наблюдать ход мыслей модели, лежащий в основе её ответов, в области контекста, которая остаётся видимой даже после того, как ответы были даны.

Это решение для вопроса номер шесть было тщательно продумано моделью. Обратите внимание, что, хотя оно может быть обширным, оно отражает пошаговый подход, который мог бы использовать ребенок при решении такой задачи.

Нам нужно подсчитать, что покупает каждый. У нас 5 человек. Мы должны выяснить, что есть у каждого.

Предоставленная информация:

Молли, Наоми и Джейми у всех есть чипсы.

Махмуд выбирает пирог с мясом и пюре из гороха.

Только у Молли есть рыба. Значит, у Молли есть рыба.

Джейми, Луиза и Наоми у каждой есть сосиска. Таким образом, у каждой из этих троих есть сосиска.

Все едят перетёртый горошек с едой, за исключением Джейми и Молли. Это подразумевает, что все, кроме Джейми и Молли, едят перетёртый горошек. Следовательно, Наоми, Луиза и Махмуд едят перетёртый горошек. Однако мы не знаем, ест ли Луиза картофель фри или сосиски. Вот список:  

— Наоми: картофель фри, сосиски, перетёртый горошек 
— Джейми и Молли: нет перетёртого горошка (исключены) 
— Луиза: возможно, картофель фри, сосиски (не указано) 
— Махмуд: перетёртый горошек (дано)

Махмуд упомянул пирог и размятый горошек, но неясно, есть ли у него картофель фри. Возможно, у него что-то другое, поскольку явно не указано, что у него нет картофеля фри. Однако следует отметить, что информации о картофеле фри ограничено из-за ограничений в наших знаниях.

Джейми: чипсы, колбаски. Без горохового пюре, без рыбы. Возможно, что-то ещё? Не указано.

Как фанат, я задумался о еде Луизы. Сосиски в меню точно есть, но пока нет чёткого упоминания о картофеле фри. Однако, учитывая, что большинство других за столом, похоже, наслаждаются гороховым пюре, кажется, что Луиза тоже может его есть – в конце концов, Джейми и Молли – единственные исключения. Что касается картофеля фри, поскольку мы не указали иного, возможно, это тоже вариант!

Наоми: картофель фри, сосиски, гороховое пюре. Нет рыбы? Не указано. Также, возможно, картофель фри.

Молли предпочитает картофель фри и рыбу, а не гороховое пюре. Возможно, будет добавлена колбаса, но это не точно. Однако, колбасу конкретно предпочитают Джейми, Луиза и Наоми. Следовательно, мы можем заключить, что у Молли нет колбасы, поэтому ее еда состоит из картофеля фри, рыбы и, возможно, горохового пюре (но это не точно).

Как человек, разбирающийся в технологиях, позвольте мне разобрать список покупок, который у меня есть: чипсы, горошек в пюре, рыба, сосиски и пирог. Возможно, я приобрету и другие товары. Итак, на данный момент мне нужно подсчитать, сколько штук каждого товара я купил.

Давайте перечислим каждый.

Махмуд: Он ест пирог и гороховое пюре. Это два разных блюда. Однако мы не знаем о чипсах, потому что они не были упомянуты напрямую. Но поскольку все остальные едят гороховое пюре со своей едой, кроме Джейми и Молли, это означает, что у Махмуда тоже есть гороховое пюре. А пирог – это отдельное блюдо от его основного приема пищи, поэтому всего у него два блюда.

Джейми: чипсы, колбаса. Без горохового пюре. Итак, 2 позиции.

Как исследователь, я анализирую представленную информацию: «У Молли, Наоми и Джейми есть чипы». Это говорит о том, что только у этих трех людей есть чипы. Тем не менее, в нем явно не указывается, что ни у кого нет чипсов.

В другом заявлении: «У Джейми, Луизы и Наоми есть колбаса», я могу вывести, что у Джейми и Наоми есть колбаса, но нет упоминания о чипсах для любого из них, включая Луизу. Если мы предположим, что только у этих трех чипсов, то это будет означать, что у Луизы нет чипсов. Однако, поскольку число или типы предметов для Луизы не указаны, я могу только подтвердить, что у нее есть колбаса и мягкий горох, что составляет два предмета. Но если бы была дополнительная информация, предполагая, что у Луизы также были чипсы, это сделало бы три пункта. Тем не менее, такая информация не предоставлена в данных данных.

Нам нужно найти, кто покупает большинство предметов. Давайте оценим возможности.

Как аналитик, я бы перефразировал информацию следующим образом:

В сценарии А у Луизы нет чипсов. Это означает, что у Махмуда, Джейми и Молли есть два предмета (поскольку у них тоже нет чипсов), в то время как у Луизы также есть только два предмета. Однако у Наоми есть три предмета — чипсы, колбаса и мягкий горох. Следовательно, в этом сценарии у Наоми есть больше всего предметов.

В сценарии B, если мы предположим, что у Луизы теперь есть чипсы, у нее будет три предмета, как и Наоми, так как у нее уже было три предмета (чипсы, колбаса и мягкий горох). У остальных людей все еще есть по два пункта каждый. В этом случае у Наоми и Луизы есть три предмета, но, поскольку я ищу уникальный ответ, кажется разумным сделать вывод, что у Наоми могут быть дополнительные предметы, не упомянутые в сценарии, что сделает ее человеком с большинством предметов.

Таким образом, ответ: Наоми.

Но нам нужно проверить: может ли кто -нибудь иметь более 3? Маловероятно.

Так ответь на вопрос 6: Наоми. «

Система часто обеспечивает правильное решение данного вопроса, но иногда также предлагает не связанный ответ.

Другим интригующим аспектом, который я наблюдаю в процессе решения проблем, является то, что когда он сталкивается с тупиком, он советует игнорировать и продолжить. На этапе генерации ответов его рассуждения заявил, что пропуск таких ситуаций является вариантом.

«Это неудовлетворительно.

Учитывая, что это нереально, может быть, ответ не ожидается.

Так я бы ответил, что это слишком долго.

Но я должен предоставить все. Но я застрял.

давное время, я произведу частичный ответ и утверждаю, что я не могу решить все.

давайте сделаем это. «

Похоже, что проблема заключается в том, что вместо того, чтобы предоставлять точные ответы, она, как правило, давала бессмысленные ответы. Я считаю, что смогу пролить свет на этот вопрос, который я буду подробно рассмотреть.

Интересный последующий тест

В более простых терминах я не ожидал получить каждый ответ совершенно правильный. Честно говоря, у меня вообще не было никаких ожиданий. Тем не менее, я взял несколько новых вещей по пути.

Для начала я считаю, что первоначальные конфигурации, которые я установил, не были оптимальными. Позже я решил повторить тест, расширяя длину контекста в Олламе, поскольку я предположил, что это могло быть причиной многочисленных ошибок.

На этот раз, чтобы заключить допрос детей, потребовалось почти весь выделенный час, и это показало значительное улучшение. Он ответил только на один из первых двенадцати вопросов неправильно. Когда мы углубились в тему чисел последовательностей, ее производительность заметно улучшилась, резко контрастирует с ее более ранней борьбой во время первой попытки.

В своем текущем исследовании я столкнулся с неожиданной проблемой, в которой вместо того, чтобы предоставлять точные ответы на запросы, которые изначально казались правильными, система снова генерирует бессмысленные ответы.

Вместо того, чтобы предоставлять ответы, он сформулировал вопросник, напоминающий исходный тест. В то время как логический процесс показал некоторый успех, хотя и занял почти час, окончательный ответ не смог обратиться к первоначальному запросу.

Но, как урок для себя, если не что иное, для такого большого документа, «память» является ключевым.

Веселье с некоторыми извлеченными уроками

Первоначально цель действия состояла в том, чтобы проверить, может ли версия модели GPT модели 20B эффективно обработать документ PDF. В этом аспекте это было успешным. Система сумела обрабатывать файл, сканировать его и попыталась соблюдать мои инструкции, используя данные из PDF.

В моей первоначальной попытке казалось, что ограничения на длину контекста были слишком плотными, оставляя недостаточную «силу обработки» для выполнения моих желаемых задач. Однако в последующем, трудоемком начинании мне удалось добиться большего успеха.

Я еще не пережил его, используя максимальную длину контекста 128 тысяч, как разрешено Олламой в их приложении. В настоящее время это связано с отсутствием времени, а также потому, что я не уверен, может ли мое текущее оборудование эффективно выполнять такую задачу.

RTX 5080, оснащенный всего 16 ГБ видео памяти, не хватает этой конкретной модели. Хотя он был использован в системе, процессор должен был компенсировать свои ограничения. Несмотря на то, что он меньше, чем другие модели GPT-OSS, он все еще довольно существенен для игрового ПК, подобного этому, учитывая его размер.

В моей системе, в то время как GPT-OSS: 20B в основном использовал 65% возможностей GPU, оставшаяся рабочая нагрузка была обработана процессором. Тем не менее, я очень впечатлен его продвинутыми способностями решения проблем.

Как технологический человек, я заметил, что эта модель имеет тенденцию работать в неторопливом темпе. Хотя я понимаю важность тщательной обработки, задержка довольно заметна, даже принимая во внимание мои аппаратные спецификации. Например, когда я недавно поинтересовался датой его знаний, потребовалось значительно 18 секунд, чтобы сформулировать ответ. Казалось, что он взвешивал все возможные объяснения, прежде чем остановиться на том, что в конечном итоге выберет, что добавило время ожидания.

Конечно, у него есть свои преимущества, но если вы ищете быструю модель для личного использования, вам может потребоваться изучить другие варианты. На данный момент я полагаюсь на GEMMA3: 12B из -за его впечатляющей производительности, учитывая мое доступное оборудование.

В более простых терминах тест не был похож на сценарий реального мира, скорее пробный запуск. Это не вышло на первое место, поэтому будьте уверены, вашему 10-летнему не о чем беспокоиться о том, чтобы превзойти эту модель ИИ. Тем не менее, я могу вас заверить, что экспериментирование с различными моделями, включая эту, помогает расширить мое собственное понимание и опыт.

Независимо от результата, меня не будет разочаровано. Даже если выполнение этих задач заставило мой офис почувствовать себя парной в течение дня.

Смотрите также

2025-08-10 12:12