У меня есть простой тест, по которому оцениваю ту или иную модель для своих задач. После выхода нашумевшего R1 решил пройтись этим тестом по основным популярным моделям.
Сам тест представляет собой простой промпт:
Давай с помощью pygame создадим такую игру. Сначала пусть при открытии создается в рамках окна случайная закольцованная траектория — это будет трасса. Она должна полностью помещаться в границы экрана игры.
Код запускается без ошибок и в окне есть попытка что-то отрисовать, это что-то вмещается на экран полностью: +2 балла (считаем, что все необходимые библиотеки установлены у нас)
Трасса похожа на закольцованную: +2 балла
Пересечений нет, при этом траектория не просто окружность: +2 балла
Повороты плавные, а не угловатые: +2 балла
Бонус (у трассы есть толщина, по трассе можно "проехать", есть неожиданные приемы реализации): + 2 балла
Итого, максимум 10 баллов. При этом можно ставить 0.5 - 1 - 1.5, если критерий выполняется только частично.
ДИСКЛЕЙМЕР: Тест субъективен, отражает только мнение автора. Не относитесь слишком серьезно. Это лишь вариант быстрой оценки и сравнения за один промпт.
Итак, поехали! Всем моделям даем одинаковый промпт и одну попытку.
______________________________________________________
LLAMA
llama-3.1-405b-instruct-bf16
Это единственная модель, которая написала имена всех переменных… на русском 😃
llama все переменные написала на русском
И этот 1С-стайл код заработал ) Правда, еще лама забыла импортировать модуль math, пришлось это сделать за нее.
______________________________________________________
MISTRAL
Тут по результату примерно, как и у предыдущей, но код запустился сразу без посторонней помощи.
______________________________________________________
QWEN
Тут уже интереснее... Пересечений нет, трасса не просто кольцо, хотя конфигурация и простая.
______________________________________________________
PERPLEXITY FREE
Задача решена без пересечений, но очень топорно. Просто кольцо. Для NASCAR такой трек пойдет ). Отнимем за второй критерий из трех полученных.
Что там у старшего брата?
______________________________________________________
PERPLEXITY PRO
Когда я это увидел, то посмеялся в голос 🤣 Согласитесь, неожиданный результат. Тем более, что от PRO ждешь улучшения по сравнению с младшим братом, а тут усложнение и полный уход не туда.
______________________________________________________
GROK-2
Модель от Маска. Останавливаемся на первом же критерии, на экран не помещается, но попытка что-то отрисовать есть.
______________________________________________________
GEMINI 2.0 flash thinking
Gemini-2.0-flash-thinking-exp-01-21
Это новая думающая универсальная модель гугла, но быстрая версия. Кажется, пока flash здесь больше, чем thinking.
Посмотрим более старую их версию - не thinking, но и не flash
______________________________________________________
GEMINI
видно попытку придать закольцованность, но ездить по такой трассе, пожалуй, будет хуже даже, чем по предыдущей. Однако попытка засчитана.
Попробуем отечественные модели. Одна из российских выдала только белый экран, хотя дал ей три попытки. Называть ее не буду (все же тест может быть не показательным), но в итоговую табличку помещу с 0.5 баллами (за белое окно с попыткой в код). Посмотрим же на ту отечественную модель, у которой что-то получилось
______________________________________________________
GIGA CHAT
Спасибо, что живой. Реально порадовался, что результат какой-то хоть есть. Я с их техлидом, кстати, пообщался на последней AIJ и даже рассказывал про свой тест. Ребята нормальные. Ждем прорывов )
Ну что, остались мэтры и высокие ожидания.
______________________________________________________
CHAT GPT 4o mini
На самом деле этот скрин не отражает реальность. ChatGPT сделал непрерывную генерацию в цикле и выглядит результат примерно так:
При этом, кстати, пересечений нет в каждой из генераций. Работать с этим точно дальше можно
Справится ли старший брат?
______________________________________________________
CHAT GPT 4o
Это пока похоже на лучший результат. Нет пересечений, конфигурация поинтереснее, чем у лидирующего до сих пор Qwen. Но плавности поворотов пока не видим.
Еще есть высокие ожидания от Claude Sonet. Смотрим
______________________________________________________
CLAUDE 3.5 SONNET
Интересный самобытный результат. Очевидно, модель попыталась сделать трассу из двух границ - внутренней и внешней. И почти получилось! Я бы здесь добавил минимум 0.5 бонусного балла по сравнению с предыдущей 4o.
Пришло время для темной лошадки, о которой сейчас все говорят - китайской DeepSeek. Сначала простая версия (без рассуждений)
______________________________________________________
DEEPSEEK V3
Хорошо для полностью бесплатной. Без пересечений закольцованная трасса, правда со слишком острым одним поворотом. Но уже можно говорить, что получилось лучше, чем у бесплатного собрата ChatGPT mini (та справилась неплохо, но дала непрерывную генерацию в цикле)
Что же покажет думающая версия?
______________________________________________________
DEEPSEEK R1
Та-дааааам. Единственная модель, которая попыталась сама с первого раза сделать плавные повороты. Я впечатлен. Реально DeepThink! Причем больше всех строк кода, целых 95 (против 50-60 в среднем). А еще он показывает процесс размышления, и это, кажется, будет новый тренд в ИИ-чатах
На скрине выше можно увидеть, как он вдруг пришел к плавности трассы во время рассуждений. Это все выглядит очень мило и подкупает. Да, есть артефакты на трассе. Да, конфигурация не очень сложная (за это придется сбавить). Но оно похоже на трек! Первая модель, которая захотела и смогла в плавность. Соберем оценку по критериям:
Запускается, работает, помещается в экран: +2
Закольцованная трасса: +2
Пересечений нет, но конфиг простоват: +1
Повороты плавные, но всегда есть крупный артефакт на одном повороте, что связано с методом генерации: +1.5
Попытка сделать толщину, но с артефактами: +1
______________________________________________________
ВЫВОДЫ И РЕЙТИНГ
На эмоциональном уровне DeepSeek R1 меня уже покорил! Хотя еще, как минимум, понравился Qwen. Говорят, опенсорсные небольшие модели для домашних стендов у них тоже радуют. Ну и выделю, что Claude Sonnet тоже хвалят не зря. Ну а отдельная номинация "Самый веселый и неожиданный результат" отходит Perplexity PRO с его вязанным клубком 😆
А какой результат понравился больше вам? Использовали уже R1?
Мой канал в TG: @it_sabat — пишу там, как запускаю стартап. Из последнего: недавно зарегистрировал компанию, сейчас (на январь 2025) прохожу акселерацию.