Ответы на пост «Новая модель ChatGPT o1 тоже оказалась не семи пядей во лбу»

11 месяцев назад

Ответ на пост «Новая модель ChatGPT o1 тоже оказалась не семи пядей во лбу»⁠⁠

Задача не из сложных, явно не уровня Международной математической олимпиады, скорее уровня школьной или районной олимпиады.

Читайте внимательно. Вам никто и не говорил, будто модель решает задачи уровня ММО. Вам написали:

OpenAI рассказала, что на квалификационном экзамене на Международной математической олимпиаде OpenAI o1 правильно решила 83% задач

Конкретнее речь идёт об этапе AIME:

OpenAI o1 ranks in the 89th percentile on competitive programming questions (Codeforces), places among the top 500 students in the US in a qualifier for the USA Math Olympiad (AIME), and exceeds human PhD-level accuracy on a benchmark of physics, biology, and chemistry problems (GPQA). While the work needed to make this new model as easy to use as current models is still ongoing, we are releasing an early version of this model, OpenAI o1-preview, for immediate use in ChatGPT and to trusted API users.

Сперва американские школьники, любые желающие, пишут олимпиаду AMC10 или AMC12, там 25 задач с 5 вариантами ответов, неправильные ответы штрафуются.

Кто хорошо написал AMC, сдают AIME. Там 15 задач, вывод/доказательство записывать не надо, но вариантов ответа нет.

Баллы AMC и AIME суммируются. Набравшие больше других едут на финал: кто писал AMC10 (не старше 10 класса) - те на USAJMO, кто писал AMC12 - те на USAMO. В общей сложности их около 500 человек.

12 победителей USAMO и еще человек 15 прочих приглашаются в трехнедельную летнюю школу подготовки к ММО. Из них 6 человек поедут на ММО.

Таким образом, заявленный в новости "квалификационный экзамен ММО" - это американский этап AIME, очень грубо соответствующий российскому региональному этапу ВОШа.

Показать полностью

user4650942

11 месяцев назад

ChatGPT

Новая модель ChatGPT o1 тоже оказалась не семи пядей во лбу⁠⁠

Новая модель ChatGPT o1 разочаровала при тестировании.

OpenAI недавно представила новую ИИ-модель OpenAI o1, заявив, что она в шесть раз умнее GPT-4o: https://hi-tech.mail.ru/news/114831-ope ... openai-o1/
Особое внимание привлекла информация о том, что

Цитата:

OpenAI рассказала, что на квалификационном экзамене на Международной математической олимпиаде OpenAI o1 правильно решила 83% задач, в то время как GPT-4o — только 13%.

Мне не терпелось протестировать расхваленную модель, однако меня постигло разочарование. Вот пример задачи, с которой модель не справилась с первого раза (хотя со второй попытки ответ был правильным, но первое впечатление уже было испорчено):

Найдите наименьшее количество элементов во множестве

{1, 2, 3, ... , 28}

, которые нужно удалить, чтобы произведение оставшихся элементов было точным квадратом.

Задача не из сложных, явно не уровня Международной математической олимпиады, скорее уровня школьной или районной олимпиады.
Вот ссылка на ИИ-шное решение: https://chatgpt.com/share/66e5f81e-6b7c ... e74ec3d1b4
На первой попытке модель дала ответ "7", что почти вдвое отличается от верного ответа. На самом деле достаточно удалить 4 элемента: 6, 17, 19 и 23.

ChatGPT Математика Тестирование Искусственный интеллект Текст