Google AI завоевал серебряную медаль IMO, всего на одно очко до золота! Четвертый вопрос занял всего 19 секунд

Google AI завоевал серебряную медаль IMO, всего на одно очко до золота!Четвертый вопрос занял всего 19 секунд.

2024-07-26

Западный ветер Байцзяо исходит из храма Аофэй.
Кубиты | Публичный аккаунт QbitAI

Только что большая модель снова покорила город!

Google DeepMind объявила, что их математический ИИ «выиграл» серебряную медаль на IMO (Международной математической олимпиаде), а от золотой медали отделял всего один балл!

Да, вы не ослышались! Это вопрос математической олимпиады, который труден для большинства людей. Вы должны знать, что из 609 участников IMO в этом году только 58 достигли уровня золотых медалей.

На этот раз искусственный интеллект Google решил 4 из 6 вопросов конкурса IMO 2024 года.Как только вы наберете высший балл, вы получите в общей сложности 28 очков. . (Общая оценка – 42 балла, оценка за золотую медаль – 29 баллов)

Среди них на четвертый вопрос по геометрии ИИ потребовалось всего 19 секунд? !

Что касается шестого вопроса, который считается самым сложным в этом году, то его в этом году выиграли всего пять конкурсантов, и это было совершенно правильно.

На этот раз результаты были также профессионально сертифицированы Организационным комитетом ИМО - профессором Тимоти Гауэрсом, золотым медалистом ИМО и обладателем медали Филдса, и доктором Джозефом Майерсом, двукратным золотым медалистом ИМО и председателем Отборочного комитета ИМО по проблемам 2024 года.

Профессор Тимоти Гауэрс прямо воскликнул:Далеко за пределами современного уровня, который я знаю。

Как Лайканкан это делает?

Google выиграл серебряную медаль IMO, появился новый член семейства Alpha

Два члена семьи Google Alpha, завоевавшие на этот раз серебряную медаль IMO, специализируются в цифровой индустрии.

AlphaProof, новый член семейства Alpha, формальная система математического рассуждения, основанная на обучении с подкреплением.
АльфаГеометрия 2, предыдущая улучшенная версия AlphaGeometry, специально используемая для решения геометрических задач.

Для начала давайте познакомимся с новым участником AlphaProof.

Это система самообучения, которая может доказывать математические утверждения, используя формальный язык Lean. Он сочетает в себе предварительно обученные языковые модели с алгоритмом обучения с подкреплением AlphaZero.

Путем точной настройки Gemini команда может автоматически преобразовывать утверждения на естественном языке в утверждения Lean на формальном языке, создавая тем самым большой банк математических вопросов.

Столкнувшись с проблемой, AlphaProof генерирует варианты решения, а затем подтверждает или опровергает этих кандидатов путем поиска возможных шагов доказательства в Lean.

Каждое найденное и проверенное доказательство используется для усиления языковой модели AlphaProof, тем самым улучшая ее способность решать последующие более сложные проблемы.

В первые несколько недель конкурса он был обучен ответам на миллионы вопросов уровня IMO в повторяющемся цикле.

Тренировочные циклы также применяются во время соревнований, где самопроверка постоянно усиливается до тех пор, пока не будет найдено полное решение.

Давайте посмотрим, что произошло после эволюцииАльфаГеометрия 2 . Это нейросимволическая гибридная система, в которой языковая модель основана на Близнецах.

Его предшественник 1.0 также был представлен в журнале Nature в этом году:Достижение уровня золотых медалистов IMO по геометрии без демонстрации человеком。

По сравнению с предыдущей версией, он использует на порядок больший объём синтетических данных для обучения с нуля. А используемый им символический движок на два порядка быстрее, чем его предшественник. При возникновении новых проблем используется новый механизм обмена знаниями, позволяющий использовать расширенные комбинации различных деревьев поиска для решения более сложных проблем.

Перед официальным соревнованием он уже мог решить 83% всех задач по геометрии IMO за последние 25 лет, в то время как показатель решения его предшественника составлял лишь 53%.

В конкурсе IMO этого года на ответ на четвертый вопрос потребовалось всего 19 секунд.

Тогда давайте посмотрим, как эти два человека на этот раз работают вместе, IMO.

Сначала задача вручную переводится на формальный математический язык, чтобы система могла ее понять.

Мы знаем, что во время человеческого конкурса ответы подаются два раза, каждый раз продолжительностью 4,5 часа.

Две системы Google сначала решили одну проблему за несколько минут, а на решение других проблем ушло три дня.

В конечном итоге AlphaProof решила две задачи по алгебре и одну задачу по теории чисел, определив ответы и доказав их правильность.

Сюда входит самый сложный вопрос конкурса, шестой вопрос, который решили только пять игроков в соревновании IMO в этом году.

AlphaGeometry 2 решает проблему геометрии, в то время как две проблемы комбинирования остаются нерешенными.

Кроме того, команда Google также экспериментировала с системой мышления на естественном языке, основанной на Gemini. Другими словами, нет необходимости переводить проблему на формальный язык и ее можно использовать совместно с другими системами ИИ.

Команда заявила, что они также будут изучать дополнительные методы искусственного интеллекта для развития математических рассуждений.

В ближайшее время также планируется опубликовать более подробную техническую информацию об AlphaProof.

Пользователь сети: Я не понимаю математику, но я был в шоке

Увидев работу этих двух систем, пользователи сети заявили, что они «не понимают математику, но были шокированы».

Скотт Ву, соучредитель Cognition AI, команды разработчиков искусственного интеллекта Devin, сказал:

Результаты действительно ошеломляющие. В детстве Олимпиада была для меня всем. Никогда не думал, что искусственный интеллект решит их через 10 лет.

Ученый OpenAI Ноам Браун также открыл микрофон, чтобы поздравить:

Однако некоторые пользователи сети заявили, что если соблюдать стандартное время соревнований (соревнования делятся на два дня, четыре с половиной часа в день, и каждый день решаются три задачи), две системы искусственного интеллекта фактически могут решить только одну из задач. шесть проблем.

Это заявление было тут же опровергнуто некоторыми пользователями сети:

В этом сценарии скорость не является главной проблемой. Если количество операций с плавающей запятой (флопов) остается постоянным, увеличение вычислительных ресурсов сократит время, необходимое для решения проблемы.

По этому поводу некоторые пользователи сети также спросили:

Две системы искусственного интеллекта не смогли ответить на комбинированные вопросы. Это проблема обучения или недостаточность вычислительных ресурсов или времени? Или есть другие ограничения?

Профессор Тимоти Гауэрс написал в Твиттере свои мысли:

Если бы участникам-людям было разрешено уделять больше времени каждому вопросу, их баллы, несомненно, были бы выше. Однако для систем искусственного интеллекта это намного превышает возможности предыдущих автоматических средств доказательства теорем. Во-вторых, по мере повышения эффективности ожидается, что требуемое время будет еще больше сокращаться;

Однако в последние два дня большая модель все еще застревала на вопросе «Какое число больше, 9,11 или 9,9?» Такой вопрос для начальной школы: как большая модель на этой стороне может решить задачу уровня математической олимпиады? !

Я потерял рассудок, а теперь вдруг в голову пришла идея и я пришел в себя?

Ученый Nvidia Джим Фан объясняет: Да.Распределение обучающих данныхПроблема.

Система Google была обучена формальным доказательствам и символическим механизмам, специфичным для предметной области. В какой-то степени они узкоспециализированы на решении олимпиад, хотя и основаны на общих больших моделях.

Обучающий набор, такой как GPT-4o, содержит большой объем данных кода GitHub, который может значительно превышать математические данные. В версиях программного обеспечения «v9.11>v9.9» это может сильно исказить дистрибутив. Так что эта ошибка вполне оправдана.

Что касается этого странного явления, он описал его как

Мы обнаружили очень странную область, похожую на экзопланету, похожую на Землю, но полную странных долин.

Есть также энтузиасты сети, которые последовали примеру OpenAI. Может быть, вы тоже можете попробовать…

На это Ультрачеловек ответил:

Справочные ссылки:
[1]https://x.com/googledeepmind/status/1816498082860667086?s=46
[2]https://x.com/jeffdean/status/1816498336171753948?s=46
[3]https://x.com/quocleix/status/1816501362328494500?s=46
[4]https://x.com/drjimfan/status/1816521330298356181?s=46
[5]https://deepmind.google/discover/blog/ai-solves-imo-problems-at-silver-medal-level/

Новости