новости

выходит модель openai o1, снова прорывается пятиуровневый agi! человек со степенью доктора рассуждений, китаец из фуданьского университета северной династии цин, совершивший достойные дела.

2024-09-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

только сейчас в сети внезапно появились самые мощные модели openai серии o1. без предупреждения openai бросила этот гром.

модель клубники, которая, как сообщалось, была доступна в течение двух недель, на самом деле прибыла через два дня!

начиная с сегодняшнего дня, предварительная версия o1 будет доступна для всех пользователей plus и team в chatgpt, а также для разработчиков 5-го уровня в api.

в то же время openai также выпустила o1-mini — экономичную модель вывода, которая очень хороша в stem, особенно в математике и кодировании.

модель o1 по-прежнему имеет недостатки и ограничения, и при первом использовании она производит большее впечатление, чем в долгосрочной перспективе.

производительность новой серии o1 в сложных рассуждениях поднята на совершенно новый уровень. можно сказать, что они обладают поистине универсальными возможностями рассуждения.

в серии тестов o1 снова добился огромного прогресса по сравнению с gpt-4o. он может выиграть золотую медаль на математической олимпиаде. в тестах по физике, биологии и химии он напрямую превосходит. уровень человеческих докторов наук!

исследователь openai джейсон вэй сказал, что o1-mini — это самый удивительный результат исследования, который он видел за последний год. небольшая модель набрала более 60% баллов на математическом конкурсе aime.

однако, судя по приложению к статье openai, выпущенные на этот раз превью и мини кажутся просто «кастрированными версиями» o1.

масштабирование вывода открывает новую парадигму

старший научный сотрудник nvidia джим фан дополнительно проанализировал принципы, лежащие в основе модели o1.

он сказал, что новая парадигма масштабирования времени вывода широко популяризируется и применяется. как сказал саттон в «горьком уроке», есть только две технологии, которые могут бесконечно масштабировать вычислительную мощность: обучение и поиск.

теперь пришло время обратить внимание на последнее.

1. для вывода не нужны огромные модели.

2. перенос большого количества вычислений из предварительного/постобучения в сервисы вывода.

3. openai, должно быть, очень рано открыла правило масштабирования рассуждений, но академическое сообщество начало его открывать лишь недавно.

4. внедрить o1 на практике гораздо сложнее, чем преуспеть в академических тестах.

5. клубника легко может стать маховиком данных

судя по предыдущей классификации openai, o1 достиг возможностей рассуждения уровня l2.

кто-то проверил это и обнаружил, что о1 успешно написал очень сложное стихотворение. в процессе планирование и мышление, необходимые для успешного выполнения этой задачи, были сумасшедшими, а расчет времени рассуждения был очень крутым.

однако после тестирования o1-mini эксперт по искусственному интеллекту карпати пожаловался: «он отказался решить для меня гипотезу римана. лень модели по-прежнему остается серьезной проблемой, и это очень печально».

доцент нью-йоркского университета се сайнин также попытался проверить классический вопрос «кто больше, 9,11 или 9,8?» неожиданно o1-preview все же получил неправильный ответ.

классическая задача «сколько букв r в клубнике», естественно, не является проблемой для o1.

big v мэтью сабия рассказал, что самое страшное в том, что gpt-5 в 69 раз мощнее модели o1. обычные люди просто не понимают рассуждения и логические способности слонов.

действительно ли люди готовы?

задачи на логическое мышление, которые сбивают с толку людей, решает o1

мы все знаем, что логические рассуждения были трудной горой для предыдущих программ llm.

но на этот раз способность модели o1 решать сложные логические задачи удивляет.

например, следующий логический вопрос -

возраст принцессы равен возрасту принца в какой-то момент в будущем, когда возраст принцессы будет вдвое больше возраста принца в какой-то момент в прошлом, а в тот момент в прошлом возраст принцессы будет вдвое меньше; сумма их текущего возраста. сколько сейчас лет принцессе и принцу? пожалуйста, предоставьте все варианты решения этой проблемы.

этот вопрос чрезвычайно сложно произнести. даже человеку потребуется немало усилий, чтобы правильно перевести и понять смысл вопроса.

поразительно, но после нескольких шагов размышления модель o1 действительно дала правильный ответ!

с помощью таких шагов, как определение переменных, понимание проблем и решение уравнений, делается вывод, что возраст принцессы составляет 8 тысяч лет, а возраст принца — 6 тысяч лет, где k — целое положительное число.

в другой демонстрации джейсон вэй показал нам, как o1 программировал видеоигру на основе подсказок.

как видите, он скопировал подсказку в модель o1.

впоследствии модель думала 21 секунду и отображала все этапы мышления.

впоследствии модели присваивается код.

после запуска кода игра оказалась очень плавной!

мы даже закинули o1 кучу запутанных корейских предложений и попросили перевести их на английский, и он действительно это сделал.

потому что, хотя предложение грамматически неясно, o1 все равно шаг за шагом его расшифровывает.

в конце концов o1 дал ответ и с юмором сказал: ни один переводчик на планете не сможет этого сделать, но корейцы легко его опознают. это метод шифрования корейского языка посредством различных изменений гласных и согласных.

напротив, gpt-4o был совершенно сбит с толку и не мог понять.

видно, что суперпроизводительность o1 подняла логические рассуждения на новый уровень.

как это делается?

обучение с подкреплением приносит большие достижения, приближается время большой модели alphago

разница между моделями серии o1 и прошлыми моделями заключается в том, что они будут тратить больше времени на «обдумывание проблемы», прежде чем ответить на вопрос, как и люди.

благодаря обучению они учатся совершенствовать свои мыслительные процессы, пробовать разные стратегии и самостоятельно распознавать ошибки.

в этом большую заслугу сыграл мощный алгоритм «обучения с подкреплением». тогда, когда alphago победила шахматистов-людей, для этого использовался алгоритм rl.

он завершает эффективное обучение с использованием данных высокого уровня и учит llm продуктивно мыслить с использованием cot.

джейсон вей, разработчик предложения cot и исследователя openai, сказал, что o1 не завершает cot исключительно с помощью подсказок, а использует модели обучения rl, чтобы в конечном итоге лучше выполнять цепное мышление.

более того, команда openai также обнаружила в модели «новый закон» в законе масштабирования.

производительность o1 продолжает улучшаться по мере того, как вкладывается больше времени в обучение с подкреплением (рассчитывается во время обучения) и больше времени на размышление (рассчитывается во время тестирования).

ограничения этого метода во время масштабирования сильно отличаются от ограничений предварительного обучения llm.

производительность o1 стабильно улучшается с увеличением объема вычислений на этапе обучения и тестирования.

список команд, завоевавших золотые медали

рассуждение исследование

среди основателей четко указан илья суцкевер, который оставил свою работу, чтобы начать бизнес, но он не числится в исполнительном руководстве (исполнительном руководстве) вместе с грегом брокманом и другими. должно быть, его предыдущая исследовательская работа заложила основу. для о1.

после того, как илья ушел в отставку, openai также откопала многие его работы и начала их публиковать, например, исследования интерпретируемости модели gpt-4.

в настоящее время основанная им компания ssi также процветает. она привлекла финансирование в размере 1 миллиарда долларов сша, даже не имея продукта, с оценкой в ​​5 миллиардов долларов сша.

хонгю рен

хунью рен окончил пекинский университет со степенью бакалавра компьютерных наук и получил докторскую степень в стэнфорде. он присоединился к openai с июля прошлого года. ранее он работал в таких компаниях, как google, apple, nvidia и microsoft.

джейсон вэй

джейсон вэй в настоящее время является исследователем в openai. в 2020-2023 годах он работал в google brain, предложил знаменитый cot, инструкции по тонкой настройке и опубликовал статью о возможности появления больших моделей.

кевин ю

кевин ю в настоящее время является исследователем в openai. он получил степень магистра физики и астрофизики и докторскую степень по неврологии в калифорнийском университете в беркли в 2014 и 2021 годах соответственно.

шэнцзя чжао

шэнцзя чжао окончил университет цинхуа со степенью бакалавра, а также получил степень доктора философии в стэнфорде. после его окончания в июне 2022 года он присоединился к технической команде openai. он также является одним из авторов gpt-4.

венда чжоу

венда чжоу присоединилась к openai в прошлом году. ранее он был научным сотрудником мура-слоана в лаборатории центра обработки данных нью-йоркского университета.

он получил степень магистра в кембриджском университете в 2015 году и докторскую степень по статистике в колумбийском университете в 2020 году.

фрэнсис сонг

фрэнсис сонг получил степень бакалавра физики в гарвардском университете и степень доктора физики в йельском университете. он присоединился к openai в 2022 году и ранее работал научным сотрудником в deepmind и младшим научным сотрудником в нью-йоркском университете.

марк чен

марк чен занимал должность директора frontier research с момента прихода в openai в 2018 году, курируя рабочую группу под руководством вице-президента по исследованиям боба макгрю.

после окончания массачусетского технологического института чен получил двойную степень бакалавра в области математики и информатики. во время учебы в колледже он проходил стажировку в microsoft и trading, а также был приглашенным научным сотрудником в гарвардском университете.

в настоящее время он также является тренером американской тренировочной команды ioi.

the information однажды предположила, что марк чен в будущем станет членом руководства openai.

кроме того, в команду лидеров также входят якуб пахоцкий, главный научный сотрудник, сменивший илью, и войцех заремба, один из немногих оставшихся соучредителей openai.

рассуждения о технической безопасности

цзеци юй

цзеци ю окончила фуданьский университет со степенью бакалавра в области электронной инженерии. она поступила в гонконгский университет науки и технологий по обмену, а затем получила докторскую степень в принстонском университете. она проработала в facebook 12 лет, пройдя путь от инженера-программиста до менеджера по разработке программного обеспечения, и присоединилась к openai в качестве менеджера по разработке в августе прошлого года.

кай сяо

сяо кай окончил массачусетский технологический институт со степенью бакалавра и докторской степенью. будучи студентом, он также получил двойную степень по математике и информатике. он посещал оксфордский университет и проходил стажировку в таких компаниях, как deepmind и microsoft. присоединился к openai в сентябре 2022 года.

лилиан вэн

лилиан венг в настоящее время является главой системы безопасности openai и в основном занимается машинным обучением, глубоким обучением и другими исследованиями.

она окончила пекинский университет со степенью бакалавра в области информационных систем и информатики. она поступила в университет гонконга по краткосрочному обмену, а затем получила докторскую степень в университете индианы в блумингтоне.

как и марк чен, лилиан считается восходящей звездой в руководстве openai.

полный список команд выглядит следующим образом:

биохимическая физика за пределами докторской степени

в чем сила o1, новой серии моделей, созданных openai?

входит в число 89% лучших задач по программированию на соревнованиях (codeforces входит в число 500 лучших учащихся квалификационных соревнований американской математической олимпиады (aime);

самое главное, он превосходит уровень доктора философии в эталонном тесте по физике, биологии и химии (gpqa).

в широко используемых тестах производительности, таких как math и gsm8k для рассуждений, o1 и многие последние передовые модели достигли насыщенной производительности, и их трудно отличить. поэтому openai в основном выбирает aime для оценки математических и логических возможностей модели. как и другие тесты на людях и benchmark.

aime призван бросить вызов математическим способностям лучших старшеклассников сша. на экзамене aime 2024 года gpt-4o решил в среднем только 12% (1,8/15) вопросов.

однако улучшение o1 весьма существенно: в среднем он решает 74% (11,1/15) вопросов и достигает 83% (12,5/15) при мажоритарном голосовании в 64 выборках. если мы воспользуемся функцией оценки и переупорядочим 1000 образцов, точность достигнет даже 93% (13,9/15).

оценка 13,9 означает, что уровень о1 вошел в число 500 лучших учеников страны и превысил итоговый балл американской математической олимпиады.

в сложных задачах, таких как codeforces и gpqa diamond, o1 намного превосходит gpt-4o.

o1 значительно превосходит gpt-4o в сложных тестах вывода

gpqa diamond проверяет знания в области химии, физики и биологии. чтобы сравнить модель с людьми, команда наняла экспертов с докторской степенью, которые ответили на ее вопросы.

в результате o1 превзошел этих экспертов-людей (69,7) (78,0), став первой моделью, превзошедшей людей по этому показателю.

однако этот результат не означает, что o1 сильнее человека с докторской степенью во всех аспектах, он лишь показывает, что он может более умело решать некоторые задачи соответствующего уровня.

кроме того, o1 также обновил sota в тестах производительности, таких как math, mmlu и mathvista.

после включения возможностей визуального восприятия o1 набрала 78,1% по mmmu, став первой моделью, конкурирующей с людьми-экспертами, превзойдя gpt-4o в 54 из 57 подкатегорий mmlu.

o1 превосходит gpt-4o по широкому спектру тестов, включая подклассы 54/57 mmlu

цепочка мыслей

благодаря обучению с подкреплением o1 научился распознавать и исправлять собственные ошибки, а также разбивать сложные шаги на более простые.

он также будет пробовать разные методы, если текущий не работает. этот процесс значительно улучшает возможности вывода модели.

возьмем пример «криптографии».

вопрос: «думай шаг за шагом» зашифрован и соответствует «oyfjdnisdr rtqwainr acxz mynzbhhx». спросите, что означает «oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz».

видно, что gpt-4o совершенно беспомощен в решении подобных проблем.

о1 рассуждал о методе расчета шифрования, основываясь на известной информации, и наконец дал правильный ответ - в клубнике три r.

гпт-4о

o1-превью

программирование

в ходе этой оценки openai дополнительно обучила модель с расширенными программными возможностями, основанную на o1.

на международной олимпиаде по информатике (ioi) 2024 года новая модель набрала 213 баллов и заняла 49%-е место.

в течение курса у моделей есть десять часов на решение шести сложных алгоритмических задач, при этом на каждую задачу допускается 50 заявок.

когда ограничения на отправку ослаблены, производительность модели может быть значительно улучшена. при разрешении 10 000 заявок на вопрос модель набрала балл 362,14, что превышает порог золотой медали.

наконец, openai также смоделировала соревнование по программированию, организованное codeforces, строго соблюдая правила и допуская 10 заявок.

показатель эло gpt-4o составляет 808, что соответствует 11% игроков-людей. новая модель намного превзошла gpt-4o и o1, достигнув высокого балла 1807, опередив 93% игроков.

дальнейшая точная настройка улучшила o1 на соревнованиях по программированию: улучшенная модель заняла 49-й процентиль согласно правилам соревнований на международной олимпиаде по информатике 2024 года.

оценка человеческих предпочтений

помимо экзаменов и академических тестов, openai оценивала предпочтения людей в отношении o1-preview по сравнению с gpt-4o в отношении сложных, открытых подсказок в широком диапазоне областей.

в этой оценке люди видят анонимные ответы на подсказки слов из o1-preview и gpt-4o и голосуют за тот ответ, который они предпочитают.

в таких сложных для рассуждений категориях, как анализ данных, программирование и математика, люди с большей вероятностью выберут o1-preview. но в некоторых задачах на естественном языке gpt-4o лучше.

другими словами, o1-preview на данный момент подходит не для всех сценариев использования.

в областях, где способность к рассуждению более важна, люди с большей вероятностью выберут o1-preview.

o1-mini чрезвычайно экономичен

чтобы предоставить разработчикам более эффективные решения, openai выпустила o1-mini — более быструю и дешевую модель вывода.

модель o1-mini меньшего размера на 80% дешевле, чем o1-preview.

это мощная и экономичная модель для приложений, требующих рассуждений, но не требующих общих знаний.

однако текущая серия o1 все еще находится на ранней стадии разработки, и такие возможности, как сетевые плагины, передача файлов на большие расстояния и изображения, еще не интегрированы. в краткосрочной перспективе gpt-4o по-прежнему остается сильнейшим игроком.

ссылки:

https://openai.com/index/learning-to-reason-with-llms/