команда, завоевавшая золотую медаль o1, раскрывает удивительный момент, когда ии превосходит людей! полное 22-минутное видео опубликовано в public

команда, завоевавшая золотую медаль o1, раскрывает удивительный момент, когда ии превосходит людей! полная версия 22-минутного видео теперь доступна публике.

2024-09-22

новый отчет мудрости

монтажер: тао цзы цяо ян

[введение в новую мудрость】рождение o1 — самый революционный момент для команды openai. в 22-минутном видеоинтервью они поделились своими мыслями о новой модели и истории ее разработки.

полное видео интервью с командой openai o1 наконец-то доступно онлайн!

в течение 22 минут команда разработчиков o1, организованная project bob mcgrew, вместе разделяла момент «ага».

некоторые люди отметили, что новая модель o1 эквивалентна «слиянию» нескольких врачей и часто работает лучше, чем люди. некоторые говорили, что после выхода о1 они явно почувствовали приход agi.

«когда модели превосходят людей в таких областях, как математика, программирование, го и шахматы, будущее agi становится яснее».

натан ламберт, ученый из института аллена, кратко изложил основные моменты этого видео.

всего 8 пунктов:

1 о1 с обучением с подкреплением лучше людей обнаруживает новые этапы рассуждения цт.

2. появление самокритики – самый сильный момент в жизни о1.

3 позвольте o1 закончить ответ до «тайм-аута», а затем внезапно наступит момент «ага».

4. проблема масштабирования размеров параметров и продолжение пути развития алгоритмов обучения с подкреплением.

5 многие люди отметили, насколько важна инфраструктура по сравнению с алгоритмами

6 благодаря планированию и исправлению ошибок o1 может решать новые проблемы в мире.

7 новая парадигма обучения — это совершенно новый подход, который закладывает в модель больше вычислительной мощности.

8 o1при написании кода, когда он выводит код, который будет использоваться, он должен пройти модульное тестирование.

далее давайте подробнее рассмотрим историю модели o1.

обучение с подкреплением + мышление, o1 открывает новую парадигму

самая большая разница между o1 и моделью gpt, поскольку это новая серия openai, заключается в выводе.

по сути, это модель рассуждения, а это значит, что она будет «думать» больше, чем раньше.

по мнению исследователей openai, «мышление» — это наиболее интуитивный способ рассуждения.

иногда, когда нас спрашивают, какая столица италии, мы можем практически сразу, даже не задумываясь, дать ответ. но иногда, когда дело доходит до бизнес-планов, написания романов и т. д., это требует длительного размышления.

излишне говорить, что чем дольше вы об этом думаете, тем лучше будут результаты.

следовательно, рассуждение — это способность превращать время размышления в оптимальные результаты.

по словам марка чена, рассуждение — это «примитив» и единственный способ добиться какого-либо надежного мыслительного процесса.

что касается исследований вывода, openai на самом деле началась очень рано. в первые дни своего создания они увидели потенциал alphago в победе над людьми с помощью алгоритмов rl и провели множество исследований.

например, в 2016 году они открыли платформу тестирования игр «вселенная», которая представляет собой платформу с открытым исходным кодом для тренировки общего уровня интеллекта ии.

в 2018 году был создан игровой ии под названием openai five, который успешно победил команду чемпиона мира og в двукратном международном пригласительном турнире по dota2.

в то же время значительный прогресс в масштабировании был достигнут в области данных и робототехники.

команда openai задумалась: как реализовать обучение с подкреплением в общих областях и добиться очень мощного ии?

то есть новая парадигма, открытая серией gpt. он достиг потрясающих результатов в масштабировании обучения без учителя.

и с тех пор исследователи начали изучать, как объединить эти две парадигмы — обучение с подкреплением и обучение без учителя.

трудно сказать точно, когда начались эти усилия, но, по словам исследователей, работа над ними ведется уже давно.

момент "ага"

в видео кто-то сказал, что, по их мнению, самое крутое в исследовании — это момент «ага».

в определенный момент в исследованиях произошел неожиданный прорыв, и все вдруг стало ясно, как прозрение.

итак, какие моменты «ага» пережили члены команды?

кто-то сказал, что, по его мнению, наступил критический момент в процессе обучения модели, когда они вложили больше вычислительной мощности, чем раньше, и впервые создали очень связный цт.

в этот момент все были приятно удивлены: было очевидно, что эта модель существенно отличается от предыдущей.

другие заявили, что, рассматривая возможность обучения модели с способностями к рассуждению, первое, что приходит на ум, — это позволить людям записывать свои мыслительные процессы и тренироваться соответствующим образом.

для него моментом ага стало то, что он обнаружил, что обучение модели с помощью обучения с подкреплением для создания и оптимизации cot было даже лучше, чем cot, написанный людьми.

этот момент показывает, что таким образом мы можем расширить и изучить возможности модели.

этот исследователь сказал, что он усердно работал над улучшением способности модели решать математические задачи.

к его разочарованию, модель никогда не задавалась вопросом, что она сделала не так каждый раз, когда получала результат.

однако при обучении одной из первых моделей o1 они были удивлены, обнаружив, что балл модели на тесте по математике внезапно значительно улучшился.

более того, исследователи могут увидеть процесс исследования модели – она начинает размышлять о себе и подвергать сомнению себя.

он воскликнул: «наконец-то мы сделали что-то другое!»

это чувство было чрезвычайно сильным, и в этот момент все, казалось, сошлось.

другой исследователь сказал, что когда вы просите модель завершить размышление до «тайм-аута», процесс становится очень интересным.

это похоже на участие в математическом соревновании. любое мышление ограничено по времени.

он сказал, что это также было основной причиной, по которой он вошел в сферу ии, и теперь для него это можно рассматривать как момент «замкнутого цикла».

кроме того, что удивительно в модели o1, так это то, что она оказывает большую помощь в продвижении научных открытий и инженерного прогресса.

многим людям agi кажется очень абстрактной и надуманной концепцией, пока они не увидят, что ии делает то, что хорошо получается у людей, они не смогут поверить в появление agi.

несколько лет назад профессиональным игрокам в шахматы и го ibm deep blue, а также deepmind alphago и alphazero помогли это понять.

для группы ученых openai, хорошо разбирающихся в математике и программировании, модель o1 имеет аналогичное значение. что еще более интересно, их работа эквивалентна созданию ии, способного превосходить их собственные способности.

с какими трудностями вы столкнулись в ходе проекта?

что касается препятствий, возникающих в процессе, исследователи прямо заявили, что обучение llm принципиально очень сложно.

подобно запуску ракеты с земли на луну, есть только узкий путь к успеху, но есть бесчисленное множество путей к провалу. если вы хоть немного отклонитесь от угла, вы не сможете достичь цели.

существуют тысячи причин, по которым тренировочный процесс может пойти не так, и даже в руках этой талантливой группы ученых-исследователей в каждом тренировочном раунде возникали сотни проблем.

кроме того, по мере того, как модели становятся все более интеллектуальными, например, o1, который эквивалентен людям с несколькими степенями доктора философии, оценка становится все более сложной.

иногда им требуется много времени, чтобы определить, правильно ли работает модель, и в конечном итоге многие часто используемые отраслевые тесты насыщаются, и им приходится заново находить тесты, подходящие для возможностей o1.

помимо процесса разработки модели, исследователей также спросили об их любимых вариантах использования модели o1.

хён вон чон сказал, что o1 может быть хорошим помощником в программировании.

при работе он обычно следует методу разработки tdd (test-driven development). с помощью o1 он может избавить себя от написания модульных тестов. вместо этого он может напрямую указать требования и позволить модели написаться автоматически.

кроме того, обнаруженное сообщение об ошибке также может быть отправлено непосредственно в o1. хотя иногда оно не может напрямую решить проблему, оно может задать лучший вопрос, чем компилятор, и помочь вам устранить ошибку.

джейсон вэй рассказал, что он часто использует o1 в качестве партнёра по мозговому штурму, и спектр вопросов, которые можно обсуждать, довольно широк: от того, как решить проблему машинного обучения, до того, как составить блог или твит.

блог, который он написал в мае этого года об оценке llm, основывался на мнениях o1, таких как структура статьи, преимущества и недостатки различных критериев оценки, а также стиль письма.

каково работать в openai?

в этом выпуске многие говорили об интеллекте каждого и гармонии командной атмосферы.

например, я неделю отлаживал код, и проходивший мимо коллега мгновенно решил его; ежедневное общение с чрезвычайно умными коллегами постепенно заставило меня смириться.

марк чен охарактеризовал проект «клубника» как очень «органичный» проект, ведь у каждого есть свое мнение и взгляды на профессиональные вопросы, и у всех есть идеи, которые они хотят с энтузиазмом продвигать.

когда эти идеи сойдутся воедино, вырвутся искры и пойдут снежным комом.

однако обратная сторона напористости в том, что каждый настаивает на своем мнении, но не упрям. они также изменят свое мнение, если увидят объективные результаты, опровергающие их утверждения.

что еще более похвально, так это то, что эта группа чрезвычайно умных людей также очень мила и готова помогать другим решать проблемы. многие исследователи в интервью прямо сказали: «работать здесь очень приятно». опыт".

история создания o1-mini

мотивацией выпуска o1-mini является предоставление большему количеству исследователей моделей с меньшим бюджетом, но при этом обладающих сильными возможностями вывода.

его можно назвать «экспертом по рассуждению», и он умнее лучшей модели openai прошлого.

кроме того, стоимость и задержка очень низкие.

возможно, он не обязательно знает известного человека по дате рождения, но он обладает способностью рассуждать и большой мудростью.

исследователи openai заявили, что будут и дальше совершенствовать алгоритм, чтобы сделать его сопоставимым с лучшими небольшими моделями.

кроме того, исследователи по всему миру инвестируют в большее количество компьютеров и оборудования, в результате чего стоимость моделей снижается в геометрической прогрессии в течение длительного периода времени.

однако есть один недостаток: мы не потратили больше времени на поиск нового способа изменить ситуацию.

новой парадигмой o1 является наше открытие — масштабирование вывода, которое также позволяет оптимизировать эффективность вычислительной мощности.

что мотивирует вас проводить исследования?

по какой причине эта группа «разумных мозгов» может собраться вместе, чтобы вдохновить их на исследования?

один исследователь сказал, что было интересно подумать о том, как он мог бы использовать свою модель для получения выводов.

другие говорили: «все хорошее приходит в трудные времена».

тот факт, что o1 может отвечать так быстро, — это первый шаг к модели, которая может долго думать над вопросами. в будущем потребуются месяцы или даже годы исследований, чтобы продвинуть его в следующий путь.

«очень интересно и значимо думать, что небольшое количество из нас может оказать влияние, которое изменит мир».

самое интересное, что новая парадигма открывает задачи, которые раньше модель не могла выполнить. это не просто ответы на определенные запросы, а фактически обобщение новых возможностей посредством планирования, исправления ошибок.

более того, o1 может генерировать новые знания, что является самой захватывающей частью научных открытий.

исследователи говорят, что за короткий период времени модель станет все более мощным фактором собственного развития.

наконец, когда человек, отвечающий за o1, спросил: «есть ли еще какие-нибудь наблюдения, о которых стоит упомянуть?»

джейсон вэй поделился: «интересное наблюдение заключается в том, что каждая обученная модель немного отличается и имеет свои особенности, как у артефакта. эта уникальность добавляет индивидуальности каждой модели».

полная версия видео выглядит следующим образом:

новости

команда, завоевавшая золотую медаль o1, раскрывает удивительный момент, когда ии превосходит людей! полная версия 22-минутного видео теперь доступна публике.

введение

моя контактная информация