openai выпускает новую модель o1: она будет такой же «продуманной», как human

openai выпускает новую модель o1: она будет такой же «задумчивой», как люди

2024-09-13

автор｜сухой

без каких-либо предосторожностей была выпущена долгожданная модель «клубника» от openai.

введение в модель o1, источник: openai

сегодня рано утром по пекинскому времени openai выпустила новую модель под названием openai o1, которая также называлась ранее анонсированной «strawberry», но первоначально o1 имела кодовое название «q*». генеральный директор openai сэм альтман назвал это «началом новой парадигмы».

судя по официальной информации openai,подводя итог, характеристики o1: больше, сильнее, медленнее и дороже.

благодаря обучению с подкреплением (reinforcement learning) openai o1 добился значительного прогресса в возможностях рассуждения. группа исследований и разработок заметила, что с увеличением времени обучения (увеличение обучения с подкреплением) и времени размышления (расчеты во время тестирования) производительность модели o1 постепенно улучшалась. проблемы масштабирования этого подхода отличаются от ограничений перед обучением больших языковых моделей (llm).

производительность o1 постоянно улучшается с учетом времени обучения и расчета времени тестирования, источник: openai.

что касается слухов на рынке о том, что «модель o1 может самостоятельно выполнять для пользователей задачи уровня браузера или системы», в текущей общедоступной информации эта функция не упоминается.

представитель openai заявил: «хотя эта первоначальная модель еще не имеет таких функций, как поиск информации в интернете, загрузка файлов и изображений, она добилась значительного прогресса в решении сложных логических задач, что представляет собой новый уровень технологий искусственного интеллекта. было решено дать этой серии новую отправную точку и назвать ее openai o1».основное применение o1 по-прежнему сосредоточено на ответах на вопросы и анализе посредством текстового взаимодействия, а не на прямом управлении браузером или операционной системой.

в отличие от более ранних версий,модель o1 «глубоко думает», прежде чем дать ответ, как это сделал бы человек.чтобы сгенерировать длинную цепочку внутренних идей, а также попробовать разные стратегии и выявить собственные ошибки, требуется около 10–20 секунд.

эта мощная способность к рассуждению дает o1 широкий спектр возможностей применения во многих отраслях, особенно в сложных научных, математических и программных задачах. при решении задач по физике, химии и биологии производительность о1 даже сравнима с результатами докторантов в этой области. на квалификационном экзамене международной математической олимпиады (aime) точность модели o1 составила 83%, и она успешно вошла в число 500 лучших студентов в сша, в то время как точность модели gpt-4o составила всего 13%.

альтман также поделился o1 на x, источник: x

openai предоставляет некоторые конкретные варианты использования. например, медицинские исследователи могут использовать o1 для аннотирования данных секвенирования клеток; физики могут использовать o1 для создания сложных математических формул, необходимых для квантовой оптики, разработчики программного обеспечения могут использовать его для создания и выполнения сложных многоэтапных рабочих процессов и более.

серия o1 включает три модели: openai o1, openai o1-preview и openai o1-mini. обе модели доступны пользователям начиная с сегодняшнего дня:

openai o1: расширенная модель вывода, временно закрытая для публики.

openai o1-превью: эта версия больше ориентирована на углубленную обработку рассуждений и может использоваться 30 раз в неделю.

openai o1-мини: эта версия более эффективна и экономична, подходит для задач кодирования и может использоваться 50 раз в неделю.

разработчики и исследователи теперь могут получить доступ к этим моделям через chatgpt и интерфейсы прикладного программирования.

что касается цены, ранее the information сообщила, что руководители openai обсуждают цену своих будущих новых больших моделей strawberry и orion на уровне 2000 долларов сша в месяц, что вызвало множество жалоб и осуждений. но сегодня кто-то обнаружил, что членство в chatgpt pro уже доступно онлайн по цене 200 долларов сша в месяц. разрыв от 2000 до 200 долларов сша не позволяет не чувствовать себя «воспользовавшимся преимуществом». openai явно разыграла психологическую войну с ценой.

в мае этого годаальтман встречается с президентом массачусетского технологического института салли корнблутэто было упомянуто в беседе у камина,gpt-5 может отделять данные от механизмов вывода.

«gpt-5 или gpt-6 могут стать лучшей машиной вывода. в настоящее время единственный способ добиться лучшей машины — это обучить большой объем данных», — считает альтман.но на самом деле модель тратит много ресурсов данных при обработке данных.например, гпт-4. он также работает как база данных, за исключением того, что вывод медленный, дорогой и «не идеальный».эти проблемы, по сути, являются пустой тратой ресурсов, вызванной тем, как модель спроектирована и обучена.

«неизбежно, это побочный эффект единственного способа создания моделей машин вывода. он может предвидеть новые методы в будущем».цель состоит в том, чтобы отделить способность модели к рассуждению от потребности в больших данных.

но в сегодняшнем релизе gpt-5 не появился, а также отсутствовала идея разделения данных и механизмов вывода.

что касается цены, то ранее the information сообщила, что руководители openai планируют установить цену на новые крупные модели «клубника» и «орион» на уровне 2000 долларов сша в месяц, что вызвало массу жалоб и осуждений. но сегодня кто-то обнаружил, что членство в chatgpt pro уже доступно по цене 200 долларов сша в месяц.

разрыв от 2000 до 200 долларов сша мешает пользователям не чувствовать, что они пользуются преимуществом. openai явно ведет психологическую войну за счет цены.

2. отполируйте «мыслительную цепочку»

большие модели всегда критиковали за «неумение считать».основная причина заключается в том, что крупным моделям не хватает способности проводить структурированные рассуждения.

рассуждение — одна из основных способностей человеческого интеллекта.большие модели в основном обучаются с помощью неструктурированных текстовых данных, которые обычно включают новостные статьи, книги, текст веб-страниц и т. д. текст имеет форму естественного языка и не подчиняется строгим логическим или структурным правилам, поэтому модель учится главным образом тому, как генерировать язык на основе контекста, а не тому, как логически рассуждать или обрабатывать информацию в соответствии с фиксированными правилами.

но многие сложные логические задачи структурированы.

например, логические рассуждения, решение математических задач или программирование. если мы хотим выбраться из лабиринта, нам нужно следовать ряду логических и пространственных правил, чтобы найти выход. проблемы такого типа требуют, чтобы модель была способна понимать и применять набор фиксированных шагов или правил, чего не хватает большинству крупных моделей.

таким образом, хотя такие модели, как chatgpt и bard, могут генерировать, казалось бы, разумные ответы на основе обучающих данных, на самом деле они больше похожи на «стохастическое повторение».они часто не могут по-настоящему понять сложную логику, стоящую за этим, или выполнить сложные логические задачи.

помните, что большие модели хорошо работают при обработке неструктурированного текста на естественном языке, поскольку именно на нем сосредоточены обучающие данные. но когда дело доходит до задач, требующих структурированного логического рассуждения, им часто сложно выполнить действия с человеческой точностью.

чтобы решить эту проблему, openai подумала об использованиицепочка мыслей (cot)приходите «сломать ситуацию».

цепочка мыслей — это технология, которая помогает моделям ии рассуждать. он работает, позволяя модели шаг за шагом объяснять каждый шаг процесса рассуждения при ответе на сложные вопросы, а не давать ответ напрямую. поэтому, когда модель отвечает на вопрос, она подобно человеку при решении задачи сначала обдумывает логику каждого шага, а затем постепенно выводит конечный результат.

однако в процессе обучения ии маркировка мыслительных цепочек вручную требует много времени и средств. объем данных, требуемый в соответствии с законом масштабирования, является практически невыполнимой задачей для людей.

на этом этапе обучение с подкреплением становится более практичной альтернативой.

обучение с подкреплением позволяет модели учиться самостоятельно посредством практики, проб и ошибок. оно не требует ручного аннотирования того, как выполнять каждый шаг. вместо этого оно оптимизирует метод решения проблем посредством непрерывного экспериментирования и обратной связи.

в частности, модель корректирует свое поведение в зависимости от последствий (хороших или плохих) действий, которые она предпринимает при попытке решить проблему. таким образом, модель может автономно исследовать множество возможных решений и методом проб и ошибок найти наиболее эффективный метод. например, в играх или средах моделирования ии может постоянно оптимизировать стратегии посредством самостоятельной игры и в конечном итоге научиться точно выполнять сложные задачи без ручного руководства на каждом этапе.

например, компания alphago, которая покорила мир го в 2016 году, объединила методы глубокого обучения и обучения с подкреплением, постоянно оптимизировала свою модель принятия решений с помощью большого количества игр для самостоятельной игры и, наконец, смогла победить лучшего в мире игрока в го ли. седоль.

модель o1 использует тот же метод, что и alphago, для постепенного решения проблем.

при этом o1 постоянно совершенствует свой мыслительный процесс посредством обучения с подкреплением, учится выявлять и исправлять ошибки, разбивает сложные шаги на более простые части и пробует новые методы при столкновении с препятствиями. этот метод обучения значительно улучшает способность o1 рассуждать и позволяет o1 более эффективно решать проблемы.

грег брокман, один из соучредителей openai, «очень гордится» этим»,это первый раз, когда мы обучаем модель с помощью обучения с подкреплением.", сказал он.

фрагменты твитов брокмана, источник: x

по словам брокмана, модель openai изначально осуществляла мышление по системе 1 (быстрое, интуитивное принятие решений), тогда как технология цепочки мышления инициировала мышление по системе 2 (осторожное, аналитическое мышление).

мышление по системе 1 подходит для быстрого реагирования, тогда как мышление по системе 2 использует технологию «цепочки мышления», позволяющую модели рассуждать и решать проблемы шаг за шагом. практика показала, что путем непрерывных проб и ошибок производительность модели можно значительно улучшить, полностью обучив ее от начала до конца (например, при применении в таких играх, как го или дота).

кроме того, хотя технология o1 все еще находится на ранней стадии разработки, она хорошо зарекомендовала себя с точки зрения безопасности. например, расширенную модель можно использовать для углубленного анализа стратегии, чтобы повысить ее устойчивость к атакам и снизить риск возникновения галлюцинаций. эта способность глубокого рассуждения уже начинает показывать положительные результаты в оценках безопасности.

«мы разработали новую модель на основе модели o1, позволили ей участвовать в соревнованиях международной олимпиады по информатике (ioi) 2024 года и набрали 213 баллов в 49% рейтингов», — сообщил openai.

он соревновался в тех же условиях, что и участники-люди, решая шесть алгоритмических задач с 50 возможностями подачи каждая. эффективность стратегии отбора демонстрируется путем проверки нескольких кандидатов и отбора материалов на основе общедоступных тестовых примеров, тестовых примеров, сгенерированных моделями, и функций оценки, при этом средние баллы выше, чем у случайных заявок.

когда количество заявок было уменьшено до 10 000 на вопрос, модель показала лучшие результаты и получила баллы выше золотого стандарта. наконец, модель продемонстрировала «потрясающие» способности к программированию в симулированном соревновании по программированию codeforces. gpt-4o имеет рейтинг эло 808, что ставит его в 11-й процентиль среди конкурентов-людей. а наша новая модель имеет рейтинг эло 1807, опережая 93% конкурентов.

дальнейшая тонкая настройка улучшила производительность модели o1 на соревнованиях по программированию. источник: openai.

2. «смутные времена» openai

до выпуска o1 openai находилась в тени изменений в высшем руководстве компании.

в феврале этого года андрей карпати, один из основателей openai и учёный-исследователь, объявил на x, что покинул компанию. капас сказал, что покинул openai мирно, а не «из-за какого-то конкретного инцидента, проблемы или драмы».

бывший главный научный сотрудник и соучредитель илья суцкевер объявил о своей отставке в мае, а команда super alignment также была расформирована. в отрасли считают, что это баланс openai между стремлением к технологическим прорывам и обеспечением безопасности ии.

справа налево илья суцкви, грег брокман, сэм альтман и мира мулати. источник: нью-йорк таймс.

через несколько часов после заявления ильи ян лейке, один из изобретателей rlhf и соруководитель команды super alignment, также последовал по его стопам и ушел, еще раз добавив еще больше неопределенности в будущее openai.

в августе соучредитель openai и ученый-исследователь джон шульман объявил о своем уходе и присоединился к anthropic, чтобы сосредоточиться на углубленных исследованиях в области ии. он объяснил, что его уход был направлен на согласование ии и техническую работу, а не потому, что openai не поддерживала исследования по согласованию. шульман поблагодарил своих коллег из openai и выразил «полную уверенность» в его дальнейшем развитии.

anthropic была основана братом и сестрой дарио амодей, вице-президентом openai по исследованиям, ушедшим в отставку в 2020 году, и даниэлой амодей, тогдашним вице-президентом по безопасности и политике.

в том же месяце брокман объявил о годовом творческом отпуске, который стал его «первым длительным отпуском» с момента основания openai девять лет назад.

10 сентября алексис конно, возглавляющий исследование аудиовзаимодействия моделей openai gpt-4o и gpt-5, объявил о своей отставке и начал исследование конно, посвященное реализации особенностей, показанных в фильме «её такой естественный голос». опыт взаимодействия, но выпуск сопутствующих продуктов неоднократно задерживался.

с момента своего создания openai привлекла большое внимание своим двойным статусом: некоммерческой и коммерциализированной. по мере ускорения процесса коммерциализации внутренняя напряженность по поводу ее некоммерческой миссии становилась все более очевидной, что также способствовало истощению членов команды. между тем, недавний иск илона маска также может быть связан с истощением кадров.

исследователь openai дэниел кокотайло заявил в эксклюзивном интервью средствам массовой информации после своей отставки, что во время инцидента с «дворцовой дракой», произошедшего в прошлом году, альтман был ненадолго уволен, а затем быстро восстановлен в должности. трое членов совета директоров, занимавшихся вопросами безопасности agi, были отстранены. «это позволяет альтману и брокману еще больше консолидировать власть, в то время как те, кто в первую очередь обеспокоен безопасностью agi, остаются в стороне. (альтман) они отклоняются от планов компании на 2022 год».

кроме того, openai грозит ожидаемый убыток в размере до 5 миллиардов долларов сша и эксплуатационные расходы в размере до 8,5 миллиардов долларов сша, большую часть которых составляют затраты на аренду серверов и обучение. чтобы справиться с высоким операционным давлением, openai ищет новый раунд финансирования с оценкой, которая может превысить 100 миллиардов долларов сша, и потенциальные инвесторы, такие как microsoft, apple и nvidia, выразили интерес. руководители компаний ищут инвестиции по всему миру, чтобы удовлетворить свои быстрорастущие потребности в капитале.

чтобы облегчить финансовое давление, openai ищет новый раунд финансирования. согласно сообщению new york times от 11 числа, openai также надеялась привлечь на прошлой неделе около 1 миллиарда долларов сша при оценке в 100 миллиардов долларов сша. однако, поскольку вычислительная мощность, необходимая для создания крупномасштабных систем искусственного интеллекта, приведет к увеличению расходов, компания недавно решила увеличить сумму финансирования до 6,5 миллиардов долларов сша.

однако некоторые зарубежные сми цитируют людей, знакомых с этим вопросом, а также нераскрытые внутренние финансовые данные, которые говорят, что openai может столкнуться с огромными потерями в размере до 5 миллиардов долларов сша в этом году, а общие операционные расходы, как ожидается, достигнут 8,5 миллиардов долларов сша. среди них стоимость аренды серверов у microsoft достигает 4 миллиардов долларов сша, а стоимость обучения данных — 3 миллиарда долларов сша. финансовое давление на компанию еще больше усиливается из-за более высоких эксплуатационных расходов на более продвинутые модели, такие как strawberry и orion.

(источник изображения на обложке: openai)

новости

openai выпускает новую модель o1: она будет такой же «задумчивой», как люди

введение

моя контактная информация