openai снова «раздувает» большие модели, чтобы продлить им жизнь

openai снова дает крупным моделям «пузырь» для продления их жизни

2024-09-14

текст丨хэ цяньмин

редактор: чэн манци хуан цзюньцзе

самый важный продукт openai в этом году, модель o1, был выпущен в соответствии с графиком. цена акций nvidia, крупнейшего производителя искусственного интеллекта, выросла на 10% за два дня.

o1, который потребляет больше вычислительной мощности для ответа на вопросы, будет «думать» десятки секунд или даже дольше, увидев вопрос, прежде чем дать ответ. openai утверждает, что может отвечать на олимпиадные математические вопросы или выполнять задачи по программированию гораздо лучше, чем большие модели, уже имеющиеся на рынке.

но хорошее настроение генерального директора openai сэма альтмана было быстро прервано. под его твитом, объявляющим о полном запуске o1, главным комментарием было: «когда будет доступна новая голосовая функция?» новая игрушка?»

после альтмана этот пользователь хочет не новой игрушки, а предстоящей сквозной голосовой функции gpt-4o, которую openai обещала в мае этого года. во время живой демонстрации этот новый ии звучал естественно, реагировал очень быстро и знал, когда нужно прервать, из-за чего другим было трудно отличить правду от лжи. по официальному графику, десятки миллионов платных пользователей chatgpt должны были воспользоваться этой функцией в течение нескольких недель, но это отложено до сих пор.

в прошлом году у продуктов openai было похожее «будущее»: gpt-4 существует уже больше года, а модель openai следующего поколения gpt-5 до сих пор не имеет признаков выпуска. видеомодель sora, выпущенная openai в начале этого года, не была выпущена в больших масштабах. пока ее реально использовали лишь несколько выбранных ими профессионалов отрасли.

задержки номер один в отрасли неоднократно истощали терпение рынка капитала в отношении крупных моделей ии. некоторые китайские технологические гиганты и крупные модельные компании приостановили обучение базовых моделей в середине этого года, инвестируя больше ресурсов в разработку приложений или сдавая в аренду вычислительные мощности графических процессоров внешним клиентам. они обеспокоены тем, что возможностей для развития технологий мало, поэтому начинают сокращать инвестиции и стремиться к прибыли.

накануне этой недели рыночная стоимость nvidia упала более чем на 20% по сравнению с июньским максимумом, а рыночная стоимость microsoft также сократилась на 13%, каждая из которых потеряла сотни миллиардов долларов. финансовый директор microsoft заявил, что десяткам миллиардов долларов, которые они вложили в область больших моделей, придется ждать 15 или более лет, чтобы окупиться.

исследования sequoia показывают, что инвестиции в сферу искусственного интеллекта превысили доходы более чем на 120 миллиардов долларов сша в прошлом году и могут вырасти до 500 миллиардов долларов сша в этом году. но, за исключением nvidia, лишь немногие компании добились значительного роста доходов. все больше людей в отрасли начинают обсуждать, что если возможности больших моделей на этом остановятся, лопнет ли снова пузырь ии?

«пузыри» — это не обязательно плохо. прежде чем новая технология изменит мир, наступит этап, когда видение намного превысит реальность. разница заключается в том, может ли и когда это видение быть реализовано. если его не удастся реализовать в долгосрочной перспективе, пузырь лопнет, и компания обанкротится. серьезный взрыв пузыря может даже вывести из строя отрасль или даже несколько экономик. если эта концепция будет реализована, это будет не более чем сноска к технологическому прогрессу.

выпуск o1, выпущенный openai, по крайней мере временно изменит мнение о том, что в больших моделях нет места прогрессу, и продлит жизнь «пузыря» больших моделей.

любая новая технология должна продолжать развиваться, прежде чем она сможет изменить мир. уникальность o1 не только в том, что производительность в программировании, математике, физике и других областях была значительно улучшена, но и в том, что он нашел путь вперед для группы последователей openai и стоящих за ними инвесторов: в прошлом вычисления мощность больше использовалась для «запоминания знаний» —— используя большой объем данных для обучения модели, o1 выделяет больше вычислительной мощности на «мышление при ответе на вопросы», то есть процесс рассуждения, и логические способности значительно улучшаются.

до этого обучение больших моделей было узким местом первоначальных законов масштабирования. после расширения шкалы параметров модели улучшение производительности постепенно замедлилось.

специально оптимизированный для математики, программирования и научных задач, o1-mini также демонстрирует значительный потенциал применения. он может не только напрямую помочь ученым и разработчикам повысить эффективность работы, но также указать на производительность и безопасность разработки в других важных вертикальных областях. являются лучшими модельными подходами.

как обычно бывает с несколькими выпусками, openai тщательно выбирала время выпуска o1. по сообщениям сми, перед выпуском o1 openai искала новое финансирование в размере 7 миллиардов долларов сша при оценке в 150 миллиардов долларов сша. в число потенциальных инвесторов входят apple, nvidia, microsoft и инвестиционный фонд объединенных арабских эмиратов. теперь у гонки за инвестициями в ресурсы есть еще одна причина для продолжения.

от большой языковой модели к «модели вывода» o1 силен в теории и слаб в литературе.

на этот раз openai выпустила для пользователей две модели: o1-preview и o1-mini, а также объявила, что скоро появятся новые модели серии o1.

причина, по которой эта серия называется o1 вместо использования gpt, заключается в том, что в методах обучения этих двух моделей произошли очевидные изменения. в сообщении блога openai, представляющем o1, она много раз называется моделью рассуждения (моделью рассуждения) вместо модели большого языка (модель большого языка), которая обычно использовалась раньше при вызове gpt.

общая логика обучения традиционных больших языковых моделей, таких как gpt, представляет собой предварительное обучение плюс тонкая настройка: сначала используйте массивные данные, чтобы научить большую модель предсказывать следующее слово на этапе предварительного обучения, а затем позвольте ей научиться предсказывать следующее слово. следующее слово на этапе тонкой настройки. большая модель изучает знания в конкретной области и позволяет людям писать ответы, чтобы научить большую модель тем ответам, которые люди хотят, а машина совершенствуется на основе обратной связи.

новые ключевые слова o1 — обучение с подкреплением и цепочка мыслей (cot).

openai описывает этот процесс следующим образом: «посредством обучения с подкреплением o1 учится оттачивать свою цепочку мышления и совершенствовать используемые стратегии. он учится распознавать и исправлять свои собственные ошибки; он учится разбивать сложные шаги на более простые; значительно улучшает возможности вывода модели, пробуя разные методы, когда текущий метод не работает».

alphago, победившая чемпиона мира по го в 2016 году, и ее последующая модель alphazero использовали обучение с подкреплением, чтобы позволить модели самостоятельно играть и узнавать, какие стратегии использовать для повышения коэффициента выигрыша в различных состояниях (играх). модель также может генерировать данные посредством непрерывных испытаний для обучения модели.

openai o1 использует аналогичный метод: предоставляет большой модели данные для пошагового решения проблем, что позволяет модели научиться самокорректироваться и учиться отвечать на вопросы на каждом этапе, чтобы получить оптимальный ответ.

«способность модели ии по-прежнему исходит из данных. если в данных есть что-то, чего изначально не хватает или недостаточно, модель не может их изучить. o1 эквивалентно реализации метода синтеза профессиональных данных. с этими профессиональными данными «о1 может научиться профессиональным способностям», — сказал юань цзиньхуэй, основатель silicon mobile.

o1 отвечая на вопрос, он также разбивает вопрос на ряд небольших вопросов и отвечает на вопрос шаг за шагом. это «цепочка мышления». согласно отображению openai, процесс ответа o1 на вопросы выглядит следующим образом (в используемой пользователем версии openai скрывает содержание цепочки мышления):

вопрос (оригинал на английском языке):

напишите сценарий bash, который получает матрицу (представленную в виде строки в формате «[1,2],[3,4],[5,6]») и распечатывает транспонированную матрицу в том же формате.

идеи решения проблем o1-preview (цепочка мышления):

пользователь попросил написать bash-скрипт, который может получать строку, представляющую матрицу, например «[1,2],[3,4],[5,6]», и выводить ее транспонирование в том же формате.

давайте сначала разберемся с форматами ввода и вывода.

ввод: '[1,2],[3,4],[5,6]', соответствующая матрица:

1 2

3 4

5 6

таким образом, входные данные представляют собой серию строк, заключенных в квадратные скобки и разделенных запятыми.

транспонирование этой матрицы:

1 3 5

2 4 6

следовательно, требуемый результат — «[1,3,5],[2,4,6]».

общая миссия:

напишите сценарий bash, который принимает один аргумент (строку, представляющую матрицу) и выводит его транспонирование в том же формате.

хорошо, теперь давайте рассмотрим, как проанализировать входную строку в bash, построить матрицу (возможно, с использованием массива), транспонировать ее, а затем вывести транспонированную матрицу, сохраняя тот же формат.

ограничения:

— поскольку это bash, нам следует быть осторожными при разборе строк.

-скрипт должен принимать входную строку в качестве параметра.

метод:

-проанализируйте входную строку, чтобы извлечь элементы матрицы.

- построить матрицу как массив массивов.

- транспонировать матрицу.

- выведите транспонированную матрицу в том же формате.

этапы реализации:

1. захватите входную строку в качестве параметра.

2. удалите все пробелы (если есть).

3. проанализируйте входную строку и извлеките числа в массив.

-поскольку формат ввода — «[1,2],[3,4],[5,6]», мы можем:

--при необходимости снимите внешние кронштейны.

--разделить строку на '],', чтобы получить каждую строку.

--для каждой строки удалите '[' и ']', а затем получите элементы, разделенные ','.

4. построить двумерный массив (массив массивов) в bash.

-поскольку массивы bash одномерны, нам нужно смоделировать двумерный массив.

5. транспонировать матрицу.

-при транспонировании нам нужно поменять местами строки и столбцы.

6. выведите транспонированную матрицу в нужном формате.

-восстановить выходную строку в формате '[1,3,5],[2,4,6]'.

теперь начните писать код шаг за шагом.

потенциальные проблемы:

-в самом bash нет собственных многомерных массивов, поэтому нам нужно это смоделировать.

-нам нужно иметь дело с числами, которые могут быть многозначными.

далее мы можем шаг за шагом начать писать структуру этого bash-скрипта.

【немного】

теперь давайте проверим этот скрипт, используя пример ввода «[1,2],[3,4],[5,6]».

позвольте мне попытаться смоделировать то, что произойдет.

я запишу это как ответ.

ни обучение с подкреплением, ни цепочка мыслей не были первыми техническими направлениями, предложенными openai.

прежде чем o1 вышел в интернет, google deepmind в июле выпустил обновленную версию модели alphageometry, обученную аналогичным методом, которая смогла выиграть серебряную медаль на международной математической олимпиаде imo.

но openai еще раз доказала, что они могут лидировать в разработке моделей с более потрясающими результатами в отрасли. по данным openai, их модель o1-ioi, специально подготовленная для международной олимпиады по информатике, может выиграть золотую медаль.

благодаря новым методам обучения и вывода openai o1-preview значительно превосходит gpt-4o в решении сложных математических задач и обработке задач программирования. например, в наборе данных соревнований по математике aime 2024 оценка o1-preview более чем в 4 раза превышает показатель gpt-4o в наборе данных соревнований по программированию codeforces, разрыв становится в 5,6 раза;

в соревнованиях по математике, соревнованиях по программированию и тестах наборов данных научных вопросов и ответов o1-preview и o1 значительно превосходили gpt-4o.

в openai заявили, что ограниченные в настоящее время версии openai o1-preview и openai o1-mini являются лишь ранними версиями. их следующая модель работает аналогично аспиранту при решении сложных тестовых вопросов по физике, химии, биологии и т. д., в то время как предыдущая модель most. находятся на уровне бакалавриата или магистратуры.

превращая технологию в реальность, openai упомянула 212 участников, что сопоставимо с участниками текстовой части gpt-4o (234 человека). но для обучения o1 требуется больше типов данных. openai упомянул, что данные, используемые при предварительном обучении o1, поступают из общедоступных наборов данных, собственных данных партнеров и собственных наборов данных, разработанных внутри компании, в то время как gpt-4o использует только первые два типа данных, когда осваивает возможности работы с текстом.

серия o1, ориентированная на «модели вывода», не полностью превзошла gpt-4o, и ее языковая способность является ее относительной слабостью.

в тестах openai большинство людей полагают, что o1-preview лучше, чем gpt-4o, при ответе на вопросы, требующие рассуждения, такие как анализ данных, программирование и математика. однако с точки зрения личного письма, редактирования текста и т. д. gpt-4o. все равно лучше.

проблемы, которые не могут быть решены с помощью gpt-4o, также появятся в o1-preview. например, он также будет делать «ерунду» и думать, что 9.11 больше, чем 9.2.

для личного письма, редактирования текста и т. д. лучше использовать gpt-4o.

более длительное время отклика (мышления), вызванное цепочкой мышления, может быть недостатком серии o1 при фактическом использовании. когда его попросили «перечислить названия пяти стран, третья буква которых — a», gpt-4o потребовалось всего 3 секунды, o1-mini — 9 секунд, o1-preview — 32 секунды, а gpt-4o — десять раз. в основном недоступен для простых вопросов.

на данный момент o1-preview и mini не имеют таких функций просмотра веб-страниц, получения информации и обработки загруженных файлов и изображений, как gpt-4o. в настоящее время кажется, что самые быстрые люди, которые могут использовать o1 для повышения производительности, — это разработчики программного обеспечения, но openai также ограничивает способ вызова api: они могут вызывать только 20 раз в минуту, исключая такие функции, как вызовы функций, потоковую передачу и поддержка системных сообщений.

от масштабирования обучения до масштабирования вывода: конкуренция за вычислительную мощность будет продолжаться.

по мнению многих исследователей крупных моделей, наиболее важным изменением o1 является то, что он показывает новый путь к значительному улучшению возможностей больших моделей.

оригинальные законы масштабирования означают, что использование большего количества данных и вычислительной мощности для обучения модели с большими параметрами приведет к повышению производительности.

как показано на рисунке ниже, o1 показывает, что если модель тратит больше времени и большей вычислительной мощности на ответы на вопросы (вычисления во время тестирования), производительность будет продолжать улучшаться. старший научный сотрудник nvidia по искусственному интеллекту джим фан заявил в социальных сетях, что это, возможно, самая важная картина в исследованиях больших моделей с тех пор, как deepmind предложила законы масштабирования чинчилла (оптимизацию оригинальных законов масштабирования) в 2022 году.

джим фан также предположил возможность будущей эволюции больших моделей: будущие модели могут отделять рассуждения от знаний, иметь небольшое «ядро рассуждения», а также использовать большое количество параметров для запоминания фактов (знаний) для тестирования, например, викторинных вопросов. и ответы.

openai также особо упомянул в статье, знакомящей с o1, что они продолжат разработку моделей серии gpt. это может указывать на то, что openai внедрит методы, используемые в o1, в модель gpt следующего поколения.

независимо от того, станет ли o1 новым основным методом или o1 будет объединен с серией gpt для разработки следующего поколения больших моделей, требования к вычислительной мощности должны еще больше возрасти.

openai не раскрыла стоимость вывода серии o1, но, учитывая время, необходимое модели o1 для ответа на вопросы, и ограничения openai на использование o1, можно сделать вывод, что o1 требует гораздо больших вычислительных ресурсов для вывода, чем серия gpt.

платные пользователи chatgpt plus, которые тратят 20 долларов в месяц, в настоящее время могут использовать o1-preview только 30 раз и o1-mini 50 раз в неделю. текущий лимит gpt-4o составляет 4480 раз в неделю (80 раз каждые 3 часа), что в 90 раз больше, чем у o1-mini, и в 150 раз больше, чем у o1-preview.

время, в течение которого o1-preview отвечает на вопросы, увеличилось с секунд для моделей серии gpt до десятков секунд и даже дольше. он также обрабатывает значительно больше текста при ответах на вопросы. возьмем в качестве примера проблемы программирования, перечисленные в статье, демонстрируя процесс «мыслительной цепочки». когда o1 решил ее, включая цепочку мышления, он обработал 6632 символа, что в 4,2 раза больше, чем у gpt-4o. более длительное время расчета и более длительный результат означают более высокие затраты на вычислительную мощность.

o1 стимулирование перспектив развития искусственного интеллекта и потребления вычислительной мощности быстро отразилось на рынке капитала. с тех пор, как в начале этой недели сми сообщили о том, что openai собирается выпустить новую модель, цена акций nvidia подскочила на 10%, и microsoft также поднялась вместе с ней.

для тех компаний, которые не уверены в направлении технологической эволюции или замедлили исследования базовых моделей, теперь есть новая работа и новые направления. высокая вероятность выхода o1 означает, что с точки зрения «моделей вывода» конкурентный разрыв вновь увеличился и вот-вот произойдет раунд ускоренного догоняющего развития и инвестиций.

«пришло время заняться делом, иначе мы больше не будем участвовать в игре», — сказал китайский исследователь крупномасштабных моделей.

заглавное изображение: визуальный китай

в 1957 году во вселенную впервые вошел рукотворный объект, вращавшийся вокруг земли в течение трех недель. когда люди смотрят вверх, они видят небольшую вспышку света, проносящуюся по ночному небу параллельно мифическим звездам.

подобные подвиги затрагивают расы и идеологии, вызывая радость во всем мире. но не радость победы, которую, как мы могли бы подозревать, тронули человеческие подвиги. по тогдашнему наблюдению политического философа ханны арендт, настроение людей приближается к долгожданному облегчению: наука наконец-то оправдала ожидания, и «человечество наконец-то выходит из земной тюрьмы. первый шаг сделан. взято».

люди всегда быстро корректируют свои ожидания от мира на основе технологических исследований. когда фантазия писателя-фантаста становится реальностью, зачастую технологии наконец-то оправдывают ожидания людей, или, по словам арендт, «технологии осознают и подтверждают, что мечты людей не являются ни безумными, ни нигилистическими».

в такие моменты, как сегодня, лучше больше мечтать.

так же ожидают, что «latepost» запустит рубрику «техвторник». мы надеемся регулярно знакомить с новыми научными исследованиями и технологическим прогрессом в дополнение к деловому миру, которому «поздно» уделяет ежедневное внимание.

это может быть информация о ходе передовых исследований, наблюдениях за применением технологий или дань уважения некоторым выдающимся технологиям или даже эпохе.

в этой колонке будут зафиксированы разнообразные изменения в мире с точки зрения науки и техники. я надеюсь, что во время этого путешествия читатели смогут присоединиться к нам и немного лучше понять мир.

· фин ·

новости

openai снова дает крупным моделям «пузырь» для продления их жизни

введение

моя контактная информация