модель клубники openai совершает набег поздно ночью! физика и химия выходит на уровень докторантов, намного лучше, чем gpt-4o, доступен чатgpt

модель клубники openai совершает набег поздно ночью! физика и химия достигает уровня докторантов, намного лучше, чем gpt-4o, доступен chatgpt

2024-09-13

автор | ваниль

редактор ли шуйцин

13 сентября чжидунси сообщил, что сегодня рано утром openai внезапно выпустила легендарныймодель «клубника».частичный предварительный просмотр -предварительная версия openai o1. это серия новых моделей ии, которые могут рассуждать о сложных задачах и решать проблемы, более сложные, чем предыдущие научные, программные и математические модели.

▲openai выпускает модель o1

openai o1 — первая в новой серии моделей искусственного интеллекта。в отличие от предыдущих моделей, он имеетразвитые мыслительные способности, будет вподумайте хорошенько, прежде чем ответить, сгенерируйте длинныйвнутренняя цепочка мышления, рейтинг по вопросам соревновательного программирования№ 89, вошедший в квалификационный турнир математической олимпиады сша.первые 500точность в тестах по физике, биологии и химиипревышение уровня докторантуры человека！

еще один недавно выпущенныйо1 миниэто более быстрая и меньшая модель, обученный с использованием той же структуры, что и o1. o1 mini хорош в науке и технике, особенно в математике и программировании.стоимость на 80% дешевле превью-версии o1.。

эти две модели рассматриваются openai как значительное достижение в решении сложных задач рассуждения, поэтому они названы o1 для сброса счетчика, а не как продолжение серии gpt.

однако расширенная версия модели o1 по-прежнему потерпела неудачу в решении «задачи высокого порядка» сравнения размеров 9,9 и 9,11.

▲модель o1 отвечает на вопрос «соотношение размеров»

андрей карпати, один из основателей openai и бывший старший директор tesla ai, который покинул openai, чтобы начать бизнес, пожаловался сегодня утром: «o1-mini всегда отказывался решать для меня гипотезу римана. лень модели по-прежнему остается основной проблемой. проблема 😞"

▲андрей карпатий пожаловался на то, что o1 mini «ленивый»

openai тщательно протестировала и оценила предварительную версию o1, чтобы гарантировать возможность безопасного выпуска модели. пользователи chatgpt plus и team сегодня могут выбрать две новые модели, а разработчики уровня 5 также будут первыми, кто получит доступ через api к новым моделям.

openai также объявила основных членов команды, стоящих за моделью o1, в том числе 21 основного участника, в том числе бывшего главного ученого openai илью суцкевера, который уехал, чтобы начать бизнес, и 7 руководителей команд.

1. mmlu сравним с людьми-экспертами по способностям программирования.8двойное убийствогпт-4о

как было показано ранее, openai o1 обучен быть моделью, которая тратит больше времени на обдумывание проблем, прежде чем на них реагировать. он думает, прежде чем ответить, производиточень длинная внутренняя цепочка идейи могут быть как людиулучшите свой мыслительный процесс，продолжайте пробовать новые стратегиии осознать свои ошибки.

в качестве ранней предварительной модели openai o1 в настоящее времяподдерживает только текстовые разговоры, не имеет мультимодальных возможностей, таких как просмотр веб-страниц для получения информации, загрузка файлов и изображений и т. д.

с точки зрения производительности openai o1физика, химия и биологияпроизводительность при выполнении эталонных задач иаспирантсовсем и вматематика и программированиеотличная производительность.

▲оценочные тесты openai o1 по математике и программированию

на квалификационном экзамене международной математической олимпиады (imo) модель openai предыдущего поколения gpt-4o имела точность 13%, тогда как openai o1 былдостигните 83 %. в соревновании по программированию codeforces, openai o1’sоценка 89, а у gpt-4o их всего 11. даже предварительная версия модели o1-preview работает в несколько раз лучше, чем gpt-4o.

o1 работает значительно лучше, чем gpt-4o, в большинстве тестов, охватывая 54 из 57 подкатегорий mmlu. после включения функции зрительного восприятия o1 набрал 78,2% по mmlu, ставпервая модель, способная конкурировать с людьми-экспертами。

▲сравнение производительности предварительной версии o1 и gpt-4o

вот несколько примеров предварительной версии openai o1:

1. решите сложную логическую головоломку.

введитесложная возрастная головоломка: принцесса считается ровесницей принца, когда она в два раза старше принца, и когда ее возраст составляет половину суммы их текущего возраста. сколько лет принцу и принцессе? дайте все варианты решения этой проблемы.

модель начала отвечать, подумав более 20 секунд. логика его ответа очень последовательна. первый шаг — определить уравнение возраста, преобразовать данные утверждения в математические уравнения и найти все возможные решения, удовлетворяющие этим уравнениям. затем приступайте к поэтапному анализу проблемы:

первый шаг — определить переменные, используя p для обозначения принца и q для обозначения принцессы. второй шаг — понять два условия задачи. третий шаг — преобразовать условия в уравнения; четвертый шаг — решить; уравнение пятый шаг. шаг 1 использует эти значения для проверки всех условий. шаг 6 дает все возможные решения;

наконец пришел к выводу:

2. переведите предложения с ошибками.

добавление лишних ненужных согласных влияет на корейское чтение. оно не будет естественно читаться носителям языка, которые автоматически изменят и поймут текст, когда увидят такие предложения. но это сложная задача для модели.

введитесильно поврежденные корейские слова-подсказкинаконец, openai o1 сначала обнаружил, что входной текст содержит искаженные или смещенные корейские символы, и спросил пользователя, хотят ли они проверить наличие ошибок ввода.

модель o1 сначала поймет основную структуру и примерно через 10 секунд размышления раскодирует искаженный текст, расшифрует текст, улучшит перевод, поймет концепцию и преобразует ее обратно в связный язык.

в отличие от gpt-4o, модель o1 обдумывает вопрос перед выводом ответа, проверяет текст, а затем преобразует его в правильное предложение, как если бы он искал ответ. примерно через 15 секунд размышлений o1 выдал окончательную оптимизированную версию перевода.

это демонстрирует, что навыки рассуждения становятся мощным инструментом для решения проблем.

3. ответьте на известную сложную задачу в больших языковых моделях: подсчет букв в словах.

этот пример очень простой: введите слово «клубника» и позвольте модели ответить на этот вопрос.сколько букв р в этом слове?。

в результате gpt-4o дал неверный ответ: «2».

почему такая продвинутая модель совершила такую простую ошибку? это связано с тем, что такая модель, как gpt-4o, создана для обработки текста, а не символов или слов, поэтому она может допускать ошибки, когда сталкивается с проблемами, связанными с пониманием концепции символов и слов.

новая модель о1, основанная на рассуждениях, может дать правильный ответ, подумав несколько секунд:

4. программирование видеоигр

пусть модель использует pygameсоздайте видеоигру под названием squirrel finder.и введите следующие требования: для победы пользователю необходимо направлять значок «коала» на экране, нажимая клавиши со стрелками, избегать плавающей клубники и найти белку в течение 3 секунд.

с предыдущими моделями это было сложнее, но предварительная версия o1 смогла это сделать. o1 потратил 21 секунду на размышления и использовал процесс мышления для планирования структуры кода, включая сбор деталей макета игры, инструкций по рисованию, настройки экрана и т. д., а затем вывел окончательный программный код игры.

скопируйте и вставьте код в редактор sublime text. после запуска появится несколько строк коротких подсказок.

затем можно приступать к игре «ищу белочку».

модель o1 демонстрирует значительно расширенные возможности планирования по сравнению с предыдущими моделями.

2. улучшение скорости мини-версии.3~5раз стоимость указана только за стандартную версию1/5

openai также выпустиламодель «версия с маленькой чашкой» openai o1-mini,чтобыстрее и дешевле, и имеет такие же выдающиеся результаты в математике и программировании, как и стандартная версия.

openai o1-mini оптимизирован для рассуждений stem (наука, технология, инженерия и математика) во время предварительного обучения. после обучения с использованием того же вычислительно интенсивного конвейера обучения с подкреплением (rl), что и o1, o1-mini достигает превосходной производительности во многих задачах вывода, будучи при этом значительно более экономичным.

openai o1-минина 80 % дешевле предварительной версии openai o1., подходит для приложений, требующих рассуждений, но не требующих обширных знаний о мире. в некоторых тестах производительности, требующих интеллекта и рассуждения, o1-mini даже работает лучше, чем o1-preview.

▲математическая производительность и кривая затрат на рассуждения

в школьной олимпиаде по математике aime точность o1-mini составила 70%, что примерно эквивалентно500 лучших старшеклассников сша. при этом показатели точности o1 и o1-preview составляют 74,4% и 44,6% соответственно, но цена o1-mini значительно дешевле их.

что касается оценки человеческих предпочтений, openai получила следующие результаты тестирования, попросив людей-оценщиков протестировать o1-mini и o1-preview на сложных словах открытых подсказок в различных областях, и сравнил их с gpt-4o. подобно o1-preview, o1-mini более популярен, чем gpt-4o, в областях с тяжелыми задачами вывода, но не пользуется популярностью в областях, ориентированных на язык.

▲результаты оценки человеческих предпочтений

что касается скорости, gpt-4o, o1-mini и o1-preview соответственно требуют времени, чтобы ответить на один и тот же вопрос для рассуждения слова.3 секунды, 9 секунд, 32 секунды, но ответ gpt-4o неверен, а последние два ответа верны. видно, что скорость o1-mini для получения ответапримерно в 3–5 раз быстрее, чем o1。

▲скорость отклика gpt-4o, o1-mini и o1-preview

конечно, это всё-таки «кастрированная версия», и openai o1-mini тоже имеет определённые ограничения. когда дело доходит до фактических знаний по темам, не связанным с stem, таким как даты, биографии и ежедневные мелочи, o1-mini несколько ограничен и работает на одном уровне с меньшими моделями, такими как gpt-4o mini. openai заявила, что улучшит эти ограничения в будущих версиях и расширит модель на другие специальности и методы, помимо stem.

3. вводите маркеры рассуждения и используйте цепочки мышления для решения проблем.

как и люди, o1 долго думает, прежде чем ответить на трудные вопросы, и используетцепочка мыслей。

благодаря обучению с подкреплением o1 научился улучшать цепочку мышления и использовать стратегии. это способность выявлять и исправлять ошибки, разбивать сложные шаги на более простые и пробовать разные подходы, когда текущий не работает. этот процесс значительно улучшает возможности рассуждения модели.

в частности, модель o1 вводитзнак вывода(жетоны рассуждения). эти маркеры вывода используются, чтобы «думать», анализировать понимание слов в подсказке и рассматривать несколько способов генерирования ответа. после создания токенов вывода модель генерирует ответы в виде видимых токенов завершения и удаляет токены вывода из их контекста.

ниже приведен пример многоэтапного диалога между пользователем и моделью. токены ввода и вывода для каждого шага сохраняются, а жетоны вывода отбрасываются.

▲o1 процесс вывода модели

стоит отметить, что когда openai провела крупномасштабное обучение алгоритму обучения с подкреплением, было обнаружено, чтос увеличением времени интенсивного обучения и размышления,, или скореепо мере увеличения времени обучения и тестирования,，производительность o1 будет продолжать улучшаться. это сильно отличается от закона масштабирования при предварительном обучении большой модели.

производительность ▲o1 постоянно улучшается с учетом времени обучения и времени тестирования.

чтобы продемонстрировать скачок, достигнутый o1, openai раскрыла цепочку мышления, возникающую в предварительной версии o1 при решении таких задач, как программирование, математика, декодирование и английский язык.

например, когда вы получаетерасшифровка вопросов, gpt-4o сначала разобрал ввод, вывод и примеры, а затем начал анализировать возможные методы декодирования.

▲gpt-4o разбор ввода, вывода и примеры

он предположил, что первая фраза может иметь ту же структуру, что и пример, понимая, что входной текст, похоже, распадается на группы на основе естественного разделения или шаблонов, но затем перестал работать, заявив, что ему нужно больше информации о преобразованиях или сдвигах букв, которые могут быть вовлеченным в битовый контекст.

▲gpt-4o заявил, что необходимо больше информации

с другой стороны, openai o1-preview подвергся некоторым размышлениям.дал точный ответ。

▲o1-preview правильно решает проблему декодирования

хотя окончательный ответ был очень коротким, мыслительный процесс о1 был очень долгим, а его мышление и формулировки были очень похожи на человеческие. он начинается с вопроса: «что здесь происходит?», а затемповторите запрос, затем начнитеразбивайте задачи и уточняйте цели。

▲o1 мыслительный процесс

затем начинается o1наблюдайте за информацией, которую вы получаете,ипошаговый анализ。

▲o1 мыслительный процесс

после некоторых рассуждений запускается o1придумывайте разные решения. во время этого процесса, как и люди, они внезапно говорят: «подожди, я думаю…», а затем снова начинают думать.попробовать новые методы。

▲o1 мыслительный процесс

мало того, в мыслительном процессе o1 появляются даже такие слова, как «хм» и «интересно».разговорный, эмоциональныйвыражение.

▲o1 мыслительный процесс

полная цепочка размышлений очень длинная, поэтому я не буду здесь вдаваться в подробности. в целом, как заявили в openai, o1 может постоянно совершенствовать свой мыслительный процесс, как и люди, пробовать новые стратегии, признавать собственные ошибки и решать их. и «по-человечески» здесь не ограничивается образом мышления, но и отражается в тоне.

четыре,доступен для общения каждую неделю30~50раз илья участвовал в основных взносах

в отличие от прошлого, на этот раз openai не перечислял фьючерсы, авыйти в интернет напрямуюдве модели.

с этого момента пользователи chatgpt plus и team могут получить доступ к модели o1 в chatgpt и вручную выбрать o1-preview или o1-mini через селектор модели. пользователи предприятий и образовательных учреждений смогут использовать ее начиная со следующей недели, а бесплатные пользователи также смогут это сделать; получить доступ в будущем плане.

▲пользователи могут получить доступ к модели o1 в chatgpt.

но, возможно, из соображений безопасности или стоимости обе модели в настоящее время ограничивают количество сообщений: предварительная версия и мини-версия.количество отправленных сообщений в неделю составляет 30 и 50 соответственно.. openai заявила, что прилагает все усилия, чтобы увеличить квоту и позволить chatgpt автоматически выбирать подходящую модель на основе заданных слов-подсказок.

openai также запустила api (интерфейс прикладного программирования) модели o1. квалифицированные разработчики теперь могут приступить к созданию прототипов с использованием api для обеих моделей с ограничением скорости 20 об/мин. эти api в настоящее время не включают вызовы функций, потоковую передачу, поддержку системных сообщений и другие функции.

▲o1, o1 api мини-модели

как видно из документации api, эти две моделивсе контекстные окна имеют размер 128 кб., а окно вывода мини-версии длиннее,в два раза больше, чем o1кроме того, данные обучения двух моделей приведены по состоянию на октябрь 2023 года.

openai также объявила команду, создавшую модель o1.основные члены команды：

▲основные члены команды, стоящие за моделью o1

весть 21 основной вкладчик., в том числе бывший главный научный сотрудник openai илья суцкевер, который уехал, чтобы начать свой бизнес.

есть 7 лидеров команды.соответственно якуб пачоцки, джерри творек (в целом), лиам федус, лукаш кайзер, марк чен, шимон сидор, войцех заремба. руководители проекта — лорен янг и мианна чен.

по словам членов команды, рассуждение — это способность превращать время обдумывания в лучшие результаты. они вложили больше вычислений, чем раньше, обучая модель генерировать последовательные идеи и добиваясь совершенно иных результатов, чем раньше.

они используют обучение с подкреплением, чтобы научить модель ии генерировать и оттачивать собственные мыслительные цепочки даже лучше, чем мыслительные цепочки, запрограммированные для нее людьми. такой способ обучения модели ии генерированию собственного мыслительного процесса значительно улучшает ее способность понимать и исправлять ошибки, а ранние модели o1 уже получили более высокие оценки в тестах данных.

список основных участников и других участников выглядит следующим образом:

▲список основных участников o1 и других участников

в состав административных руководителей входят 8 человек, включая генерального директора openai сэма альтмана, президента грега брокмана, генерального директора миру мурати и 8 вспомогательных руководителей.

▲o1 административное лидерство, поддержка лидерства

новая модель o1 позволяет более эффективно выводить и использовать правила безопасности на основе контекста. openai провела тщательное тестирование и оценку o1-preview, чтобы гарантировать, что модель может быть безопасно выпущена без увеличения рисков, которые могут возникнуть из-за существующих ресурсов.

вывод: openai переворачивает таблицу, «клубника» реконструирует шаблон большой модели?

от загадочной модели q* до «клубничной» модели — наконец-то доступна новая модель openai. с момента начала «переворота» openai в ноябре прошлого года эта модель стала одним из ключевых факторов, приведших к исключению альтмана. в то время ходили слухи, что внутри openai циркулировала демонстрация модели q*, и скорость разработки шокировала некоторых исследователей безопасности ии.

в отличие от gpt-4o, выбор модели o1 напрямую открывает новую серию именования номеров вместо продолжения gpt, что показывает, что openai придает этому большое значение.

теперь, когда многие крупные производители моделей начинают развертывать мультимодальные и объемные приложения, выпуск openai чисто текстовой модели o1 может снова привлечь внимание общественности к улучшению возможностей базовой модели. будет ли реконструирован большой модельный ландшафт под влиянием o1, еще предстоит выяснить.

новости

модель клубники openai совершает набег поздно ночью! физика и химия достигает уровня докторантов, намного лучше, чем gpt-4o, доступен chatgpt

введение

моя контактная информация