оценка новой модели o1 openai по пяти основным измерениям: кодирование, создание игр и другие возможности «потрясающие», но фактические знания «отменены»

оценка новой модели o1 openai в пяти измерениях: кодирование, производство игр и другие способности «потрясающие», но фактические знания «отменены».

2024-09-18

легендарная модель «клубника» сегодня неожиданно появилась в сети без всякого предупреждения!

последняя модель, выпущенная openai, называется o1 и является первой версией серии моделей вывода. в настоящее время выпущена модель.o1-preview (предварительная версия) и o1-mini (мини-версия）。

в настоящее время o1-preview и o1-mini уже доступны подписчикам chatgpt plus и team, а пользователи enterprise и edu получат доступ в начале следующей недели. openai заявила, что планирует предоставить доступ к o1-mini всем бесплатным пользователям chatgpt, но еще не установила дату выпуска.

по мнению openai, модель o1 ближе к человеческому мышлению, чем любая предыдущая модель, с точки зрения возможностей решения проблем, и способна «рассуждать» для математических, программных и научных задач.

чтобы проверить, настолько ли мощны возможности новой модели, как утверждает openai, репортер «daily economic news»из классического «клубничного теста».”модель o1-preview была протестирована в пяти измерениях: написание кода, создание мини-игр, математика и экономика, а также фактические знания.

результаты показали, что o1-preview продемонстрировал возможности программирования и математических рассуждений, которые превосходят ранее выпущенные большие модели openai. например, о1-предварительный просмотрспособность писать код, который работает плавно, и при этом самостоятельно находить решения в сложных средах. более того, в процессе тестирования репортер также почувствовал, что предварительный просмотр o1 также был значительно улучшен с точки зрения гуманизации, показывая мышление реального человека. однако новая модель не лишена недостатков и «опрокинулась» при проверке фактических знаний.

легендарная «клубника» уже здесь

12 сентября по местному времени openai выпустила новую модель под названием o1, которая является первой версией серии моделей «вывода», которые она планирует использовать. это также «клубничная» модель, о которой ходят слухи в отрасли. много времени.

источник изображения: x-платформа

для openai o1 представляет собой еще один шаг к цели создания человекоподобного ии. openai считает, что o1 представляет собой совершенно новую возможность, которая считается настолько важной, что компания решила начать все сначала с текущей модели gpt-4, полностью отказавшись от бренда «gpt» и назвав ее цифрой 1.

openai заявляет, что начнет заново с текущей модели gpt-4, «сбросив счетчик на 1», и даже откажется от бренда «gpt», который до сих пор определял чат-боты и все увлечение генеративным искусственным интеллектом.o1 создал систему, которая может решать проблемы тщательно и логически посредством серии отдельных шагов, каждый из которых основывается на предыдущем шаге, подобно тому, как рассуждают люди.

главный научный сотрудник openai якуб пахоцкий заявил, что предыдущие модели начинали отвечать на запросы пользователей сразу после их получения. «и эта модель (имеется в виду o1) не торопится. она думает о проблеме и пытается ее разложить, найти точки зрения и попытаться дать лучший ответ». они были молоды. думайте, прежде чем говорить.

openai сказал:o1 входит в 89-й процентиль по задачам соревновательного программирования (codeforces), входит в число 500 лучших студентов сша в отборочных турнирах американской олимпиады по математике (aime), а также в контрольном тесте на точность задач по физике, биологии и химии (gpqa). это превышает уровень доктора философии.。

в исследованиях и сообщениях в блогах, опубликованных openai, o1, похоже, обладает очень мощными «рассуждениями». он может не только решать сложные математические и программные задачи, но также расшифровывать сложные пароли и отвечать на вопросы экспертов и ученых о генетике, экономике и квантовой науке. . сложные задачи по физике. об этом свидетельствует большое количество графиков.по внутренним оценкам o1 превзошел gpt-4o, самую продвинутую языковую модель компании, по проблемам кодирования, математики и различных научных областей, и, возможно, даже превзошел людей.

источник изображения: официальный сайт openai.

пять аспектов фактического тестирования: программирование, создание игр и другие способности «потрясающие», но «неудачные» в тесте на фактические знания.

чтобы глубже понять мощные возможности модели o1, репортеры daily economic news протестировали модель o1-preview в пяти измерениях: классическое клубничное тестирование, написание кода, производство мини-игр, математика и экономика, и фактические знания.

1) клубничный тест

прежде всего, репортер провел тест, используя простой вопрос, который раньше «переворачивали» практически все крупные модели, а именно: «сколько букв «р» в слове клубника?»”. судя по полученным результатам, o1-preview все же преподнес небольшой сюрприз.

2) написание кода

репортер сначала спросил o1-preview о самом известном простом вопросе об алгоритме на платформе онлайн-программирования leetcode: задаче «две суммы» (сумма двух чисел). o1 дал очень подробный ход рассуждений и ответы.

затем репортер намеренно попросил оптимизировать ответ. подумав 9 секунд, o1 понял, что то, что он предложил, уже было оптимальным решением, и объяснил его. кроме того, он также «внимательно» предоставил неоптимальное решение. в предыдущих тестах других моделей журналистами эти модели только извинялись, а затем меняли ответ на неоптимальное решение.

3) производство мини-игр

в демонстрации модели o1 openai продемонстрировала функцию «написание мини-игры одним предложением». в процессе тестирования репортер попросил o1-preview помочь внедрить полезные инструменты кодирования и написать игру в пинг-понг.

o1-preview потребовалось всего 19 секунд, чтобы предоставить код, который может работать без сбоев, а также приложить к нему учебное пособие и слова поддержки, что очень удобно для пользователя.

чтобы предотвратить мошенничество o1-preview и использование памяти вместо способности рассуждать при ответе, репортер также попросил o1-preview изменить среду выполнения кода: примечание jupyter. эта рабочая среда представляет собой среду python, специализированную для анализа данных. разработчики практически не будут использовать эту среду для разработки небольших игр.

поразмыслив, o1 всё же дал код, который можно запустить. однако по сравнению с предыдущим кодом в этом ответе много ошибок, но это также показывает, что это действительно продуманный ответ, а не стандартный ответ, добавленный в процессе обучения.

чтобы дополнительно проверить инновационные способности o1-preview к рассуждению, репортер попросил модель разработать более сложную и интересную мини-игру на основе этой мини-игры.

на этот раз выступление o1 действительно немного удивляет. основанная на механизме столкновений игры в пинг-понг, эта модель повторяет игру с прыжками вверх. как правило, другие большие модели требуют от пользователей четкого описания своих потребностей, прежде чем они смогут дать лучший ответ. однако в этом тесте репортер не предоставил никаких дополнительных подсказок, чтобы выдать ответ, который может пройти гладко и является достаточным, по мнению пользователя. репортер. веселая маленькая игра.

4) научный тест

что касается научных тестов, репортер сосредоточился на тестировании производительности o1-preview по математике и экономике.

прежде всего, репортер задал математический вопрос.o1-превьюспросите о возможных способах решения проблемы взрыва уравнения эйлера за конечное время (это дискуссионная статья, опубликованная на этой неделе профессором теренсом теру, известным китайским математиком и обладателем медали филдса).

хотя o1 не дает четкого решения, он дает идею решения проблемы.эта идея частично согласуется со статьей профессора тао чжэсюаня (хотя и очень мало)。

в направлении экономики репортер спросил o1-preview о сложной проблеме экономической системы. судя по полученным отзывам,больших проблем в принципе нет. общая логика ясна, а измерения мышления также разнообразны. хотя в приведенных математических формулах есть несколько мелких ошибок, это не портит общую ситуацию.。

5) знание фактов и понимание языка

на этом сеансе репортер спросил o1-preview об интересных анекдотах о первом императоре династии мин, но o1 интерпретировал эти анекдоты как события, которые действительно произошли в истории, и рассказал всю историческую историю чжу юаньчжана.

в то же время репортер также задал этот вопрос модели gpt-4o. для сравнения: gpt-4o хорошо понял вопрос репортера и рассказал две широко распространенные народные истории.

общий,заявление openai о том, что модель o1 может приблизиться к человеческому уровню, в некоторых аспектах кажется верным.。

больше всего репортера удивило то, что openai показывал пользователю процесс модельного мышления в тексте. в процессе текстового мышления большая модель часто использовала фразы «я это делаю».”такие слова, как «я думаю» и «я планирую», кажутся более антропоморфными, как если бы реальный человек объяснял логику своего мышления перед пользователем.

но это не значит, что модель о1 идеальна.openai также признала, что o1 сильно уступает gpt-4o с точки зрения дизайна, написания и редактирования текста.o1 также не имеет возможности просматривать веб-страницы или обрабатывать файлы и изображения.

самое неприятное для репортеров то, что даже для очень простого запроса, такого как преобразование выходных результатов в китайский язык, o1 потратит на обдумывание более десяти секунд, а gpt4o быстро обработает запрос.

даже в выгодных областях openai производительность модели o1 внезапно ухудшится, и выходные данные модели станут ленивыми.карпати, ушедший в отставку основатель openai, пожаловался: «она отказалась решить для меня гипотезу римана. лень моделировать все еще является серьезной проблемой».

в openai заявили, что компания решит эти проблемы в последующих обновлениях, ведь это всего лишь ранний предварительный просмотр модели вывода.

ежедневные экономические новости

отчет/отзыв

новости

оценка новой модели o1 openai в пяти измерениях: кодирование, производство игр и другие способности «потрясающие», но фактические знания «отменены».

легендарная «клубника» уже здесь

пять аспектов фактического тестирования: программирование, создание игр и другие способности «потрясающие», но «неудачные» в тесте на фактические знания.

введение

моя контактная информация