новости

o1 полная цепочка мышления становится табу номер один в openai! если вы задаете слишком много вопросов, ждите, пока ваш аккаунт забанят.

2024-09-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

предупреждать! не спрашивайте в chatgpt, что думает последняя модель o1——

просто попробуйте несколько раз, и openai отправит вам электронное письмо.угроза лишить вас квалификации

пожалуйста, прекратите эту деятельность и убедитесь, что использование chatgpt соответствует нашим условиям использования. нарушения этого положения могут привести к потере доступа openai o1.

менее чем через 24 часа после запуска новой большой модели o1 многие пользователи сообщили о получении этого электронного письма с предупреждением, что вызвало недовольство.

некоторые люди сообщали, что, пока слова-подсказки содержат такие ключевые слова, как «след рассуждений» и «покажи цепочку мыслей», они получат предупреждение.

даже если ключевые слова полностью исключены и используются другие средства, чтобы заставить модель обойти ограничения, это будет обнаружено.

некоторые люди утверждали, что их аккаунты фактически заблокировали на неделю.

все эти пользователи пытаются обмануть o1 и просят его повторить то, что он сказал.полный внутренний мыслительный процесс, то есть все исходные жетоны рассуждений.

в настоящее время вы можете использовать кнопку «развернуть» в интерфейсе chatgpt.можно увидеть, это просто обзор первоначального мыслительного процессакраткое содержание

фактически, когда был выпущен o1, openai дал повод скрыть весь мыслительный процесс модели.

подведем итог: openai необходимо отслеживать процесс мышления модели внутри себя, поэтому ограничения безопасности не могут быть добавлены к этим исходным токенам, что делает их неудобными для просмотра пользователями.

однако не все согласны с этой причиной.

кто-то отметил, чтоо1мыслительный процесс — лучшие обучающие данные для других моделей., поэтому openai не хочет, чтобы эти ценные данные были украдены другими компаниями.

некоторые люди также думают, что это показывает, что у о1 действительно нет рва. как только мыслительный процесс раскрыт, его могут легко скопировать другие.

и «это тот ответ, который позволяет нам просто слепо доверять ии без каких-либо объяснений?»

что касается технических принципов, лежащих в основе модели o1, на этот раз было раскрыто очень мало, и единственной эффективной информацией было «использовалось обучение с подкреплением».

короче говоря, openai становится все менее и менее открытым.

о1 — клубника, но не gpt-5

теперь точно известно, что o1 — это то, что openai уже давно рекламирует."клубника"или, другими словами, используя метод, представленный «клубникой».

но можно ли его считать моделью следующего поколения gpt-5 или это просто gpt-4.x?

все больше людей начинают подозревать, что это всего лишь инженерная доработка на основе gpt-4o.

известный взломанный аккаунт flowers (ранее flowers from the future) сообщил:сотрудники openai внутри компании называют o1 «4o с рассуждениями».

ион заявил, что многим сотрудникам openai эта новость молчаливо понравилась., скриншот выше также принадлежит сотруднику openai.

но недавно маск изменил твиттер так, чтобы никто, кроме оригинального постера, не мог видеть, кому что понравилось, поэтому подтвердить эту новость пока невозможно.

на мероприятии «спроси меня что-нибудь», только что проведенном аккаунтом разработчика openai, флауэрс также задавал вопросы.

сотрудники openai отвечают здесь на множество вопросов, но избегайте того, который занимает первое место в списке лайков.

даже ультрачеловек бенман только что снова выступил в роли риддлера, предполагая, что «клубника» подошла к концу, и следующий будет под кодовым названием.орионна подходе новые модели.

ранее сообщалось, что «орион» — это новая флагманская модель openai следующего поколения, обученная на синтетических данных, сгенерированных «strawberry», то есть o1.

орион — один из представителей «зимних созвездий» во рту ультрачеловека.

возвращаясь к выпущенному o1, еще одна критика в его адрес:«не соответствует стандартам научных исследований»

напримерникакие предыдущие работы по вычислению времени вывода не цитируются., а такжеотсутствие сравнения с современными моделями других компаний.

что касается предыдущего пункта, некоторые люди отметили, что openai больше не является исследовательской лабораторией и ее следует рассматривать как коммерческую компанию.

иногда они все еще притворяются исследовательской лабораторией, чтобы набирать людей, желающих проводить исследования.

однако, что касается последнего пункта, то теперь, когда api выпущен, не вам решать, сравнивать ли его с другими передовыми моделями. многие сторонние бенчмарки уже дали результаты.

1 миллион долларов принадлежит отцу керасапремия agiв ходе конкурса на публичном тестовом наборе тестировались обе версии o1-preview и o1-mini.превзошел собственный gpt-4o

но о1-превьюпросто связь с клодом 3,5-сонетом по соседству.

ориентирован на рекламу в o1способность кодированияначальство,помощник по инструменту парного программирования с открытым исходным кодомкоманда провела тесты, а также серию o1.нет очевидного преимущества

за всю задачу по переписыванию кода o1-preiview набрал 79,7 балла, claude-3.5-sonnet — 75,2 балла, а o1 лидировал на 4,5 балла.

а вот для более практических задач по редактированию кода o1-preview отстает от claude-3.5-sonnet с отрывом в 2,2 балла.

кроме того, команда помощников напоминает, что если вы захотите использовать серию o1 для замены программирования клода, стоимость будет намного выше.

партнеры с openai«программист искусственного интеллекта» девинкоманда заранее получила квалификацию доступа o1.

в ходе испытаний базовая версия devin, управляемая серией o1, добилась очень значительного улучшения по сравнению с gpt-4o.

нопо-прежнему существует большой разрыв по сравнению с выпущенной производственной версией devin., в основном из-за того, что производственная версия devin обучена на собственных данных.

кроме того, команда девина рассказала, что o1 часто отступает и рассматривает различные варианты, прежде чем прийти к правильному решению, и с меньшей вероятностью будет галлюцинировать или уверенно ошибаться.

при использовании o1-предварительного просмотра девинвероятность правильной диагностики основной причины ошибки выше, чем устранения симптомов проблемы.

с большим упором на математику и логические рассуждения.livebenchв списке есть o1-previewсзади в категории с одним кодомв этом случае общий балл равенобгон клода-3.5-сонета и открытие явного отрыва

команда livebench поделилась, что это лишь предварительные результаты, поскольку многие тесты также имеют встроенные слова-подсказки, такие как «пожалуйста, думайте шаг за шагом», что не лучший способ использования o1.

комплексный тест для оценки больших моделей на китайском языкесложный китайский тест на мышление высокого уровня superclueсередина,способность рассуждения o1-preview также значительно опережает.

наконец, подведем итог: есть некоторые вещи, на которые следует обратить внимание при использовании модели o1:

стоимость очень высока: 1 миллион выходных токенов стоит 60 долларов сша, и цена в одночасье возвращается в эпоху gpt-3.

токены скрытого резонанса также включены в выходные токены и их нельзя увидеть, но их необходимо оплатить.

для большинства задач лучше сначала использовать gpt-4o, а затем переключаться на o1, когда этого недостаточно для экономии средств.

задачи кода по-прежнему предпочитают claude-3.5-sonnet

короче говоря, у сообщества разработчиков все еще есть много вопросов относительно новой модели openai o1.

o1 открыл новую парадигму для рассуждений ии высокого уровня, но она еще не идеальна, и то, как максимизировать ее ценность, еще предстоит изучить.

на этом фоне мероприятие openai «вопрос и ответ» получило сотни вопросов в течение 4 часов.

ниже прилагается подборка и краткое изложение всего мероприятия.

сотрудники openai ответят на все ваши вопросы

прежде всего, многие люди интересуются этой внезапно выпущенной новой моделью. почему openai дал ей такое имя, как o1?

это связано с тем, что при взгляде на openai o1 представляет новый уровень возможностей ии, поэтому «счетчик» сбрасывается, а o представляет openai.

как сказал ультрамен при выпуске o1, o1, способный выполнять сложные рассуждения, является началом новой парадигмы.

что касается двух номеров версий, предварительной и мини-версии, ученые openai также подтвердили некоторые предположения пользователей сети——

предварительная версия — временная версия,официальная версия будет запущена в будущем.(на самом деле предварительная версия — это ранняя контрольная точка o1);нет никакой гарантии, что мини-версия будет обновлена ​​в ближайшем будущем.

глядя на эту фотографию, ранее опубликованную членом openai кевином лу, она становится еще яснее.

по сравнению с предварительной версией, mini хорошо справляется с некоторыми задачами, особенно с задачами, связанными с кодом, и может исследовать больше цепочек мыслей, но обладает относительно меньшими знаниями о мире.

в связи с этим ученый openai чжао шэнцзя объяснил, что:mini — узкоспециализированная модель, ориентированная лишь на небольшой набор возможностей., так что вы можете пойти глубже.

это можно рассматривать как раскрытие загадки, которую ультрачеловек решил по этому вопросу раньше.

что касается работы o1, ученый openai ноам браун также пояснил, что это не «система», состоящая из модели + cot, как думают некоторые пользователи сети, амодели, которые были обучены способности генерировать мыслительные цепочки изначально.

однако ход рассуждений будет скрыт, и чиновник дал понять, что показывать токен пользователям не планируется.

немногие новости, которые раскрыл openai, заключаются в том, что соответствующие токены cot являются сводными и не гарантируют полного соответствия процессу рассуждения.

в дополнение к режиму рассуждения вы также можете учиться в этом задании вопросов и ответов,o1 может обрабатывать более длинные тексты, чем gpt-4o, и продолжит делать это в будущем.

что касается производительности, во внутренних тестах openai:o1 показывает способность к философскому рассуждению, может размышлять над философскими вопросами, такими как «что такое жизнь?»

исследователи также использовали o1 для создания бота github, способного отправлять код владельцам на проверку.

конечно, для некоторых задач, не связанных с выводом, таких какв творческом письме производительность o1 существенно не улучшена по сравнению с gpt-4o, а иногда даже немного уступает.

кроме того, основываясь на некоторых вопросах, openai заявила, что изучает или планирует изучить некоторые невыпущенные функции, которые беспокоят пользователей сети, но четкого времени запуска нет:

вызовы инструментов пока не поддерживаются, но вызовы функций и интерпретаторы кода планируются в будущем.

в будущих обновлениях api будут добавлены структурированный вывод, слова системных подсказок и функции кэширования слов подсказок.

также планируется доработка

пользователи api смогут устанавливать свои собственные ограничения на время вывода и потребление токенов.

o1 обладает мультимодальными возможностями, ориентированными на sota для mmmu и других наборов данных, и будет реализован позже.

что касается производительности, openai также работает над сокращением задержки и времени, необходимого для вывода.

наконец, существует проблема цены, которая беспокоит людей, особенно пользователей api. в конце концов, учитывая, что процесс рассуждения включен в выходной токен, цена o1 все еще относительно высока.

openai сказал«будем следовать тенденции снижения цен каждые 1-2 года», а оптовые цены на api также начнут действовать, когда ограничения на использование станут менее строгими.

кроме того, пользователи веб-сайта/приложения в настоящее время ограничены предварительным просмотром 30 + мини-50 сообщений в неделю.

но хорошая новость заключается в том, что сегодня рано утром, поскольку люди были в восторге от o1, многие быстро израсходовали свою квоту, поэтомуособый случай openai сбрасывает квоту один раз

над