«программирование как профессия заканчивается сегодня», что пугает в новой модели openai o1

2024-09-15

автор: fanfan, редактор: odette, заглавная картинка из: ai generation

вы еще помните произошедшее ранее землетрясение в высотном здании openai?

спровоцировал увольнение сэма альтмана, уход соучредителя грега брокмана и обострение внутренних конфликтов внутри openai стал проект под названием q* (произносится как q-star).

по словам людей, знакомых с вопросом, проект q* на тот момент достиг значительного прогресса и уже мог решать основные математические задачи. в отличие от калькуляторов, которые могут решать лишь ограниченное количество операций, и gpt-4, который каждый раз дает разные ответы на один и тот же вопрос,q*, возможно, уже обладает способностью обобщать, учиться и понимать, что является ключевым шагом на пути к agi.исследователи openai направили совету директоров письмо, предупреждающее, что крупное открытие q* может угрожать всему человечеству, но сэм альтман скрыл это.

openai претерпел потрясающие внутренние изменения, а сам openai никогда напрямую не реагировал на существование q*.

сегодня openai неожиданно выпустила новую модель, которая пока является предварительной версией. это легендарный q*, позже получивший кодовое название «strawberry», а теперь openai o1-preview.

новая модель рассуждения для решения сложных задач, которая больше не похожа на chatgpt｜openai.

о, по-прежнему «омини», всеобъемлющее о, но, по мнению openai, эта модель «представляет собой новую высоту искусственного интеллекта» и сильно отличается от предыдущей большой модели по методам работы, поэтому новую модель можно установить отдельно серия, считая с 1 (gpt5: я старый!).

что касается того, будет ли эта модель «угрожать человечеству» по мнению ильи суцкевера и других бунтующих бывших ученых-специалистов openai, подталкивая человечество в эпоху agi (искусственного интеллекта) без совершенных моральных ограничений, вы можете прочитать в статье «тогда судите сами».

о1, превосходит все

первая — это знакомая ссылка на подсчет очков.

каждое поколение больших моделей выходит и достигает беспрецедентно новых высот, но на этот раз o1 принципиально отличается.

большинство популярных сейчас больших моделей представляют собой чат-боты, пути мышления которых трудно объяснить, а направление их развития мультимодально (умеют говорить, видеть и слушать), и становятся все более человекоподобными по тону. и реакции. o1 отличается от них.

прежде всего, его цель — не становиться все быстрее и быстрее или даже все медленнее и медленнее.

ученый openai ноам браун рассказал, что сейчас o1 может давать ответы за несколько секунд, но в будущем ему нужно будет уметь думать часами, днями или даже неделями. затем была прикреплена фотография. о1 диагностировал случай после более чем десятисекундного размышления. что имел в виду ноам браун,длительное время вывода означает, что модель может выстраивать более длинные цепочки мышления и проводить более глубокое мышление.

во-вторых, o1 пробивает ахиллесову пяту предыдущих крупных языковых моделей — математики.

aime, американский пригласительный экзамен по математике, проще, чем олимпиада, и намного сложнее, чем sat. обычно он используется для отбора лучших старшеклассников по математике в соединенных штатах. когда gpt4-o попросили написать вопросы для пригласительного конкурса, он набрал всего 12 очков, но o1 ответил на вопросы за один раз и набрал 74 балла. если вы сделаете выборку 1000 раз, а затем переупорядочите 1000 выборок с помощью функции оценки (это лучше отразит ожидаемый уровень модели), o1 наберет 93 балла и может войти в число 500 лучших в сша и попасть в шорт-лист американской модели. математическая олимпиада.

сравнивая производительность o1 и gpt-4o, математический прогресс очень велик｜openai

пусть o1 напишет вопросы для международной олимпиады по информатике 2024 года (ioi). в течение 10 часов каждый вопрос можно задавать до 50 раз, и он набирает 213 очков, входя в число 49% лучших игроков.если количество заявок увеличится до 10 000, o1 сможет набрать 362,14 балла, получить золотую медаль ioi и быть рекомендованным в университет цинхуа.

в реальном тесте использовалась доработанная версия o1, а не перспективная версия, которую мы можем использовать openai |

кроме того, существует множество тестов, которые недоступны. например, в gpqa (тест интеллекта, объединяющий физику, химию и биологию) o1 по некоторым вопросам превзошел докторов наук в смежных областях.

суммируя,инволюция в и без того сильной области уже давно не является целью o1. это достижение прорыва в сложной логике, с которой большие языковые модели не справляются.

один шаг назад, два шага вперед

как упоминалось выше, скорость реакции o1 замедлилась.

требуется больше времени, чтобы подумать, прежде чем реагировать, затем совершенствовать мыслительный процесс, пробовать разные стратегии и учиться на своих ошибках. это страшно.

более того, o1 теперь не является мультимодальной моделью. openai потратила два года на создание большой модели, способной видеть и слушать. теперь она вернулась к своей исходной природе, и o1 может принимать только ввод символов.

медленнее и монотоннее, для o1,это один шаг назад и два шага вперед. люди, использовавшие o1, говорят, что o1 — самая умная модель, которую они когда-либо использовали, и разговоры с ней вышли за рамки предыдущих мелких драк.

в одном тесте пользователь задал o1 логический парадоксальный вопрос: «сколько слов в ответе на этот вопрос?»

o1 подумал десять секунд и показал ход своего мышления. прежде всего, он подумал, что это самореферентный парадокс или рекурсивный вопрос. когда ответ не определен, количество слов в ответе невозможно определить.«для четких и кратких ответов важно избегать лишних выражений». следующим шагом будет подсчет слов, причем числа, встречающиеся в предложении, должны соответствовать количеству слов в предложении. затем он перечислил множество предложений и нашел наиболее подходящий вариант соответствия. он обнаружил, что в «здесь есть пять слов» есть пять слов, поэтому после изменения структуры предложения на полный ответ пять следует заменить семью.

и он ответил: «в ответе семь слов».

этот процесс рассуждения мало чем отличается от моего процесса рассуждения｜x

в другом примере o1 потребовалось 5,6 секунды и 631 жетон, чтобы ответить на простой вопрос «сколько букв r в straberry?»

из приведенного выше примера видно, чтометод работы o1 кардинально отличается от chatgpt.теперь o1 добавил жетоны рассуждения, которые разбивают вопрос на несколько этапов, думают о них отдельно, а затем удаляют жетоны рассуждения для генерации ответов.

на рисунке ниже показано, как работает цепочка идей, что также объясняет, почему скорость реакции o1 стала медленнее.

при использовании o1 вы также можете использовать некоторые классические логические и математические задачи, чтобы проверить его возможности.

возможно, при ответе на простые вопросы разница между необходимостью выполнения нескольких раундов рассуждений не очевидна, но если оно используется для решения сложных задач при написании кода, решении математических задач и естественных наук, такой тип мыслительных способностей необходим.

в документе openai говорится, что теперь медицинский персонал может использовать o1 для аннотирования данных секвенирования клеток, физики могут использовать o1 для генерации сложных математических формул, необходимых для квантовой оптики, а разработчики в различных областях могут использовать o1 для построения и выполнения многоэтапной работы. . процесс.

более того,это прототип образа мышления и ранняя форма мудрости.

новые модели, новые привычки

поскольку способ работы o1 отличается от chatgpt, уроки, которые я видел ранее и которые учат вас писать подсказки, больше не применимы - в текущей ситуации слишком много описаний будут потреблять только большое количество токенов, но не обязательно их получат. , лучшие результаты.

чтобы прояснить это всем пользователям, openai написала новые рекомендации по токенам. в руководстве openai объясняет, что лучшие подсказки в o1 — прямые и краткие. инструктирование модели делать это шаг за шагом или предоставление нескольких разрозненных слов подсказки может быть контрпродуктивным. вот несколько официальных рекомендаций:

подсказки должны быть простыми и прямыми. модели лучше всего реагируют на краткие и четкие инструкции, не требующие слишком большого руководства.

избегайте цепочек мыслей в подсказках. o1 осуществляет свои собственные внутренние рассуждения, поэтому направлять его шаг за шагом и объяснять ход вашего мышления бесполезно.

для большей ясности лучше использовать разделители. используйте разделители, такие как «», <> и §, чтобы четко различать различные части подсказок, что поможет модели обрабатывать проблемы в пакетном режиме.

ограничьте получение дополнительного контекста при расширенной генерации. предоставляйте только самую актуальную информацию, чтобы не переусердствовать с моделью.

когда я увидел третью статью, я почувствовал себя немного знакомым с этим форматом. будущие программисты, скорее всего, будут использовать программирование на естественном языке. основные инструкции остались прежними, но они стали общеупотребительными. в соответствии с последними рекомендациями хорошее приглашение будет выглядеть так:

или что-то вроде этого:

§ ведущий § писатель § владелец бара § художник маслом § кожевник § серебряный мастер § певец § художник по бубнам § турист § золотая левая щека § французский рыцарь § ученик дзен §

пусть модель сделает все остальное.

дайте мне минутку, чтобы сделать 3d-змею.

есть причина использовать змею в качестве примера. менее чем через день после выхода o1 люди предприняли множество попыток использовать его, в том числе 3d snake.

@ammaar reshi на x использовал чрезвычайно простые подсказки, чтобы написать 3d-змею всего за одну минуту, а o1 также научил его использовать код.

вы научились писать подсказки? ｜@аммаар реши

хотя эффект немного грубоват, никто не может сказать, что это не жадная змея.

и это очень весело｜@аммаар реши

пользователь сети @джеймс уэйд использовал o1 для создания приложения для анализа данных, которое может отображать краткое описание и пример каждого дистрибутива. это заняло всего 15 минут, включая время развертывания. он сказал: «я никогда раньше не думал о том, чтобы сделать что-то подобное. раньше это было слишком хлопотно».

эффект такой, как показано на картинке｜@james wade

другой инженер полного стека @dallas lones, проработавший 16 лет, с волнением сказал после создания приложения для разработки полного стека react native за несколько минут:бизнес я начал не сразу, но сейчас это ремесло стало слезой времени.он сказал:«сегодня программирование как профессия официально прекращается».

все больше людей бросают вызов ограничениям o1, и некоторые уже играют в нее.«давайте посмотрим, чей вопрос сложнее и сможет заставить о1 думать дольше всех».игра.

в настоящее время o1 в первую очередь открыт для пользователей chatgpt plus и team, а доступ к api сначала будет открыт для пользователей 5-го уровня, которые потратят более 1000 долларов сша на openai api. на следующем этапе openai постепенно откроет низкопрофильную версию o1-mini для бесплатных пользователей.

будет ли это закат человечества?

новости

«программирование как профессия заканчивается сегодня», что пугает в новой модели openai o1

введение

моя контактная информация