стоит ли openai «клубника» триллиона?

2024-09-13

автор | би анди, редактор ван цзин |

что общего между ультрачеловеком и ма баого? ответ: все они любят совершать скрытые атаки.

новость о «клубнике» циркулирует уже несколько месяцев. говорят, что это загадочный проект внутри openai, который, похоже, сильно отличается от модели предыдущего поколения. но openai хранила это в секрете. ближе всего к разоблачению стала фотография настоящей клубники, опубликованная генеральным директором сэмом альтманом в социальных сетях.

всего несколько дней назад the information сообщила, что «клубника» выйдет в ближайшие две недели.

даже несмотря на такое пристальное внимание, openai все равно застала мир врасплох: днем 12 сентября по местному времени, без какого-либо уведомления или какой-либо пресс-конференции, openai внезапно выпустила новую модель.

однако название новой модели не такое вкусное, как «клубника», а очень серьезное и значимое: о1.

вы знаете, модель openai уже повторялась в серии «gpt»: от gpt-1 в 2018 году до gpt-4o в мае этого года. сегодня openai открывает новое направление.

в официальном сообщении в блоге, анонсирующем o1, openai сказал следующее: «как ранняя модель, она еще не имеет многих функций, которые делают chatgpt полезным... но для сложных задач вывода это значительное улучшение, отражающее возможности ии. учитывая это, мы сбросили счетчик обратно на 1 и назвали эту серию openai o1».

новая модель в настоящее время открыта только для платных подписчиков chatgpt и некоторых программистов. чтобы показать, что модель еще не доработана, она временно называется «o1-preview», а предварительный просмотр означает предварительный просмотр. кроме того, openai также выпустила небольшую версию модели o1-mini. будь то o1-preview или o1-mini, в настоящее время существует ограничение на количество ответов в неделю.

сам ультрамен похвалил новую модель в соцсетях

гэри маркус, исследователь искусственного интеллекта, который всегда любит лить холодную воду на chatgpt, пошутил, что ход openai — это «знакомый рецепт»: анонсируйте демо-версию, откройте ее для ограниченного числа пользователей, соберите средства и сделайте это снова.

на момент выхода o1 openai проходила новый раунд финансирования. согласно последним новостям bloomberg, этот раунд финансирования станет крупным событием с масштабом в десятки миллиардов долларов сша и целевой оценкой в 150 миллиардов долларов сша.

давайте сначала посмотрим на саму модель.

как ранее ходили слухи, основное внимание o1 уделяется «рассуждениям». ключом к «рассуждению» является «мышление».

для пользователей наиболее интуитивным ощущением является то, что o1-preview займет больше времени, прежде чем ответить на вопрос.

в модели o1-preview алфавитный список спрашивает chatgpt: «какой сегодня день месяца и день недели?» после отправки вопроса chatgpt отображает текущие этапы мышления один за другим: ответ на вопрос о дате, просмотр рекомендаций, понимание текущей даты, а затем предоставление ответа с пометкой «подумайте 8 секунд».

напротив, в модели gpt-4o chatgpt дает прямой ответ в течение 3 секунд, не показывая промежуточных шагов.

«это новая большая модель оракула, обученная с помощью обучения с подкреплением и предназначенная для выполнения сложных рассуждений. o1 думает, прежде чем отвечать на вопросы — он может генерировать внутреннюю длинную «цепочку мыслей», прежде чем ответить пользователю», — написал openai в своем блоге.

на этот раз была выпущена модель o1, представители openai раскрыли очень мало технических подробностей, а то, что они неоднократно подчеркивали, — это «мыслящая цепочка».

по данным openai, o1 использует мыслительные цепочки при попытке решить проблемы, так же, как люди долго и упорно думают, прежде чем ответить на сложный вопрос. благодаря обучению с подкреплением o1 научился совершенствовать свою цепочку мышления и оптимизировать стратегии использования. он способен распознавать и исправлять собственные ошибки и учиться разбивать сложные шаги на более простые. если текущий метод не работает, он пробует другой метод.

«этот процесс значительно улучшает возможности модели».

так насколько сильны способности o1? помимо нескольких демонстрационных видеороликов, выпущенных openai, самое убедительное — результаты тестов. openai заявляет, что o1 работает «сравнимо с экспертами-людьми» в ряде тестов, требующих сложных выводов, и превосходит предыдущие методы. например, на международной математической олимпиаде (имо) предыдущий технический балл составлял 13%, а балл o1 достигал 83%.

в соревновании по программированию codeforces o1 получил отличный результат — 89%. на основе o1 openai также разработала o1-ioi, которая лучше умеет программировать, и ее результаты одним махом превзошли 93% участников конкурса.

еще один тест, которым openai специально «хвастается», — это gpqa-diamond, который является эталонным тестом на знание химии, физики и биологии. openai пригласила к участию экспертов с докторскими степенями и обнаружила, что «производительность o1 превзошла этих экспертов-людей».

openai также сообщила, что после включения возможностей визуального восприятия o1 набрала 78,2% в тесте mmmu, «став первой моделью, которая может конкурировать с людьми-экспертами». более того, o1 превосходит gpt-4o в 54 из 57 подкатегорий mmlu.

короче говоря, o1 уделяет больше внимания способностям к рассуждению, чем предыдущие модели openai, а его способности к математике и программированию особенно улучшены, если преувеличивать, он похож на врача по боксу и эксперта по ударам ногами. и по «мыслительной цепочке». ожидается также, что это уменьшит иллюзию модели.

однако o1 все еще находится на относительно ранней стадии, как подчеркнул ультрамен, «еще есть недостатки и ограничения».

только при поверхностной попытке списка алфавитов возникли ошибки в o1-preview. например, на вопрос «что больше, 9,11 или 9,9?» gpt-4o ответил неправильно, и o1-preview также ответил неправильно, серьезно заявив, что «9,11 действительно больше, чем 9,9. потому что 9,11 (т. е. 9,11) больше, чем 9,9 (9,90)». в многословии есть нотка юмора, не говоря уже о том, что на обдумывание ушло 15 секунд.

the information также сообщает, что некоторые пользователи, попробовавшие o1-preview, заявили, что многие взаимодействия «не стоят дополнительных 10–20 секунд ожидания» и что они предпочитают скорость ответа gpt-4o.

в настоящее время o1-preview и o1-mini открыты для платных пользователей, но их число ограничено: o1-preview имеет 30 сообщений в неделю, а o1-mini — 50 сообщений в неделю.

начиная со следующей недели обе модели также будут доступны корпоративным и образовательным (edu) пользователям chatgpt. openai также заявила, что хотела бы в будущем предоставлять o1-mini всем пользователям бесплатно, но конкретные сроки не называются.

это первый случай, когда openai добавляет суффикс, похожий на «предварительный просмотр», при выпуске модели. ранее и gpt-4, и gpt-4o напрямую выпускали полную модель.

одной из особенностей o1, которую нельзя игнорировать, является то, что он дорогой.

стоимость доступа разработчика к o1 очень высока: с точки зрения api o1-preview взимает 15 долларов сша за 1 миллион входных токенов или текстовых блоков, анализируемых моделью, что в три раза больше, чем у gpt-4o, и 60 долларов сша за 1 миллион выходных токенов (доллары сша). , в четыре раза больше, чем у gpt-4o.

в отчете the atlantic проанализировано, что o1 специально разработан так, чтобы требовать больше времени, что неизбежно потребует больше ресурсов и увеличит сложность прибыльности aigc.

гэри маркус, упомянутый в начале этой статьи, — ученый, работающий на стыке нейробиологии человека и искусственного интеллекта, почетный профессор нью-йоркского университета, а также основатель и генеральный директор стартапа в области искусственного интеллекта geometric intelligence. его наиболее популярная роль. «заноза в мире ии» неоднократно критиковала openai.

по его мнению, внезапный выпуск openai o1-preview — это скорее пропагандистский метод.

в конце концов, openai переживает важный раунд финансирования. согласно последнему отчету bloomberg, openai ведет переговоры о привлечении 6,5 миллиардов долларов сша от инвесторов при оценке в 150 миллиардов долларов сша. кроме того, она также хочет привлечь 5 миллиардов долларов сша от инвесторов. банки в форме возобновляемого кредита.

«отправьте демо-версию, откройте ее для ограниченного числа пользователей, соберите деньги и повторите». вот как маркус резюмирует «средства» openai.

в июле этого года издание the information сообщило, что openai может потерять в этом году целых 5 миллиардов долларов. среди них затраты на сотрудников openai в этом году составят около 1,5 миллиарда долларов сша, затраты на обучение искусственному интеллекту и выводам могут достигать 7 миллиардов долларов сша, а годовой доход, как ожидается, составит от 3,5 до 4,5 миллиардов долларов сша.

в то время the information прогнозировала, что при таких темпах сжигания денег openai вскоре потребуется привлекать средства. последнее важное финансирование для openai было в начале 2023 года, когда microsoft инвестировала десятки миллиардов долларов.

это не первый случай, когда openai выпускает «незрелые продукты» на ключевых узлах.

в октябре прошлого года появилась новость о том, что openai пытается продать акции. в то время ходили слухи, что возможная оценка составляла 86 миллиардов долларов сша. но в следующем месяце в openai произошли шокирующие изменения в высшем руководстве. альтмана выгнали из компании, но вскоре он вернулся на свою должность генерального директора, выиграв «дворцовую битву». однако план продажи акций был ненадолго отложен, и до конца ноября не было никаких новостей о том, что сделка «возобновилась». тогда люди, знакомые с ситуацией, сказали, что сотрудники были обеспокоены тем, что чрезвычайная ситуация повлияет на продажи акций и повлияет на оценку компании.

интересно, что 15 февраля этого года openai неожиданно анонсировала модель нового поколения видео sora, и демоверсия вызвала шок у внешнего мира. в течение трех дней газета new york times сообщила, что openai завершила продажу акций сотрудников, а оценка компании превысила 80 миллиардов долларов сша, «как и ожидалось».

прошло более полугода, а сора не был открыт для публики и даже не пропагандировал крупномасштабное тестирование. внешний мир начал подозревать, что у соры на самом деле недостаточно вычислительных мощностей для поддержки ее работы. в отчете, опубликованном исследовательской организацией factorial funds, говорится, что для внедрения sora потребуется 720 000 чипов nvidia h100.

в начале сентября газета «taiwan economic daily» сообщила, что чип ангстремного уровня a16 от tsmc уже получил заказы от крупных клиентов, включая apple и openai. openai будет использовать специальные чипы для расширения возможностей sora по генерации видео. это также, кажется, подтверждает, что сора раньше сталкивался с проблемой вычислительной мощности.

теперь, когда chatgpt со вкусом клубники уже здесь, возможно, скоро мы увидим новость о том, что openai успешно завершила новый раунд финансирования и оценивается более чем в один триллион юаней.

новости

стоит ли openai «клубника» триллиона?

введение

моя контактная информация