Раскрытие DeepSeek: более экстремальная история китайского технологического идеализма 36Krэксклюзивные новости |

Раскрытие DeepSeek: более экстремальная история китайского технологического идеализма Эксклюзив 36Kr |

2024-07-22

Текст | Ю Лили
Редактор | Лю Цзин

Среди семи крупных модельных стартапов Китая DeepSeek наименее известен, но о нем всегда можно вспомнить самым неожиданным образом.

Год назад этот сюрприз был вызван тем фактом, что стоящий за ним гигант прямых инвестиций Хуан Фан был единственной компанией, не считая основных производителей, зарезервировавшей 10 000 чипов A100. Год спустя это произошло из-за того, что он был источником. ценовая война за большие модели Китая.

В мае, который постоянно подвергался бомбардировкам со стороны ИИ, DeepSeek стал знаменитым. Причина в том, что они выпустили модель с открытым исходным кодом под названием DeepSeek V2, которая обеспечивает беспрецедентную экономическую эффективность: стоимость вывода снижается всего до 1 юаня на миллион токенов, что составляет примерно одну седьмую от стоимости Llama3 70B, GPT-4 One- семидесятый Турбо.

Хотя DeepSeek быстро окрестили «Pinduoduo индустрии искусственного интеллекта», крупные производители, такие как ByteDance, Tencent, Baidu и Alibaba, также не выдержали этого и снизили цены один за другим. В Китае вот-вот разразится большая модельная ценовая война.

За дымом и дымом на самом деле скрывается тот факт, что в отличие от многих крупных компаний, которые сжигают деньги на субсидии, DeepSeek прибыльна.

За этим стоят всесторонние инновации DeepSeek в архитектуре моделей. Он предлагает совершенно новый MLA (Новый потенциальный механизм внимания для быков), сокращая использование памяти до 5%-13% по сравнению с наиболее часто используемой в прошлом архитектурой MHA. В то же время ее исходная структура DeepSeekMoESparse также предельно сокращает объем вычислений, что в конечном итоге способствует увеличению производительности. сокращение затрат.

В Кремниевой долине DeepSeek называют «загадочной силой Востока». Главный аналитик SemiAnalysis считает, что статья DeepSeek V2 "может быть лучшей в этом году". Бывший сотрудник OpenAI Эндрю Карр назвал статью «полной удивительной мудрости» и применил ее настройки обучения к своей собственной модели. Джек Кларк, бывший политический директор OpenAI и соучредитель Anthropic, считает, что DeepSeek «нанимает группу непредсказуемых волшебников», и считает, что большие модели, производимые в Китае, «станут такими же важными, как дроны и электромобили, которые нельзя игнорировать». сила."

Это редкая ситуация в волне искусственного интеллекта, когда Кремниевая долина в основном управляет историей.Многие инсайдеры отрасли рассказали нам:Столь сильная реакция обусловлена инновациями на архитектурном уровне, что является редкой попыткой отечественных крупных модельных компаний и даже глобальных крупных моделей с открытым исходным кодом. Исследователь искусственного интеллекта рассказал, что архитектура «Внимание» предлагалась уже много лет, но почти никогда не подвергалась успешным модификациям, не говоря уже о масштабной проверке. «Это даже идея, которая отсекается от принятия решений, потому что большинству людей не хватает уверенности».

С другой стороны, отечественные крупные модели раньше редко привлекались к инновациям на архитектурном уровне, в том числе и потому, что мало кто берет на себя инициативу сломать такой стереотип:Соединенные Штаты лучше в технологических инновациях от 0 до 1, а Китай лучше в прикладных инновациях от 1 до 10. Более того, такое поведение весьма неэкономично – новое поколение моделей естественным образом будет кем-то произведено через несколько месяцев, и китайским компаниям остается только хорошо следить и применять его. Инновация структуры модели означает, что нет пути, по которому нужно идти, необходимо пережить множество неудач, а временные и экономические затраты огромны.

DeepSeek явно бунтарь. На фоне слухов о том, что крупные модели технологий неизбежно будут сходиться и следовать за ними — это более разумный путь, DeepSeek ценит ценность, накопленную в «обходных путях», и считает, что помимо инноваций в приложениях крупные модельные предприниматели Китая также могут присоединиться к глобальным технологическим инновациям. поток.

Многие из решений DeepSeek уникальны. На данный момент из семи крупномасштабных модельных стартапов в Китае он единственный отказался от пути «нужд и желаний» и сосредоточился на исследованиях и технологиях, не занимаясь приложениями toC. которая не полностью рассмотрела коммерциализацию и твердо выбрала. Есть компании, которые даже не привлекли капитал на пути с открытым исходным кодом. Из-за этого о нем часто забывают за пределами покерного стола, но, с другой стороны, пользователи в сообществе часто распространяются о нем как о «водопроводной воде».

Как создается DeepSeek? Для этого мы взяли интервью у Лян Вэньфэна, основателя DeepSeek, который появляется редко.

Этот основатель, живший после 80-х годов и изучавший технологии за кулисами со времен эпохи Magic Square, до сих пор продолжает свой сдержанный стиль в эпоху DeepSeek. Как и все исследователи, он «читает статьи, пишет код и участвует в групповых дискуссиях». каждый день.

В отличие от многих основателей количественных фондов, которые имеют опыт работы в зарубежных хедж-фондах и в основном специализировались в физике, математике и т. д., Лян Вэньфэн всегда был местным жителем и в ранние годы изучал искусственный интеллект на факультете электронной инженерии Чжэцзянского университета. .

Многие инсайдеры отрасли и исследователи DeepSeek рассказали нам, что Лян Вэньфэн — очень редкий человек в нынешней китайской индустрии искусственного интеллекта, который «обладает как сильными инфраструктурными способностями, так и возможностями моделирования исследований, а также может мобилизовать ресурсы», «может делать точные суждения с высоты». , и может Тот, кто «лучше, чем передовые исследователи в деталях», у него «ужасающая способность к обучению», и в то же время он «вообще не похож на начальника, а скорее на компьютерщика».

Это особенно редкое интервью. В интервью этот технический идеалист высказал голос, которого особенно мало в научных и технологических кругах Китая:Он один из немногих, кто ставит «взгляд на добро и зло» выше «взгляда на интересы», напоминает нам об инерции времени и ставит на повестку дня «оригинальные инновации».

Год назад, когда DeepSeek только подошел к концу, мы впервые взяли интервью у Лян Вэньфэна: «Безумный магический квадрат: дорога к большим моделям невидимого ИИ-гиганта».Если вы скажете это предложение в то время«Нужно быть безумно амбициозным, но и безумно искренним».Это по-прежнему красивый лозунг, но год спустя он превратился в действие.

Ниже приводится часть разговора:

Как начался первый выстрел ценовой войны?

«Подводное течение»: После выпуска модели DeepSeek V2 это быстро спровоцировало кровавую крупномасштабную ценовую войну за модели. Некоторые люди говорили, что вы — сом в отрасли.

Лян Вэньфэн: Мы не хотели быть сомами, мы просто случайно ими стали.

«Undercurrent»: Удивил ли вас этот результат?

Лян Вэньфэн : Очень неожиданно. Я не ожидал, что цена сделает всех такими чувствительными. Мы просто делаем все в своем темпе и рассчитываем себестоимость. Наш принцип – не давать деньги и не получать огромную прибыль. Эта цена также является небольшой прибылью над себестоимостью.

«Скрытое течение»: через 5 дней за ним последовала Zhipu AI, за ней последовали Byte, Alibaba, Baidu, Tencent и другие крупные компании.

Лян Вэньфэн : Жипу ИИ - продукт начального уровня, а модели такого же уровня, как у нас, пока очень дорогие. Байт действительно был первым, кто последовал за ним. Флагманская модель упала до той же цены, что и наша, что затем побудило других крупных производителей снизить цены. Поскольку стоимость моделей крупных производителей намного выше нашей, мы не ожидали, что кто-то на этом потеряет деньги, и в итоге это стало логикой прожигающих деньги субсидий в эпоху Интернета.

«Скрытое течение»: со стороны снижение цен выглядит так, как будто оно пытается захватить пользователей, что обычно и происходит с ценовыми войнами в эпоху Интернета.

Лян Вэньфэн : Привлечение пользователей не является нашей основной целью. С одной стороны, мы снизили цену, поскольку изучаем структуру модели следующего поколения, и в первую очередь снизилась стоимость. С другой стороны, мы также считаем, что и API, и AI должны быть универсальными и доступными для всех.

«Подводное течение»: До этого большинство китайских компаний напрямую копировали структуру Llama этого поколения для применения. Почему вы начали со структуры модели?

Лян Вэньфэн : Если цель — сделать приложения, то использование структуры Llama и коротких, плоских и быстрых продуктов — тоже разумный выбор. Но наша цель — AGI, а это означает, что нам необходимо изучить новые структуры моделей, чтобы добиться более сильных возможностей моделей в условиях ограниченных ресурсов. Это одно из базовых исследований, необходимых для масштабирования до более крупной модели. Помимо структуры модели, мы также провели множество других исследований, в том числе о том, как структурировать данные, как сделать модель более похожей на человека и т. д., и все это отражено в выпущенных нами моделях. Кроме того, по оценкам, структура Llama на два поколения отстает от зарубежных передовых уровней с точки зрения эффективности обучения и стоимости выводов.

«Undercurrent»: Откуда в основном берется этот разрыв поколений?

Лян Вэньфэн : Во-первых, существует разрыв в эффективности тренировок. По нашим оценкам, структура модели и динамика обучения могут различаться в два раза между лучшими отечественными моделями и лучшими зарубежными моделями. Только по этому нам приходится потреблять вдвое больше вычислительной мощности для достижения того же эффекта. Кроме того, может возникнуть двукратный разрыв в эффективности данных, а это означает, что нам придется потреблять в два раза больше обучающих данных и вычислительной мощности, чтобы достичь того же эффекта. В общей сложности он потребляет в 4 раза больше вычислительной мощности. Что нам нужно сделать, так это продолжать сокращать эти разрывы.

«Скрытое течение»: большинство китайских компаний предпочитают иметь и модели, и приложения. Почему DeepSeek в настоящее время предпочитает заниматься только исследованиями и исследованиями?

Лян Вэньфэн : Потому что мы чувствуем, что самое главное сейчас — участвовать в волне глобальных инноваций. За последние много лет китайские компании привыкли к тому, что технологические инновации делают другие, и мы используем их для монетизации приложений, но это не само собой разумеющееся. В этой волне наша отправная точка — не воспользоваться возможностью разбогатеть, а выйти на передний план технологий, чтобы способствовать развитию всей экосистемы.

«Скрытое течение»: инерционное восприятие, оставшееся у большинства людей в эпоху Интернета и мобильного Интернета, заключается в том, что Соединенные Штаты хороши в технологических инновациях, а Китай лучше в приложениях.

Лян Вэньфэн: Мы считаем, что с экономическим развитием,Китай также должен постепенно становиться донором, а не всегда оставаться безбилетником.Во время волны ИТ последних тридцати лет или около того мы практически не участвовали в реальных технологических инновациях. Мы привыкли к тому, что закон Мура падает с неба, и уже через 18 месяцев дома появится лучшее оборудование и программное обеспечение. Закон масштабирования также трактуется таким же образом.

Но на самом деле это то, над созданием чего технологическое сообщество, в котором доминирует Запад, неустанно работало на протяжении нескольких поколений просто потому, что мы не участвовали в этом процессе раньше, поэтому мы игнорировали его существование.

Настоящий разрыв – не один и не два года, а разница между оригинальностью и имитацией.

«Подводное течение»: Почему DeepSeek V2 удивит многих людей в Кремниевой долине?

Лян Вэньфэн : Среди большого количества инноваций, которые происходят каждый день в США, эта очень распространена.Причина их удивления заключалась в том, что это была китайская компания сПрисоединяйтесь к их игре в качестве инновационного участника.В конце концов, большинство китайских компаний привыкли следовать, а не внедрять инновации.

«Undercurrent»: Но в контексте Китая этот выбор слишком экстравагантен. Большая модель — это игра с большими инвестициями, и не все компании имеют капитал только для исследования инноваций без предварительной коммерциализации.

Лян Вэньфэн : Стоимость инноваций определенно не низкая, и прошлая инерция апроприационизма также связана с прошлыми национальными условиями. Но сейчас, если вы посмотрите на экономический размер Китая или на прибыли крупных компаний, таких как Byte и Tencent, они не так уж и низки в мире. Чего нам не хватает в инновациях, так это определенно не капитала, а отсутствия уверенности и незнания того, как организовать высокую плотность талантов для достижения эффективных инноваций.

«Скрытое течение»: Почему китайские компании, в том числе крупные компании, не испытывающие недостатка в деньгах, так легко считают быструю коммерциализацию своим главным приоритетом?

Лян Вэньфэн : За последние тридцать лет мы делали упор только на зарабатывании денег и игнорировали инновации. Инновации не полностью обусловлены бизнесом, но также требуют любознательности и творчества. Мы просто связаны инерцией прошлого, но это тоже этап.

«Undercurrent»: Но в конце концов, вы коммерческая организация, а не общественное научно-исследовательское учреждение. Вы предпочитаете внедрять инновации и делиться ими через открытый исходный код. Где вам следует образовать ров? Инновации, подобные майской архитектуре MLA, вскоре будут скопированы другими компаниями, верно?

Лян Вэньфэн:существовать Перед лицом прорывных технологий ров, образованный закрытым исходным кодом, недолговечен. Даже если OpenAI имеет закрытый исходный код, он не может предотвратить его вытеснение другими.Поэтому мы придаем ценность команде. Наши коллеги растут в процессе, накапливают много ноу-хау и формируют организацию и культуру, способную к инновациям, и это наш ров.

На самом деле, от открытых исходных кодов и публикаций статей ничего не теряется. Для технического персонала, когда за ним следят, это большое чувство выполненного долга. На самом деле открытый исходный код больше похож на культурное поведение, чем на коммерческое поведение. На самом деле давать – это дополнительная честь. Компания, делающая это, также будет иметь культурную привлекательность.

«Undercurrent»: Что вы думаете о сторонниках рынка, таких как Чжу Сяоху?

Лян Вэньфэн: Чжу Сяоху самостоятелен, но его стиль игры больше подходит компаниям, которые быстро зарабатывают деньги. А если посмотреть на самые прибыльные компании США, то все они являются высокотехнологичными компаниями с глубоким накоплением.

«Undercurrent»: Но когда дело доходит до крупномасштабных моделей, трудно добиться абсолютного преимущества, просто лидируя в технологиях. На что вы делаете ставку больше?

Лян Вэньфэн：Мы видим, что китайский ИИ не всегда может быть на позиции следования. Мы часто говорим, что между ИИ Китая и США существует разрыв в один или два года, но настоящий разрыв — это разница между оригинальностью и имитацией. Если ситуация не изменится, Китай всегда будет ее последователем, поэтому некоторые исследования неизбежны.

Лидерство NVIDIA — это не просто усилия одной компании, а результат совместных усилий всего западного технологического сообщества и индустрии. Они могут видеть технологические тенденции следующего поколения и иметь в руках дорожную карту. Развитие искусственного интеллекта в Китае также требует такой экосистемы. Многие отечественные чипы не могут развиваться из-за отсутствия поддержки технических сообществ и только информации из вторых рук. Поэтому в Китае должен быть кто-то в авангарде технологий.

Увеличение инвестиций не обязательно приведет к увеличению количества инноваций.

«Скрытое течение»: нынешний DeepSeek обладает своего рода идеалистическим темпераментом с первых дней существования OpenAI, а также имеет открытый исходный код. Выберете ли вы закрытый исходный код в будущем? И OpenAI, и Mistral прошли процесс перехода от открытого исходного кода к закрытому.

Лян Вэньфэн : Мы не будем закрывать исходник. Мы считаем, что важнее сначала создать сильную техническую экосистему.

«Undercurrent»: Есть ли у вас план финансирования? По сообщениям СМИ, у Huanfang есть планы выделить и вывести на независимый листинг стартапы DeepSeek в области искусственного интеллекта в Кремниевой долине, в конечном итоге, неизбежно будут связаны с крупными производителями.

Лян Вэньфэн: Плана финансирования на краткосрочную перспективу нет. Проблема, с которой мы сталкиваемся, никогда не была в деньгах, а в эмбарго на высококачественные чипы.

«Скрытое течение»: многие люди считают, что AGI и количественная оценка — это две совершенно разные вещи. Количественную оценку можно проводить незаметно, но AGI может потребовать более усилий и альянсов на более высоком уровне, что может увеличить ваши инвестиции.

Лян Вэньфэн : Увеличение инвестиций не обязательно приводит к увеличению количества инноваций. В противном случае крупные производители могут перенять все инновации.

"Undercurrent": Вы сейчас не подаете заявки, потому что у вас нет генов, чтобы действовать?

Лян Вэньфэн : Мы считаем, что нынешний этап — это период взрыва технологических инноваций, а не периода взрыва приложений. В долгосрочной перспективе мы надеемся сформировать экосистему, в которой отрасль напрямую будет использовать наши технологии и продукцию. Мы несем ответственность только за базовые модели и передовые инновации, а затем другие компании строят бизнесы toB и toC на основе DeepSeek. Если мы сможем сформировать полноценную отрасль добычи и переработки, нам не нужно будет самим создавать приложения. Конечно, в случае необходимости для нас нет препятствий применить это, но исследования и технологические инновации всегда будут нашим главным приоритетом.

«Undercurrent»: Но когда дело доходит до выбора API, почему стоит выбирать DeepSeek вместо крупных производителей?

Лян Вэньфэн: Мир будущего, вероятно, будет миром специализированного разделения труда. Базовые крупномасштабные модели требуют постоянных инноваций. Крупные производители имеют свои собственные границы возможностей и не обязательно могут быть подходящими.

«Undercurrent»: Но могут ли технологии действительно увеличить разрыв? Вы также сказали, что не существует абсолютной технической тайны?

Лян Вэньфэн : Никакого секрета в технологии нет, но сброс требует времени и затрат. Теоретически видеокарты NVIDIA не имеют никаких технических секретов и их легко скопировать, но требуется время, чтобы реорганизовать команду и догнать технологии следующего поколения, поэтому реальный ров по-прежнему очень широк.

«Скрытое течение»: после того, как вы снизили цену, Byte последовала первой, что показывает, что они все еще чувствуют некоторую угрозу. Что вы думаете о новом решении, позволяющем стартапам конкурировать с крупными компаниями?

Лян Вэньфэн : Честно говоря, нас это дело не особо волнует, мы просто сделали это между прочим. Предоставление облачных сервисов не является нашей основной целью. Нашей целью по-прежнему является достижение AGI.

Новых решений я пока не увидел, но и явного преимущества у крупных производителей тоже нет. У крупных производителей есть готовые пользователи, но их бизнес, связанный с денежными потоками, также является бременем, что делает их уязвимыми для подрывной деятельности в любой момент.

«Undercurrent»: Что вы думаете о результатах шести крупных стартапов, помимо DeepSeek?

Лян Вэньфэн : Может быть, выживут 2 или 3 семьи. Мы все еще находимся на стадии сжигания денег, поэтому те, кто имеет четкое самопозиционирование и более совершенные операции, имеют больше шансов на выживание. Другие компании могут быть изобретены заново. Ценные вещи не исчезнут, но они изменятся.

«Скрытое течение»: в эпоху магического квадрата отношение к конкуренции оценивалось как «идти своим путем» и редко обращать внимание на горизонтальные сравнения. Что касается конкуренции, какова отправная точка ваших размышлений?

Лян Вэньфэн : Я часто думаю о том, может ли какая-то вещь сделать общество более эффективным, и можно ли найти место, где вы хорошо справитесь с ней, в цепочке промышленного разделения труда. Пока конечным результатом является повышение эффективности общества, это справедливо. Между ними много этапов, и чрезмерное внимание неизбежно вызовет головокружение.

Группа молодых людей, которые делают «непостижимые» вещи.

«Тайное течение»: Джек Кларк, бывший политический директор OpenAI и соучредитель Anthropic, считает, что DeepSeek наняла «группу непредсказуемых волшебников». Какие люди создали DeepSeek v2?

Лян Вэньфэн: Никаких загадочных гениев не существует. Все они — недавние выпускники ведущих университетов, стажеры с докторской степенью 4 и 5, которые не закончили учебу, а также молодые люди, получившие высшее образование всего несколько лет назад.

«Подводное течение»: Многие крупные модельные компании упорно переманивают людей за границу. Многие думают, что 50 лучших талантов в этой области могут быть не в китайских компаниях. Откуда берутся ваши люди?

Лян Вэньфэн : В модели V2 нет людей, вернувшихся из-за границы, все местные. Возможно, 50 лучших талантов находятся не в Китае, но, возможно, мы сможем воспитать таких людей сами.

«Undercurrent»: Как появилось это нововведение MLA? Я слышал, что идея впервые возникла из личного интереса молодого исследователя?

Лян Вэньфэн : После обобщения некоторых основных изменений в архитектуре Attention ему вдруг захотелось разработать альтернативу. Однако от идеи до реализации — долгий процесс. Для этого мы сформировали команду, и нам потребовалось несколько месяцев, чтобы справиться с этой задачей.

«Скрытое течение»: Рождение этого противоречивого вдохновения тесно связано со структурой вашей полностью инновационной организации. В эпоху «Магического квадрата» вы редко распределяете цели или задачи сверху вниз. Но требует ли AGI, передового исследования, полного неопределенности, дополнительных управленческих действий?

Лян Вэньфэн : DeepSeek тоже все снизу вверх. Более того, мы обычно исходим не из разделения труда, а из естественного разделения труда. У каждого свой уникальный опыт роста и свои идеи, поэтому нет необходимости их навязывать. В процессе исследования, когда он сталкивается с проблемами, он приглашает других обсудить их. Но когда идея демонстрирует потенциал, мы будем распределять ресурсы сверху вниз.

«Undercurrent»: Я слышал, что DeepSeek очень гибок в мобилизации карт и людей.

Лян Вэньфэн : У каждого из нас нет верхнего лимита на перевод карт и людей. Если у вас есть идея, каждый может в любой момент без согласования назвать карту обучающего кластера. В то же время, поскольку нет иерархии и межотделений, можно гибко вызывать всех, если другая сторона также заинтересована.

«Скрытое течение»: свободный метод управления также зависит от того, выберете ли вы группу людей, движимых сильной любовью. Я слышал, что вы очень хорошо умеете набирать людей по деталям, а некоторых выдающихся людей можете отобрать по нетрадиционным показателям оценки.

Лян Вэньфэн : Нашими критериями отбора людей всегда были любовь и любопытство, поэтому у многих людей будет уникальный опыт, что очень интересно. Многие люди желают проводить исследования гораздо больше, чем деньги.

«Undercurrent»: Transformer родился в лаборатории искусственного интеллекта Google, а ChatGPT родился в OpenAI. Как вы думаете, в чем разница в ценности инноваций между AILab крупной компании и компанией-стартапом?

Лян Вэньфэн : Будь то Google Labs, OpenAI или даже AI Labs крупных китайских компаний, все они ценны. В конце концов, OpenAI это сделал, и это тоже была историческая случайность.

«Подводное течение»: являются ли инновации во многом случайностью? Я вижу, что в ряду конференц-залов в центре вашего офиса слева и справа есть двери, которые можно открыть по желанию. Ваши коллеги сказали, что это оставляет место шансу. С рождением трансформера произошла история, когда прохожие случайно услышали о нем и присоединились, в итоге превратив его в универсальную основу.

Лян Вэньфэн : Я думаю, что инновации – это, прежде всего, вопрос веры. Почему Кремниевая долина такая инновационная? Первое — осмелиться. Когда появился Chatgpt, всей стране не хватало уверенности в передовых инновациях, от инвесторов до крупных производителей, все чувствовали, что разрыв слишком велик, поэтому им следует просто подавать заявки. Но инновации в первую очередь требуют уверенности. Эта уверенность обычно более выражена у молодых людей.

«Undercurrent»: Но вы не участвуете в финансировании, редко общаетесь с внешним миром, и ваш социальный голос определенно не так хорош, как у тех компаний, которые активно занимаются финансированием. Как вы можете гарантировать, что DeepSeek станет первым выбором для вас? люди, которые хотят создавать большие модели?

Лян Вэньфэн: Потому что мы делаем самое сложное.Что больше всего привлекает талантливых людей, так это решение самых сложных мировых проблем. На самом деле, лучшие таланты в Китае недооценены. Поскольку коренных инноваций на всем социальном уровне слишком мало, у них нет шансов быть идентифицированными. Мы делаем самое сложное, что для них привлекательно.

«Undercurrent»: Выпуск OpenAI некоторое время назад не дождался GPT5. Многие считают, что кривая развития технологий явно замедляется, и многие начинают подвергать сомнению Закон масштабирования. Что вы думаете?

Лян Вэньфэн : Мы настроены оптимистично, и вся отрасль, похоже, соответствует ожиданиям. OpenAI — не бог и не может всегда быть в авангарде.

«Undercurrent»: Как вы думаете, сколько времени потребуется для реализации AGI? Перед выпуском DeepSeek V2 вы выпустили генерацию кода и математические модели, а также перешли от плотных моделей к MOE. Каковы координаты вашей дорожной карты AGI?

Лян Вэньфэн : Это может быть 2 года, 5 лет или 10 лет. Короче говоря, это осуществится при нашей жизни. Что касается дорожной карты, то даже внутри нашей компании нет единого мнения. Но мы сделали ставку в трех направлениях. Один — это математика и код, второй — мультимодальность, а третий — сам естественный язык. Математика и код — естественная площадка для испытаний AGI. Это немного похоже на Go. Это закрытая и проверяемая система, и можно достичь высокого интеллекта посредством самообучения. С другой стороны, мультимодальное обучение, в котором участвуют люди в реальном мире, также может быть необходимо для ОИИ. Мы открыты для всех возможностей.

"Undercurrent": Как вы думаете, каким будет финал большой модели?

Лян Вэньфэн : Будут специализированные компании, предоставляющие базовые модели и базовые услуги, и будет существовать длинная цепочка профессионального разделения труда. Больше людей смогут удовлетворить разнообразные потребности общества в целом.

Все процедуры являются продуктами предыдущего поколения.

«Скрытое течение»: За последний год в крупном модельном предпринимательстве Китая произошло много изменений. Например, Ван Хуэйвэнь, который работал в начале прошлого года, ушел из компании в середине срока, а компании, к которым он присоединился позже. начал проявлять дифференциацию.

Лян Вэньфэн : Ван Хуэйвэнь взял на себя все потери и позволил другим уйти невредимыми. Он сделал выбор, который был самым вредным для себя, но лучшим для всех, поэтому он очень добрый человек, которым я очень восхищаюсь.

"Undercurrent": Где вы сейчас сосредотачиваете большую часть своей энергии?

Лян Вэньфэн : Основное внимание уделяется исследованию следующего поколения больших моделей. Есть еще много вопросов без ответов.

«Скрытое течение»: несколько других крупных стартапов, занимающихся модельным бизнесом, настаивают на том, чтобы иметь и то, и другое. В конце концов, технология не обеспечит постоянного лидерства. Также важно воспользоваться временным окном, чтобы реализовать технические преимущества в продуктах. DeepSeek осмеливается сосредоточиться на исследованиях моделей. это потому что возможностей модели недостаточно?

Лян Вэньфэн : Все процедуры являются продуктами предыдущего поколения и могут не сохраняться в будущем. Используйте бизнес-логику Интернета, чтобы обсудить будущую модель получения прибыли от ИИ, точно так же, как когда Ма Хуатэн начинал свой бизнес, вы обсуждали General Electric и Coca-Cola. Вероятно, это своего рода вырезание лодки для поиска меча.

«Скрытое течение»: В прошлом у Хуанфана были сильные технологические и инновационные гены, и его рост был относительно плавным. Именно поэтому вы настроены оптимистично?

Лян Вэньфэн : Magic Square в некоторой степени укрепил нашу уверенность в технологических инновациях, но это не всегда гладкий путь. Мы прошли длительный процесс накопления. То, что мы видим снаружи, — это часть Магического квадрата после 2015 года, но на самом деле мы занимаемся этим уже 16 лет.

«Подводное течение»: Возвращаемся к теме оригинальных инноваций. Теперь, когда экономика вступила в спад, а капитал вошел в цикл холода, создаст ли это дополнительные ограничения для оригинальных инноваций?

Лян Вэньфэн : Я так не думаю. Корректировка промышленной структуры Китая будет в большей степени опираться на инновации в базовых технологиях. Когда многие люди обнаружат, что быстрые деньги в прошлом, скорее всего, были результатом удачи того времени, они с большей готовностью подключатся и начнут внедрять настоящие инновации.

"Undercurrent": То есть вы тоже настроены оптимистично по этому поводу?

Лян Вэньфэн : Я вырос в городе пятого уровня в провинции Гуандун в 1980-х годах. Мой отец — учитель начальной школы. В 1990-е годы в Гуандуне было много возможностей заработать. В то время многие родители приходили ко мне домой. Большинство из них думали, что учеба бесполезна. Но сейчас, оглядываясь назад, я понимаю, что мои представления изменились. Поскольку зарабатывать деньги сложно, у меня может даже не быть возможности водить такси. Это меняется за одно поколение.

В будущем будет все больше и больше серьезных инноваций. Возможно, сейчас это будет нелегко понять, поскольку вся социальная группа должна быть ознакомлена с фактами. Когда это общество позволит упорным инновационным людям добиться успеха, групповое мышление изменится.Нам просто нужна куча фактов и процесс.

Новости

Раскрытие DeepSeek: более экстремальная история китайского технологического идеализма Эксклюзив 36Kr |

Введение

моя контактная информация