nouvelles

Révéler DeepSeek : une histoire plus extrême de l'idéalisme technologique chinois |

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Texte | Yu Lili
Editeur | Liu Jing

Parmi les sept grandes startups modèles en Chine, DeepSeek est la moins célèbre, mais on s'en souvient toujours de manière inattendue.

Il y a un an, cette surprise venait du fait que le géant du capital-investissement quantitatif Huan Fang était la seule entreprise en dehors des grands constructeurs à réserver 10 000 puces A100. Un an plus tard, elle venait du fait qu'elle était à l'origine des approvisionnements. guerre des prix pour les grands modèles chinois.

En mai, continuellement bombardé par l’IA, DeepSeek est devenu célèbre. La raison en est qu'ils ont publié un modèle open source appelé DeepSeek V2, qui offre une rentabilité sans précédent : le coût d'inférence est réduit à seulement 1 yuan par million de jetons, soit environ un septième de celui de Llama3 70B, GPT-4 One- soixante-dixième de Turbo.

Alors que DeepSeek a été rapidement surnommé le « Pinduoduo de l'industrie de l'IA », de grands fabricants tels que ByteDance, Tencent, Baidu et Alibaba n'ont pas non plus pu le supporter et ont réduit leurs prix les uns après les autres. La grande guerre des prix des modèles chinois est sur le point d'éclater.

La fumée des coups de feu cache en réalité le fait que contrairement à de nombreuses grandes entreprises qui dépensent de l’argent pour financer des subventions, DeepSeek est rentable.

Derrière cela se cache l’innovation globale de DeepSeek en matière d’architecture de modèle. Il propose un tout nouveau député (Un nouveau mécanisme d’attention potentiel pour les taureaux), réduisant l'utilisation de la mémoire à 5 % à 13 % de l'architecture MHA la plus couramment utilisée dans le passé. Dans le même temps, sa structure DeepSeekMoESparse d'origine réduit également la quantité de calcul à l'extrême, ce qui contribue finalement à l'architecture MHA. réduction des coûts.

Dans la Silicon Valley, DeepSeek est surnommé « la puissance mystérieuse venue de l’Est ». L'analyste en chef de SemiAnalysis estime que l'article DeepSeek V2 "pourrait être le meilleur de cette année". Andrew Carr, ancien employé d'OpenAI, a qualifié l'article de "plein d'une sagesse étonnante" et a appliqué ses paramètres de formation à son propre modèle. Jack Clark, ancien directeur politique d'OpenAI et co-fondateur d'Anthropic, estime que DeepSeek "emploie un groupe de sorciers imprévisibles" et estime que les grands modèles fabriqués en Chine "deviendront aussi importants que les drones et les voitures électriques qui ne peuvent être ignorés". force."

Il s’agit d’une situation rare dans la vague de l’IA où la Silicon Valley mène essentiellement l’histoire.De nombreux initiés de l'industrie nous ont dit :Cette forte réponse découle de l'innovation au niveau architectural, qui est une tentative rare de la part des grandes entreprises de modèles nationales et même des grands modèles de base open source mondiale. Un chercheur en IA a déclaré que l'architecture Attention est proposée depuis de nombreuses années, mais n'a presque jamais été modifiée avec succès, encore moins de vérification à grande échelle. "C'est même une idée qui est exclue du processus décisionnel parce que la plupart des gens manquent de confiance."

D'un autre côté, les grands modèles nationaux ont rarement été impliqués dans l'innovation au niveau architectural auparavant, notamment parce que peu de gens prennent l'initiative de briser un tel stéréotype :Les États-Unis sont meilleurs en innovation technologique de 0 à 1, tandis que la Chine est meilleure en innovation applicative de 1 à 10. De plus, ce type de comportement est très peu rentable : une nouvelle génération de modèles sera naturellement produite par quelqu'un dans quelques mois, et les entreprises chinoises n'ont qu'à la suivre et à bien l'appliquer. Innover dans la structure du modèle signifie qu'il n'y a pas de chemin à suivre, que de nombreux échecs doivent être vécus et que le temps et les coûts économiques sont énormes.

DeepSeek est clairement un rebelle. Au milieu des clameurs selon lesquelles les technologies des grands modèles convergeront inévitablement et suivront comme un raccourci plus intelligent, DeepSeek valorise la valeur accumulée dans les « détours » et estime qu'en plus de l'innovation applicative, les grands entrepreneurs modèles chinois peuvent également rejoindre l'innovation technologique mondiale. le torrent.

De nombreux choix de DeepSeek sont uniques. À l'heure actuelle, parmi les 7 startups modèles à grande échelle en Chine, c'est la seule qui a abandonné la voie du « besoin et du désir » et qui s'est concentrée sur la recherche et la technologie sans faire d'applications toC. qui n'a pas pleinement envisagé la commercialisation et a fermement choisi Il existe des entreprises qui n'ont même pas levé de capitaux sur la voie de l'open source. Ceux-ci le font souvent oublier en dehors de la table de poker, mais d'un autre côté, il est souvent diffusé par les utilisateurs de la communauté comme « l'eau du robinet ».

Comment DeepSeek est-il créé ? A cet effet, nous avons interviewé Liang Wenfeng, le fondateur de DeepSeek qui apparaît rarement.

Ce fondateur des années 80, qui étudie la technologie dans les coulisses depuis l'ère Magic Square, conserve toujours son style discret à l'ère DeepSeek, comme tous les chercheurs, il « lit des articles, écrit du code et participe à des discussions de groupe ». tous les jours.

Contrairement à de nombreux fondateurs de fonds quantitatifs qui ont de l'expérience dans les hedge funds étrangers et sont principalement spécialisés en physique, mathématiques, etc., Liang Wenfeng a toujours été issu d'un milieu local et a étudié l'intelligence artificielle au département d'ingénierie électronique de l'université du Zhejiang dans ses premières années. .

De nombreux initiés de l'industrie et chercheurs de DeepSeek nous ont dit que Liang Wenfeng est une personne très rare dans l'industrie chinoise actuelle de l'IA qui « possède à la fois de solides capacités d'ingénierie infrastructurelle et de recherche de modèles, et peut mobiliser des ressources », « peut porter des jugements précis depuis un endroit élevé ». , et peut Quelqu'un qui est "meilleur que les chercheurs de première ligne dans les détails", il a une "capacité d'apprentissage terrifiante", et en même temps, il n'est "pas du tout comme un patron, mais plutôt comme un geek".

Il s’agit d’une interview particulièrement rare. Dans l’interview, cet idéaliste technique a donné une voix particulièrement rare dans les cercles scientifiques et technologiques chinois :Il est l'un des rares à faire passer la « vision du bien et du mal » avant la « vision des intérêts », à rappeler l'inertie de l'époque et à mettre « l'innovation originale » à l'ordre du jour.

Il y a un an, alors que DeepSeek venait de se terminer, nous avons interviewé Liang Wenfeng pour la première fois : « Crazy Magic Square : The Road to Large Models of an Invisible AI Giant ».Si tu dis cette phrase à ce moment-là"Il faut être fou ambitieux, mais aussi fou sincère."C’est toujours un beau slogan, mais un an plus tard, c’est devenu une action.

Ce qui suit fait partie de la conversation :

Comment a commencé le premier coup de feu de la guerre des prix ?

"Sous-courant": Après la sortie du modèle DeepSeek V2, cela a rapidement déclenché une guerre sanglante des prix des modèles à grande échelle. Certaines personnes ont dit que vous étiez un poisson-chat dans l'industrie.

Liang Wenfeng: Nous ne voulions pas être un poisson-chat, nous le sommes devenus par accident.

"Undercurrent" : Ce résultat vous surprend-il ?

Liang Wenfeng : Très inattendu. Je ne m’attendais pas à ce que le prix rende tout le monde aussi sensible. Nous faisons les choses à notre rythme et calculons les prix de revient. Notre principe n’est pas de donner de l’argent ou de faire d’énormes profits. Ce prix représente également un léger bénéfice au-dessus du coût.

« Sous-courant » : Zhipu AI a suivi 5 jours plus tard, suivi de Byte, Alibaba, Baidu, Tencent et d'autres grandes entreprises.

Liang Wenfeng : Zhipu AI est un produit d'entrée de gamme, et les modèles du même niveau que le nôtre restent très chers. Byte a vraiment été le premier à suivre. Le modèle phare est tombé au même prix que le nôtre, ce qui a ensuite incité d'autres grands fabricants à baisser leurs prix. Étant donné que le coût des modèles des grands fabricants est beaucoup plus élevé que le nôtre, nous ne nous attendions pas à ce que quelqu'un perde de l'argent en faisant cela, et cela est finalement devenu la logique des subventions qui brûlent de l'argent à l'ère d'Internet.

"Sous-courant" : De l'extérieur, les baisses de prix semblent vouloir attirer les utilisateurs, ce qui est généralement le cas dans les guerres de prix à l'ère d'Internet.

Liang Wenfeng : Attirer les utilisateurs n'est pas notre objectif principal. D'une part, nous avons baissé le prix parce que nous explorons la structure du modèle de nouvelle génération, et le coût a d'abord baissé. D'autre part, nous pensons également que l'API et l'IA devraient être universelles et abordables pour tout le monde.

« Sous-courant » : Avant cela, la plupart des entreprises chinoises copiaient directement cette génération de structure Llama pour l'appliquer. Pourquoi êtes-vous parti de la structure du modèle ?

Liang Wenfeng : Si l'objectif est de réaliser des applications, alors utiliser la structure Llama et des produits courts, plats et rapides est également un choix raisonnable. Mais notre destination est AGI, ce qui signifie que nous devons étudier de nouvelles structures de modèles pour obtenir des capacités de modèle plus fortes avec des ressources limitées. Il s’agit de l’une des études de base nécessaires pour passer à un modèle plus grand. En plus de la structure du modèle, nous avons également effectué de nombreuses autres recherches, notamment sur la façon de structurer les données, sur la façon de rendre le modèle plus semblable aux humains, etc., qui se reflètent toutes dans les modèles que nous avons publiés. De plus, on estime que la structure de Llama a deux générations de retard sur les niveaux avancés étrangers en termes d'efficacité de la formation et de coût d'inférence.

"Sous-courant" : D'où vient principalement ce fossé des générations ?

Liang Wenfeng : Premièrement, il existe un écart dans l’efficacité de la formation. Nous estimons que la structure du modèle et la dynamique de formation peuvent être deux fois plus différentes entre les meilleurs modèles nationaux et les meilleurs modèles étrangers. Rien que pour cela, nous devons consommer deux fois plus de puissance de calcul pour obtenir le même effet. En outre, l’écart peut doubler en termes d’efficacité des données, ce qui signifie que nous devons consommer deux fois plus de données de formation et de puissance de calcul pour obtenir le même effet. Au total, cela consomme 4 fois plus de puissance de calcul. Ce que nous devons faire, c’est continuer à réduire ces écarts.

« Sous-courant » : la plupart des entreprises chinoises choisissent d'avoir à la fois des modèles et des applications. Pourquoi DeepSeek choisit-il actuellement de se limiter à la recherche et à l'exploration ?

Liang Wenfeng : Parce que nous pensons que le plus important désormais est de participer à la vague d'innovation mondiale. Au cours des dernières années, les entreprises chinoises ont été habituées à ce que d’autres fassent des innovations technologiques et que nous les utilisions pour monétiser leurs applications, mais ce n’est pas une évidence. Dans cette vague, notre point de départ n'est pas de profiter de l'opportunité de faire fortune, mais d'aller à la pointe de la technologie pour favoriser le développement de l'ensemble de l'écosystème.

« Sous-courant » : la perception inertielle laissée à la plupart des gens à l'ère de l'Internet et de l'Internet mobile est que les États-Unis sont bons en matière d'innovation technologique, tandis que la Chine est meilleure en matière d'applications.

Liang Wenfeng: Nous pensons qu'avec le développement économique,La Chine doit également devenir progressivement un contributeur au lieu de toujours rester un passager clandestin.Durant la vague informatique des trente dernières années, nous n’avons pratiquement pas participé à une véritable innovation technologique. Nous nous sommes habitués à ce que la loi de Moore tombe du ciel, et de meilleurs matériels et logiciels sortiront après seulement 18 mois à la maison. La loi de mise à l'échelle est également traitée de cette manière.

Mais en fait, c’est quelque chose que la communauté technologique dominée par l’Occident a travaillé sans relâche pour créer pendant des générations, simplement parce que nous n’avons pas participé à ce processus auparavant, et que nous avons donc ignoré son existence.

Le véritable écart n'est pas un ou deux ans, mais la différence entre originalité et imitation

"Undercurrent" : Pourquoi DeepSeek V2 surprendrait-il de nombreuses personnes dans la Silicon Valley ?

Liang Wenfeng : Parmi le grand nombre d’innovations qui surviennent chaque jour aux États-Unis, celle-ci est très courante.La raison pour laquelle ils ont été surpris était qu'il s'agissait d'une entreprise chinoise avecRejoignez leur jeu en tant que contributeur innovant.Après tout, la plupart des entreprises chinoises ont l’habitude de suivre plutôt que d’innover.

« Sous-courant » : Mais dans le contexte chinois, ce choix est trop extravagant. Le grand modèle est un jeu qui nécessite de lourds investissements, et toutes les entreprises ne disposent pas du capital nécessaire pour rechercher uniquement l’innovation sans d’abord envisager la commercialisation.

Liang Wenfeng : Le coût de l'innovation n'est certainement pas faible, et l'inertie passée de l'appropriationnisme est également liée aux conditions nationales passées. Mais aujourd’hui, que l’on considère la taille économique de la Chine ou les bénéfices de grandes entreprises comme Byte et Tencent, ils ne sont pas faibles dans le monde. Ce qui nous manque en matière d'innovation, ce n'est certainement pas le capital, mais le manque de confiance et le fait de ne pas savoir comment organiser une forte densité de talents pour parvenir à une innovation efficace.

« Sous-jacent » : Pourquoi les entreprises chinoises, y compris les grandes entreprises qui ne manquent pas d'argent, considèrent-elles si facilement une commercialisation rapide comme la première priorité ?

Liang Wenfeng : Au cours des trente dernières années, nous avons uniquement mis l’accent sur le gain d’argent et ignoré l’innovation. L’innovation n’est pas entièrement motivée par les entreprises, mais requiert également de la curiosité et de la créativité. Nous sommes simplement liés par l’inertie du passé, mais c’est aussi une phase.

« Sous-courant » : Mais après tout, vous êtes une organisation commerciale, pas une institution de recherche scientifique d'intérêt public. Vous choisissez d'innover et de le partager via l'open source. Où devriez-vous former un fossé ? Des innovations comme l’architecture MLA en mai seront bientôt copiées par d’autres entreprises, n’est-ce pas ?

Liang Wenfeng:exister Face aux technologies disruptives, le fossé formé par les sources fermées est de courte durée. Même si OpenAI est une source fermée, cela ne peut empêcher qu’elle soit dépassée par d’autres.Par conséquent, nous déposons de la valeur dans l’équipe. Nos collègues grandissent dans le processus, accumulent beaucoup de savoir-faire et forment une organisation et une culture capables d’innover, ce qui est notre douve.

En fait, rien n’est perdu avec l’open source et la publication de journaux. Pour le personnel technique, être suivi est un grand sentiment d'accomplissement. En fait, l’open source s’apparente plus à un comportement culturel qu’à un comportement commercial. Donner est en fait un honneur supplémentaire. Une entreprise qui fait cela aura également un attrait culturel.

« Sous-courant » : Que pensez-vous des croyants du marché comme Zhu Xiaohu ?

Liang Wenfeng: Zhu Xiaohu est cohérent, mais son style de jeu est plus adapté aux entreprises qui gagnent de l'argent rapidement. Et si vous regardez les entreprises les plus rentables aux États-Unis, ce sont toutes des entreprises de haute technologie avec une forte accumulation.

"Sous-courant" : Mais lorsqu'il s'agit de modèles à grande échelle, il est difficile d'obtenir un avantage absolu simplement en étant à la pointe de la technologie. Sur quoi pariez-vous le plus important ?

Liang WenfengCe que nous constatons, c’est que l’IA chinoise ne peut pas toujours être en mesure de suivre. On dit souvent qu'il y a un écart d'un ou deux ans entre l'IA chinoise et celle des États-Unis, mais le véritable écart réside dans la différence entre l'originalité et l'imitation. Si cela ne change pas, la Chine sera toujours un suiveur, et certaines explorations sont donc inévitables.

Le leadership de NVIDIA n'est pas seulement le fruit des efforts d'une seule entreprise, mais le résultat des efforts conjoints de l'ensemble de la communauté technologique et de l'industrie occidentales. Ils peuvent voir la prochaine génération de tendances technologiques et avoir une feuille de route en main. Le développement de l’IA en Chine nécessite également un tel écosystème. De nombreuses puces nationales ne peuvent pas se développer en raison du manque de communautés techniques de soutien et uniquement d'informations de seconde main. La Chine doit donc disposer de quelqu'un à la pointe de la technologie.

Plus d’investissement ne conduit pas nécessairement à plus d’innovation

"Undercurrent": Le DeepSeek actuel a une sorte de tempérament idéaliste depuis les débuts d'OpenAI, et il est également open source. Choisirez-vous le code source fermé à l’avenir ? OpenAI et Mistral sont tous deux passés par le processus de passage de l'open source à la source fermée.

Liang Wenfeng : Nous ne fermerons pas la source. Nous pensons qu’il est plus important de disposer d’abord d’un écosystème technique solide.

« Sous-courant » : Avez-vous un plan de financement ? Selon les médias, Huanfang envisage de se séparer et de répertorier DeepSeek de manière indépendante. Les startups d'IA de la Silicon Valley seront inévitablement liées à de grands fabricants.

Liang Wenfeng: Il n'y a pas de plan de financement à court terme. Le problème auquel nous sommes confrontés n'a jamais été l'argent, mais l'embargo sur les puces haut de gamme.

"Sous-courant" : Beaucoup de gens pensent que faire de l'AGI et faire de la quantification sont deux choses complètement différentes. La quantification peut être effectuée en silence, mais l'AGI peut nécessiter des efforts et des alliances de plus haut niveau, ce qui peut augmenter votre investissement.

Liang Wenfeng : Plus d’investissement ne produit pas nécessairement plus d’innovation. Sinon, les grands fabricants pourraient s’approprier toutes les innovations.

"Undercurrent" : Vous ne faites pas de candidatures maintenant, est-ce parce que vous n'avez pas les gènes pour opérer ?

Liang Wenfeng : Nous pensons que l’étape actuelle est une période d’explosion de l’innovation technologique, et non une période d’explosion des applications. À long terme, nous espérons former un écosystème dans lequel l'industrie utilise directement notre technologie et nos produits. Nous ne sommes responsables que des modèles de base et des innovations de pointe, puis d'autres entreprises créent des activités toB et toC basées sur DeepSeek. Si nous pouvons former une industrie complète en amont et en aval, nous n’avons pas besoin de déposer nous-mêmes des candidatures. Bien sûr, si nécessaire, rien ne nous empêche de l’appliquer, mais la recherche et l’innovation technologique resteront toujours notre première priorité.

"Undercurrent" : Mais lorsqu'il s'agit de choisir une API, pourquoi choisir DeepSeek plutôt que les grands fabricants ?

Liang Wenfeng: Le monde futur sera probablement celui d'une division spécialisée du travail. Les modèles de base à grande échelle nécessitent une innovation continue. Les grands fabricants ont leurs propres limites de capacités et ne sont pas nécessairement adaptés.

"Sous-courant" : Mais la technologie peut-elle vraiment creuser l'écart ? Vous avez également dit qu'il n'y avait pas de secrets techniques absolus.

Liang Wenfeng : Il n’y a pas de secret dans la technologie, mais la réinitialisation prend du temps et coûte cher. En théorie, les cartes graphiques de NVIDIA n'ont aucun secret technique et sont faciles à copier, mais il faut du temps pour réorganiser l'équipe et rattraper la technologie de nouvelle génération, de sorte que le fossé actuel est encore très large.

"Sous-courant" : Après avoir baissé le prix, Byte a d'abord effectué un suivi, ce qui montre qu'ils ressentent toujours une sorte de menace. Que pensez-vous de la nouvelle solution permettant aux startups de rivaliser avec les grandes entreprises ?

Liang Wenfeng : Pour être honnête, nous ne nous soucions pas beaucoup de cette affaire, nous l'avons juste fait en passant. Fournir des services cloud n'est pas notre objectif principal. Notre objectif est toujours d’atteindre l’AGI.

Je n’ai pas encore vu de nouvelles solutions, mais les grands constructeurs n’ont pas non plus d’avantage évident. Les grands fabricants ont des utilisateurs prêts à l'emploi, mais leur activité de trésorerie constitue également un fardeau, les rendant vulnérables à la subversion à tout moment.

"Undercurrent" : que pensez-vous du résultat des six startups de grande envergure en dehors de DeepSeek ?

Liang Wenfeng : Peut-être que 2 ou 3 familles survivront. Nous sommes encore dans une phase de consommation d’argent, de sorte que ceux qui ont un positionnement personnel clair et des opérations plus raffinées ont de meilleures chances de survivre. D’autres entreprises pourraient être réinventées. Les objets de valeur ne disparaîtront pas, mais ils changeront.

« Sous-jacent » : à l'ère du carré magique, l'attitude face à la concurrence était évaluée comme « suivre sa propre voie » et prêter rarement attention aux comparaisons horizontales. Concernant la concurrence, quel est le point de départ de votre réflexion ?

Liang Wenfeng : Ce que je me demande souvent, c'est de savoir si une chose peut rendre la société plus efficace et si vous pouvez trouver une position où vous êtes bon dans sa division industrielle de la chaîne du travail. Tant que le résultat final est de rendre la société plus efficace, cela est valable. Il y a de nombreuses étapes entre les deux, et une attention excessive vous donnera inévitablement le vertige.

Un groupe de jeunes qui font des choses « insondables »

"Sous-courant" : Jack Clark, ancien directeur politique d'OpenAI et co-fondateur d'Anthropic, estime que DeepSeek a embauché "un groupe de sorciers imprévisibles". Quel genre de personnes a créé DeepSeek v2 ?

Liang Wenfeng: Il n'y a pas de génies mystérieux, ce sont tous des jeunes diplômés des meilleures universités, des stagiaires titulaires d'un doctorat 4 et 5 qui n'ont pas obtenu leur diplôme, et quelques jeunes diplômés il y a seulement quelques années.

"Sous-courant" : De nombreuses grandes entreprises modèles persistent à débaucher des gens à l'étranger. Beaucoup de gens pensent que les 50 meilleurs talents dans ce domaine ne se trouvent peut-être pas dans des entreprises chinoises.

Liang Wenfeng : Il n'y a personne qui est revenu d'outre-mer dans le modèle V2, ils sont tous locaux. Les 50 meilleurs talents ne se trouvent peut-être pas en Chine, mais peut-être pouvons-nous former ces personnes nous-mêmes.

"Undercurrent" : Comment est née cette innovation MLA ? J'ai entendu dire que l'idée était née de l'intérêt personnel d'un jeune chercheur ?

Liang Wenfeng : Après avoir résumé certains changements majeurs dans l'architecture Attention, il a soudainement voulu concevoir une alternative. Cependant, le processus entre l’idée et la mise en œuvre est long. Nous avons constitué une équipe pour cela et il nous a fallu plusieurs mois pour en venir à bout.

« Undercurrent » : La naissance de cette inspiration divergente est étroitement liée à la structure de votre organisation totalement innovante. À l’ère de Magic Square, vous attribuez rarement des objectifs ou des tâches de haut en bas. Mais l’AGI, une exploration frontière pleine d’incertitudes, nécessite-t-elle davantage d’actions de gestion ?

Liang Wenfeng : DeepSeek est également entièrement ascendant. De plus, nous ne prépositionnons généralement pas la division du travail, mais plutôt la division naturelle du travail. Chacun a sa propre expérience de croissance et vient avec ses propres idées, il n’est donc pas nécessaire de les pousser. Au cours du processus d'exploration, lorsqu'il rencontre des problèmes, il invite les autres à en discuter. Mais lorsqu’une idée montre du potentiel, nous allouons les ressources de haut en bas.

"Undercurrent" : j'ai entendu dire que DeepSeek est très flexible dans la mobilisation de cartes et de personnes.

Liang Wenfeng : Chacun de nous n'a pas de limite supérieure pour le transfert de cartes et de personnes. Si vous avez une idée, chacun peut appeler à tout moment la carte du pôle de formation sans accord. Dans le même temps, comme il n'y a pas de hiérarchies ni de services transversaux, chacun peut être appelé de manière flexible tant que l'autre partie est également intéressée.

"Sous-courant" : Une méthode de gestion lâche dépend également de la sélection d'un groupe de personnes animées par un amour fort. J'ai entendu dire que vous êtes très doué pour recruter des personnes sur la base de détails et que vous pouvez sélectionner des personnes exceptionnelles sur la base d'indicateurs d'évaluation non traditionnels.

Liang Wenfeng : Nos critères de sélection des personnes ont toujours été l'amour et la curiosité, donc beaucoup de personnes vivront des expériences uniques, ce qui est très intéressant. Beaucoup de gens désirent faire de la recherche bien plus que l’argent ne les préoccupe.

"Undercurrent" : Transformer est né dans l'AI Lab de Google et ChatGPT est né dans OpenAI. Selon vous, quelle est la différence dans la valeur de l'innovation entre l'AILab d'une grande entreprise et une startup ?

Liang Wenfeng : Qu'il s'agisse de Google Labs, d'OpenAI, ou encore des AI Labs de grandes entreprises chinoises, ils sont tous précieux. En fin de compte, OpenAI a réussi, et ce fut aussi un accident historique.

"Sous-courant" : l'innovation est-elle en grande partie un accident ? Je vois que la rangée de salles de conférence au milieu de votre bureau a des portes à gauche et à droite qui peuvent être ouvertes à volonté. Vos collègues disaient que c'était pour laisser place au hasard. À la naissance de Transformer, il y a eu une histoire où des passants en ont entendu parler par hasard et y ont participé, le transformant finalement en un cadre universel.

Liang Wenfeng : Je pense que l'innovation est avant tout une question de conviction. Pourquoi la Silicon Valley est-elle si innovante ? La première est d’oser. Lorsque Chatgpt est sorti, le pays tout entier manquait de confiance dans l'innovation de pointe, des investisseurs aux grands fabricants, tout le monde pensait que l'écart était trop grand et qu'il fallait donc simplement déposer des candidatures. Mais l’innovation nécessite d’abord la confiance. Cette confiance est généralement plus prononcée chez les jeunes.

"Sous-courant" : Mais vous ne participez pas au financement, vous parlez rarement au monde extérieur et votre voix sociale n'est certainement pas aussi bonne que celle des entreprises actives dans le financement. Comment pouvez-vous vous assurer que DeepSeek est le premier choix pour. des gens qui veulent construire de grands modèles ?

Liang Wenfeng: Parce que nous faisons la chose la plus difficile.Ce qui attire le plus les meilleurs talents, c’est sans aucun doute la résolution des problèmes les plus difficiles du monde. En fait, les meilleurs talents sont sous-estimés en Chine. Parce qu’il y a trop peu d’innovations fondamentales à l’échelle sociale dans son ensemble, elles n’ont aucune chance d’être identifiées. Nous faisons la chose la plus difficile, celle qui les attire.

"Sous-courant" : La sortie d'OpenAI il y a quelque temps n'a pas attendu GPT5. Beaucoup de gens pensent que la courbe technologique ralentit manifestement, et beaucoup de gens commencent à remettre en question la loi de mise à l'échelle.

Liang Wenfeng : Nous sommes optimistes et l'ensemble de la filière semble être conforme aux attentes. OpenAI n’est pas un dieu et ne peut pas toujours être à l’avant-garde.

« Sous-courant » : Combien de temps pensez-vous qu'il faudra pour que l'AGI soit réalisée ? Avant de publier DeepSeek V2, vous avez publié la génération de code et des modèles mathématiques, et êtes également passé des modèles denses au MOE. Alors, quelles sont les coordonnées de votre feuille de route AGI ?

Liang Wenfeng : Cela peut prendre 2 ans, 5 ans ou 10 ans. Bref, cela se réalisera de notre vivant. Quant à la feuille de route, même au sein de notre entreprise, il n’y a pas de consensus. Mais nous avons parié dans trois directions. Le premier concerne les mathématiques et le code, le deuxième la multimodalité et le troisième le langage naturel lui-même. Les mathématiques et le code sont le terrain d'essai naturel pour l'AGI. C'est un peu comme Go. C'est un système fermé et vérifiable, et il est possible d'atteindre une intelligence élevée grâce à l'auto-apprentissage. D’un autre côté, l’apprentissage multimodal impliquant des humains dans le monde réel peut également être nécessaire pour l’AGI. Nous sommes ouverts à toutes les possibilités.

"Undercurrent" : À votre avis, à quoi ressemblera la fin du grand modèle ?

Liang Wenfeng : Il y aura des entreprises spécialisées fournissant des modèles et des services de base, et il y aura une longue chaîne de division professionnelle du travail. Un plus grand nombre de personnes peuvent répondre aux divers besoins de la société dans son ensemble.

Toutes les routines sont des produits de la génération précédente

« Sous-jacent » : au cours de l'année écoulée, de nombreux changements ont eu lieu dans le grand modèle d'entrepreneuriat chinois, par exemple Wang Huiwen, qui était actif au début de l'année dernière, a quitté l'entreprise à mi-mandat et les entreprises qu'il a rejointes plus tard. a commencé à montrer une différenciation.

Liang Wenfeng : Wang Huiwen a pris lui-même toutes les pertes et a laissé les autres s'en sortir indemnes. Il a fait un choix qui lui a été très préjudiciable mais qui était le meilleur pour tout le monde. C'est donc une personne très gentille que j'admire beaucoup.

« Sous-courant » : Où concentrez-vous la majeure partie de votre énergie maintenant ?

Liang Wenfeng : L'accent principal est mis sur la recherche de la prochaine génération de grands modèles. De nombreuses questions restent encore sans réponse.

"Sous-courant" : Plusieurs autres grandes startups modèles insistent pour avoir les deux. Après tout, la technologie n'apportera pas un leadership permanent. Il est également important de saisir le temps nécessaire pour mettre les avantages techniques dans les produits. parce que la capacité du modèle n'est pas suffisante ?

Liang Wenfeng : Toutes les routines sont des produits de la génération précédente et pourraient ne plus être valables à l'avenir. Utilisez la logique commerciale d’Internet pour discuter du futur modèle de profit de l’IA, tout comme lorsque Ma Huateng a lancé son entreprise, vous avez discuté de General Electric et de Coca-Cola. Il s'agit probablement d'une sorte de sculpture d'un bateau pour chercher une épée.

« Sous-jacent » : Dans le passé, Huanfang avait de forts gènes de technologie et d'innovation, et sa croissance a été relativement fluide. Est-ce pour cela que vous êtes optimiste ?

Liang Wenfeng : Magic Square a renforcé dans une certaine mesure notre confiance dans l'innovation technologique, mais ce n'est pas toujours un chemin facile. Nous avons traversé un long processus d’accumulation. Ce que nous voyons de l’extérieur, c’est la partie de Magic Square après 2015, mais en fait nous le faisons depuis 16 ans.

"Undercurrent" : Retour au thème de l'innovation originale. Maintenant que l’économie est entrée dans un ralentissement et que le capital est entré dans un cycle de froid, cela imposera-t-il davantage de contraintes à l’innovation originale ?

Liang Wenfeng : Je ne pense pas. L'ajustement de la structure industrielle de la Chine reposera davantage sur l'innovation dans les technologies fondamentales. Lorsque de nombreuses personnes découvriront que gagner rapidement de l’argent dans le passé était probablement dû à la chance du temps, elles seront plus disposées à se lancer et à innover réellement.

« Undercurrent » : Vous êtes donc également optimiste sur cette question ?

Liang Wenfeng : J'ai grandi dans une ville de cinquième rang du Guangdong dans les années 1980. Mon père est enseignant dans une école primaire. Dans les années 1990, il y avait de nombreuses opportunités de gagner de l'argent dans le Guangdong. À cette époque, de nombreux parents venaient chez moi. La plupart d'entre eux pensaient qu'étudier était inutile. Mais avec le recul, mes idées ont changé. Parce qu’il est difficile de gagner de l’argent, je n’ai peut-être même aucune chance de conduire un taxi. Cela change en une génération.

Il y aura de plus en plus d’innovations concrètes à l’avenir. Ce n’est peut-être pas facile à comprendre aujourd’hui, car l’ensemble du groupe social a besoin d’être informé des faits. Lorsque cette société permettra à des personnes innovatrices et inconditionnelles de réussir, la pensée de groupe changera.Nous avons juste besoin d'un ensemble de faits et d'un processus.