Nachricht

Enthüllung von DeepSeek: Eine extremere Geschichte des chinesischen Technologieidealismus |

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Text |. Yu Lili
Herausgeber |. Liu Jing

Unter den sieben großen Modell-Startups in China ist DeepSeek das am wenigsten bekannte, aber es bleibt immer auf unerwartete Weise in Erinnerung.

Vor einem Jahr kam diese Überraschung daher, dass der dahinterstehende quantitative Private-Equity-Riese Huan Fang als einziges Unternehmen außerhalb der großen Hersteller 10.000 A100-Chips reservierte Preiskampf um Chinas große Modelle.

Im Mai, der ständig von KI bombardiert wurde, erlangte DeepSeek Berühmtheit. Der Grund dafür ist, dass sie ein Open-Source-Modell namens DeepSeek V2 veröffentlicht haben, das eine beispiellose Kosteneffizienz bietet: Die Inferenzkosten werden auf nur 1 Yuan pro Million Token reduziert, was etwa einem Siebtel von Llama3 70B, GPT-4 One- Siebzigstel Turbo.

Während DeepSeek schnell als „Pinduoduo der KI-Branche“ bezeichnet wurde, konnten es auch große Hersteller wie ByteDance, Tencent, Baidu und Alibaba nicht ertragen und senkten nach und nach die Preise. Chinas großer Modellpreiskampf steht kurz vor dem Ausbruch.

Der Rauch der Schüsse verbirgt tatsächlich die Tatsache, dass DeepSeek im Gegensatz zu vielen großen Unternehmen, die Geld für Subventionen verbrennen, profitabel ist.

Dahinter steckt die umfassende Innovation von DeepSeek in der Modellarchitektur. Es schlägt ein brandneues MLA vor (Ein neuer potenzieller Aufmerksamkeitsmechanismus für Bullen)-Architektur, wodurch die Speichernutzung auf 5–13 % der in der Vergangenheit am häufigsten verwendeten MHA-Architektur reduziert wird. Gleichzeitig reduziert die ursprüngliche DeepSeekMoESparse-Struktur auch den Rechenaufwand auf ein Äußerstes, was letztendlich alles dazu beiträgt Reduzierung der Kosten.

Im Silicon Valley wird DeepSeek als „die mysteriöse Macht aus dem Osten“ bezeichnet. Der Chefanalyst von SemiAnalysis glaubt, dass das DeepSeek V2-Papier „das beste in diesem Jahr sein könnte“. Der ehemalige OpenAI-Mitarbeiter Andrew Carr nannte das Papier „voller erstaunlicher Weisheit“ und wandte die Trainingseinstellungen auf sein eigenes Modell an. Jack Clark, ehemaliger politischer Direktor von OpenAI und Mitbegründer von Anthropic, glaubt, dass DeepSeek „eine Gruppe unberechenbarer Zauberer beschäftigt“ und glaubt, dass in China hergestellte große Modelle „so wichtig werden wie Drohnen und Elektroautos, die nicht ignoriert werden können“. Stärke."

Dies ist eine seltene Situation in der KI-Welle, in der das Silicon Valley im Grunde die Geschichte vorantreibt.Viele Brancheninsider sagten uns:Diese starke Reaktion ist auf die Innovation auf architektonischer Ebene zurückzuführen, die ein seltener Versuch inländischer großer Modellunternehmen und sogar globaler großer Open-Source-Modelle ist. Ein KI-Forscher sagte, dass die Attention-Architektur seit vielen Jahren vorgeschlagen, aber fast nie erfolgreich geändert wurde, geschweige denn eine groß angelegte Verifizierung. „Es ist sogar eine Idee, die von der Entscheidungsfindung ausgeschlossen wird, weil es den meisten Menschen an Selbstvertrauen mangelt.“

Andererseits waren inländische Großmodelle bisher selten an Innovationen auf architektonischer Ebene beteiligt, auch weil nur wenige Menschen die Initiative ergreifen, um mit einem solchen Stereotyp zu brechen:Die Vereinigten Staaten sind bei der technologischen Innovation von 0 bis 1 besser, während China bei der Anwendungsinnovation von 1 bis 10 besser ist. Darüber hinaus ist ein solches Verhalten sehr unwirtschaftlich – eine neue Generation von Modellen wird natürlich in ein paar Monaten von jemandem produziert, und chinesische Unternehmen müssen es nur befolgen und gut anwenden. Die Erneuerung der Modellstruktur bedeutet, dass es keinen Weg gibt, dem man folgen kann, viele Misserfolge erlebt werden müssen und der Zeit- und Wirtschaftsaufwand enorm ist.

DeepSeek ist eindeutig ein Rebell. Inmitten des Geschreis, dass große Modelltechnologien unweigerlich zusammenlaufen und folgen werden, ist dies eine intelligentere Abkürzung. DeepSeek schätzt den durch die „Umwege“ angesammelten Wert und glaubt, dass Chinas große Modellunternehmer neben der Anwendungsinnovation auch an der globalen technologischen Innovation teilnehmen können der Strom.

Viele der Optionen von DeepSeek sind einzigartig. Derzeit ist es unter den sieben großen Modell-Startups in China das einzige, das den „Bedürfnis-und-Wunsch“-Weg aufgegeben hat und sich auf Forschung und Technologie konzentriert, ohne toC-Anwendungen durchzuführen. Es ist auch das einzige Das hat die Kommerzialisierung noch nicht vollständig in Betracht gezogen und sich entschieden. Es gibt Unternehmen, die noch nicht einmal Kapital auf dem Open-Source-Weg aufgenommen haben. Dadurch wird es außerhalb des Pokertisches oft vergessen, auf der anderen Seite wird es von den Nutzern in der Community jedoch oft wie „Leitungswasser“ verbreitet.

Wie wird DeepSeek hergestellt? Zu diesem Zweck haben wir Liang Wenfeng interviewt, den Gründer von DeepSeek, der selten auftritt.

Dieser Gründer der Post-80er-Jahre, der sich seit der Magic-Square-Ära hinter den Kulissen mit Technologie beschäftigt, setzt auch in der DeepSeek-Ära seinen zurückhaltenden Stil fort. Wie alle Forscher „liest er Papiere, schreibt Code und nimmt an Gruppendiskussionen teil“. täglich.

Im Gegensatz zu vielen Gründern quantitativer Fonds, die Erfahrung mit Hedgefonds im Ausland haben und hauptsächlich Physik, Mathematik usw. studieren, stammt Liang Wenfeng schon immer aus der Region und studierte in seinen frühen Jahren künstliche Intelligenz am Fachbereich Elektrotechnik der Zhejiang-Universität .

Viele Brancheninsider und DeepSeek-Forscher sagten uns, dass Liang Wenfeng eine sehr seltene Person in der aktuellen chinesischen KI-Branche sei, die „sowohl über starke Infrastruktur-Engineering-Fähigkeiten als auch Modellforschungsfähigkeiten verfügt und Ressourcen mobilisieren kann“ und „von hoher Stelle aus genaue Urteile fällen kann“. , und kann Jemand, der „im Detail besser ist als Forscher an vorderster Front“, er hat „erschreckende Lernfähigkeiten“ und gleichzeitig ist er „überhaupt nicht wie ein Chef, sondern eher wie ein Geek“.

Dies ist ein besonders seltenes Interview. Im Interview lieferte dieser technische Idealist eine Stimme, die in Chinas wissenschaftlichen und technologischen Kreisen besonders selten ist:Er ist einer der wenigen Menschen, der die „Sichtweise von richtig und falsch“ über die „Sichtweise der Interessen“ stellt, uns an die Trägheit der Zeit erinnert und „ursprüngliche Innovation“ auf die Tagesordnung setzt.

Vor einem Jahr, als DeepSeek gerade zu Ende ging, interviewten wir Liang Wenfeng zum ersten Mal: ​​„Crazy Magic Square: The Road to Large Models of an Invisible AI Giant“.Wenn Sie diesen Satz damals sagen„Man muss wahnsinnig ehrgeizig, aber auch wahnsinnig aufrichtig sein.“Es ist immer noch ein schöner Slogan, aber ein Jahr später ist daraus eine Aktion geworden.

Folgendes ist Teil des Gesprächs:

Wie begann der erste Schuss des Preiskampfs?

„Undercurrent“: Nach der Veröffentlichung des DeepSeek V2-Modells löste es schnell einen blutigen, groß angelegten Modellpreiskampf aus. Einige Leute sagten, Sie seien ein Wels in der Branche.

Liang Wenfeng: Wir wollten kein Wels sein, wir sind einfach zufällig einer geworden.

„Undercurrent“: Überrascht Sie dieses Ergebnis?

Liang Wenfeng : Sehr unerwartet. Ich hätte nicht erwartet, dass der Preis alle so sensibel machen würde. Wir erledigen die Dinge einfach in unserem eigenen Tempo und berechnen die Kosten. Unser Grundsatz besteht nicht darin, Geld zu geben oder große Gewinne zu erzielen. Auch dieser Preis liegt leicht über den Kosten.

„Undercurrent“: Zhipu AI folgte 5 Tage später, gefolgt von Byte, Alibaba, Baidu, Tencent und anderen großen Unternehmen.

Liang Wenfeng : Zhipu AI ist ein Einstiegsprodukt und Modelle auf dem gleichen Niveau wie unseres sind immer noch sehr teuer. Byte war wirklich der erste, der folgte. Das Flaggschiffmodell fiel auf den gleichen Preis wie unseres, was dann andere große Hersteller dazu veranlasste, ihre Preise zu senken. Da die Kosten für Modelle großer Hersteller viel höher sind als bei uns, hatten wir nicht damit gerechnet, dass jemand dadurch Geld verlieren würde, und am Ende wurde daraus die Logik geldverbrennender Subventionen im Internetzeitalter.

„Unterströmung“: Von außen betrachtet sehen Preissenkungen so aus, als würden sie versuchen, Nutzer zu gewinnen, was bei Preiskämpfen im Internetzeitalter normalerweise der Fall ist.

Liang Wenfeng : Nutzer zu gewinnen ist nicht unser Hauptziel. Einerseits haben wir den Preis gesenkt, weil wir die Struktur des Modells der nächsten Generation untersuchen und zunächst die Kosten gesunken sind. Andererseits sind wir auch der Meinung, dass sowohl API als auch KI universell und für jedermann erschwinglich sein sollten.

„Undercurrent“: Zuvor kopierten die meisten chinesischen Unternehmen diese Generation der Lama-Struktur direkt zur Anwendung. Warum haben Sie von der Modellstruktur ausgegangen?

Liang Wenfeng : Wenn das Ziel darin besteht, Anwendungen durchzuführen, ist die Verwendung der Lama-Struktur und kurzer, flacher und schneller Produkte ebenfalls eine vernünftige Wahl. Aber unser Ziel ist AGI, was bedeutet, dass wir neue Modellstrukturen untersuchen müssen, um mit begrenzten Ressourcen stärkere Modellfähigkeiten zu erreichen. Dies ist eine der grundlegenden Studien, die für die Skalierung auf ein größeres Modell erforderlich sind. Zusätzlich zur Modellstruktur haben wir auch viele andere Untersuchungen durchgeführt, darunter die Strukturierung von Daten, die Anpassung des Modells an Menschen usw., die sich alle in den von uns veröffentlichten Modellen widerspiegeln. Darüber hinaus wird geschätzt, dass die Struktur von Llama in Bezug auf Trainingseffizienz und Inferenzkosten zwei Generationen hinter dem Niveau ausländischer Fortgeschrittener zurückbleibt.

„Undercurrent“: Woher kommt dieser Generationenunterschied hauptsächlich?

Liang Wenfeng : Erstens gibt es eine Lücke in der Trainingseffizienz. Wir schätzen, dass die Modellstruktur und die Trainingsdynamik zwischen den besten inländischen Modellen und den besten ausländischen Modellen doppelt so unterschiedlich sein können. Allein dafür müssen wir die doppelte Rechenleistung verbrauchen, um den gleichen Effekt zu erzielen. Darüber hinaus besteht möglicherweise eine Verdoppelung der Dateneffizienzlücke, was bedeutet, dass wir doppelt so viele Trainingsdaten und Rechenleistung verbrauchen müssen, um den gleichen Effekt zu erzielen. Insgesamt verbraucht es viermal mehr Rechenleistung. Wir müssen diese Lücken weiter verringern.

„Unterströmung“: Die meisten chinesischen Unternehmen entscheiden sich für sowohl Modelle als auch Anwendungen. Warum betreibt DeepSeek derzeit nur Forschung und Erkundung?

Liang Wenfeng : Weil wir der Meinung sind, dass es jetzt am wichtigsten ist, an der Welle globaler Innovationen teilzunehmen. Chinesische Unternehmen haben sich in den letzten Jahren daran gewöhnt, dass andere technologische Innovationen hervorbringen und wir sie nutzen, um Anwendungen zu monetarisieren, aber das ist keine Selbstverständlichkeit. In dieser Welle besteht unser Ausgangspunkt nicht darin, die Chance zu nutzen, ein Vermögen zu machen, sondern an die Spitze der Technologie zu gehen, um die Entwicklung des gesamten Ökosystems voranzutreiben.

„Unterströmung“: Die träge Wahrnehmung, die den meisten Menschen im Zeitalter des Internets und des mobilen Internets bleibt, ist, dass die Vereinigten Staaten gut bei technologischen Innovationen sind, während China bei Anwendungen besser ist.

Liang Wenfeng: Wir glauben, dass mit der wirtschaftlichen EntwicklungAuch China muss nach und nach zum Beitragszahler werden, statt immer zum Trittbrettfahrer zu werden.Während der IT-Welle der letzten etwa dreißig Jahre haben wir grundsätzlich nicht an echten technologischen Innovationen teilgenommen. Wir haben uns daran gewöhnt, dass das Mooresche Gesetz vom Himmel fällt, und schon nach 18 Monaten zu Hause werden bessere Hardware und Software auf den Markt kommen. Auch das Skalierungsrecht wird auf diese Weise behandelt.

Aber in Wirklichkeit ist es etwas, woran die westlich dominierte Technologiegemeinschaft seit Generationen unermüdlich gearbeitet hat, nur weil wir vorher nicht an diesem Prozess teilgenommen haben und seine Existenz ignoriert haben.

Der wirkliche Abstand beträgt nicht ein oder zwei Jahre, sondern der Unterschied zwischen Originalität und Nachahmung

„Undercurrent“: Warum sollte DeepSeek V2 viele Menschen im Silicon Valley überraschen?

Liang Wenfeng : Unter den vielen Innovationen, die jeden Tag in den Vereinigten Staaten passieren, ist dies eine sehr häufige.Der Grund, warum sie überrascht waren, war, dass es sich um ein chinesisches Unternehmen handelteTreten Sie ihrem Spiel als innovativer Mitwirkender bei.Schließlich sind es die meisten chinesischen Unternehmen gewohnt, zu folgen und nicht innovativ zu sein.

„Undercurrent“: Aber im chinesischen Kontext ist diese Wahl zu extravagant. Das große Modell ist ein Spiel mit hohen Investitionen, und nicht alle Unternehmen verfügen über das Kapital, um nur Innovationen zu erforschen, ohne vorher über die Kommerzialisierung nachzudenken.

Liang Wenfeng : Die Innovationskosten sind definitiv nicht niedrig, und die Trägheit des Appropriationismus in der Vergangenheit hängt auch mit den nationalen Bedingungen der Vergangenheit zusammen. Aber egal, ob man sich Chinas Wirtschaftsgröße oder die Gewinne großer Unternehmen wie Byte und Tencent anschaut, sie sind weltweit nicht niedrig. Was uns an Innovationen fehlt, ist definitiv nicht Kapital, sondern mangelndes Selbstvertrauen und das Unwissen, wie man eine hohe Talentdichte organisiert, um effektive Innovationen zu erreichen.

„Undercurrent“: Warum betrachten chinesische Unternehmen, darunter große Unternehmen, denen es nicht an Geld mangelt, so leicht eine schnelle Kommerzialisierung als oberste Priorität?

Liang Wenfeng : In den letzten dreißig Jahren haben wir nur Wert darauf gelegt, Geld zu verdienen, und Innovationen ignoriert. Innovation wird nicht ausschließlich vom Geschäft vorangetrieben, sondern erfordert auch Neugier und Kreativität. Wir sind nur durch die Trägheit der Vergangenheit gebunden, aber es ist auch eine Phase.

„Undercurrent“: Aber schließlich sind Sie eine kommerzielle Organisation und keine gemeinnützige wissenschaftliche Forschungseinrichtung. Sie entscheiden sich für Innovationen und deren Verbreitung über Open Source. Wo sollten Sie einen Burggraben bilden? Innovationen wie die MLA-Architektur im Mai werden bald von anderen Unternehmen kopiert, oder?

Liang Wenfeng:existieren Angesichts disruptiver Technologien ist der Burggraben, der durch geschlossene Quellen entsteht, nur von kurzer Dauer. Auch wenn OpenAI Closed Source ist, kann es nicht verhindern, dass es von anderen überholt wird.Deshalb legen wir Wert in das Team. Unsere Kollegen wachsen dabei, sammeln viel Know-how und bilden eine Organisation und Kultur, die innovativ ist, was unser Burggraben ist.

Tatsächlich geht durch Open Source und Veröffentlichungen nichts verloren. Für technisches Personal ist es ein großes Erfolgserlebnis, wenn man ihm folgt. Tatsächlich ist Open Source eher ein kulturelles Verhalten als ein kommerzielles Verhalten. Geben ist eigentlich eine besondere Ehre. Ein Unternehmen, das dies tut, wird auch kulturell attraktiv sein.

„Undercurrent“: Was halten Sie von Marktgläubigen wie Zhu Xiaohu?

Liang Wenfeng: Zhu Xiaohu ist selbstbeständig, aber sein Spielstil eignet sich eher für Unternehmen, die schnell Geld verdienen. Und wenn man sich die profitabelsten Unternehmen in den Vereinigten Staaten ansieht, sind es alles High-Tech-Unternehmen mit hoher Akkumulation.

„Undercurrent“: Aber wenn es um Großmodelle geht, ist es schwierig, sich allein durch Technologieführerschaft einen absoluten Vorsprung zu verschaffen. Worauf wetten Sie?

Liang WenfengWas wir sehen ist, dass die chinesische KI nicht immer in der Lage sein kann, zu folgen. Wir sagen oft, dass zwischen Chinas KI und der der Vereinigten Staaten eine Lücke von ein oder zwei Jahren besteht, aber die wirkliche Lücke ist der Unterschied zwischen Originalität und Nachahmung. Wenn sich dies nicht ändert, wird China immer ein Mitläufer sein, sodass einige Erkundungen unvermeidlich sind.

Die Führungsrolle von NVIDIA ist nicht nur das Ergebnis der Bemühungen eines einzelnen Unternehmens, sondern das Ergebnis der gemeinsamen Anstrengungen der gesamten westlichen Technologie-Community und -Industrie. Sie können die Technologietrends der nächsten Generation erkennen und haben eine Roadmap in der Hand. Auch die Entwicklung der KI in China erfordert ein solches Ökosystem. Viele inländische Chips können nicht entwickelt werden, da es an unterstützenden technischen Communities und nur an Informationen aus zweiter Hand mangelt. Daher muss China jemanden haben, der an der Spitze der Technologie steht.

Mehr Investitionen führen nicht unbedingt zu mehr Innovation

„Undercurrent“: Das aktuelle DeepSeek hat eine Art idealistisches Temperament aus den Anfängen von OpenAI und ist auch Open Source. Werden Sie sich in Zukunft für Closed Source entscheiden? Sowohl OpenAI als auch Mistral haben den Prozess des Übergangs von Open Source zu Closed Source durchlaufen.

Liang Wenfeng : Wir werden die Quelle nicht schließen. Wir glauben, dass es wichtiger ist, zunächst ein starkes technisches Ökosystem zu haben.

„Undercurrent“: Haben Sie einen Finanzierungsplan? Medienberichten zufolge plant Huanfang, DeepSeek unabhängig zu gründen. KI-Startups im Silicon Valley werden am Ende unweigerlich an große Hersteller gebunden sein.

Liang Wenfeng: Es gibt keinen kurzfristigen Finanzierungsplan. Das Problem, mit dem wir konfrontiert sind, war nie das Geld, sondern das Embargo für High-End-Chips.

„Unterströmung“: Viele Leute glauben, dass AGI und Quantifizierung zwei völlig unterschiedliche Dinge sind, die im Stillen durchgeführt werden können, aber AGI erfordert möglicherweise mehr Anstrengungen und Allianzen, was Ihre Investition erhöhen kann.

Liang Wenfeng : Mehr Investitionen führen nicht unbedingt zu mehr Innovation. Andernfalls können große Hersteller alle Innovationen übernehmen.

„Undercurrent“: Sie stellen jetzt keine Anträge, liegt es daran, dass Ihnen die Gene zum Operieren fehlen?

Liang Wenfeng : Wir glauben, dass die aktuelle Phase eine explosionsartige Phase der technologischen Innovation ist, nicht eine explosionsartige Phase der Anwendungen. Langfristig hoffen wir, ein Ökosystem zu schaffen, in dem die Branche unsere Technologie und unseren Output direkt nutzt. Wir sind nur für Basismodelle und Spitzeninnovationen verantwortlich und andere Unternehmen bauen dann toB- und toC-Geschäfte auf Basis von DeepSeek auf. Wenn wir eine vollständige vor- und nachgelagerte Industrie bilden können, müssen wir keine Anwendungen selbst erstellen. Natürlich gibt es für uns bei Bedarf kein Hindernis, es anzuwenden, aber Forschung und technologische Innovation werden immer unsere erste Priorität sein.

„Undercurrent“: Aber wenn es um die Wahl der API geht, warum sollte man sich dann für DeepSeek statt für große Hersteller entscheiden?

Liang Wenfeng: Die zukünftige Welt wird wahrscheinlich eine Welt der spezialisierten Arbeitsteilung sein, die kontinuierliche Innovation erfordert. Große Hersteller haben ihre eigenen Leistungsgrenzen und sind möglicherweise nicht unbedingt geeignet.

„Undercurrent“: Aber kann Technologie die Kluft wirklich vergrößern? Sie sagten auch, dass es keine absoluten technischen Geheimnisse gibt.

Liang Wenfeng : Es gibt kein Geheimnis in der Technologie, aber das Zurücksetzen kostet Zeit und Kosten. Theoretisch haben die Grafikkarten von NVIDIA keine technischen Geheimnisse und sind leicht zu kopieren, aber es braucht Zeit, das Team neu zu organisieren und mit der Technologie der nächsten Generation Schritt zu halten, sodass der tatsächliche Burggraben immer noch sehr breit ist.

„Undercurrent“: Nachdem Sie den Preis gesenkt hatten, legte Byte zuerst nach, was zeigt, dass sie immer noch eine Art Bedrohung verspüren. Was halten Sie von der neuen Lösung für Startups, mit großen Unternehmen zu konkurrieren?

Liang Wenfeng : Um ehrlich zu sein, interessiert uns diese Angelegenheit nicht besonders, wir haben es einfach nebenbei gemacht. Die Bereitstellung von Cloud-Diensten ist nicht unser Hauptziel. Unser Ziel ist es immer noch, AGI zu erreichen.

Ich habe bisher keine neuen Lösungen gesehen, aber die großen Hersteller haben auch keinen klaren Vorteil. Große Hersteller haben fertige Benutzer, aber ihr Cashflow-Geschäft stellt auch eine Belastung dar und macht sie jederzeit anfällig für Subversion.

„Undercurrent“: Was halten Sie vom Ergebnis der sechs Großmodell-Startups außer DeepSeek?

Liang Wenfeng : Vielleicht werden 2 oder 3 Familien überleben. Wir befinden uns immer noch in der Phase der Geldverbrennung, sodass diejenigen mit einer klaren Selbstpositionierung und ausgefeilteren Abläufen bessere Überlebenschancen haben. Andere Unternehmen könnten neu erfunden werden. Wertvolle Dinge werden nicht verschwinden, aber sie werden sich verändern.

„Unterströmung“: Im Zeitalter des magischen Quadrats wurde die Haltung gegenüber der Konkurrenz als „den eigenen Weg gehen“ und kaum Beachtung horizontaler Vergleiche bewertet. Was ist der Ausgangspunkt Ihrer Überlegungen zum Thema Wettbewerb?

Liang Wenfeng : Ich denke oft darüber nach, ob eine Sache die Gesellschaft effizienter machen kann und ob man in ihrer industriellen Arbeitsteilungskette eine Position finden kann, in der man gut darin ist. Solange das Endergebnis darin besteht, die Gesellschaft effizienter zu machen, ist es gültig. Dazwischen liegen viele Phasen und übermäßige Aufmerksamkeit führt unweigerlich zu Schwindelgefühlen.

Eine Gruppe junger Menschen, die „unfassbare“ Dinge tun

„Undercurrent“: Jack Clark, ehemaliger Policy Director von OpenAI und Mitbegründer von Anthropic, glaubt, dass DeepSeek „eine Gruppe unberechenbarer Zauberer“ angeheuert hat. Was für Leute haben DeepSeek v2 gemacht?

Liang Wenfeng: Es gibt keine mysteriösen Genies, es sind alles Absolventen von Top-Universitäten, Praktikanten mit Doktortiteln 4 und 5, die noch keinen Abschluss haben, und einige junge Leute, die ihren Abschluss erst vor ein paar Jahren gemacht haben.

„Unterströmung“: Viele große Modellunternehmen werben hartnäckig Leute im Ausland ab. Viele Leute denken, dass die Top-50-Talente in diesem Bereich möglicherweise nicht in chinesischen Unternehmen sind.

Liang Wenfeng : Im V2-Modell gibt es keine Leute, die aus Übersee zurückgekommen sind, sie sind alle einheimisch. Die Top-50-Talente sind vielleicht nicht in China, aber vielleicht können wir solche Leute selbst aufbauen.

„Undercurrent“: Wie kam es zu dieser MLA-Innovation? Ich habe gehört, dass die Idee ursprünglich aus dem persönlichen Interesse eines jungen Forschers entstand?

Liang Wenfeng : Nachdem er einige Mainstream-Änderungen in der Attention-Architektur zusammengefasst hatte, wollte er plötzlich eine Alternative entwerfen. Allerdings ist es ein langer Prozess von der Idee bis zur Umsetzung. Wir haben dafür ein Team gebildet und es hat mehrere Monate gedauert, bis wir es geschafft haben.

„Undercurrent“: Die Entstehung dieser divergenten Inspiration hängt eng mit der Struktur Ihrer völlig innovativen Organisation zusammen. In der Magic Square-Ära verteilt man Ziele oder Aufgaben selten von oben nach unten. Aber erfordert AGI, eine Grenzforschung voller Unsicherheit, mehr Managementmaßnahmen?

Liang Wenfeng : DeepSeek ist auch alles von unten nach oben. Darüber hinaus setzen wir im Allgemeinen keine Arbeitsteilung voraus, sondern eine natürliche Arbeitsteilung. Jeder hat seine eigene einzigartige Wachstumserfahrung und bringt seine eigenen Ideen mit, es besteht also kein Grund, sie voranzutreiben. Wenn er während des Erkundungsprozesses auf Probleme stößt, lädt er andere ein, diese zu besprechen. Aber wenn eine Idee Potenzial zeigt, werden wir die Ressourcen von oben nach unten verteilen.

„Undercurrent“: Ich habe gehört, dass DeepSeek sehr flexibel bei der Mobilisierung von Karten und Personen ist.

Liang Wenfeng : Jeder von uns hat keine Obergrenze für die Übertragung von Karten und Personen. Wenn Sie eine Idee haben, kann jeder jederzeit ohne Genehmigung die Karte des Ausbildungsclusters aufrufen. Gleichzeitig kann durch den Wegfall von Hierarchien und Abteilungsübergängen jeder flexibel angerufen werden, solange der andere auch Interesse hat.

„Unterströmung“: Eine lockere Managementmethode hängt auch davon ab, dass Sie eine Gruppe von Menschen auswählen, die von starker Liebe angetrieben werden. Ich habe gehört, dass Sie sehr gut darin sind, Leute auf der Grundlage von Details zu rekrutieren, und dass Sie einige herausragende Leute auf der Grundlage nicht-traditioneller Bewertungsindikatoren auswählen können.

Liang Wenfeng : Unsere Kriterien bei der Auswahl von Menschen waren schon immer Liebe und Neugier, so dass viele Menschen einzigartige Erfahrungen machen werden, was sehr interessant ist. Viele Menschen wollen viel mehr recherchieren als Geld.

„Undercurrent“: Transformer wurde im AI Lab von Google geboren und ChatGPT wurde in OpenAI geboren. Was ist Ihrer Meinung nach der Unterschied im Wert von Innovationen zwischen dem AILab eines großen Unternehmens und einem Startup-Unternehmen?

Liang Wenfeng : Ob Google Labs, OpenAI oder sogar die AI Labs großer chinesischer Unternehmen, sie alle sind wertvoll. Am Ende hat OpenAI es geschafft, und es war auch ein historischer Unfall.

„Undercurrent“: Ist Innovation größtenteils ein Zufall? Ich sehe, dass die Reihe der Konferenzräume in der Mitte Ihres Bürobereichs links und rechts Türen hat, die nach Belieben aufgeschoben werden können. Ihre Kollegen sagten, dass dies dazu dienen soll, dem Zufall Raum zu lassen. Bei der Geburt des Transformers gab es eine Geschichte, in der Passanten zufällig davon hörten, mitmachten und daraus schließlich ein universelles Framework machten.

Liang Wenfeng : Ich denke, Innovation ist zuallererst eine Frage des Glaubens. Warum ist Silicon Valley so innovativ? Das erste ist, sich zu trauen. Als Chatgpt herauskam, mangelte es dem ganzen Land an Vertrauen in Spitzeninnovationen, von Investoren bis hin zu großen Herstellern, jeder hatte das Gefühl, dass die Lücke zu groß sei, also sollten sie einfach Anträge stellen. Aber Innovation erfordert zunächst Vertrauen. Dieses Selbstvertrauen ist bei jüngeren Menschen normalerweise stärker ausgeprägt.

„Undercurrent“: Aber Sie beteiligen sich nicht an der Finanzierung, sprechen selten mit der Außenwelt und Ihre soziale Stimme ist definitiv nicht so gut wie die der Unternehmen, die im Bereich Finanzierung aktiv sind. Wie können Sie sicherstellen, dass DeepSeek die erste Wahl ist? Leute, die große Modelle bauen wollen?

Liang Wenfeng: Weil wir das Schwierigste machen.Was Top-Talente am meisten anzieht, ist definitiv die Lösung der schwierigsten Probleme der Welt. Tatsächlich werden Top-Talente in China unterschätzt. Da es auf der gesamten gesellschaftlichen Ebene zu wenige Kerninnovationen gibt, haben diese keine Chance, identifiziert zu werden. Wir machen das Schwierigste, was für sie attraktiv ist.

„Undercurrent“: Die Veröffentlichung von OpenAI hat vor einiger Zeit nicht auf GPT5 gewartet. Viele Leute denken, dass sich die Technologiekurve offensichtlich verlangsamt, und viele Leute beginnen, das Skalierungsgesetz in Frage zu stellen.

Liang Wenfeng : Wir sind optimistisch und die gesamte Branche scheint den Erwartungen zu entsprechen. OpenAI ist kein Gott und kann nicht immer an vorderster Front stehen.

„Undercurrent“: Wie lange wird es Ihrer Meinung nach dauern, bis AGI realisiert ist? Vor der Veröffentlichung von DeepSeek V2 haben Sie Codegenerierung und mathematische Modelle veröffentlicht und sind auch von dichten Modellen auf MOE umgestiegen. Was sind also die Koordinaten Ihrer AGI-Roadmap?

Liang Wenfeng : Es kann 2 Jahre, 5 Jahre oder 10 Jahre dauern, kurz gesagt, es wird zu unseren Lebzeiten realisiert. Was die Roadmap betrifft, gibt es selbst innerhalb unseres Unternehmens keinen Konsens. Aber wir haben in drei Richtungen gewettet. Das eine ist Mathematik und Code, das zweite ist Multimodalität und das dritte ist die natürliche Sprache selbst. Mathematik und Code sind das natürliche Testgelände für AGI. Es ist ein geschlossenes und überprüfbares System, und es ist möglich, durch Selbstlernen eine hohe Intelligenz zu erreichen. Andererseits kann für AGI auch multimodales Lernen notwendig sein, das Menschen in die reale Welt einbezieht. Wir sind offen für alle Möglichkeiten.

„Undercurrent“: Wie wird Ihrer Meinung nach das Ende des großen Modells aussehen?

Liang Wenfeng : Es wird spezialisierte Unternehmen geben, die Basismodelle und Basisdienstleistungen anbieten, und es wird eine lange Kette professioneller Arbeitsteilung geben. Mehr Menschen können die vielfältigen Bedürfnisse der gesamten Gesellschaft erfüllen.

Alle Routinen sind Produkte der vorherigen Generation

„Undercurrent“: Im vergangenen Jahr gab es viele Veränderungen in Chinas großem Modellunternehmertum. Beispielsweise zog sich Wang Huiwen, der Anfang letzten Jahres aktiv war, mittelfristig aus dem Unternehmen zurück und trat später bei begann sich zu differenzieren.

Liang Wenfeng : Wang Huiwen nahm alle Verluste selbst auf sich und ließ andere unversehrt davonkommen. Er hat eine Entscheidung getroffen, die für ihn selbst am schädlichsten, aber für alle die beste war. Deshalb ist er ein sehr freundlicher Mensch, den ich sehr bewundere.

„Undercurrent“: Worauf konzentrieren Sie jetzt den größten Teil Ihrer Energie?

Liang Wenfeng : Der Schwerpunkt liegt auf der Erforschung der nächsten Generation großer Modelle. Es gibt noch viele unbeantwortete Fragen.

„Undercurrent“: Mehrere andere große Modell-Startups bestehen darauf, dass die Technologie keine dauerhafte Führung bringt. Es ist auch wichtig, das Zeitfenster zu nutzen, um sich auf die Modellforschung zu konzentrieren Liegt es daran, dass die Modellfähigkeit nicht ausreicht?

Liang Wenfeng : Alle Routinen sind Produkte der vorherigen Generation und gelten möglicherweise in Zukunft nicht mehr. Nutzen Sie die Geschäftslogik des Internets, um das zukünftige Gewinnmodell der KI zu diskutieren, so wie Sie, als Ma Huateng sein Unternehmen gründete, über General Electric und Coca-Cola diskutierten. Es ist wahrscheinlich eine Art, ein Boot zu schnitzen, um ein Schwert zu suchen.

„Undercurrent“: In der Vergangenheit verfügte Huanfang über starke Technologie- und Innovationsgene und sein Wachstum verlief relativ reibungslos. Sind Sie deshalb optimistisch?

Liang Wenfeng : Magic Square hat unser Vertrauen in technologiegetriebene Innovationen in gewissem Maße gestärkt, aber der Weg verläuft nicht immer reibungslos. Wir haben einen langen Akkumulationsprozess durchlaufen. Was wir von außen sehen, ist der Teil des Magic Square nach 2015, aber tatsächlich machen wir das schon seit 16 Jahren.

„Undercurrent“: Zurück zum Thema der ursprünglichen Innovation. Wird die Wirtschaft, nachdem sie in einen Abschwung eingetreten ist und das Kapital in einen kalten Kreislauf eingetreten ist, noch mehr Einschränkungen für die ursprüngliche Innovation mit sich bringen?

Liang Wenfeng : Das glaube ich nicht. Die Anpassung der Industriestruktur Chinas wird stärker auf Innovationen in Kerntechnologien basieren. Wenn viele Menschen entdecken, dass schnelles Geld in der Vergangenheit wahrscheinlich dem Glück der Zeit zu verdanken war, werden sie eher bereit sein, sich darauf einzulassen und echte Innovationen voranzutreiben.

„Undercurrent“: Sie sind also auch in dieser Sache optimistisch?

Liang Wenfeng : Ich bin in den 1980er Jahren in einer fünftklassigen Stadt in Guangdong aufgewachsen. Mein Vater ist Grundschullehrer. In Guangdong gab es damals viele Möglichkeiten, Geld zu verdienen. Die meisten von ihnen hielten das Lernen für nutzlos. Aber wenn ich jetzt zurückblicke, haben sich meine Vorstellungen geändert. Da es schwierig ist, Geld zu verdienen, habe ich vielleicht sogar keine Chance, ein Taxi zu fahren. Das ändert sich in einer Generation.

In Zukunft wird es immer mehr Kerninnovationen geben. Es ist jetzt vielleicht nicht leicht zu verstehen, weil die gesamte soziale Gruppe über die Fakten aufgeklärt werden muss. Wenn diese Gesellschaft hartgesottenen, innovativen Menschen ermöglicht, erfolgreich zu sein, wird sich das Gruppendenken ändern.Wir brauchen nur eine Reihe von Fakten und einen Prozess.