Der KI-Chip-Veteran von Google startet sein Geschäft mit einem Jahreseinkommen von fast 500 Millionen und landet im Qianka Intelligent Computing Center

2024-08-07

„Ich hoffe, dass unsere Produkte der nächsten Generation dies wiederholen könnenIm Vergleich zur aktuellen NVIDIA B200Fortgeschrittenere Produkte…“

Dies ist das neueste „kleine Ziel“, das Yang Gongyifan, Gründer und CEO von Zhonghao Xinying, einem Startup für KI-Trainingschips, Xinying kürzlich mitgeteilt hat.Yang Gongyifan ist ein erfahrener Chip-F&E-Veteran. Er ist seit mehr als zehn Jahren in der Forschung und Entwicklung von High-End-Chips bei Unternehmen wie Oracle und Google tätig und war Mitglied des Chip-F&E-KernteamsGoogle TPU 2/3/4Design und Forschung und Entwicklung kehrten Ende 2018 nach China zurück, um ein komplettes Team für Chipdesign und Prototypenverifizierung zu bilden, und gründeten 2020 Zhonghao Xinying.

Ihm zufolge im Jahr 2023 Zhonghao XinyingErstmals positive Gewinne erzielenDer der Muttergesellschaft zuzurechnende Nettogewinn erreichte 81,33 Millionen Yuan und der Jahresgewinn erreichte bisher insgesamt 485 Millionen Yuan5Finanzierungsrunden;DasDer selbst entwickelte TPU-Trainingschip „Snap“ ist in Massenproduktion gegangen, bei dem die Rechenleistung des Trainingsmodells „Snap“ die von NVIDIA A100 erreichtFast das 1,5-fache .Zhonghao Xinying nutzt den KI-Trainingschip „Snap“ als Eckpfeiler und baut mithilfe der Hochgeschwindigkeits-Inter-Chip-Verbindungsfähigkeiten von 1.024 Chips einen großen KI-Intelligent-Computing-Cluster „Taize“ auf.Die Rechenleistungsskala des Kilocard-Clusters erreicht 200PFLOPS。

▲Zhonghao Xinying KI-Trainingschip „Snap“

Anders als die GPU, die derzeit den KI-Chipmarkt dominiert, wählt Yang Gongyifan die speziell für Deep Learning entwickelte TPU-Architektur: „Die TPU-Architektur ist eine natürlich vorteilhafte Architektur für große KI-Modelle.“ Mit dem gleichen Produktionsprozess und dem gleichen Prozess wird die drei- bis fünffache Leistung der herkömmlichen GPU-Architektur erreicht.“

Yang Gong Yifan sagte, dass Zhonghao Xinying sich derzeit aufhältDer einzige im Land, der das hatTPUIntegrierte Architekturausbildung und -förderungKIUnternehmen für Chip-Kerntechnologie . Er prognostiziert, dass in den nächsten 5-10 JahrenTPUund KlasseTPUDer Marktanteil der Architektur wird erreicht80%,Der Rest10%-20%Es ist TraditionGrafikkarte。

Zhonghao Xinying fördert nicht nur die Forschung und Entwicklung sowie die Implementierung von KI-Chips, sondern hat auch selbst ein vorab trainiertes großes Modell entwickelt, das „starre“ Ausgabefunktionen bereitstellen kann, das schließlich Partnern in den Bereichen Finanzen, medizinische Versorgung und Bildung zugänglich gemacht wird , etc. zur Umsetzung professioneller Großmodelle im vertikalen Einsatz.

KI-Chips sind bekanntermaßen ein geldverbrennendes Langstreckenrennen. Wie kann Zhonghao Xinying in fünf Jahren profitabel sein? Warum entwickelt es als Chip-Startup eigene große Modelle und baut ein eigenes intelligentes Rechenzentrum und wie will es sich von der immer härter werdenden Konkurrenz um heimische KI-Chips abheben? Kürzlich führte Yang Gongyifan, Gründer und CEO von Zhonghao Xinying, ein ausführliches Gespräch mit Xinying Xinying, in dem er alle Gedanken und Entscheidungen im unternehmerischen Prozess sowie die Analyse und Beurteilung von Technologieentwicklungs- und Geschäftsimplementierungstrends teilte.

▲ Yang Gongyifan, Gründer und CEO von Zhonghao Xinying

1. Mehr als 10 Jahre Erfahrung in der Chip-Forschung und -Entwicklung, stark in die TPU-Forschung und -Entwicklung von Google eingebunden, kehrten 2018 nach China zurück, um ein Unternehmen zu gründen

Yang Gongyifans mehr als 10-jährige Erfahrung im High-End-Chip-Bereich legte den Grundstein für die richtige unternehmerische Ausrichtung.

Nach seinem Master-Abschluss in Informatik an der Stanford University beteiligte sich Yang Gongyifan an der Entwicklung und Produktion von 12 Hochleistungs-CPUs der Spitzenklasse, darunter SPARCT8/M8 bei Oracle Corporation. Darüber hinaus verfügt er über die Erfahrung in der erfolgreichen Band-Entwicklung. mehr als zehnmal raus.

▲Relevante Artikel, die Yang Gongyifan während seiner Zeit bei Oracle veröffentlicht hat (Quelle: IEEE Xplore)

Sein Einstieg bei Google im Jahr 2017 legte den Grundstein für seine Rückkehr nach China, um in Zukunft ein Unternehmen zu gründen.

Während seiner Zeit bei Google war Yang Gongyifan als Mitglied des Chip-F&E-Kernteams am Design und der Forschung und Entwicklung von TPU 2/3/4 beteiligt. Er erwähnte, dass es die Erfahrung der letzten zehn Jahre war, die es ihnen ermöglichte, Forschung auf der Grundlage der Datenverarbeitung durchzuführen Anforderungen von Anwendungen und Rechenmodellen Nach der besten Optimierung wurde TPU 2/3/4 erfolgreich entwickelt.

Im Juni 2017 veröffentlichten acht Co-Autoren von Google ein Meisterwerk mit dem Titel „Attention is All You Need“, bei dem es sich um ein revolutionäres, auf TPU trainiertes System handelt.Transformator Die Architektur wird auf die Spitze getrieben, was den Beginn der Popularität der Transformer-Architektur in der Forschung großer Modelle darstellt. Gleichzeitig ist Yang Gongyifan der Ansicht, dass große Modelle nach und nach mit menschlicher Intelligenz ausgestattet werden und TPU einen großen Einfluss auf die industrielle Entwicklung haben wird. Er ist fest davon überzeugt, dass große Modelle den Menschen ersetzen und in den Jahren 2025 und 2026 zum Kern der gesellschaftlichen Produktivität werden werden.

▲Google TPU-Architektur (Quelle: YouTube)

Yang Gongyifan glaubt, dass die Transformation des Computerbereichs durch große Modelle diesmal die größte Veränderung in der Geschichte der Menschheit darstellt. Da alle vorherigen Berechnungen auf einem Chip durchgeführt wurden, um eine einzelne oder mehrere Anwendungen abzuschließen, werden jetzt zum ersten Mal Tausende von Chips verwendet, um eine einzelne Anwendung abzuschließen, was große Probleme bei der Implementierung der gesamten Computerarchitektur mit sich bringt es ist eine Chance.

Er glaubt, dass es selten vorkommt, dass es eine so große Herausforderung, eine so große Veränderung und so viele Anwendungsszenarien gibt, also muss er es tun. Basierend auf diesem Verständnis kehrte er Ende 2018 nach Shenzhen zurück, bildete ein Team zum Bau eines im Inland hergestellten, unabhängig steuerbaren TPU-KI-Trainingschips und gründete 2020 offiziell Zhonghao Xinying.

Dies war auch der Beginn seiner ersten unternehmerischen Erfolgsgeschichte.2019Im Jahr 2016 sahen wir, dass der Simulator fertiggestellt war, lief und gut funktionierte, was bewies, dass das Chipdesign machbar war.

In den frühen Tagen der Unternehmensgründung bestand die Idee von Yang Gong Yifan darin, zunächst ein Team zu bilden, das Produkte herstellen konnte. Daher landete das erste Team in Shenzhen, gründete ein Chip-Design-Team und ein Prototyp-Verifizierungsteam und vervollständigte den modularen Chip-Design. Danach landete Zhonghao Xinying im Jahr 2020 in Hangzhou. Mit Produktwerbung, Finanzierungseintritt und Chip-Massenproduktion gründeten sie ein komplettes Lieferketten- und Marketingteam. Derzeit umfasst die Teamgröße mehr als 170 Personen, darunter F&E-Personal Der Anteil liegt bei über 80 %.

Doch die Anfangsphase der Unternehmensgründung verlief nicht reibungslos. Zu dieser Zeit erkannten die meisten inländischen Akteure, Investmentinstitute und Kunden die zukünftigen Entwicklungs- und Anwendungsaussichten großer Modelle in der Branche nicht. Laut Yang Gongyifans Erinnerung hatte Zhonghao Xinying in den frühen Tagen seiner Gründung überhaupt kein Einkommen für zwei Jahre, und erst 2021 wurde der erste Betrieb im Jahr 2023 offiziell profitabel. Im Jahr 2023 wird der Umsatz des Unternehmens 485 Millionen Yuan erreichen, wobei der Nettogewinn der Muttergesellschaft 81,33 Millionen Yuan beträgt.

Derzeit hat Zhonghao Xinying fünf Finanzierungsrunden abgeschlossen, und der offengelegte Finanzierungsbetrag umfasst2022Jahr9in Monaten abgeschlossenADie Finanzierungsrunde beläuft sich auf etwa 100 Millionen Yuan und wird von Saizhi Bole Investment geleitet, unter Beteiligung von Hangzhou High-tech Investment und anderen;2023In aufeinanderfolgenden Jahren abgeschlossenVor-BUndVorstufe B+Finanzierungsrunden im Wert von Hunderten Millionen bzw. mehreren zehn Millionen Yuan.

Nach Ansicht von Yang Gongyifan gliedert sich die Anerkennung der Investoren in mehrere Phasen. In der frühen Phase konzentrieren sie sich auf das Team, mittelfristig konzentrieren sie sich darauf, ob ihre Produkte der Marktnachfrage entsprechen, und in der späteren Phase konzentrieren sie sich darauf davon, ob die Produkte eine zentrale Wettbewerbsfähigkeit und die neue Expansionsrichtung der Branche aufweisen. Ganz gleich, ob es um Produktlayout, technische Routenauswahl oder Teamintegrität geht, Zhonghao Xinying ist nicht bei jedem Schritt ins Hintertreffen geraten.Derzeit hat sich Zhonghao Xinying zum einzigen Unternehmen im Land entwickelt, das dies beherrschtTPUIntegrierte Architekturausbildung und -förderungKIEin Unternehmen mit Chip-Core-Technologie.

zwei,TPU ist natürlich an große Modelle angepasst,Die Leistung des KI-Trainingschips ist 1,5-mal so hoch wie die des A100

“Lassen Sie die Rechenleistung zur treibenden Kraft für die menschliche Entwicklung werden”Das Geschäftslayout von Zhonghao Xinying orientiert sich an dieser Vision.

Yang Gongyifan erklärte, dass das erste, was getan werden muss, um dieses Ziel zu erreichen, darin besteht, zuerst den Chip herzustellen, da es sich um die niedrigste Infrastruktur handelt. Nachdem die zugrunde liegende Infrastruktur fertiggestellt ist, kann der Chip in eine vollständige Lieferkette integriert werden, um sicherzustellen, dass die Infrastruktur dies kann Kontinuierliche Versorgung der Produktion.

Auf der anderen Seite gibt es ökologische Partner, die Branchenmodelle auf Algorithmenebene umsetzen. Die Rolle von Zhonghao Xinying besteht dabei darin, große Modelle selbst zu erforschen und vorab zu trainieren und sie dann für Industriepartner wie Finanzen, Bildung und medizinische Versorgung zu öffnen.

Im Zeitalter großer ModelleTPUUndTransformatorDie Architektur ist selbstverständlich anpassungsfähig.

Im Vergleich zuCPUDie skalare Berechnungseinheit in undGrafikkarteDie Vektorberechnungseinheit inTPURechenaufgaben können mit zweidimensionalen oder sogar höherdimensionalen Recheneinheiten erledigt werden.TPUDas Design erleichtert die Implementierung von Kilokarten-Clustern und die Verbindung1024Ein Chip wird32×32Eine zweidimensionale Matrix ermöglicht es jedem Chip, 100 % Symmetrie mit jedem Chip im gesamten Netzwerk zu erreichen.

Er fügte hinzu,TPU Die Architektur ist für Deep-Learning-Lösungen optimiert und kann auch für groß angelegte Deep-Learning-Berechnungen wie Intelligent Computing Network und Wanka Internet verwendet werden.Yang Gong Yifan sagte jedochTPUDie Leistung ist in Bezug auf die Vielseitigkeit relativ schlecht, aber in Bezug aufKIIm Anwendungsszenario, unter dem gleichen Produktionsprozess und der gleichen Technologie,TPUArchitekturleistung ist traditionellGrafikkartevon3-5mal.

gegründet5 Im Jahr 2018 gelang Zhonghao Xinying die Massenproduktion und Industrialisierung von Chips im Handumdrehen.Dies war sein zweiter Erfolg, als das Forschungs- und Entwicklungsteam die ganze Nacht wach blieb“aufleuchten”Der Prozess der Produktüberprüfung ist ihm noch frisch in Erinnerung.

Im Vergleich zu NVIDIAA100, entwickelt von Zhonghao XinyingGPTPU-KITrainingschip“Moment”Die Rechenleistung ist überzeugend1.5Mal wird der Energieverbrauch reduziert, wenn die gleiche Menge an Trainingsaufgaben erledigt wird.30%, die Kosten für die Rechenleistung pro Einheit betragen42%。

„Taize“KIDer Server ist ausgestattet mit8 Ein „Moment“-Trainingschip kann das Training und die Schlussfolgerung großer Modelle mit über 100 Milliarden Parametern unterstützen.Yang Gong Yifan gab bekannt, dass die Kunden von Zhonghao Xinying die Produkte, die während der aktuellen Schulungsphase geliefert wurden, abgeschlossen habenLama 2Training und Inferenz anderer Modelle auf dem Kcal-Cluster.

“Moment”Mit einem einzigartigen Gundam1024Die Fähigkeit einer Hochgeschwindigkeits-Chip-zu-Chip-Verbindung zum Aufbau großer intelligenter Computercluster“Tainori”Die Leistung des Systemclusters ist traditionellGrafikkarteDutzende Male davonKIRechenanforderungen.

Zhonghao Xinying kann machenTPU Ein weiterer wichtiger Punkt des Chips ist, dass Yang Gongyifan sagte, dass sie bei der Rekrutierung von Ingenieuren keinen Empirismus anwenden.Er sagte, als man zu Beginn des Designprozesses mit erfahrenen Ingenieuren zusammenarbeitete, stellte man fest, dass diese Ingenieure den Designprozess nicht verstehen konntenTPUKonzept- und Designinnovationen sind eher an wiederholte Erfahrungen gebunden und nicht in der Lage, direkter zu denken, um Probleme schnell zu lösen und die Leistung zu optimieren.

Angesichts der Nachfrage nach größerer Rechenleistung im Zeitalter großer Modelle fügte er hinzu, dass Wanka-Cluster verfügbar sein müssenTPUDer natürliche Vorteil der Architektur bei den Netzwerkfähigkeiten führt dazu, dass sie mehr Vorteile beim Aufbau von Wanka-Clustern bietet und eine bessere relative Leistung aufweist.

3. Beim Eintritt in die große Modellbahn vor dem Training könnte die Marktgröße der TPU-ähnlichen Architektur 80 % erreichen

Letztes Jahr stellte Zhonghao Xinying auch Top-Talente vor, um ein großes Team für Modellalgorithmen zu bilden.

Die einzigartige Leistung der TPU-Architektur kann die Freiheit der in Unternehmensanwendungen verwendeten Software erhöhen und die Vervollständigung des parallelen Designs erleichtern, wodurch eine Leistungsoptimierung und Systemkonstruktion erreicht wird.

Um Lösungen zu finden, die besser auf die Bedürfnisse von Unternehmen zugeschnitten sind, können Chiphersteller ihre eigenen Modelle trainieren, um die Modelleigenschaften und Anwendungsszenarien besser zu verstehen und die Kundenzufriedenheit und Loyalität gegenüber den Chips zu erhöhen. Aktuelle Allzweck-Großmodellprodukte verfügen im Allgemeinen über starke „flexible“ Funktionen wie Textverständnis, Internet-Informationsabruf und Mehrrundendialog. Bei hochprofessionellen industriellen Anwendungsszenarien ist es jedoch oft schwierig, Geschäftswissen in Unterteilungen zu verstehen Gleichzeitig ist die Genauigkeit der quantitativen Berechnungen allgemeiner großer Modelle schlecht, und die vorhandenen Rechenkapazitäten sind völlig nicht in der Lage, Industrieanwendungsszenarien zu erfüllen, die eine hohe numerische Genauigkeit erfordern, wie z. B. die Zivilluftfahrt und das Finanzwesen.

Auf dieser Grundlage erstellt Zhonghao Xinying ein grundlegendes großes Modell mit „starren“ Ausgabefunktionen und stellt das grundlegende große Modell als Open-Source-Lösung für Finanz-, Bildungs-, Medizin- und andere Industriepartner zur Zusammenarbeit zur Verfügung, sodass Industriepartner eine Modellsekundierung basierend auf dem durchführen können Software-Stack und entsprechende Daten ermöglichen es dem Modell, über branchenspezifische Wissensreserven zu verfügen und schrittweise in unterteilte Szenarien implementiert zu werden, um bestimmte Produktionsumgebungen zu ersetzen.

Seit letztem Jahr untersuchen sie, wie die Demo implementiert werden kann. Nachdem sie die Machbarkeit erkannt hatten, begannen sie in diesem Jahr schrittweise mit der Vorschulung von Branchenmodellen.

Yang Gongyifan geht davon aus, dass angesichts eines derart umfassenden Geschäftslayouts und der Beurteilung von Branchentrends im Zeitalter großer Modelle in den nächsten 5 bis 10 Jahren der Marktanteil von TPU und TPU-ähnlichen Chips im Bereich der KI-Computerhardware erreicht werden wird 80 % und die restlichen 20 % sind herkömmliche GPUs.

Er erläuterte auch die Ziele von Zhonghao Xinying bei der Produktiteration und -vermarktung. Es wird erwartet, dass die von Zhonghao Xinying entwickelten Chipprodukte der nächsten Generation den Benchmark der NVIDIA B200-Leistung erreichen. Im Hinblick auf die Kommerzialisierung hofft das Unternehmen, die Zusammenarbeit mit einem breiteren Kundenkreis wie Integratoren, Betreibern und großen Internetherstellern zu vertiefen.

Fazit: Die Chance für eine Explosion des Marktes für TPU-Architekturen ist gekommen

Seit seiner Gründung im Jahr 2018 hat Zhonghao Xinying die Entwicklung von KI-Chips von den frühen Stadien der Marktentwicklung bis hin zur Opportunitätsphase, in der große Modelle die Marktnachfrage entfachten, miterlebt. Doch rückblickend musste sich ein Startup zu Beginn des KI-Chip-Marktes verschiedenen Herausforderungen stellen, wenn es mit der TPU-Architektur nach und nach Marktanteile erobern wollte.

Heutzutage haben große Modelle zu einem Anstieg der Nachfrage nach Rechenleistung geführt, KI-Chips sind in eine neue Ära eingetreten und die Vorteile der TPU-Architektur sind zum Vorschein gekommen, was auch dazu geführt hat, dass Zhonghao Xinyings Erwartungen an die Möglichkeit einer Marktexplosion früher als geplant gestiegen sind. Yang Gongyifan sagte, dass er glaubt, dass die Anwendungsszenarien der KI alle bisherigen Computernutzungsszenarien weit übertreffen werden und dass die für KI-Modelle erforderlichen Computerressourcen auch die Vorstellungskraft der Computerressourcen in der Geschichte der Menschheit übertreffen werden. Dies macht die Anwendungsszenarien der TPU-Architektur aus. Die Marktnachfrage wird kurzfristig rasch zunehmen.

Für die Zukunft hofft er, dass Zhonghao Xinying führend in Chinas KI-Chip-Industrie werden kann, und TPU hat die besten Chancen, in diesem Bereich etwas Ähnliches wie „x86“ zu werden. Ein neues Kapitel in Chinas KI-Chip-Geschichte hat begonnen …

Während des Global AI Chip Summit 2024, der vom 6. bis 7. September dieses Jahres stattfand, wird Yang Gongyifan...

Nachricht