Nachricht

Zhongke Jiahe durchbricht die ökologische Insel und bringt inländische heterogene native KI-Rechenleistungswerkzeuge auf den Markt

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Maschinenherzbericht

Autor: Zenan

„Mit Hilfe von Systemoptimierungssoftware wird die Entwicklungsschwelle gesenkt, verschiedene Hardware vereinheitlicht und die technologische Ökologie weiterentwickelt. Dies ist von großer Bedeutung für den Fortschritt der aktuellen intelligenten Ökologie“, sagte der Akademiker der Sun Ninghui, Vorsitzender des Ausschusses und Vorsitzender des CCF, hielt auf der Pressekonferenz eine Rede. „Zusätzlich zu Smart Chips und KI-Industrieanwendungen brauchen wir Parteien zur Systemsoftwareoptimierung, die sich zusammenschließen und zusammenarbeiten, damit wir das heimische Ökosystem verbessern können.“



Akademiker Sun Ninghui bei der Pressekonferenz

Angesichts des Problems der „steckengebliebenen“ Rechenleistung haben wir endlich eine Lösung auf Systemebene.

Am 20. Juli veröffentlichte das KI-Infrastruktur-Startup Zhongke Jiahe offiziell die erste Generation heterogener nativer KI-Computing-Tools.

Angesichts des aktuellen Trends zur groß angelegten Implementierung inländischer Rechenleistung kann die von Zhongke Jiahe vorgeschlagene Methode die Parallelisierung verschiedener Arten von Chips in großem Maßstab bei gleichzeitiger Maximierung der Effizienz ermöglichen und Benutzern von Rechenleistung den direkten Zugriff auf die Rechenleistung ermöglichen Achten Sie auf die unterschiedliche Chip-Ökologie.

Cui Huimin, Gründer und CEO von Zhongke Jiahe, veröffentlichte und stellte vor, dass „heterogene native KI-Rechenleistungstools von Jiahe“ bereits eine gewisse Rolle in der KI-Infrastruktur der heimischen Rechenleistung gespielt haben. Es ist mit einer Vielzahl heimischer KI-Chips kompatibel und bietet eine leistungsstarke einheitliche Schnittstelle zur Abschirmung von Chipunterschieden.Auf der Grundlage heterogener nativer Plattformen haben KI-Rechenleistungscluster die Leistung bei der Argumentation großer Modelle verbessert.Die Latenz kann um das 3- bis 74-fache reduziert, der Durchsatz um das 1,4- bis 2,1-fache erhöht, die Energieeffizienz um das 1,46-fache verbessert werden und kann dichte große Modelle mit 340B-Parametern und große MoE-Modelle mit 640B unterstützen

Gleichzeitig hat Zhongke Jiahe mehr als zehn Kunden, darunter Chips, Integratoren, Dienstanbieter usw., leistungsstarke Argumentationsunterstützung bereitgestellt. Seine Architektur unterstützt inländische und ausländische Mainstream-Großmodelle und kann diversifizierte parallele Argumentation durchführen.

Zu den auf der Pressekonferenz bekannt gegebenen Rechenleistungsanbietern und Anwendungspartnern gehören: AMD, Boyd, Huawei, Hangzhou Artificial Intelligence Computing Center, Open Transun, Moore Thread, Qingyun Technology, Rise VAST, Suiyuan Technology und Wuwenxin Qiong, Yunxi Hashrate, Xinhua San usw. (in alphabetischer Reihenfolge nach Pinyin sortiert).



Cui Huimin, Gründer und CEO von Zhongke Jiahe, bei der Pressekonferenz

Heterogene native KI-Rechenleistung mit dem Ziel, „drei Null und eins hoch“ zu erreichen.

Der von Zhongke Jiahe vorgeschlagene Plan zielt darauf ab, die Anwendung großer KI-Modelle zu ermöglichenErzielen Sie eine Migration ohne Kosten, eine verlustfreie Nutzung und eine effiziente Nutzung der verzögerungsfreien Bereitstellung auf verschiedenen Chips

Dieser Satz von Softwaretools umfasst drei Produkte: die heterogene native große Modell-Inferenz-Engine „SigInfer“, die heterogene native Feinabstimmungs-Engine „SigFT“ und das automatische Operator-Generierungs- und Übersetzungstool „SigTrans“.

Unter ihnen ist SigInfer, das gestern veröffentlicht wurde, eine plattformübergreifende, leistungsstarke heterogene native Inferenz-Engine, die nicht nur KI-Beschleunigerkarten auf Serverebene, sondern auch GPUs auf Verbraucherebene unterstützt. Daher kann es in Rechenzentren eingesetzt werden und verschiedene Endgeräte beschleunigen.



Als technische Basis für heterogenes Computing können unterschiedliche KI-Rechenleistungen, auf die über SigInfer zugegriffen wird, einheitliche Aufrufschnittstellen und eine reibungslose Migration von Geschäftsanwendungen erreichen. SigInfer wird eine mehrstufige Tiefenoptimierung durchführen und dabei verschiedene Rechenleistungen nutzen, um das Potenzial der Rechenleistung des Chips voll auszuschöpfen.

Es verfügt über verschiedene Funktionen moderner Inferenz-Engines für große Modelle, wie z. B. die Unterstützung von API-Serving, Anforderungsplanung, Stapelverwaltung, KV-Cache-Optimierung, Tensor-Parallelität, Pipeline-Parallelität, Experten-Parallelität und sogar Pipeline-Parallelität für mehrere Maschinen.

Zhongke Jiahe sagte, dass SigInfer bereits die meisten großen Modellstrukturen der Branche unterstützt.



Derzeit kann SigInfer bereits vollständige Inferenz-Engine-Funktionen implementieren. Der von ihm unterstützte heterogene Beschleunigerkartencluster kann NVIDIA-KI-Beschleunigerkarten + inländische KI-Beschleunigerkarten für hybride Inferenz flexibel planen und kann auf bis zu Billionen großer Modelle erweitert werden.

Durch die Verwendung von SigInfer zur Unterstützung der Bereitstellung von KI-Chips können große Modelldienste einen hohen Durchsatz und eine geringe Latenz aufrechterhalten, wenn die Zugriffsanforderungen für Unternehmen steigen. Diese Indikatoren sind für groß angelegte Anwendungen generativer KI von entscheidender Bedeutung.

Bei Verwendung derselben NVIDIA-Grafikkarte können wir sehen, dass SigInfer einen deutlicheren Beschleunigungseffekt erzielen kann:



Darüber hinaus kann SigInfer bei der Verwendung heimischer Chips zur Erledigung ähnlicher Aufgaben auch die Durchsatzrate von KI-Beschleunigerkarten im parallelen Computing verbessern und gleichzeitig die Verzögerung bei der Ausgabe von Token deutlich reduzieren.

Heterogene native KI-Rechenleistungswerkzeuge können die Rechenfrequenz des KI-Beschleunigers basierend auf verschiedenen Phasen der Verarbeitung großer Modellaufgaben, Bedienereigenschaften, adaptiver Optimierung des Optimierungsziels usw. anpassen und so eine hohe Effizienz erzielen. Zhongke Jiahe hat für uns ein Konto berechnet. Durch den Einsatz von A800 plus SigInfer kann die Energieeffizienzquote im Vergleich zu vllm um 46 % gesteigert werden.

Neben der Optimierung der Cloud-Infrastruktur demonstrierte Zhongke Jiahe auch die Leistungsoptimierung für clientseitige Inferenz. SigInfer kann Chipgeräte großer Hersteller wie Intel, Qualcomm und AMD beschleunigen. Im Vergleich zu den gängigen Bereitstellungslösungen der Branche kann SigInfer die Effizienz der geräteseitigen Inferenz um das Fünffache steigern.

Hinter heterogenem Computing und Effizienzsteigerungen stehen die Anwendung und Optimierung einer Reihe modernster Technologien und Ingenieurstechniken.

Um die Effizienz des Parallelrechnens zu verbessern, hat Zhongke Jiahe eine Reihe von Optimierungen eingeführt. Beispielsweise ermöglicht die Optimierung des Speicherzugriffs in der detaillierten Decodierungsphase, dass KV Cache Multiplexing auf Registerebene erhält. Im Vergleich zum Laden aus L2 wurden sowohl Latenz als auch Bandbreite optimiert.

Um die Verringerung der Parallelität zu mildern, führten Forscher von Zhongke Jiahe gleichzeitig auch parallele Unterteilungen in der Sequenzdimension der Daten durch. In Kombination mit der Wiederverwendungsoptimierung des KV-Cache wird nicht nur der Speicherzugriff gespart, sondern auch die Parallelität erhöht, wodurch die Ausführungseffizienz der Kernberechnung des gesamten Aufmerksamkeitsmechanismus verbessert wird.

Zhongke Jiahe hat auch leistungsstarke Methoden zur Operatorgenerierung für heterogene Rechenleistung erforscht. Durch die Zusammenarbeit mit Herstellern von Rechenleistung migrierte Zhongke Jiahe die Cutlass-Architektur auf die heimische Chip-Architektur und verbesserte so die Betriebseffizienz der Matrixmultiplikation erheblich. Unter anderem erzielte das Unternehmen durch Optimierung in Kombination mit Kompilierungstechnologie eine Leistungssteigerung von mehr als 20 %.

Mit der Unterstützung einer Reihe von Technologien haben die heterogenen nativen KI-Computing-Power-Tools von Jiahe eine hervorragende Optimierung der Energieeffizienz erreicht.

Ausgehend von der Kompilierungstechnologie: Zhongke Jiahes technischer Weg

Anders als die Fähigkeiten, die einige KI-Computing-Infrastrukturunternehmen in der Vergangenheit bereitgestellt haben,Das von Zhongke Jiahe bereitgestellte heterogene Computing und die Beschleunigung konzentrieren sich auf Kompilierungstechnologie.

Bei Computern ist die von der Kompilierungsschicht geleistete Arbeit die „Übersetzung“. Sie ist dafür verantwortlich, den von Menschen geschriebenen Inhalt einer höheren Programmiersprache in eine Sprache umzuwandeln, die die Maschine verstehen und ausführen kann.



In diesem Prozess muss auch die Kompilierung optimiert werden, um die Betriebseffizienz des generierten Maschinencodes zu verbessern. Wenn es um die Chipleistung geht, spielt die Kompilierung eine große Rolle, wird aber oft übersehen.

Die CUDA-Computing-Plattform spielt auf den beliebtesten NVIDIA-Chips der Branche eine wichtige Rolle. Es umfasst Programmiersprachen, Compiler, verschiedene leistungsstarke Beschleunigungsbibliotheken und KI-Frameworks. Es kann als Verteiler fungieren, wenn der Computer Aufgaben ausführt und die Rechenressourcen verschiedener Hardware voll ausnutzt, um komplexe Codemodelle schneller auszuführen. Man kann sagen, dass das heutige KI-Ökosystem größtenteils auf CUDA basiert.

Um eine groß angelegte Anwendung zu erreichen, ist es für die inländische Rechenleistung erforderlich, die erforderliche Ökologie und die erforderlichen Fähigkeiten aufzubauen.



Im Zeitalter der generativen KI hat der Bedarf der Menschen an Rechenleistung die Entwicklung der Chiptechnologie vorangetrieben, es sind jedoch auch neue Herausforderungen entstanden:

  • Aus Sicht der Chiphersteller entwickelt sich das Ökosystem zudem in mehrere Fragmente, was zu erhöhten Entwicklungskosten und Problemen wie Implementierungseffizienz und Kompatibilität führen wird.
  • Aus Sicht der Branchenentwicklung entwickelt sich die KI-Technologie rasant und deckt immer mehr Szenarien ab, was bedeutet, dass mehr Arten von Rechenleistung beteiligt sein werden, was die Nachfrage nach heterogenem Computing weiter fördert.

Daher benötigt die Industrie dringend eine effiziente Toolkette, die eine Vielzahl heimischer Chips unterstützen kann. Wenn eine Reihe universeller, kostengünstiger und leistungsstarker Basissoftware entstehen und ökologischen Partnern dabei helfen kann, auf der Grundlage des NVIDIA-Ökosystems entwickelte Anwendungen schnell zu übertragen, kann das Potenzial heimischer Chips voll ausgeschöpft werden und so das Tempo der Technologieforschung und -entwicklung vorantreiben Bauen Sie nach und nach einen positiven Zyklus auf, der das KI-Rechenleistungs-Ökosystem etabliert.

Das ist es, was Zhongke Jiahe getan hat.

Die von Zhongke Jiahe bereitgestellte grundlegende Softwareplattformschicht ist auf der Operator-, Compiler- und Framework-Ebene positioniert und bildet eine Brücke zwischen Hardware und Software.Die bereitgestellten heterogenen nativen KI-Computing-Tools können Benutzern dabei helfen, KI-Modelle und Chip-Architekturen reibungslos zu migrieren, was großen Komfort für KI-Anwendungen bietet.



Diese Leistungsebenen erfordern alle Kompilierungstechnologie. Die Abdeckung der KI-Kompilierung umfasst sowohl die Ebene als auch die Operatorebene. Im Vergleich zu herkömmlichen Compilern ist die Spanne der semantischen Transformation größer. Beispielsweise müssen KI-Compiler im Allgemeinen die Partitionierung von Berechnungsgraphen, die Fusion von Teilgraphen, paralleles Rechnen, Datenblockierung usw. berücksichtigen. Das sind schwer zu lösende Probleme.

In dieser Hinsicht hat Zhongke Jiahe zahlreiche Forschungsarbeiten durchgeführt, beispielsweise die Durchführung globaler Datenflussanalysen auf Tensor-Ausdrucksebene, die Erstellung genauer Berechnungsdiagramme und Datenabhängigkeitsdiagramme sowie das anschließende Durchbrechen von Operatorgrenzen für die Operatorfusion, und gute Ergebnisse erzielt. Wirkung. In einigen Netzwerken erreichte seine Methode eine bis zu 3,7-fache Beschleunigungsrate im Vergleich zum fortgeschrittenen Niveau der Branche. Auf der diesjährigen Top-Konferenz im Computerbereich wurden entsprechende Arbeitsergebnisse veröffentlicht.

Entwickeln Sie End-to-End-Rechenleistungslösungen, die zum Wachstum des heimischen KI-Ökosystems beitragen

Zhongke Jiahe wurde im Juli 2023 gegründet und sein Team besteht hauptsächlich aus dem Institut für Computertechnologie der Chinesischen Akademie der Wissenschaften. Der Gründer, Cui Huimin, absolvierte die Informatikabteilung der Tsinghua-Universität und ist Leiter des Kompilierungsteams des Instituts für Computertechnologie der Chinesischen Akademie der Wissenschaften. Das Kernteam des Unternehmens verfügt über mehr als 20 Jahre Erfahrung in der Compiler-Forschung und -Entwicklung und war ein zentrales Mitglied bei der Leitung oder Beteiligung an der Compiler-Forschung und -Entwicklung einer Reihe inländischer Chips.

Seit seiner Gründung konzentriert sich das Unternehmen auf Chip-Compilation- und -Optimierungstechnologie und hat sich der Bereitstellung universeller, kostengünstiger Hochleistungs-Rechenressourcen verschrieben, mit dem Ziel, „die kombinierte Leistung von Chips zu bündeln, um ein heimisches Ökosystem aufzubauen“. Derzeit hat Zhongke Jiahe mehrere Finanzierungsrunden im Gesamtwert von fast 100 Millionen Yuan erhalten.



Zhongke Jiahe baut eine Reihe von Produkten auf drei Wegen auf, darunter eine KI-Inferenz-Engine für große Modelle, die heterogene Rechenleistung unterstützt, ein Framework zur Feinabstimmung großer Modelle und eine Suite von KI-Kompilierungstools. Sie können nicht nur Rechenleistungsnutzern dabei helfen, schnell diversifizierte KI-Rechenleistung zu nutzen, sondern auch Rechenleistungsanbieter dabei unterstützen, das Software-Ökosystem zu verbessern und die Wettbewerbsfähigkeit zu steigern und so einen wichtigen Teil des heimischen KI-Rechenleistungs-Ökosystems zu vervollständigen.



Noch wichtiger ist, dass Zhongke Jiahe eine „Kommunikationsbrücke“ werden möchte, die eine große Anzahl von Rechenleistungsnutzern und Rechenleistungsanbietern verbindet, sodass beide Parteien problemlos in beide Richtungen gehen und so zur Entwicklung heterogener nativer KI-Rechenleistung beitragen können zu groß angelegten Anwendungen und der kräftigen Entwicklung des heimischen KI-Ökosystems.