Die weltweit erste heterogene Chip-Mix-Trainingsplattform im Kilokalorien-Maßstab wird veröffentlicht! Wuwen Xinqiong: Lassen Sie die Welt keine schwer zu nutzende KI-Rechenleistung haben

Die weltweit erste heterogene Chip-Mix-Trainingsplattform im Kilokalorien-Maßstab wird veröffentlicht!Wuwen Xinqiong: Lassen Sie die Welt keine schwer zu nutzende KI-Rechenleistung haben

2024-07-15

kluge Dinge
AutorZeR0
Herausgeber Mo Ying

„Bevor wir den Wasserhahn aufdrehen, müssen wir nicht wissen, aus welchem Fluss das Wasser kommt. Auch wenn wir in Zukunft verschiedene KI-Anwendungen verwenden, wissen wir nicht, welche Basismodelle sie aufrufen und welche Beschleunigerkarten sie verwenden. Rechenleistung – das ist die beste AI Native-Infrastruktur.“

Eine solche AI Native-Infrastruktur muss von allen gemeinsam aufgebaut werden. Am 4. Juli veröffentlichte Xia Lixue, Mitbegründer und CEO von Wuwen Core Dome, auf dem KI-Infrastrukturforum der Weltkonferenz für künstliche Intelligenz 2024 die weltweit erste heterogene Chip-Hybrid-Trainingsplattform im Kilokalorien-Maßstab, das Kilokalorien-Heterogene-Hybrid-Training Die Rechenleistungsauslastung erreicht maximal 97,6 %.

Gleichzeitig gab Xia Lixue bekannt, dass die Infini-AI-Cloud-Plattform von Wuwen Core Dome über integrierte heterogene Kilokarten-Mischtrainingsfunktionen für große Modelle verfügt und verfügt über eine Skalierbarkeit von 10.000 ka. Unterstützt gemischtes Training großer Modelle, einschließlich sechs heterogener Chips von AMD, Huawei Ascend, Tianshu Zhixin, Muxi, Moore Thread und NVIDIA.

Ab Juli können Benutzer, die sich für ein Probetraining bewerben, mit einem Klick ein großes Modelltraining mit einer Skala von 70 Milliarden Parametern auf Infini-AI starten.

Erst vor vier Monaten kündigte Wuwenxinqiongs große Modellentwicklungs- und Service-Cloud-Plattform ihre erste öffentliche Beta an. Kunden großer Modellunternehmen wie Zhipu AI, Dark Side of the Moon und Shengshu Technology nutzen Infini-AI regelmäßig Rechenleistung und mehr als 20 KI-Native-Anwendungs-Startups rufen weiterhin verschiedene voreingestellte Modell-APIs auf Infini-AI auf und nutzen die von Wuwen Xinqiong bereitgestellte Toolkette, um ihre eigenen Geschäftsmodelle zu entwickeln.

Die Einführung der weltweit ersten Plattform, die ein gemischtes Training heterogener Chips im Kilokartenmaßstab durchführen kann, spiegelt nicht nur die technische Stärke von Wuwen Core Dome bei der Optimierung heterogener Computer und dem Design von Clustersystemen wider, sondern auch ein Spiegelbild der Einhaltung von Wu Wen Core Dome „MxN“ Eine wichtige Errungenschaft des ökologischen Mittelschichtkonzepts.

Wuwen Xinqiong übernahm die Führung beim Aufbau eines ökologischen Musters der „MxN“-Mittelschicht, um eine effiziente und einheitliche Bereitstellung mehrerer großer Modellalgorithmen auf mehreren Chips zu erreichen.

Die Infini-AI-Plattform hat mehr als 30 Modelle unterstützt, darunter Qwen2, GLM4, Llama 3, Gemma, Yi, Baichuan2, ChatGLM3-Serie und AMD, Huawei Shengteng, Biren, Cambrian, Suiyuan, Haiguang, Tianshu Zhixin, mehr als 10 Arten von Computern Karten, darunter Muxi, Moore Thread und NVIDIA, unterstützen nicht nur eine Eins-zu-eins-Verbindung zwischen einem einzelnen Algorithmus und einem Chip, sondern unterstützen auch die freie Zuordnung und Kombination mehrerer Modelle und mehrerer Chips.

Laut Xia Lixue wird erwartet, dass Wuwen Xinqiong bis Ende dieses Jahres das automatische M×N-Routing vom Modell zum Chip vollständig implementieren wird.

1. Der Wanka-Cluster ist ein Schlachtfeld für große Militärstrategen, und das Land hat Schwierigkeiten, das Ökosystem zu öffnen.

Xia Lixue, Mitbegründerin und CEO von Wuwen Core Dome, glaubt, dass Rechenleistung der Außenposten und Eckpfeiler der KI-Entwicklung ist. Der Umfang der nach GPT-4 erschienenen Modelle hat nicht weiter exponentiell zugenommen, und die zur Unterstützung des Algorithmus erforderliche Rechenleistung ist auf einen Engpass gestoßen. Derzeit kann niemand ein großes System mit einem größeren Maßstab und einem größeren Rechenaufwand implementieren für ein einzelnes Modell, wodurch die Entwicklung des Modells in eine neue Phase eintritt. In einem Zustand der Verlangsamung und Stagnation muss mit anderen Worten das Rechenleistungssystem, das die Modellfähigkeiten für den Übergang zur nächsten Generation unterstützt, noch entwickelt und aufgebaut werden .

Große Modelle konkurrieren unter dem Einfluss des Skalierungsgesetzes um die globale Rechenleistung. Berichten zufolge bauen Microsoft und OpenAI ein großes Rechenleistungsprojekt im Wert von mehr als 100 Milliarden US-Dollar auf. Im Vergleich zu vielen anderen Techniken bringt diese einfache und grobe Skalenerweiterung den praktischsten Nutzen aus der Modellintelligenz. Google, OpenAI sowie große inländische Hersteller und die drei großen Betreiber bauen alle große Cluster im Wanka-Maßstab auf.

In einem wirklich nachhaltigen iterativen, großen und stabilen System bietet Scaling Law einzigartige Vorteile. Es verfügt nicht über so viele umfangreiche Techniken und ist einfacher zu warten und zu erweitern. Für ein System, das wirklich lange laufen muss, ist Skalierbarkeit ein sehr wichtiges Merkmal, und ein skalierbares System ist ein gutes System.

Das IDC-Diagramm zeigt, dass sich der Rechenleistungsbedarf für zukünftige KI-Ableitungen und -Schulungen weltweit rasch entwickelt und sowohl Training als auch Inferenz die Unterstützung leistungsstarker Rechenressourcen erfordern. Die nationale und internationale Ökologie hinter diesem riesigen Markt ist sehr unterschiedlich. Das Muster der ausländischen ökologischen Modellschicht und der Chipschicht ist relativ konzentriert, während das chinesische Ökosystem relativ dezentralisiert und lebendig ist. Sowohl die Modellschicht als auch die Chipschicht konkurrieren um die Erweiterung des Rechenleistungsmarktes und stehen bei der Öffnung vor vielen Schlüsselproblemen Ökosystem.

Der Wanka-Cluster ist ein Schlachtfeld für große Militärstrategen. Xia Lixue teilte mit, dass sich in China derzeit mehr als 100 Kilocard-Cluster im Bau oder in der Planung befinden und die meisten davon über heterogene Rechenleistung verfügen. Viele Cluster nutzen unterschiedliche Chipdienste und sind in der KI-Produktion tätig. Zu den Gründen gehören die Möglichkeit von Risiken in der Lieferkette, die durch eine übermäßige Abhängigkeit von einer einzigen Hardwareplattform entstehen, und die schnellen Leistungsverbesserungen inländischer Chips, die den Clusterparteien eine Vielzahl von Optionen bieten.

Eine Vielzahl heterogener Chips hat jedoch auch „ökologische Silos“ gebildet. Verschiedene Hardware-Ökosysteme können nicht gut koordiniert und miteinander verbunden werden. Der Einsatz von Rechenleistung steht vor einer Reihe sehr komplexer technischer Herausforderungen. Auch wenn es viele Rechenleistungscluster gibt, ist es immer noch schwierig, eine effektive Integration und Nutzung zu erreichen. Dies ist nicht nur eine Verschwendung von Rechenleistungsressourcen, sondern auch ein wichtiger Grund dafür Die aktuelle große Modellindustrie steht vor einem „Rechenleistungsmangel“.

Wuwen Core Dome möchte eine KI-native Infrastruktur aufbauen, die sich an Chinas ökologische Landschaft mit mehreren Modellen und mehreren Chips anpassen kann, eine nützliche Computerplattform bereitstellen, die heterogene Computerressourcen effizient integriert, und Middleware, die die gemeinsame Optimierung und Beschleunigung von Software und Hardware unterstützt. , wodurch die bestehenden „ökologischen Silos“ aufgebrochen werden und heterogene Chips und Cluster sich wirklich in große Rechenleistung verwandeln können.

KI-Trainingsinferenzaufgaben unterscheiden sich stark von herkömmlichen Computeraufgaben. Wenn beispielsweise keine KI-nativere Planungsstrategie angewendet wird, ist die Ressourcenauslastung des gesamten Systems sehr gering Dies führt häufig dazu, dass Kundenaufgaben hängen bleiben und neu gestartet werden, wodurch der KI-Entwicklungsprozess verzögert wird.

Die Lösung von Wuwenxinqiong verfügt im Grunde über ein vollständiges Cloud-Managementsystem, einschließlich Planungsfunktionen sowie PaaS- und MaaS-Plattformen. Das Folgende entspricht einer Rechenleistungsbasis für die Cloud-Zusammenarbeit, sodass Entwickler und Forscher großer Modelle mit ihren Taschen einziehen und schnell unterschiedliche Rechenleistung nutzen können.

Die auf dieser Basis aufgebaute MaaS-Dienstplattform, also die Modellsatz-Dienstplattform, kann viele große Modelldienste mit flexiblen Anwendungen bereitstellen, um einigen Unternehmen, die sich noch in der KI-Lernphase befinden, dabei zu helfen, schnell einige groß angelegte Anwendungen zu entwickeln große Modelle.

2. Erzielen Sie ein übergreifendes Training verschiedener Chips und reduzieren Sie die Kosten für die Implementierung großer Modellanwendungen

Hinter einer Reihe von Produktions- und Forschungsfortschritten verfügt das F&E-Team von Wuwen

Kürzlich veröffentlichte das gemeinsame Forschungsteam von Wuwen Xinqiong, der Tsinghua-Universität und der Shanghai Jiao Tong-Universität HETHUB, ein heterogenes verteiltes Hybrid-Trainingssystem für groß angelegte Modelle. Dies ist das erste Mal in der Branche, dass eine übergreifende Schulung zwischen sechs verschiedenen Chipmarken erreicht wurde, und der technische Abschluss ist hoch. Laut Xia Lixue besteht die ursprüngliche Absicht bei der Entwicklung dieser Technologie darin, die Obergrenze der technischen Fähigkeiten großer Modelle durch die Integration heterogenerer Rechenleistung weiter zu verschieben und gleichzeitig durch die Öffnung des heterogenen Chip-Ökosystems die Leistungsfähigkeit weiter zu reduzieren Kosten für die Implementierung großer Modellanwendungen.

Er sagte, dass die beiden größten Herausforderungen beim Aufbau des Systems die Kommunikation und die verteilte Schulung seien. Unterschiedliche Kommunikationsbibliotheken für unterschiedliche Hardwarearchitekturen sind gleichbedeutend damit, dass zwei Personen völlig unterschiedliche Sprachen verwenden, um ein großes Projekt abzuschließen. Aufgrund unterschiedlicher Designkonzepte weisen heterogene Karten viele Leistungsunterschiede auf und passen sich an unterschiedliche Aufgaben an, was zu einer Vielzahl von Unterschieden führt Die Effizienz verschiedener Kartentypen kann groß angelegte verteilte Schulungen ineffizient machen.

Daher hat sein Team viel Arbeit geleistet, darunter:

1. Richten Sie im Hinblick auf die Kommunikation eine universelle kollektive Kommunikationsbibliothek ein, um eine effiziente Kommunikation verschiedener Chiptypen zu erreichen und mit vielen Hardwaretypen kompatibel zu sein.

2. Schlagen Sie ein ungleichmäßiges Aufteilungsschema vor, das auf Pipeline-Parallelität basiert, um das Problem unterschiedlicher Hardwareeffizienz zu lösen und die am besten geeigneten Aufgaben entsprechend Ihrer eigenen Situation zuzuweisen.

3. Das selbst entwickelte Tool zur Vorhersage gemischter Trainings kann den Wert jedes Chips gleich zu Beginn des Trainings vorhersagen und so eine optimale Aufteilungsstrategie finden, um die gesamte Trainingsaufgabe abzuschließen und die beste Lösung für verschiedene Karten zu finden.

Dem tatsächlichen gemischten Trainingseffekt nach zu urteilen, hat Wuwen Xinqiong viele Kombinationen durchgeführt, die mehr als 70 % erreichen können, und die Rechenleistungsauslastung kann bis zu 97,6 % erreichen. Das gemischte Training mit 6 verschiedenen Chipkombinationen hat eine Kilokalorienskala erreicht .

Zuvor erreichte Wuwen Xinqiong die M×N-Inferenz, aber jetzt hat er das M×N-Training erreicht, was einen sehr großen Durchbruch darstellt.

Diese Funktionalität ist in die bestehende Infini-AI-Plattform integriert. Die Plattform ist in der Lage, Benutzern die effiziente Bereitstellung von Anwendungen und Diensten auf der Plattform zu ermöglichen. Nach dem Hinzufügen gemischter Schulungsfunktionen kann sie die übergreifende Kombination von 6 Marken unterstützen und so den Schulungsengpass einer einzelnen Marke beseitigen Welt zur Unterstützung von Kilokalorien-Heterogen Eine Plattform für gemischtes Training.

Die obere Schicht von Infini-AI unterstützt eine Vielzahl von Trainingsstrategien, einschließlich Tensorparallelität, Datenparallelität und Kommunikationsüberlappung, die ein effizientes Training ermöglichen und das Training großer Modelle mit mehr als 70 Milliarden Token sowie das gemischte Ein-Klick-Training großer Modelle unterstützen können -maßstabsgetreue Modelle. Mit dieser Plattform müssen Entwickler nicht mehr Zeit damit verbringen, die Unterschiede in der zugrunde liegenden Rechenleistung zu berücksichtigen. Sie können schnell ihre eigenen großen Modelle auf einem Hybrid-Cluster aus verschiedenen Chips anpassen und ihr eigenes Geschäft schnell implementieren.

3. Effiziente Planung + effiziente Fehlertoleranz, um eine stabile Ausführung von Aufgaben auf großen Rechenleistungsclustern sicherzustellen

Nach dem Aufbau eines großen Rechenleistungsclusters besteht eine der Kernaufgaben darin, wie man es nutzt. Dies beinhaltet effiziente Planungsprobleme. Ein effizientes Rechenleistungsplanungssystem kann dazu führen, dass integrierte heterogene Ressourcen von allen Benutzern besser genutzt werden.

Wuwen Core Dome hat große Fortschritte beim effizienten Planungssystem für die Rechenleistung gemacht. Durch die einheitliche Verwaltung multi-heterogener Cluster können mehr als 10.000 Rechenleistungssysteme auf Kartenebene aufgebaut werden Reihe von Hybriden Durch das Design der Planungsstrategie liegt die durchschnittliche Verzögerung der Aufgabenplanung im Millisekundenbereich, und die Ressourcenauslastung des gesamten Systemclusters kann über 90 % gehalten werden. Durch die Erweiterung der Basis des gesamten KI-Containers kann Wuwen Xinqiong das SLO des gesamten Clusters in einem Szenario mit mehreren Mandanten auf 99,95 % erhöhen, und die Skalierbarkeit ist sehr hoch.

Zusätzlich zur Planung kann das Training beim Modelltraining nicht kontinuierlich neu gestartet werden. Wuwen Core Qiong hat ein effizientes fehlertolerantes Trainingssystem entwickelt, einschließlich eines fehlertoleranten Laufzeitsystems für große Modelle, eines Systems zur Vorhersage von Hybridindikatoranomalien und eines asynchronen Checkpoint-Lese- und Schreibsystems.

Der Fehlertoleranzteil hat die effektive Trainingszeit großer Modelle um 30 % erhöht, die Erfolgsrate der Erkennung großer Modellanomalien wurde auf 70 % erhöht und die meisten Fehler können im Voraus erkannt und vermieden werden. Die Lese- und Schreibeffizienz von Prüfpunkten wurde um das 20-fache erhöht und das abnormale Terminal großer Modelle wurde auf weniger als 5 Minuten reduziert, wodurch die stabile Ausführung von Aufgaben auf großen Rechenleistungsclustern gewährleistet werden kann.

Um Entwicklern die bessere Nutzung des Clusters zu erleichtern, integriert die Plattform die technischen Optimierungsfunktionen des großen Modelldienstsystems von Wuwenxinqiong. Wenn eine hohe Parallelität auftritt und mehrere Benutzer gleichzeitig Anfragen senden, können Technologien wie Prompt Word Caching verwendet werden Hilfeaufgaben werden besser verteilt und Berechnungsergebnisse zurückgegeben, wodurch die Durchsatzrate um mehr als das 30-fache gesteigert werden kann und Anwendungen immer reibungsloser laufen.

Fazit: Möge die Welt keine schwer nutzbare KI-Rechenleistung haben

„Es gibt keinen Widerspruch zwischen der Anhebung der technischen Obergrenze und der Implementierung und Verbreitung der Technologie, und es hängt davon ab, wie wir entschlossen sind, mit dieser Technologie umzugehen.“ Als würde man davon sprechen, vor 30 Jahren jeden Haushalt elektrifiziert zu haben.

Exzellente Infrastruktur ist eine solche „Magie“. Wenn die Grenzkosten auf einen kritischen Wert sinken, können mehr Menschen neue Technologien annehmen.

Derzeit tritt die Entwicklung der Großmodellindustrie in die Phase der großtechnischen Umsetzung ein. Das Aufblühen von Anwendungsszenarien hat zu einem immer dringenderen Bedarf an Großmodellschulungen geführt. Der Aufbau einer KI-nativen Infrastruktur im Zeitalter großer Modelle kann KI-Entwicklern nicht nur eine vielseitigere, effizientere und komfortablere Forschungs- und Entwicklungsumgebung bieten, sondern ist auch ein wichtiger Eckpfeiler für die effektive Integration von Rechenressourcen und die Unterstützung der nachhaltigen Entwicklung der KI Industrie.

Die KI-Entwicklung erfordert sowohl zugrunde liegende Systemfunktionen, die mehrere heterogene Chips einheitlich integrieren können, als auch eine Zwischenschicht, die die Benutzerfreundlichkeit zwischen heterogener Rechenleistung und mehreren Algorithmen implementiert und es Benutzern ermöglicht, gleichzeitig unterschiedliche Rechenleistungen über ein einheitliches Programmierframework zu planen Gleichzeitig werden darauf Schnittstellen installiert, die mit den bestehenden Programmiergewohnheiten der Benutzer kompatibel sind, um zukünftige Erweiterungen zu erleichtern.

Wuwen Core setzt sich für den Aufbau einer KI-nativen Infrastruktur ein, die wirklich an mehrere Modelle und mehrere Chips anpassbar ist, sodass es auf der Welt keine schwer zu nutzende KI-Rechenleistung gibt. Wir hoffen, nicht nur eine effektive Verbindung zu erreichen, Nutzung und Integration von „M×N“, aber auch das ultimative Ziel Es besteht darin, die scheinbar ruhenden Rechenressourcen in große Rechenleistung umzuwandeln, die Integrität des Ökosystems großer Modelle zu verbessern, die Kosten für die Implementierung großer Modelle erheblich zu senken und zur Förderung beizutragen die Anwendungsinnovation großer Modelle in verschiedenen Branchen.

Belegung

Die weltweit erste heterogene Chip-Mix-Trainingsplattform im Kilokalorien-Maßstab wird veröffentlicht!Wuwen Xinqiong: Lassen Sie die Welt keine schwer zu nutzende KI-Rechenleistung haben

Einführung

meine Kontaktdaten