Nachricht

Experte: Chinas Entwicklung der KI kann sich nicht auf „Stacking Chips“ verlassen

2024-07-29

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Quelle: Global Times

[Global Times Reporter Ma Jun] Die Vereinigten Staaten verlassen sich auf ihre Vorteile bei Software und Hardware, um ihre Größe zum Aufbau der weltweit leistungsstärksten künstlichen Intelligenz (KI) zu nutzen. Der amerikanische Milliardär Musk gab kürzlich in den sozialen Medien bekannt, dass sein KI-Startup-Unternehmen xAI damit begonnen hat, einen „Memphis Super Cluster“ bestehend aus 100.000 H100-GPUs für das KI-Training zu nutzen, und behauptet, er sei „der leistungsstärkste KI-Trainingscluster der Welt“. Sollte China diesem von den Vereinigten Staaten vorangetriebenen technologischen Weg folgen? Auf dem China Computing Power Development Expert Seminar 2024, das von der China Intelligent Computing Industry Alliance und der Computing Power Standards Working Group des National Beacon Committee gemeinsam gesponsert wurde, äußerten kürzlich eine Reihe von Akademikern und Experten ihre jeweiligen Ansichten.

Die Zukunft der Superintelligenzintegration wird in drei Phasen unterteilt

Chen Runsheng, ein Akademiker der Chinesischen Akademie der Wissenschaften, sagte auf dem Seminar: „Große Modelle künstlicher Intelligenz stehen für neue Produktivität. Die integrierte Entwicklung großer Modelle und Supercomputing ist sehr wichtig. Unser Land muss dies ernsthaft planen und berücksichtigen.“ .“ Der Forscher Zhang Yunquan vom Institut für Computertechnologie der Chinesischen Akademie der Wissenschaften erwähnte, dass die schnelle Entwicklung großer Modelle die Merkmale neuer Produktivität zeige, derzeit jedoch auch auf einen Engpass bei der Rechenleistung stoße. Angesichts der tiefgreifenden technologischen Entwicklung Chinas im Bereich Supercomputing besteht die Hoffnung, dass die superintelligente Fusion (die Verschmelzung von Supercomputing und intelligentem Computing, dargestellt durch große Modelle) diese Herausforderung wirksam lösen kann. Shan Zhiguang, Direktor der Abteilung für Informationisierung und industrielle Entwicklung des Nationalen Informationszentrums, erklärte: „Die superintelligente Fusion entstand mit der aktuellen diversifizierten Entwicklung von Basisrechenleistung, intelligenter Rechenleistung, Superrechenleistung usw., d. h. ob es hybride Computerressourcen oder integrierte Computersysteme nutzen kann, um die Anwendungsanforderungen mehrerer verschiedener Computerressourcen gleichzeitig zu erfüllen.“

Qian Depei, ein Akademiker der Chinesischen Akademie der Wissenschaften, geht bei der Vorhersage des zukünftigen Prozesses der Superintelligenz-Integration davon aus, dass er sich eindeutig entlang der drei Stufen „Für KI“, „durch KI“ und „Sein als KI“ entwickeln wird, und zwar in umfassender Weise von der Hardware bis zur Software, um die Entwicklung der künstlichen Intelligenz anzupassen und zu fördern. In der ersten Phase für KI wird es sich auf die Transformation und Modernisierung bestehender Computersysteme und die Entwicklung dedizierter Hardware konzentrieren, um sicherzustellen, dass KI-Aufgaben effizient unterstützt und ausgeführt werden können, und um eine solide Infrastruktur für die Forschung im Bereich der künstlichen Intelligenz bereitzustellen. In der zweiten Phase wird KI zur Transformation traditioneller Computer eingesetzt. Einerseits werden KI-Methoden zur Lösung traditioneller Supercomputing-Probleme eingesetzt. Andererseits wird KI auch die Struktur traditioneller Computer beeinflussen offenbar werden. Im Endstadium der KI wird das Computersystem inhärente intelligente Eigenschaften aufweisen. Künstliche Intelligenz ist keine externe Fähigkeit mehr, sondern ist möglicherweise zum Kernattribut und zur Grundkomponente des Computers geworden Die Intelligenz wird weitaus anders sein als das Supercomputing oder intelligente Computing, das wir heute haben.

Chen Runsheng bemerkte, dass die wissenschaftliche Gemeinschaft und die Industrie versucht haben, das Problem der Integration von Supercomputing und Intelligent Computing zu lösen. Die neueste GB200-Architektur von Nvidia besteht beispielsweise tatsächlich aus zwei GPUs und einer CPU. In gewisser Weise kann man davon ausgehen, dass sie die Vorteile von intelligentem Rechnen und Supercomputing nutzt. Das Hinzufügen von zwei GPUs sorgt für hohe Geschwindigkeit Datenübertragung. Er glaubt jedoch, dass diese Architektur das Effizienzproblem nicht grundsätzlich löst. „Die Kombination von Supercomputing und intelligentem Computing ist unvermeidlich und wird organisch integriert und nicht einfach zusammengesetzt.“

Zheng Weimin, ein Akademiker der Chinesischen Akademie für Ingenieurwissenschaften, sagte auch, dass alle Aspekte der Entwicklung, Schulung, Feinabstimmung und Schlussfolgerung großer Modelle untrennbar mit der Rechenleistung verbunden seien und die Kosten für die Rechenleistung den größten Teil der Gesamtkosten ausmachten Der Aufwand liegt vor allem in der Schulungsphase bei bis zu 70 %, in der Begründungsphase sogar bei 95 %. Vor diesem Hintergrund ist die Rechenleistung zu einem Schlüsselfaktor für die Entwicklung großer Modelle geworden.

Intelligentes Rechnen sollte sich auf „menschliche Intelligenz“ beziehen.

Chinesische Akademiker und Experten haben ihre eigenen Ansichten zu Chinas aktuellem Großmodellwahn und dem technologischen Weg geäußert, der dem „Reaktormaßstab“ der Vereinigten Staaten folgen soll. Qian Depei sagte, dass China mittlerweile mehr Großmodelle in Anzahl und Typ habe als die Vereinigten Staaten und dass sie sich auch mit allgemeiner künstlicher Intelligenz befassen. Allerdings sind wir von den Vereinigten Staaten nicht nur in Bezug auf die Hardware streng eingeschränkt, sondern auch Die Qualität der für das groß angelegte Modelltraining verwendeten Daten ist relativ gering. „Kann das auf diese Weise erstellte große Modell besser sein als das der Vereinigten Staaten? Ich denke, wir müssen uns immer noch an Chinas nationales Modell anpassen.“ Bedingungen und können den Amerikanern nicht vollständig folgen.

Chen Runsheng glaubt auch, dass die derzeit in China entstehenden großen Modelle im Grunde eine Verbesserung der von den Vereinigten Staaten vorgeschlagenen großen Modelle und Algorithmen darstellen, die grundlegende Theorie des gesamten großen Modells jedoch kaum berücksichtigt wird. Er wies auf dem Seminar darauf hin, dass intelligentes Rechnen im Vergleich zum lokalen Speichermodell traditioneller Supercomputer einen grundlegenden Unterschied aufweist: die verteilte Speicherung von Informationen. Diese Speichermethode imitiert die komplexe Struktur des neuronalen Netzwerks des menschlichen Gehirns und transportiert immer größere Modelle über große, dicht miteinander verbundene Chipnetzwerke. Wie sich menschliches Wissen jedoch effektiv in diese komplexen Systeme einbetten lässt und wie Informationen im System verteilt und gespeichert werden, sowie die dahinter stehenden Algorithmen und technischen Theorien sind noch nicht vollständig erforscht. „Mit der unkontrollierten Erweiterung des Modellmaßstabs ist der Energieverbrauch ein unüberwindbares Problem. Daher ist es nicht unbedingt ratsam, blind Chips hinzuzufügen und sich auf eine zunehmende Systemkomplexität zu verlassen, um das Speicherproblem großer Modelle zu lösen.“

Daher ist Chen Runsheng der Ansicht, dass sich das intelligente Computing der Zukunft immer noch auf „menschliche Intelligenz“ beziehen sollte, also auf die Simulation des Funktionsmechanismus des menschlichen Gehirns. Das menschliche Gehirn ist sehr klein und verbraucht nur einige Dutzend Watt Energie, aber die von ihm erzeugte Intelligenz übertrifft die aktuelle, hochmoderne KI, die so viel Energie verbraucht wie eine ganze Stadt. „Die Entwicklung großer Modelle und intelligenter Computer erfordert nicht nur Verbesserungen bei Modellen und Algorithmen auf Anwendungsebene, sondern erfordert auch Durchbrüche aus der Perspektive der Grundlagentheorie. Derzeit wurden bei großen Modellen nur die ersten 10 % entwickelt, und 90 % davon.“ Ich glaube auch, dass große Modelle nicht dadurch erreicht werden können, dass sie wie das menschliche Gehirn lernen, die räumliche Komplexität reduzieren und den Energieverbrauch reduzieren Ich denke, es ist das grundlegendste Problem, die aktuelle Weltraumkomplexität zu untersuchen, um die grundlegende Theorie des intelligenten Rechnens zu vervollständigen.

Yuan Guoxing, Forscher am Beijing Institute of Applied Physics and Computational Mathematics, glaubt, dass man von einem allgemeinen Großmodell nicht erwarten kann, dass es Probleme in allen Lebensbereichen lösen kann. In der tatsächlichen Situation verfügen verschiedene Anwendungen über unterschiedliche Technologien, erfordern unterschiedliche Algorithmen und stellen unterschiedliche Anforderungen an die Rechenleistung. Beispielsweise werden im wissenschaftlichen Rechnen die Anforderungen an die Rechengenauigkeit immer höher. Mit zunehmender Größe der Computer gibt es immer mehr Daten und die Glaubwürdigkeit nimmt ständig ab. Ähnlich äußerte sich auch die National Aeronautics and Space Administration (NASA), die sehr hohe Anforderungen an die Berechnungsgenauigkeit stellt. Daher werden verschiedene Anwendungen in der Zukunft über unterschiedliche große Modelle und unterschiedliche Berechnungen verfügen, um unterschiedliche Probleme zu lösen. Heutige große Modelle stellen völlig andere Anforderungen an Rechengenauigkeit und Algorithmen.

He Baohong, Direktor des Instituts für Cloud Computing und Big Data der China Academy of Information and Communications Technology, fügte hinzu: „Computer und Schulung stellen unterschiedliche Anforderungen an die zugrunde liegende Infrastruktur, und es muss auch festgelegt werden, in welchen Szenarien die Unterschiede auftreten sollten.“ abgeschirmt werden und in welchen Szenarien sich die Unterschiede widerspiegeln sollten.“

Es müssen große Modelle auf Landesebene entwickelt werden

Zhang Yunquan sagte, dass die Vereinigten Staaten kürzlich versucht hätten, mein Land durch eine Reihe von Maßnahmen in der Entwicklung künstlicher Intelligenz „festzuhalten“, darunter das Verbot des Verkaufs von High-End-GPUs, die Beendigung der Weitergabe von Quellcodes für große Modelle und die Unterbrechung ökologische Zusammenarbeit. Wenn der Rechenumfang großer Modelle mittlerweile 10.000 GPUs oder sogar 100.000 GPUs erreicht, ist es gleichzeitig erforderlich, spezielle Supercomputer für große Modelle zu entwickeln, um technische Engpässe wie Energieverbrauchswände, Zuverlässigkeitswände und parallele Wände zu überwinden. Wenn China vor diesem Hintergrund kurzfristig den Engpass bei der Rechenleistung großer Modelle überwinden will, muss China einen weiten Weg vor sich haben: die fortschrittliche Supercomputing-Technologie, die sich in den letzten zwei Jahrzehnten angesammelt hat, zu nutzen, um Supercomputer für große Modelle zu entwickeln, um den Engpass zu überwinden Probleme mit der Rechenleistung großer Modelle, damit unser Land das fortschrittlichste Niveau globaler großer Modelle erreichen kann und nicht ins Hintertreffen gerät.

Als Zhang Yunquan den Plan „Sovereign Large Model“ im Rahmen des superintelligenten Fusionssystems vorstellte, sagte er, dass unser Land in den letzten Jahren enorme Summen in die Entwicklung intelligenter Technologien investiert habe Rechenleistung, wobei der Schwerpunkt auf der Einrichtung eines superintelligenten Fusionsrechenleistungssystems als Zentrum liegt. Die Systemtechnik reagiert auf den Rechenleistungsbedarf großer Modelle und hofft, die Vorteile der Supercomputing-Technologie zur Lösung von Rechenleistungsproblemen zu maximieren. Gemäß der Einführung des „Sovereign Level Large Model“-Plans wird sich das Innovationskonsortium „Sovereign Level Large Model“ auf den nationalen Supercomputer, bekannte Professorenteams der Chinesischen Akademie der Wissenschaften und nationaler Schlüsseluniversitäten, Smart-Chip-Unternehmen, große Modelllösungsunternehmen usw., um gemeinsam ähnliche OpenAI-offene Organisationen zu schaffen, die vom gemeinnützigen Sektor entwickelt werden, um das „große Modell auf Staatsebene“ zu organisieren, und der gewinnorientierte Sektor wird organisiert, um das „große Modell auf Staatsebene“ umzusetzen ". Er schlug vor, dass Supercomputer „die wichtigste Waffe des Landes“ seien und zur Bewältigung der größten und schwierigsten Herausforderungen eingesetzt werden müssten. Das große Modell auf souveräner Ebene ist ein Wurzelmodell, das die nationale Entwicklung unterstützen kann, kein gewöhnliches großes Modell. Ähnliche Supermodelle auf nationaler Ebene haben auch in anderen Ländern große Aufmerksamkeit erregt. Beispielsweise haben Microsoft in den USA und OpenAI angekündigt, 100 Milliarden US-Dollar in einen neuen Supercomputer mit künstlicher Intelligenz zu investieren die Entwicklung von Modellen auf nationaler Ebene.

Chen Runsheng glaubt, dass es angesichts der aktuellen Rahmenbedingungen Chinas und des unvermeidlichen Entwicklungstrends großer Modelle für uns unrealistisch ist, dem westlichen Ansatz vollständig zu folgen, und dass es kurzfristig schwierig sein wird, aufzuholen. Daher ist es umso wichtiger, einen Weg zu finden, groß angelegte Modelle auf Landesebene zu entwickeln.