Dialog mit Xiong Dapeng, Vorsitzender von Yizhu Technology: Die Integration von Speicher und Computer könnte die zweite Wachstumskurve der Rechenleistung im KI-Zeitalter einläuten
2024-08-14
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Die Explosion der künstlichen Intelligenz (KI) hat zu einem enormen Bedarf an Rechenleistung geführt. In der Post-Moore-Ära stoßen fortschrittliche Chip-Herstellungsprozesse an physikalische Grenzen, und die Integration von Speicher und Computer wird voraussichtlich zu einem wichtigen Technologieweg werden in der Zukunft.
Speicher und Computer sind integriert, das heißt, Datenspeicher und Computer sind im selben Bereich desselben Chips integriert. In welchen Aspekten spiegeln sich die Leistungs- und Kostenvorteile integrierter Speicher- und Computerarchitektur-Chips wider? Was sind die aktuellen Herausforderungen bei der groß angelegten Kommerzialisierung? Wird die Integration von Speicher und Computing eine Möglichkeit für die heimische Chipindustrie sein, die Spur zu wechseln und sie zu überholen?
China Business News führte kürzlich einen Austausch mit Xiong Dapeng, Gründer, Vorsitzender und CEO von Yizhu Technology, zu den oben genannten Themen. Seiner Ansicht nach hat die integrierte Speicher- und Computertechnologie transformatives Potenzial im zukünftigen Computerbereich und wird das Mooresche Gesetz brechen und die zweite Wachstumskurve der Rechenleistung einleiten. „Gerade im KI-Zeitalter könnte diese Technologie zu einem Schlüsselfaktor für das Wachstum der Rechenleistung werden.“
Durchbrechen Sie die von Neumann-Architektur und beseitigen Sie drei große Probleme
In der traditionellen von Neumann-Architektur werden Rechen- und Speicherfunktionen durch Recheneinheiten (CPU, GPU usw. XPU) bzw. Speichereinheiten vervollständigt. Daten werden aus dem Speicher abgerufen und nach der Verarbeitung in den Speicher zurückgeführt. Der Zeitaufwand für den Transport und das Lesen von Daten aus dem Speicher außerhalb der Verarbeitungseinheit beträgt oft ein Vielfaches der Rechenzeit, was zu einer Verringerung der Recheneffizienz bzw. der effektiven Rechenleistung führt.
„Heute, wo große Modelle vorherrschen, müssen Modellparameter verschoben werden, um Berechnungen abzuschließen. Die Menge der Parameter ist sehr groß und der Zeitaufwand macht einen hohen Anteil aus, sogar mehr als 80 %. In manchen Fällen ist dies der Fall.“ „Der Anteil ist sogar noch höher.“ sagte China Business News.
Zusammen mit dem Problem des „Speicherwandproblems“ wird beim Übertragungsprozess viel Energie verbraucht, was zu einer erheblichen Verringerung des Energieeffizienzverhältnisses des Chips führt, was das „Energiewandproblem“ darstellt.
Darüber hinaus gibt es das Problem der „Kompilierungswand“, das heißt, die dynamische Datenflussplanung ist komplex, und der Compiler kann Operatoren und ausführbare Programme nicht automatisch optimieren, um eine Datenflussoptimierung unter statischen und vorhersehbaren Bedingungen zu erreichen Die Optimierung, um dies zu erreichen, erhöht den Zeit- und Arbeitsaufwand für die tatsächliche Bereitstellung und Migration. „Diese drei Punkte haben die Entwicklung der KI-Industrie stark eingeschränkt, die immer knapper wird und den Stromverbrauch deutlich erhöht.“
Die integrierte Speicher- und Computertechnologie durchbricht die von Neumann-Architektur, integriert Speicherfunktionen und Computerfunktionen auf demselben Chip und verwendet Speichereinheiten direkt für die Datenverarbeitung. Durch Modifizieren der In-Memory-Computing-Architektur kann die „Lese“-Schaltung verwendet werden in der „Lese“-Schaltung. „Das Operationsergebnis wird in der Schaltung erhalten und das Ergebnis wird direkt an die Zieladresse des Speichers „geschrieben“. Häufige Datenübertragungen zwischen der Recheneinheit und der Speichereinheit sind nicht mehr erforderlich, wodurch entfällt der durch Datenbewegungen verursachte Verbrauch und die Kosten werden erheblich reduziert, wodurch die Recheneffizienz erheblich verbessert wird.
„Integrierte Speicher- und Computertechnologie wird voraussichtlich zu einem der wichtigsten technischen Wege in der Post-Moore-Ära werden. Vom ersten Prinzip der effektiven Rechenleistung bis hin zur Speicher- und Computerintegration wird die Datenübertragungsmenge erheblich reduziert und die Effektivität erhöht Die Rechenleistung weist ein lineares Wachstum auf. Man kann sagen, dass die Integration von Speicher und Rechenleistung das Mooresche Gesetz brechen und die zweite Wachstumskurve der Rechenleistung eröffnen wird „Das Potenzial dieser Technologie im zukünftigen Computerbereich, insbesondere im KI-Zeitalter, könnte zu einem Schlüsselfaktor für die Förderung des Wachstums der Rechenleistung werden“, sagte Xiong Dapeng.
Eine Lösung mit besserer Energieeffizienz und Kostenleistung
Im Vergleich zum kürzlich beliebten HBM-Speicherchip mit hoher Bandbreite weist der Chip mit integrierter Speicher- und Computerarchitektur eine bessere Systemenergieeffizienz und Kostenleistung auf.
HBM ist eine Hochleistungsspeicherschnittstellentechnologie, die hauptsächlich zur Verbesserung der Datenverarbeitungsfähigkeiten von GPU- und Hochleistungsrechnersystemen (HPC) verwendet wird. Diese Technologie erhöht die Bandbreite drastisch, indem DRAM-Chips vertikal gestapelt und über Hochgeschwindigkeitsverbindungen fest mit dem Prozessor verbunden werden.
„HBM ist ein effektiver technischer Weg zur Lösung des ‚Storage Wall‘-Problems, erfordert jedoch Kosten und Stromverbrauch, da die Bereitstellung einer großen Bandbreite einen höheren Stromverbrauch erfordert und der Preis auch sehr hoch ist und den Preis von herkömmlichem DRAM bei weitem übersteigt.“ Xiong Dapeng sagte: „Im Wesentlichen ist HBM ein Speicherchip und verfügt über keine Rechenfunktionen. Er muss mit Rechenchips wie GPGPU gepaart werden, um Rechenfunktionen zu erreichen.“
Aus Sicht der Systemkosten kann der integrierte Speicher- und Rechenchip niedriger sein als die Kombination aus herkömmlicher GPGPU und HBM.
Dies liegt zum einen an der höheren Rechenleistungsdichte (PPA) der integrierten Speicher- und Rechenarchitektur. „Die äquivalente Datenbandbreite der integrierten Speicher- und Rechenarchitektur ist weitaus größer als die von HBM, was einen um ein Vielfaches oder sogar Zehnfachen Unterschied ausmachen kann. Gleichzeitig ist die Rechenleistungsdichte vorteilhafter. Die tatsächliche effektive Rechenleistung.“ „, Kostenleistung und Energieeffizienzverhältnis werden viel höher sein als bei der GPGPU+HBM-Lösung“, sagte Xiong Dapeng.
Andererseits ist die integrierte Speicher- und Computertechnologie relativ weniger von fortschrittlichen Prozessen abhängig, während sowohl GPGPU als auch HBM stark von fortschrittlichen Prozessen abhängig sind. „HBM ist auf fortschrittliche Prozesse angewiesen und birgt große Risiken in der Lieferkette. Wenn es jedoch den Weg der integrierten Speicher- und Computertechnologie einschlägt, darf die Leistung nicht schlechter als 4 nm sein, selbst wenn keine fortschrittlichen Prozesse wie 12 nm und 22 nm verwendet werden.“ sogar 3 nm. Das ist auch eine Änderung.
Im Hinblick auf die Kostenleistung sind für integrierte Speicherung und Datenverarbeitung möglicherweise mehr Chips erforderlich, um die gleiche Leistung zu erzielen. Die hohe Kostenleistung und das hohe Energieeffizienzverhältnis sind jedoch einer der wesentlichen Vorteile.
Es kann in den nächsten 2-3 Jahren in großem Maßstab im Bereich der Großmodelle umgesetzt werden.
Forschung und Anwendung integrierter Speicher- und Computertechnologie nehmen weltweit zu.
Zu den großen ausländischen Computerchip-Unternehmen, die den integrierten Speicher- und Computerweg einschlagen, gehören derzeit das KI-Chip-Start-up Groq, das einen Wert von mehr als 2,8 Milliarden US-Dollar hat und als starker Konkurrent von Nvidia gilt erwarb Microsoft, Temasek, Samsung, Marvell, Hainan usw. Lux, Ericsson und viele andere Unternehmen haben investiert.
Darüber hinaus hat Samsung in Nature auch Forschungsergebnisse zum MRAM-basierten In-Memory-Computing veröffentlicht und die hohe Genauigkeit seines KI-Algorithmus nachgewiesen. SK Hynix hat DRAM-In-Memory-Computing-Produkte auf Basis der GDDR-Schnittstelle auf den Markt gebracht, die die Rechengeschwindigkeit deutlich erhöhen und den Stromverbrauch senken können.
„Soweit ich weiß, implementieren die meisten ausländischen Unternehmen eine auf SRAM basierende Speicher- und Computerintegration, aber die Kapazität ist gering und die Kosten hoch. Beispielsweise erfordert die Komplettlösung von Groq mehr als 570 Chips. Wenn NVIDIA H100 verwendet wird, ist die „Die Zahl der Chips liegt nur im einstelligen Bereich.“
Wenn die Rechenleistung integrierter Speicher- und Rechenchips jedoch in großem Umfang erweitert wird, steht sie immer noch vor vielen Herausforderungen: erstens das Problem der unzuverlässigen Genauigkeit, zweitens bringt die Digital-Analog-Wandlung auf der Grundlage analoger Berechnungen Energieengpässe mit sich Drittens stellen große KI-Modelle Anforderungen an die Kapazität.
„Der vollständig digitale Weg kann diese Probleme gut lösen, was auch die Grundlage für die Entwicklung von KI-Inferenzchips mit großer Rechenleistung ist“, sagte Xiong Dapeng.
In einem allgemeinen integrierten analogen Speicher- und Rechensystem werden Daten in Form von analogen Signalen gespeichert, die durch unterschiedliche Spannungspegel innerhalb der Speichereinheit dargestellt werden, und Operationen wie MAC werden auf der Grundlage des Ohmschen Gesetzes und der Kirchhoffschen Gesetze ausgeführt. Das größte Problem bei diesem Ansatz besteht darin, dass die Genauigkeit und Genauigkeit aufgrund des Rauschens der analogen Schaltung und verschiedener Variablen nicht vertrauenswürdig sind. Unabhängig vom Herstellungsprozess oder der Arbeitsumgebung weisen die vom Memristor dargestellten Werte Fehler oder Abweichungen auf. Digital-Analog-Hybridmethoden versuchen, Effizienz- und Genauigkeitsprobleme auszugleichen, können jedoch immer noch keine hohe Genauigkeit und Genauigkeitszuverlässigkeit garantieren.
Xiong Dapeng stellte vor, dass es sich bei der Lösung von Yizhu Technology um eine vollständig digitale Speicher- und Computerintegration auf Basis von Memristor (ReRAM) handelt. Da es vollständig digital ist, werden die Daten in binärer Form in die Speichereinheit eingegeben. Ein Memristor stellt nur ein Bit dar und es gibt nur Unterschiede zwischen hohem und niedrigem Widerstand sowie hohem und niedrigem Strom. es kann zuverlässig sein.
Darüber hinaus ist die Entwicklung integrierter Speicher- und Rechensysteme auch mit Problemen bei der Projektumsetzung konfrontiert. „Als neue Technologieroute ist die Nutzung und Integration in die bestehende Ökologie eine große Herausforderung. Programmierbarkeit und Kompatibilität mit der bestehenden Ökologie sind von entscheidender Bedeutung“, sagte Xiong Dapeng gegenüber China Business News.
Insgesamt gilt die integrierte Speicher- und Computertechnologie weltweit als wirksames Mittel zur Lösung des Widerspruchs zwischen hohem Rechenleistungsbedarf und hohen Energieverbrauchskosten. Sie bietet auch eine wichtige Chance für Chinas Chipindustrie, aufzuholen. In den nächsten Jahren, da die Technologie weiter ausgereift ist und die Marktnachfrage steigt, wird erwartet, dass integrierte Speicher- und Computerchips in vielen Bereichen weit verbreitet sein werden und die innovative Entwicklung der gesamten Branche fördern werden. Derzeit befindet sich die Anwendung integrierter Speicher- und Rechenchips im Bereich großer Modelle noch in der Entwicklungsphase, und Xiong Dapeng prognostiziert, dass sie in den nächsten zwei bis drei Jahren in großem Maßstab umgesetzt wird.
(Dieser Artikel stammt von China Business News)