nachricht

sind die guten tage der nvidia-gpus vorbei?

2024-10-03

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

wird nvidias „gpu festival“ enden?

seit der veröffentlichung von chatgpt durch open ai in den usa am 30. november 2022 ist generative ki (künstliche intelligenz) ein großer trend geworden, und nvidias gpus sind als ki-halbleiter beliebt geworden. bei der produktion von gpus gibt es jedoch zwei engpässe: den mittelklasse-prozess von tsmc und den mit dram gestapelten high-bandwidth-speicher (hbm), was zu einem weltweiten mangel an gpus führt. „ist der engpass der mittelklasse-prozess zwischen hbm und? tsmc?“

unter diesen gpus erfreute sich die „h100“ besonders großer nachfrage, deren preis auf 40.000 us-dollar stieg und das sogenannte nvidia „gpu festival“ auslöste.

unter diesen umständen verdoppelte tsmc seine produktionskapazität für mid-process-interposer und dram-hersteller wie sk hynix erhöhten die hbm-produktion, was dazu führte, dass die vorlaufzeit für „h100“ von 52 wochen auf 20 wochen verkürzt wurde.

wird nvidias „gpu festival“ also enden?

in diesem artikel besprechen wir daher, ob der „gpu day“ von nvidia zu ende geht. lassen sie uns zunächst über die schlussfolgerung sprechen. es wird erwartet, dass selbst bis 2024 nur 3,9 % der high-end-ki-server (definition wird später erläutert) ausgeliefert werden, die für die ki-entwicklung und den betrieb auf chatgpt-ebene erforderlich sind. daher scheint es, dass die bedürfnisse von cloud-service-providern (csps) wie google, amazon und microsoft überhaupt nicht erfüllt werden können. kurz gesagt, nvidias „gpu festival“ ist bisher erst der anfang und ein umfassender generativer ki-boom steht bevor.

als nächstes werfen wir einen kurzen blick auf die beiden größten engpässe der nvidia-gpu.

zwei nvidia-gpu-engpässe

bei der produktion von nvidia-gpus ist die foundry tsmc für alle front-, middle- und back-prozesse verantwortlich. der zwischenprozess bezieht sich hier auf den prozess, bei dem gpu, cpu, hbm und andere chips getrennt hergestellt und auf einem quadratischen substrat platziert werden, das aus einem 12-zoll-siliziumwafer geschnitten wurde. dieses substrat wird als silizium-interposer bezeichnet (abbildung 1).

abbildung 1 zwischenprozesse, die von 2,5d zu 3d entstehen, wie z. b. nvidia gpu (quelle: tadashi kamewada)

darüber hinaus heißt das von tsmc entwickelte nvidia-gpu-paket cowos (chip on wafer on substrate), die beiden engpässe sind jedoch die silizium-interposer-kapazität und hbm (abbildung 2). die situation ist wie folgt.

abbildung 2 cowos-struktur und zwei engpässe auf der nvidia-gpu (quelle: wikichip)

cowos wurde 2011 entwickelt, aber seitdem hat sich mit der verbesserung der gpu-leistung die größe der gpu-chips weiter erhöht und auch die anzahl der in der gpu installierten hbms hat zugenommen (abbildung 3).. infolgedessen werden silizium-interposer jedes jahr größer, während die anzahl der auf einem einzelnen wafer verfügbaren interposer im umgekehrten verhältnis abnimmt.

abbildung 3 interposer-fläche und hbm-anzahl nehmen mit jeder generation zu (quelle: kc yee (tsmc))

darüber hinaus erhöht sich die anzahl der in der gpu installierten hbm und auch die anzahl der im hbm gestapelten dram-chips. darüber hinaus wird dram alle zwei jahre miniaturisiert und der hbm-standard alle zwei jahre aktualisiert, um die leistung zu verbessern. daher ist hochmodernes hbm mangelware.

in diesem szenario wird tsmc seine produktionskapazität für silizium-interposer von 15.000 wafern pro monat etwa im sommer 2023 auf mehr als 30.000 wafer pro monat etwa im sommer dieses jahres verdoppeln. darüber hinaus haben samsung electronics und micron technology die nvidia-zertifizierung erhalten und mit der lieferung hochmoderner hbm begonnen, die zuvor von sk hynix dominiert wurde.

davon betroffen wurde die lieferzeit der nvidia h100, die die größte nachfrage verzeichnet, deutlich von 52 wochen auf 20 wochen verkürzt. um wie viel sind die auslieferungen von ki-servern dadurch gestiegen?

definition von zwei arten von ki-servern

laut der von digitimes research veröffentlichten studie „global annual server shipments, 2023-2024“ (servers report database, 2024) gibt es zwei arten von ki-servern:

systeme, die mit zwei oder mehr ki-beschleunigern, aber nicht mit hbm ausgestattet sind, werden als „universelle ki-server“ bezeichnet.

systeme, die mit mindestens vier hbm-basierten ki-beschleunigern ausgestattet sind, werden als „high-end-ki-server“ bezeichnet.

der ki-beschleuniger bezieht sich hier auf spezielle hardware zur beschleunigung von ki-anwendungen, insbesondere neuronale netze und maschinelles lernen. ein typisches beispiel ist die gpu von nvidia. darüber hinaus erfordert die entwicklung und der betrieb generativer ki auf chatgpt-ebene eine große anzahl von high-end-ki-servern anstelle von allzweck-ki-servern.

wie hoch sind also die liefermengen von allgemeinen ki-servern und high-end-ki-servern?

allgemeine ki-server- und high-end-ki-serverlieferungen

abbildung 4 zeigt die lieferungen allgemeiner ki-server und high-end-ki-server von 2022 bis 2023. die allgemeinen auslieferungen von ki-servern werden im jahr 2022 voraussichtlich 344.000 einheiten, im jahr 2023 470.000 einheiten und im jahr 2024 725.000 einheiten betragen.

abbildung 4 allgemeine auslieferungen von ki-servern und high-end-ki-servern (2022–2024) (quelle: digitimes research)

gleichzeitig werden voraussichtlich 34.000 einheiten im jahr 2022, 200.000 einheiten im jahr 2023 und 564.000 einheiten im jahr 2024 ausgeliefert.

können die lieferungen von high-end-ki-servern also den bedarf von us-amerikanischen csps decken?

abbildung 5 zeigt die lieferzahlen von servern, allgemeinen ki-servern und high-end-ki-servern. als ich dieses diagramm zeichnete und es mir ansah, war ich verblüfft und fragte mich: „werden so viele high-end-ki-server ausgeliefert?“ dies liegt daran, dass es sich bei den servern als ganzes um allzweck-ki-server handelt ist immer noch ein high-end-server für künstliche intelligenz und die sendungen sind sehr gering.

abbildung 5 lieferungen von servern, allgemeinen ki-servern und high-end-ki-servern

quelle: autor basierend auf mic und digitimes

noch enttäuschter war ich, als ich untersuchte, wie viele high-end-ki-server erforderlich wären, um generative ki auf chatgpt-ebene zu entwickeln und auszuführen.

zur generierung von ki auf chatgpt-ebene ist ein high-end-ki-server erforderlich

es wird berichtet, dass für die entwicklung und den betrieb von chatgpt 30.000 nvidia dgx h100 high-end-ki-server erforderlich sind (abbildung 6). als ich diese zahl von dreißigtausend einheiten sah, wurde mir schwindelig.

abbildung 6 wie viele high-end-ki-server werden zum ausführen von chatgpt benötigt? (quelle: hpc-website)

übrigens ist die „nvidia dgx h100“ mit acht „h100“-chips ausgestattet, und der preis für jeden chip ist auf 40.000 us-dollar gestiegen, sodass sich der gesamtsystempreis auf 460.000 us-dollar beläuft. mit anderen worten: die generierung von ki auf chatgpt-ebene erfordert eine investition von 30.000 einheiten x 460.000 us-dollar = 13,8 milliarden us-dollar (ungefähr 2 billionen yen basierend auf 1 us-dollar = 145 yen!).

ich denke, die welt ist voller generativer ki-systeme, aber wie viele chatgpt-ähnliche generative kis wurden tatsächlich gebaut (oder werden)? (abbildung 7)

abbildung 7 serverlieferungen, high-end-ki-serverlieferungen und die anzahl der auf chatgpt-ebene generierten ki-systeme (quelle: mic und digitimes)

da das liefervolumen von high-end-ki-servern im jahr 2022 34.000 einheiten betragen wird, kann nur ein ki-system auf chatgpt-ebene gebaut werden (dies ist chatgpt). im folgenden jahr, im jahr 2023, werden die auslieferungen von high-end-ki-servern 200.000 einheiten erreichen, sodass 6 bis 7 ki-systeme auf chatgpt-ebene gebaut werden können. da im jahr 2024 voraussichtlich 564.000 high-end-ki-server ausgeliefert werden, wird es möglich sein, 18 bis 19 ki-systeme auf chatgpt-ebene aufzubauen.

die obige schätzung geht jedoch davon aus, dass ki auf chatgpt-ebene mit 30.000 high-end-ki-servern „nvidia dgx h100“ aufgebaut werden kann.da eine generation der ki jedoch voraussichtlich komplexer wird, könnten in diesem fall mehr als 30.000 nvidia dgx h100 erforderlich sein. alles in allem dürften us-amerikanische kommunikationsdienstleister mit den aktuellen lieferungen von high-end-ki-servern nicht zufrieden sein.

schauen wir uns nun an, wie viele high-end-ki-server jeder endbenutzer (z. b. ein csp in den usa) hat.

anzahl der high-end-ki-server für endbenutzer

abbildung 8 zeigt die anzahl der high-end-ki-server nach endbenutzern. im jahr 2023 verfügt microsoft, dem openai gehört, mit 63.000 einheiten über die größte anzahl an high-end-ki-servern, aber bis 2024 wird google microsoft überholen und über die größte anzahl an high-end-ki-servern verfügen.

abbildung 8 high-end-server für künstliche intelligenz nach endbenutzern (2023–2024) (quelle: digitimes research)

die top 5 im jahr 2024 sind google mit 162.000 einheiten (5 systeme) an erster stelle, microsoft mit 90.000 einheiten (3 systeme) an zweiter stelle, super micro mit 68.000 einheiten (2 systeme) an dritter stelle und amazon (67.000 einheiten) an vierter stelle. 2 systeme), gefolgt von meta auf platz fünf mit 46.000 einheiten (1 system) (die zahl in klammern ist die anzahl der systeme, die die chatgpt-klassengenerations-ki erstellen kann). es ist ersichtlich, dass die fünf größten solarthermischen stromerzeugungsunternehmen in den vereinigten staaten etwa 80 % des anteils monopolisieren.

schauen wir uns als nächstes die auslieferungen von ki-beschleunigern an high-end-ki-servern an (abbildung 9). wie erwartet werden die gpus von nvidia am häufigsten für ki-beschleuniger verwendet und erreichen im jahr 2024 336.000 einheiten. überraschenderweise ist das zweitbeliebteste unternehmen jedoch nicht amd, sondern google.

abbildung 9 high-end-ki-server nach ki-beschleuniger (2023–2024) (quelle: digitimes research)

als ki-beschleuniger hat google eine eigene tensor processing unit (tpu) entwickelt. bis 2024 wird die zahl der mit dieser tpu ausgestatteten high-end-ki-server 138.000 erreichen. aus abbildung 8 wissen wir, dass google bis 2024 über 162.000 high-end-ki-server verfügen wird. daher wird erwartet, dass 138.000 einheiten mit googles eigener tpu ausgestattet sind und die restlichen 24.000 einheiten mit nvidias gpu ausgestattet sind. mit anderen worten: für nvidia ist google sowohl ein kunde als auch ein gewaltiger feind.

wenn wir uns außerdem die auslieferungen im jahr 2024 ansehen, kommt amd, das auf platz drei liegt, auf 45.000 einheiten, gefolgt von amazon, das auf platz vier liegt, mit 40.000 einheiten. amazon entwickelt außerdem aws trainium als beschleuniger für künstliche intelligenz. wenn es noch länger wartet, könnte amd von amazon überholt werden.

zusammenfassend lässt sich sagen, dass nvidia derzeit die größten lieferungen an ki-beschleunigern hat, aber google und amazon werden zu seinen starken konkurrenten. nvidias konkurrent ist nicht der prozessorhersteller amd (schon gar nicht der gefährdete intel), sondern die us-amerikanischen csps google und amazon.

ein umfassender generativer ki-boom steht bevor

fassen wir alles bisher zusammen. einem bericht von digitimes research zufolge werden die lieferungen von high-end-ki-servern, die in der lage sind, generative ki auf chatgpt-ebene zu entwickeln und auszuführen, bis 2024 voraussichtlich nur 3,9 % aller server ausmachen. man geht davon aus, dass dieses sendungsvolumen den bedarf der csps einfach nicht decken kann.

mit anderen worten: nvidias „gpu festival“ von 2023 bis 2024 ist erst der anfang. infolgedessen wird es wahrscheinlich zu einem ausgewachsenen generativen ki-boom kommen. lassen sie uns im folgenden die grundlagen zeigen.

abbildung 10 zeigt den halbleitermarkt nach anwendung und seine von der semiconductor industry association (sia) veröffentlichte zukunftsprognose. laut sia-prognosen wird der globale halbleitermarkt im jahr 2030 eine billion us-dollar überschreiten.

abbildung 10 prognose der halbleiterlieferungen nach anwendung (quelle: sia blog)

bis 2030 werden computer und datenspeicherung die größten märkte sein. dazu gehören pcs und server (und natürlich high-end-ki-server), aber da die pc-lieferungen wahrscheinlich nicht wesentlich zunehmen werden, werden server wahrscheinlich die mehrheit ausmachen.

bei der kabelgebundenen kommunikation handelt es sich um halbleiter, die in rechenzentren verwendet werden. das bedeutet, dass bis 2030 computer und datenspeicherung (330 milliarden us-dollar) + kabelgebundene kommunikation (60 milliarden us-dollar) = insgesamt 390 milliarden us-dollar zu halbleitern für rechenzentren (einschließlich pcs) werden und damit zum größten markt der welt werden.

ein weiterer punkt, den es zu beobachten gilt, ist der markt für rechenzentren und seine aussichten.wie in abbildung 11 dargestellt. nach der veröffentlichung von chatgpt im jahr 2022 wird erwartet, dass der rechenzentrumsmarkt stetig wächst. rechenzentren bestehen aus drei elementen: netzwerkinfrastruktur, servern und speicher. es wird erwartet, dass sich server und speicher von 2023 bis 2029 jeweils ungefähr verdoppeln.

abbildung 11 marktausblick für rechenzentren (der umfassende generative ki-boom ist noch nicht angekommen) (quelle: autor basierend auf statista market insights-daten)

auf diese weise werden serverhalbleiter (einschließlich high-end-ki-server) den größten anteil am weltmarkt einnehmen und auch der rechenzentrumsmarkt wird wachsen.

wiederholen sie den vorgang ein letztes mal.bisher ist nvidias „gpu festival“ nur eine vorfeiertagsveranstaltung. ein ausgewachsener generativer ki-boom steht bevor.