nachricht

wer kann nvidia-ersatz werden?

2024-09-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

autor: barry

herausgeber丨guan ju

bildquelle: midjourney

wer kann nvidia ersetzen?

im bereich der rechenzentrums-gpus werden die auslieferungen von nvidia im jahr 2023 3,76 millionen einheiten erreichen, was fast 98 % des weltweiten marktanteils ausmacht, was als konkurrenzlos gilt.

ki-chips, auch ki-beschleuniger oder rechenkarten genannt, sind module, die speziell zur bewältigung einer vielzahl von rechenaufgaben in anwendungen der künstlichen intelligenz eingesetzt werden. dazu gehören hauptsächlich grafikprozessoren (gpus), feldprogrammierbare gate-arrays (fpgas) und anwendungsspezifische integrierte schaltkreise (asic) usw.

laut gartner wird der markt für ki-chips im jahr 2023 53,4 milliarden us-dollar erreichen, was einem anstieg von 20,9 % gegenüber 2022 entspricht, und im jahr 2024 um 25,6 % auf 67,1 milliarden us-dollar wachsen. es wird erwartet, dass sich der umsatz mit ki-chips bis 2027 gegenüber dem marktvolumen von 2023 mehr als verdoppelt und 119,4 milliarden us-dollar erreicht.

das von großen riesenunternehmen veranstaltete wettrüsten um rechenleistung ist zweifellos zu einer starken treibenden kraft für den markt für ki-chips geworden.

ab 2024 werden fast alle großen mainstream-modelle mehr als 100 milliarden parameter haben, llama3 hat 400 milliarden parameter und gpt4 hat 1,8 billionen parameter. ein großes modell mit billionen parametern entspricht einem supergroßen rechenleistungscluster mit einer größe von mehr als 10.000 kilobyte.

openai verfügt über mindestens 50.000 nvidia-high-end-gpus, meta hat einen eigenen super-10.000-karten-cluster bestehend aus 24.576 h100s aufgebaut und google verfügt über einen a3-supercomputer bestehend aus 26.000 h100s … mehr als 40.000 unternehmen haben nvidia-gpus gekauft, unternehmen wie meta, microsoft, amazon und google trugen insgesamt 40 % zu seinem umsatz bei.

der finanzbericht zeigt, dass die bruttogewinnmarge von nvidia 71 % erreichte, wovon die bruttogewinnmarge der a100- und h100-serien bis zu 90 % betrug. als hardware-unternehmen hat nvidia eine höhere bruttogewinnmarge als internetunternehmen.

berichten zufolge kosten die ki-chips von nvidia für rechenzentren 25.000 bis 40.000 us-dollar pro stück, was dem 7- bis 8-fachen des preises herkömmlicher produkte entspricht. kazuhiro sugiyama, beratungsdirektor beim forschungsunternehmen omdia, sagte, die hohen preise für nvidia-produkte seien eine belastung für unternehmen, die in ki investieren wollen.

der hohe verkaufspreis hat auch viele großkunden dazu veranlasst, sich nach alternativen umzusehen. am 30. juli gab apple bekannt, dass sein ki-modell mithilfe von 8.000 google-tpus trainiert wurde. heute wurde auch der erste chip von openai vorgestellt, der den fortschrittlichsten a16-angström-prozess von tsmc verwenden wird und speziell für sora-videoanwendungen entwickelt wurde.

auf der ganzen welt sind nacheinander ki-chip-star-startups und einhörner aufgetaucht, die versuchen, nvidia lebensmittel zu stehlen. darunter befinden sich die von china unterstützten einhörner sambanova und das neu aufstrebende unternehmen etched sowie cerebras systems, ein von openai-ceo altman investiertes einhorn, das nach der erfolgreichen börsennotierung von arm im vergangenen jahr, masayoshi son, einen börsengang anstrebt im juli dieses jahres erwarb das unternehmen graphcore, ein britisches unternehmen für ki-chips, um das nächste nvidia zu bauen.

sambanova, ein ki-chip-einhorn, das von chinesen in stanford gebaut wurde

am 27. august stellte das us-amerikanische ki-chip-startup sambanova erstmals ausführlich sein neu eingeführtes weltweit erstes ki-chipsystem für modelle der künstlichen intelligenz (ki) im billionen-parameter-maßstab vor – basierend auf dem ki-chip sn40l der reconfigurable data flow unit (rdu). .

berichten zufolge kann das auf sambanovas sn40l basierende 8-chip-system 5 billionen parametermodelle unterstützen und die sequenzlänge auf einem einzelnen systemknoten kann 256.000+ erreichen. im vergleich zum h100-chip von yingwei erreicht sn40l nicht nur die 3,1-fache inferenzleistung des h100, sondern verdoppelt auch die trainingsleistung, und die gesamtbetriebskosten betragen nur 1/10.

rodrigo liang, ceo von sambanova

die drei mitbegründer des unternehmens haben alle einen stanford-hintergrund. der ceo rodrigo liang ist der ehemalige technische vizepräsident von sun/oracle. darüber hinaus sind viele chinesische ingenieure im team.

sambanova wird derzeit mit 5 milliarden us-dollar (ca. 36,5 milliarden yuan) bewertet und hat sechs finanzierungsrunden im gesamtwert von 1,1 milliarden us-dollar abgeschlossen. zu den investoren gehören intel, softbank, samsung, google venture usw.

sie fordern nvidia nicht nur in sachen chips heraus, sondern gehen auch in bezug auf das geschäftsmodell weiter als nvidia: sie beteiligen sich direkt an der unterstützung von unternehmen bei der schulung privater großmodelle. und die chips werden nicht einzeln verkauft, sondern ihre maßgeschneiderten technologie-stacks, von chips über serversysteme bis hin zum einsatz großer modelle.

die ambitionen im hinblick auf die zielkunden sind sogar noch größer und zielen auf die 2.000 größten unternehmen der welt ab. derzeit haben die chips und systeme von sambanova viele große kunden gewonnen, darunter die weltweit führenden supercomputing-labore, japans fugaku, das argonne national laboratory der vereinigten staaten, das lawrence national laboratory und das beratungsunternehmen accenture.

rodrigo liang glaubt, dass das nächste schlachtfeld für die kommerzialisierung großer modelle und generativer ki die privaten daten von unternehmen, insbesondere von großunternehmen, sind. anstatt ein sehr großes modell wie gpt-4 oder google gemini auszuführen, wird das unternehmen letztendlich 150 einzigartige modelle erstellen, die auf verschiedenen teilmengen von daten mit mehr als einer billion aggregierter parameter basieren.

diese strategie steht in scharfem gegensatz zu ansätzen wie gpt-4 und google gemini, die vor allem darauf hoffen, ein riesiges modell zu schaffen, das auf millionen von aufgaben verallgemeinert werden kann.

etched, ein ki-chip-unternehmen, das von zwei in den 2000er jahren geborenen harvard-aussteigern gegründet wurde

die gründer von etched sind zwei im jahr 2000 geborene harvard-abbrecher. gavin uberti hatte leitende positionen bei octoml und xnor.ai inne, während chris zhu chinese ist. neben seiner tätigkeit als lehrforscher in informatik an der harvard university verfügt er auch über praktikumserfahrung bei unternehmen wie amazon.

sie waren optimistisch hinsichtlich der richtung großer modelle, bevor chatgpt veröffentlicht wurde, also brachen sie 2022 die harvard university ab und gründeten gemeinsam mit robert wachen und dem ehemaligen chief technology officer von cypress semiconductor, mark ross, um große modelle für ki von chips zu entwickeln.

gavin uberti (links) und chris zhu (rechts)

sie gingen einen einzigartigen weg: sie konnten nur den ki-chip von transformer betreiben und übernahmen ein asic-design. derzeit unterstützen fast alle lösungen auf dem markt weitgehend ki-modelle, und sie haben festgestellt, dass das transformer-modell ab ende 2022 den gesamten markt dominieren wird. sie glauben, dass gpu-leistungsverbesserungen zu langsam sind und die einzige möglichkeit darin besteht, sie zu verwenden nur so können wir einen leistungssprung erzielen.

nach zwei jahren brachte etched am 27. juni dieses jahres seinen ersten ki-chip sohu auf den markt und wurde damit zum weltweit ersten chip, der speziell für transformer-computing entwickelt wurde.

große modelle laufen damit 20-mal schneller als nvidia h100 und mehr als zehnmal schneller als der spitzenchip b200, der im märz dieses jahres auf den markt kam. ein mit acht sohu-chips ausgestatteter server kann ganze 160 nvidia h100-gpus ersetzen. die kosten werden erheblich gesenkt, es kommt jedoch zu keinem leistungsverlust.

da sohu nur einen algorithmus unterstützt, können die meisten kontrollflussmodule entfernt werden. der chip kann mehr mathematische berechnungseinheiten integrieren und die rechenleistungsauslastung kann mehr als 90 % erreichen, während die gpu nur 30 % leisten kann. für ein kleines designteam ist die wartung eines software-stacks mit einer einzigen architektur offensichtlich weniger stressig.

gleichzeitig mit der veröffentlichung des sohu-chips gab etched auch den abschluss einer serie-a-finanzierung in höhe von 120 millionen us-dollar bekannt, die gemeinsam von primary venture partners und positive sum ventures geleitet wurde.

zu den hauptinvestoren dieser finanzierungsrunde gehören der bekannte silicon-valley-investor peter thiel, der ehemalige cto der kryptowährungs-handelsplattform coinbase und der ehemalige a16z-komplementär balaji srinivasan, github-ceo thomas dohmke, cruise-mitbegründer kyle vogt und quora-mitgründer charlie cheever mehr.

cerebras systems, das von ultraman investierte ki-chip-einhorn, plant einen schnellen börsengang

das einzigartigste an cerebras systems, gegründet 2015, ist, dass sich ihre chips stark von den mainstream-gpus von nvidia unterscheiden. in der vergangenheit wurden chips unter der führung des mooreschen gesetzes immer kleiner. am beispiel des nvidia h100 sind es 80 milliarden transistoren auf einer kernfläche von 814 quadratmillimetern.

der ki-chip von cerebras entscheidet sich dafür, den gesamten chip immer größer zu machen, und behauptet, „den flächenmäßig größten chip der welt geschaffen zu haben“. berichten zufolge wird der von cerebras entwickelte wse-3-chip aus einem ganzen wafer geschnitten, der größer als ein teller ist und erfordert, dass eine person ihn mit beiden händen hochhält. ein wse-3-chip verfügt über 4.000 milliarden transistoren (50-mal so viel wie h100) auf einer kernfläche von mehr als 46.000 quadratmillimetern.

chips, die größer als der teller sind, müssen mit beiden händen gehalten werden. quelle: ars technica

cerebras behauptet, dass die größe des ki-großmodells, das ihr chip trainieren kann, zehnmal größer ist als die der derzeit führenden großmodelle der branche (wie gpt-4 von openai oder gemini von google).

am 27. august dieses jahres kündigte cerebras systems die einführung des ki-inferenzdienstes cerebras inference an, der als „der schnellste der welt“ gilt. laut der offiziellen website ist dieser inferenzdienst 20-mal schneller als der dienst von nvidia und gewährleistet gleichzeitig eine 7.000-fache genauigkeit des prozessorspeichers, während der preis nur 1/5 der gpu beträgt und das preis-leistungs-verhältnis stimmt um das hundertfache erhöht. cerebras inference bietet außerdem mehrere serviceebenen, darunter kostenlose, entwickler- und unternehmensebenen, um unterschiedliche anforderungen von der entwicklung im kleinen maßstab bis zur bereitstellung im großen unternehmen zu erfüllen.

mitbegründer und ceo andrew feldman hat einen mba der stanford university und chief technology officer gary lauterbach gilt als einer der besten computerarchitekten der branche. 2007 gründeten die beiden gemeinsam das mikroserverunternehmen seamicro, das 2012 für 334 millionen us-dollar von amd übernommen wurde, und schlossen sich anschließend amd an.

laut ausländischen medienberichten hat cerebras systems heimlich einen börsengang in den usa beantragt und wird bereits im oktober 2024 an die börse gehen. derzeit hat das unternehmen 720 millionen us-dollar eingesammelt und wird auf etwa 4,2 bis 5 milliarden us-dollar geschätzt. einer der größten einzelinvestoren ist openai-ceo sam altman. berichten zufolge beteiligte sich altman an der serie-d-finanzierung von cerebras in höhe von 81 millionen us-dollar.

tenstorrent wird zusammen mit dem legendären chipmaster nvidias „ersatz“

vor 2021 war tenstorrent noch ein unbekanntes unternehmen. das unternehmen wurde jedoch für eine weile berühmt, als jim keller, eine große persönlichkeit der halbleiterindustrie, bekannt als „silicon immortal“, ankündigte, dass er dem unternehmen als chief technology officer und präsident beitreten würde.

jim kellers karriere kann als geschichte der computerindustrie bezeichnet werden. von 1998 bis 1999 arbeitete jim keller an der k7/k8-architektur, die athlon bei amd unterstützte; von 2008 bis 2012 übernahm er die leitung bei der entwicklung der a4- und a5-prozessoren bei apple; von 2012 bis 2015 leitete er den k12 arm projekt bei amd, zen-architekturprojekt; von 2016 bis 2018 entwickelte er fsd-autopilot-chips bei tesla und von 2018 bis 2020 beteiligte er sich an mysteriösen projekten bei intel.

jim keller kommt zu tenstorrent in der hoffnung, einen „ersatz“ für die teuren gpus von nvidia bereitzustellen. er glaubt, dass nvidia bestimmte märkte nicht gut bedient und diese märkte genau das sind, was tenstorrent zu erobern versucht.

laut tenstorrent ist sein galaxy-system dreimal effizienter und 33 % günstiger als nvidia dgx, der weltweit beliebteste ki-server.

berichten zufolge wird tenstorrent voraussichtlich noch in diesem jahr seinen mehrzweck-ki-prozessor der zweiten generation herausbringen. laut der neuesten roadmap von tenstorrent vom vergangenen herbst beabsichtigt das unternehmen, seinen eigenständigen ki-prozessor black hole und die stromsparenden und kostengünstigen quasar-chiplets für ki-lösungen mit mehreren chips auf den markt zu bringen.

das unternehmen behauptet, dass seine kommenden prozessoren eine mit den ki-gpus von nvidia vergleichbare leistungseffizienz bieten. gleichzeitig sagt tenstorrent, dass seine architektur weniger speicherbandbreite verbraucht als seine konkurrenten, was ein wesentlicher grund für die höhere effizienz und niedrigeren kosten ist.

das hauptmerkmal des tentorrent-chips besteht darin, dass jeder seiner mehr als 100 kerne über eine kleine cpu verfügt, ein „gehirn im gehirn“. die kerne können selbstständig „denken“ und entscheiden, welche daten sie zuerst verarbeiten ob bestimmte daten verworfen werden sollen, die als unerwünscht notwendige aufgaben gelten, wodurch die gesamteffizienz erhöht wird.

bisher hat tentorrent mindestens sechs finanzierungsrunden abgeschlossen. zuvor handelte es sich bei den investoren von tentorrent hauptsächlich um risikokapital, d. h. nach dem beitritt von jim keller schloss das unternehmen im august 2023 eine neue finanzierungsrunde in höhe von 100 millionen us-dollar ab, und unter den investoren tauchte zunehmend industriekapital auf – hyundai automotive group und samsung catalyst fund , ein risikokapitalzweig von samsung.

softbank erwirbt graphcore mit einem abschlag, um einen konkurrenten für nvidia zu schaffen

graphcore wurde 2016 von cto simon knowles und ceo nigel toon gegründet. das unternehmen engagiert sich für die entwicklung der intelligence processing unit (ipu), eines prozessors, der speziell für künstliche intelligenz und maschinelles lernen entwickelt wurde und über eine einzigartige architektur und vorteile wie massiv parallele mimd-architektur, hohe speicherbandbreite und eng gekoppeltes lokales verteiltes sram usw. verfügt.

graphcore hat nacheinander eine reihe ipu-basierter produkte auf den markt gebracht, wie z. b. den gc200 ipu-prozessor, bow ipu usw., und führt weiterhin technische upgrades und verbesserungen durch.

im juli dieses jahres wurde dieses angeschlagene britische unternehmen für ki-chips jedoch von softbank übernommen.

im rahmen der vereinbarung wird graphcore eine hundertprozentige tochtergesellschaft von softbank und wird weiterhin unter seinem aktuellen namen firmieren. berichten zufolge könnte der gesamttransaktionswert etwa 400 millionen pfund (etwa 500 millionen us-dollar, 3,56 milliarden yuan) erreichen, was etwa 82 % niedriger ist als die bewertung der letzten finanzierungsrunde von graphcore von 2,8 milliarden us-dollar. softbank hat es nur mit 20 % rabatt gekauft.

graphcore galt einst als die „britische version von nvidia“. allerdings hat das unternehmen seit 2020 keine neuen investitionen erhalten und auch wichtige aufträge von microsoft verloren. dadurch ist es finanziell angeschlagen und operativ schwierig geworden und konnte mit dem allgemeinen trend im bereich der ki-chips nicht schritt halten. gleichzeitig verschärfen die usa weiterhin die exportkontrollen für chinas ki-halbleiter, was sich auch auf die entwicklung von graphcore in china auswirkt. am ende musste sich das unternehmen für den rückzug aus dem chinesischen markt entscheiden und ein viertel seines gesamtumsatzes verlieren.

diese übernahme von graphcore festigt nicht nur die position von softbank im bereich ki-chips, sondern ist auch ein wichtiger schritt in sons ki-strategie.

ehemalige google-ingenieure gründeten groq, um eine neue art von lpu zu schaffen

im august dieses jahres gab groq den abschluss einer serie-d-finanzierung in höhe von 640 millionen us-dollar bekannt. zu den investoren zählen blackrock, cisco investments, samsung catalyst fund usw. mit einer bewertung von 2,8 milliarden us-dollar.

das 2016 vom ehemaligen google-ingenieur jonathan ross gegründete unternehmen behauptet, dass seine hardware-lpu für die sprachverarbeitungseinheit bestehende genai-modelle wie gpt-4 zehnmal schneller ausführen kann und dabei nur ein zehntel der energie verbraucht. mit metas llama 2 stellte das unternehmen mit 300 token pro sekunde und benutzer einen neuen leistungsrekord für das large language model (llm) auf.

verglichen mit der vielseitigkeit der gpu ist der anwendungsbereich der lpu zwar gut bei der sprachverarbeitung, ihr anwendungsbereich ist jedoch begrenzt. dies schränkt ihre generalisierbarkeit auf ein breiteres spektrum von ki-aufgaben ein. darüber hinaus hat lpu als aufstrebende technologie noch keine breite unterstützung von der community erhalten, und auch die benutzerfreundlichkeit steht vor herausforderungen.

groq plant, bis zum ende des ersten quartals 2025 mehr als 108.000 lpus einzusetzen, den größten einsatz künstlicher intelligenz außerhalb der großen technologiegiganten.