nachricht

shen dou, executive vice president der baidu group: große modelle sind eng mit cloud computing verknüpft und werden zu einer neuen art von infrastruktur.

2024-09-25

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

am 25. september sagte shen dou, executive vice president der baidu group und präsident der baidu intelligent cloud business group, auf der baidu cloud intelligence conference 2024, dass das vergangene jahr für große modelle der schlüssel zum übergang von der technologie gewesen sei ein jahr später sind große modelle eng in das cloud computing integriert und werden zu einer neuen art von infrastruktur. „große modelle und ihre zugehörigen systeme entwickeln sich in nur wenigen jahren schnell zu einer neuen generation von infrastruktur.“ diese veränderung ist beispiellos.“

shen dou, executive vice president der baidu group und präsident der baidu intelligent cloud business group. fotoquelle: foto vom unternehmen bereitgestellt

in bezug auf die rechenleistung großer modelle sagte shen dou, dass viele menschen vom „wanka-cluster“ gehört haben. einfach ausgedrückt weisen gpu-cluster drei merkmale auf: extreme skalierung, extrem hohe dichte und extreme verbindung.

und diese „extreme“ bringen mehrere ernsthafte herausforderungen mit sich. shen dou stellte vor, dass der erste die enormen bau- und betriebskosten seien, die für den aufbau eines wanka-clusters erforderlich seien. allein die anschaffungskosten für die gpu belaufen sich auf mehrere milliarden yuan. zweitens nimmt bei einem so großen cluster die komplexität von betrieb und wartung dramatisch zu. er wies darauf hin, dass hardware unweigerlich ausfallen wird und je größer das ausmaß, desto höher die wahrscheinlichkeit eines ausfalls. „als meta llama3 trainierte, kam es bei einem cluster mit 16.000 gpu-karten durchschnittlich alle 3 stunden zu einem ausfall.“

shen dou sagte weiter, dass die überwiegende mehrheit dieser ausfälle durch die gpu verursacht wird. tatsächlich handelt es sich bei der gpu um eine sehr empfindliche hardware, und selbst schwankungen der wettertemperatur zur mittagszeit wirken sich auf die ausfallrate der gpu aus. diese beiden herausforderungen zwangen baidu dazu, den aufbau, die verwaltung und wartung großer und komplexer gpu-cluster zu überdenken, die komplexität der hardwareschicht abzuschirmen und eine einfache und benutzerfreundliche computerplattform für den gesamten prozess der implementierung großer modelle bereitzustellen benutzer können die gpu-rechenleistung einfacher verwalten und die rechenleistung kostengünstig sinnvoll nutzen. „im vergangenen jahr haben wir gespürt, dass der modellschulungsbedarf der kunden stark gestiegen ist und die erforderliche clustergröße immer größer geworden ist. gleichzeitig sind auch die erwartungen aller an einen weiteren rückgang der modellinferenzkosten immer größer geworden.“ all dies hat große auswirkungen auf gpus. die stabilität und effektivität des managements stellen höhere anforderungen.“

auf dieser grundlage kündigte baidu intelligent cloud an, dass es die heterogene computing-plattform baige ai vollständig auf version 4.0 aktualisieren wird. dabei liegt der schwerpunkt auf den rechenleistungsanforderungen der gesamten implementierung großer modelle und wird unternehmen vier hauptaspekte bieten: cluster-erstellung, entwicklungsexperimente, modelltraining und modellinferenz stellen eine „vielfache, schnelle, stabile und wirtschaftliche“ ki-infrastruktur bereit.

um das problem des mangels an rechenressourcen zu lösen, hat baige 4.0 unter anderem wichtige verbesserungen an der funktion „multi-core-mixed-training“ vorgenommen und eine multi-core-mixed-trainingseffizienz von 95 % auf clustern im wanka-maßstab erreicht, was die höchste leistung darstellt fortgeschrittenes niveau im geschäft. im cluster-bereitstellungsprozess kann das aktualisierte baige eine second-level-bereitstellung auf tool-ebene erreichen, wodurch die vorbereitungszeit für den wanka-cluster-betrieb von wochen auf höchstens eine stunde verkürzt wird, was die bereitstellungseffizienz erheblich verbessert und den geschäftsstartzyklus verkürzt. als reaktion auf das problem häufiger fehler beim training großer modelle verfügt baige 4.0 über umfassend verbesserte fehlererkennungsmethoden und automatische fehlertoleranzmechanismen, die die fehlerhäufigkeit effektiv reduzieren und die cluster-fehlerbehandlungszeit um mehr als 99,5 reduzieren können % auf dem wanka-cluster.

darüber hinaus kündigte baidu intelligent cloud auch das neueste „zeugnis“ der qianfan-großmodellplattform an. auf der qianfan-großmodellplattform hat das wenxin-großmodell ein durchschnittliches tägliches anrufvolumen von mehr als 700 millionen mal und hat den benutzern gut geholfen - insgesamt 30.000 große modelle optimiert und mehr als 700.000 anwendungen auf unternehmensebene entwickelt. im vergangenen jahr ist der preis des großen flaggschiffmodells von wenxin um mehr als 90 % gefallen.

tägliche wirtschaftsnachrichten

bericht/feedback