Nachricht

Dringender Bedarf!Die GPU der Universität ist in Not, Li Feifei Hinton bittet um Hilfe

2024-07-18

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


kluge Dinge
Zusammengestellt von Chen Junda
EditPanken

Laut ausländischen Medienberichten sind viele amerikanische Universitäten aufgrund der hohen Preise für KI-Rechenleistungscluster und des Auftragsrückgangs großer Unternehmen mit einem gravierenden Mangel an Rechenleistung konfrontiert, was zu einer Verzögerung in der KI-Forschung an Universitäten und Universitäten geführt hat Mangel an KI-Forschungstalenten.

Der Mangel an Rechenleistung an Universitäten besteht seit langem, und selbst Spitzenuniversitäten und akademische Führungskräfte sind von diesem Problem betroffen. Im Mai dieses Jahres sagte Li Feifei, Professor an der Stanford University, dass die akademische Gemeinschaft mit einem ernsthaften Mangel an KI-Rechnerressourcen konfrontiert sei.Das NLP-Labor der Stanford University verfügt nur über 64 GPUs (NVIDIA A100). Turing-Preisträger Geoffery Hinton sagte sogar unverblümt, als Studenten um Hilfe baten: „Ich weiß nicht, was ich in dieser Angelegenheit anders tun kann, als die Regierung zu fragen.

Im krassen Gegensatz dazu wird von der Facebook-Muttergesellschaft Meta erwartet, dass dies der Fall istEs verfügt über einen riesigen Rechenleistungscluster, der 600.000 NVIDIA H100 entspricht, was fast dem 10.000-fachen des Stanford NLP Laboratory-Clusters entspricht.

Doch die 64 GPUs im NLP-Labor der Stanford University sind für viele Studenten anderer Universitäten bereits eine Fantasie. Mit Ausnahme einiger Spitzenuniversitäten wie der Princeton University und der RWTH Aachen in DeutschlandViele Universitäten verfügen nicht einmal über eine Nvidia A100-GPU.

In einer entsprechenden Diskussion im Reddit-Forum berichteten einige Doktoranden nordamerikanischer Universitäten, dass kleine Universitäten nur die vor vielen Jahren von Nvidia herausgebrachte V100-GPU erhalten könnten.Die Situation an Universitäten in Europa und Asien ist noch schlimmerVerwendung der Consumer-Grafikkarten von Nvidia für die KI-Forschung . Dennoch ist die Rechenleistung äußerst knapp und einige Studierende müssen Grafikkarten auf eigene Kosten kaufen oder sich um Subventionen für die Rechenleistung bei NVIDIA, Amazon Cloud Service (AWS) usw. bewerben.

Viele Universitäten arbeiten auch intensiv daran, den Status quo zu ändern, indem sie beispielsweise durch schulübergreifende Zusammenarbeit gemeinsame Computercluster einrichten oder sich anderen KI-Forschungsrichtungen zuwenden, die eine geringere Rechenleistung erfordern.

1. Mangel an Rechenleistung und Abwanderung von Fachkräften Wie schwerwiegend ist der GPU-Mangel an Universitäten?

Tatsächlich standen Universitäten schon lange an der Spitze der KI-Forschung.Viele bahnbrechende Entwicklungen wurden von Forschern an Universitäten erzielt.Beispielsweise erfand Jascha Sohl-Dickstein, Postdoc an der Stanford University, 2015 das weltweit erste Diffusionsmodell, das zur Grundlage für viele nachfolgende Bild- und Videogenerierungsmodelle wurde.

Während die Grundlagenforschung an Universitäten für die Welle technologischer Innovationen von entscheidender Bedeutung ist, wird die generative KI-Forschung in jüngster Zeit von privaten Unternehmen dominiert. Dies liegt vor allem daran, dass sie Zugriff auf die Rechenleistung und Daten haben, die zum Erstellen und Trainieren großer Modelle wie ChatGPT und Gemini erforderlich sind.

Generative KI-Forschung ist teuer. Sam Altman, CEO von OpenAI, schätzt, dass das Training von GPT-4 etwa 100 Millionen US-Dollar kosten würde. Mark Zuckerberg, CEO von Meta, kündigte Anfang 2024 Pläne zum Kauf von 350.000 NVIDIA H100-GPUs an, um die Rechenleistung von Meta auf ein Niveau zu erweitern, das 600.000 NVIDIA H100-GPUs entspricht. Berechnet auf Basis des Verkaufspreises von H100 von knapp 40.000 US-Dollar,Dabei handelt es sich um einen Großauftrag im zweistelligen Milliarden-Dollar-Bereich.

Derzeit kann sich keine Universität der Welt eine KI-Rechenleistungsinfrastruktur dieser Art leisten. Als starke Informatikschule verfügt die Princeton University über einen der größten Einzelcluster für KI-Rechenleistung unter den amerikanischen Universitäten.Dieser Cluster verfügt jedoch nur über 300 NVIDIA H100-GPUs, das erst im März dieses Jahres offiziell eingeführt wurde.

Sanjeev Arora, Direktor des Zentrums für Sprache und Intelligenz an der Princeton University, sagte zu diesem Thema: „Wenn Sie keine Rechenleistung haben, können Sie keine groß angelegte Forschung durchführen und sind nicht einmal qualifiziert, an der Diskussion teilzunehmen.”。

In einer entsprechenden Diskussion im Reddit-Forum sagte ein Doktorand aus einem der fünf führenden Labore für maschinelles Lernen in den Vereinigten Staaten, dass sie bisher noch nicht einmal über eine NVIDIA H100 verfügen.


▲Fragen von Doktoranden aus den Top 5 Laboratorien für maschinelles Lernen in den Vereinigten Staaten (Quelle: Reddit)

Ein Doktorand aus Asien stand vor dem gleichen Dilemma. Die meisten der von ihm verwendeten GPUs sind Consumer-GPUs und es gibt nur eine oder zwei anstelle von Clustern. Seine Schule verfügte bis vor Kurzem über einen Server mit acht H100 und hatte nur eingeschränkten Zugriff. Der Doktorand sagte:In den zwei Wochen, in denen er das Glück hatte, die H100-GPU für das Training zu nutzen, sammelte er mehr Daten, als er in den sechs Monaten zuvor gesammelt hatte.


▲Ein Student, der in Asien an der Lebenslaufforschung beteiligt war, erinnerte sich an eine Reihe von GPUs, die er verwendet hatte (Quelle: Reddit)

Ein anderer Schüler teilte mit, dass seine Schule keine Unterstützung für die Rechenleistung leisten könne. Über sein Praktikumsunternehmen kann er nur 1.000 US-Dollar an AWS-Cloud-Computing-Leistung erhalten.Wenn Sie diese Kontingente verwenden, um einen 8-Block-H100-Cluster auszuführen, können Sie ihn nur einen Tag lang nutzen. Mit dieser Rechenleistung ist es einfach nicht möglich, qualitativ hochwertige Forschung zu produzieren. Er sagte auch, dass dies die Norm für die KI-Forschung in Ländern der Dritten Welt sei.


▲Ein Masterstudent teilte seine Erfahrungen mit der Erlangung von Berechnungspunkten über ein Praktikumsunternehmen (Quelle: Reddit)

Auch die Rechenleistungsressourcen europäischer Universitäten sind nicht optimistisch. Ein Student, der in Deutschland studiert, teilte mit, dass er großes Glück habe, weil seine Schule auch 16 A100-GPUs und Dutzende anderer GPU-Modelle bereitstellen könne.In Europa bieten viele Universitäten und Forschungslabore grundsätzlich keine Rechenleistungsunterstützung an.


▲Ein europäischer Student ist dankbar für die Computerressourcen, die er hat (Quelle: Reddit)

Ein anderer Student der RWTH Aachen in Deutschland teilte mit, dass seine Schule über mehr als 200 NVIDIA H100-GPUs verfügt, was den Neid vieler Internetnutzer auf sich gezogen hat. Diese Ressourcen werden jedoch von allen Hochschulen und auch mit externen Institutionen gemeinsam genutzt. Wenn längere Berechnungszeiten erforderlich sind, ist ein besonderer Antrag erforderlich.


▲Studenten der RWTH Aachen in Deutschland teilten sich die Rechenleistung der Schule (Quelle: Reddit)

Industrievertreter sind überrascht über den GPU-Mangel an Hochschulen und Universitäten. Ein Brancheninsider sagte, er arbeite für einen großen Cloud-Computing-Anbieter.Täglicher Kontakt mit der H100-GPU , Software dafür entwickeln und reparieren. Eine andere Branchenquelle sagte, dass stark nachgefragte, hochmoderne GPUs wie der H100 oft von großen Unternehmenskunden in großen Mengen vorbestellt werden, bevor sie in Rechenzentren eingebaut werden, sodass der H100 für die meisten Forscher „selten“ ist.


▲Branchenleute sind überrascht über den Mangel an GPUs an Hochschulen und Universitäten (Quelle: Reddit)

Bei unzureichenden Rechenressourcen ist eine Langzeitschulung äußerst luxuriös. KI-Rechenleistungscluster an Universitäten müssen oft tage- oder sogar wochenlang im Voraus beantragt werden. Auch wenn sie genutzt werden, ist die Nutzungsdauer begrenzt. Viele größere Trainingsaufgaben lassen sich nur schwer innerhalb eines einzigen Nutzungszyklus abschließen, und Forscher müssen außerdem zusätzlichen Aufwand in die Erstellung von Prüfpunkt- und Wiederherstellungscode investieren.

Der Mangel an Computerressourcen hat auch zu einem Problem der Abwanderung von Fachkräften an Hochschulen und Universitäten geführt. , wandten sich Studierende, die sich für generative KI-Forschung interessierten, an große Unternehmen. Da große Technologieunternehmen in der Regel über hundert- oder tausendmal mehr Rechenleistung verfügen als Universitäten, ist dies für KI-Talente äußerst attraktiv.

2. Rechenleistungsallianzen gründen und Forschungsrichtungen ändern. Universitäten sind weder willens noch in der Lage, hinterherzuhinken.

Angesichts der Krise, in der KI-Forschung ins Hintertreffen zu geraten und KI-Talente zu verlieren, streben viele Universitäten nach zusätzlicher Rechenleistung und verlagern ihren Forschungsschwerpunkt auf nicht rechenleistungsintensive KI-Forschungsbereiche.

„Akademische Institutionen kämpfen darum, Rechenleistung zu bekommen“, sagte Hod Lipson, Vorsitzender der Fakultät für Maschinenbau an der Columbia University. Er betonte auch, dass die Beteiligung von Industrie und Regierung an der KI-Forschung zwar wichtig sei,Um diese beiden Kräfte auszugleichen, sollten jedoch auch Wissenschaftler, Open-Source-Entwickler und andere ein Mitspracherecht bei der Entwicklung dieser Technologie haben.

Um den Mangel an Rechenleistung an Hochschulen und Universitäten zu lindern, haben viele Hochschulen und Universitäten die Regierung in den Aufbau von Rechenleistungsclustern einbezogen. Anfang 2024 schlossen sich sieben Universitäten und Forschungseinrichtungen, darunter die Columbia University, die Cornell University, die New York University und das Rensselaer Polytechnic Institute, mit der Regierung des Staates New York und Wohltätigkeitsorganisationen zusammen, um eine Rechenleistungsallianz namens Empire AI zu gründen.


▲Mitglieder der Allianz von Empire AI (Quelle: offizielle Website von Empire AI)

Diese Rechenleistungsallianz hat fast 400 Millionen US-Dollar an Finanzmitteln eingesammelt. 275 Millionen US-Dollar davon kommen von der Regierung, die restlichen Mittel kommen von den sieben an der Allianz beteiligten Universitäten und Forschungseinrichtungen. Sie werden die Mittel für den Bau eines fortschrittlichen KI-Rechenzentrums verwenden, und die Mitglieder der Allianz können diese Rechenressourcen gemeinsam nutzen und gleichzeitig effektiv die Betriebskosten teilen.

Über die Gründe für die Gründung dieser Allianz sagte das Büro des Gouverneurs des Staates New York:Derzeit konzentrieren sich KI-Rechenressourcen zunehmend in den Händen großer Technologieunternehmen, die eine enorme Kontrolle über das KI-Entwicklungsökosystem haben.Infolgedessen bleiben Forscher, gemeinnützige Organisationen und kleine Unternehmen zurück.Dies hat enorme Auswirkungen auf die KI-Sicherheit und die Gesellschaft insgesamt.

Auch Wissenschaft und Industrie arbeiten aktiv zusammen, was in US-amerikanischen Technologiezentren wie Silicon Valley, Seattle und Austin bereits üblich ist. Dan Grossman, stellvertretender Dekan der School of Computer Science and Engineering an der University of Washington, sagte, es gebe Programme, die es akademischen Forschern ermöglichen, auch in der Industrie zu arbeiten. Akademisches Personal hat Zugang zu besseren Ressourcen und Universitäten können diese Talente halten.

Tatsächlich gibt es viele wichtige KI-Forschungsprojekte, die keine hohe Rechenleistung erfordern. , wie KI-Erklärbarkeitsforschung, KI-Planungs- und Argumentationsforschung usw. Unter den Einschränkungen der Rechenleistung begannen Universitätsforscher gezielter zu forschen, um sicherzustellen, dass die akademische Gemeinschaft nicht völlig von der Industrie überholt wurde.

Kavita Bala, Dekanin der School of Computing and Information Sciences der Cornell University, sagte, Universitäten könnten weniger in den Aufbau und das Training großer Sprachmodelle investieren und sich mehr auf die Entwicklung von Anwendungen konzentrieren, die auf großen Sprachmodellen basieren. Solche Anwendungen können immer noch auf dem neuesten Stand sein und in einzigartigen Anwendungsbereichen eine große Rolle spielen.

MIT-Professor Armando Solar-Lezama, dessen Arbeit sich auf die Nutzung von KI für die Codeentwicklung konzentriert, ist der Ansicht, dass die Erstellung großer Modelle von Grund auf im akademischen Bereich einfach nicht machbar ist. Studierende und Forscher können sich auf die Entwicklung von Anwendungen oder sogar auf die Erstellung synthetischer Daten konzentrieren, die zum Trainieren großer Sprachmodelle verwendet werden können.

Solar Lesama sagte, Professoren seiner Hochschule hätten auch die Initiative ergriffen, den Kauf von Servern und Chips zu finanzieren, aber die Finanzierung sei nicht das einzige Problem.Selbst wenn Sie das Geld haben, ist es schwierig, eine erstklassige GPU zu bekommen.

Fazit: Der Mangel an KI-Rechenleistung an Universitäten besteht weiterhin und die Zusammenarbeit mehrerer Parteien könnte hoffen, die Situation zu lösen.

In der aktuellen Situation, in der große Technologieunternehmen die KI-Forschung dominieren, ist die KI-Forschung an Universitäten eine wirksame Ergänzung zu diesen Studien. Forscher an Universitäten werden nicht wie Forscher in Unternehmen von kurzfristigen Faktoren wie Finanzberichten und Marktnachfrage beeinflusst. Wenn sie mehr Rechenressourcen erhalten können, können sie möglicherweise Ergebnisse mit erheblicher Wirkung in Bereichen erzielen, denen Unternehmen keine Aufmerksamkeit schenken oder denen sie keine Aufmerksamkeit schenken wollen.

Tatsächlich war KI in den letzten Jahrzehnten immer ein unterbewertetes Forschungsfeld und musste sich mit Deep Learning und maschinellem Lernen begnügen. Aber gerade weil es beharrliche Forscher an Universitäten wie Hinton, Yann LeCun und Yoshua Bengio gibt, die seit Jahrzehnten beharrlich in der relevanten Forschung tätig sind, wurde der aktuelle KI-Boom realisiert.

Neben Rechenleistungsallianzen wie Empire AI im Bundesstaat New York haben auch viele Universitäten und Forschungseinrichtungen in Nordamerika institutionenübergreifende Kooperationen unterschiedlicher Größe zur gemeinsamen Nutzung von Rechenressourcen durchgeführt. Ende 2023 gründeten außerdem mehr als zehn Universitäten in China die China University Computing Power Alliance. Vielleicht kann diese Art der Zusammenarbeit Hoffnung machen, den Mangel an Rechenleistung an Universitäten zu überwinden.

Quelle: Wall Street Journal, Reddit