Ist die Ära der großen Models vorbei? Big Boss Qi prognostiziert: KI-Modelle müssen möglicherweise verkleinert werden, bevor sie vergrößert werden können

Ist die Ära der großen Models vorbei?Big Boss Qi prognostiziert: KI-Modelle müssen möglicherweise verkleinert werden, bevor sie vergrößert werden können

2024-07-22

Neuer Weisheitsbericht

Herausgeber: Ohren

[Einführung in die neue Weisheit]Geht mit dem Aufkommen kleiner Modelle die „Ära der großen Modelle“ zu Ende?

Die „Small Model Week“ ist vorbei und das neueste Schlachtfeld für kleine Modelle hat gerade eröffnet.

Letzte Woche wurden nacheinander GPT-4o mini und Mistral NeMo auf den Markt gebracht. Die kleinen Modelle, die „klein sind, aber über alle inneren Organe verfügen“, haben sich zu einer neuen Richtung entwickelt, der Branchenführer große Aufmerksamkeit schenken.

Stehen große Modelle kurz davor, in Ungnade zu fallen?

Der ehemalige OpenAI- und Tesla-KI-Forscher Andrej Karpathy ist gerade in die KI-Ausbildung eingestiegen. „Teacher K“ hat kürzlich einen Tweet veröffentlicht, der der Branche Orientierung geben soll und den neuen Trend hinter der Verlagerung der Technologiegiganten hin zur Forschung und Entwicklung kleiner Modelle enthüllt: die Konkurrenz großer KI-Modelle ist im Begriff, sich umzukehren.

Er prognostiziert, dass zukünftige Modelle kleiner, aber dennoch intelligenter sein werden.

KI-Giganten und einige neue Einhörner haben kürzlich Modelle für künstliche Intelligenz herausgebracht, die kompakter, leistungsfähiger und erschwinglicher sind als ihre Konkurrenten. Das neueste Beispiel ist der GPT-4o mini von OpenAI.

Karpathy geht davon aus, dass sich dieser Trend fortsetzen wird. „Ich wette, wir werden viele Modelle sehen, die effizient und zuverlässig denken, und das in sehr kleinen Größen“, schrieb er.

Kleine Modelle: Auf den Schultern von Riesen stehen

In den frühen Stadien der LLM-Entwicklung ist es ein unvermeidlicher Trend, mehr Daten zu verarbeiten und das Modell zu vergrößern. Dies hat vor allem folgende Gründe:

Erstens datengesteuerte Bedürfnisse.

Im Zeitalter der Datenexplosion erfordert die Verarbeitung und das Verständnis einer großen Menge umfangreicher und vielfältiger Daten leistungsfähigere Modelle.

Große Modelle sind in der Lage, riesige Datenmengen aufzunehmen und zu verarbeiten. Durch umfangreiches Datentraining können sie tiefgreifende Muster und Gesetze entdecken.

Zweitens die Verbesserung der Rechenleistung.

Die kontinuierliche Weiterentwicklung der Hardwaretechnologie und die Entwicklung von Hochleistungsrechengeräten wie GPUs bieten leistungsstarke Rechenleistungsunterstützung für das Training großer Modelle. Ermöglicht das Training großer, komplexer Modelle.

Streben Sie außerdem nach höherer Leistung und Genauigkeit.

Große Modelle können in der Regel hervorragende Leistungen in mehreren Bereichen wie Sprachverständnis, Generierung und Bilderkennung vorweisen. Je mehr sie verstehen, desto genauer sind die Ergebnisse, die sie generieren.

Schließlich ist die Generalisierungsfähigkeit stärker.

Große Modelle können neue, noch nie dagewesene Probleme und Aufgaben besser bewältigen, können auf der Grundlage zuvor erlernten Wissens vernünftige Vermutungen und Antworten anstellen und verfügen über stärkere Generalisierungsfähigkeiten.

In Verbindung mit dem harten Wettbewerb im KI-Bereich sind verschiedene Forschungseinrichtungen und Giganten bestrebt, größere und stärkere Modelle zu entwickeln, um ihre technische Stärke und führende Position zu demonstrieren. Die Größe des Volumenmodells ist natürlich zur allgemeinen Entwicklungsrichtung von LLM geworden.

Karpathy führte die Größe der derzeit leistungsstärksten Modelle auch auf die Komplexität der Trainingsdaten zurück und fügte hinzu, dass große Sprachmodelle über hervorragende Gedächtnisleistungen verfügen und die menschlichen Gedächtnisleistungen übertreffen.

Wenn Sie in der Abschlusswoche eine Klausurprüfung ablegen müssen, müssen Sie analog dazu einen bestimmten Absatz aus dem Buch auf der Grundlage der ersten paar Wörter aufsagen.

Dies ist das Ziel des Vortrainings der heutigen großen Modelle. Karpathy sagte, dass die heutigen großen Modelle wie gierige Schlangen seien, die einfach nur alle verfügbaren Daten verschlingen wollen.

Sie können nicht nur die SHA-Reihe von Hashing-Algorithmen für allgemeine Zahlen aufsagen, sondern sich auch an die Kenntnis aller großen und kleinen Felder erinnern.

Aber diese Art des Lernens ist so, als würde man sich für einen Test alles aus der gesamten Bibliothek und dem Internet merken.

Es ist unbestreitbar, dass diejenigen, die diese Art von Gedächtnisfähigkeit erreichen können, Genies sind, aber am Ende wurde bei der Prüfung nur eine Seite verwendet!

Für solch begabte Studenten ist es für LLM schwierig, bessere Ergebnisse zu erzielen, da Daten, Denkdemonstration und Wissen im Trainingsprozess miteinander „verflochten“ sind.

Darüber hinaus sind große Modelle einerseits aus Sicht der praktischen Anwendung mit hohen Kosten und einem hohen Ressourcenverbrauch konfrontiert, wenn sie bereitgestellt und ausgeführt werden, einschließlich Rechenressourcen, Speicherressourcen und Energieverbrauch.

Kleine Modelle lassen sich einfacher in verschiedenen Geräten und Szenarien einsetzen und erfüllen die Anforderungen an Benutzerfreundlichkeit und geringen Stromverbrauch.

Andererseits können aus der Perspektive der technologischen Reife diese Kenntnisse und Muster verfeinert und auf den Entwurf und die Optimierung kleiner Modelle angewendet werden, nachdem die Natur und die Gesetze des Problems anhand großer Modelle vollständig erforscht und verstanden wurden.

Dadurch können kleine Modelle den Umfang und die Kosten reduzieren und gleichzeitig die gleiche oder sogar eine bessere Leistung als große Modelle beibehalten.

Obwohl die Entwicklung großer Modelle auf einen Engpass gestoßen ist und kleine Modelle allmählich zu einem neuen Trend geworden sind, betonte Karpathy, dass große Modelle immer noch benötigt werden, auch wenn sie nicht effektiv trainiert werden, kleine Modelle jedoch aus großen Modellen verdichtet werden.

Karpathy prognostiziert, dass sich jedes Modell weiter verbessert und Trainingsdaten für das nächste Modell generiert, bis es einen „perfekten Trainingssatz“ gibt.

Selbst ein Standardmodell wie GPT-2 mit 1,5 Milliarden Parametern kann nach heutigen Maßstäben zu einem sehr leistungsstarken und intelligenten Modell werden, wenn Sie GPT-2 mit diesem perfekten Trainingssatz trainieren.

Dieser GPT-2, der mit einem perfekten Trainingssatz trainiert wurde, kann beispielsweise beim Massive Multi-Task Language Understanding (MMLU)-Test, der 57 Aufgaben abdeckt, darunter elementare Mathematik, US-amerikanische Geschichte, Informatik, Jura, etwas schlechter abschneiden. usw., die zur Bewertung der Grundwissensabdeckung und der Verständnisfähigkeit großer Modelle verwendet werden.

Aber in Zukunft werden intelligentere Modelle der künstlichen Intelligenz nicht mehr auf Volumen angewiesen sein; sie werden in der Lage sein, Informationen zuverlässiger abzurufen und Fakten zu überprüfen.

Genau wie ein Top-Student, der eine Open-Book-Prüfung ablegt, kann er die richtige Antwort genau finden, auch wenn nicht das gesamte Wissen vollständig verstanden wird.

Berichten zufolge konzentriert sich das Strawberry-Projekt von OpenAI auf die Lösung dieses Problems.

„Abspecken“ des „bauschigen“ großen Modells

Wie Karpathy sagte, werden die meisten sehr großen Modelle (wie GPT-4), die mit massiven Daten trainiert werden, tatsächlich dazu verwendet, sich eine große Anzahl irrelevanter Details zu merken, also Informationen auswendig zu lernen.

Dies hängt mit dem Zweck des Modell-Vortrainings zusammen. In der Vortrainingsphase muss das Modell den folgenden Inhalt so genau wie möglich rezitieren, was dem Auswendiglernen des Textes entspricht Punktzahl.

Obwohl das Modell wiederkehrendes Wissen erlernen kann, gibt es manchmal Fehler und Verzerrungen in den Daten, und das Modell muss sich diese zunächst alle merken, bevor es eine Feinabstimmung vornehmen kann.

Karpathy glaubt, dass mit einem qualitativ hochwertigeren Trainingsdatensatz ein kleineres, leistungsfähigeres und leistungsfähigeres Modell trainiert werden kann.

Mit Hilfe sehr großer Modelle können qualitativ hochwertigere Trainingsdatensätze automatisch generiert und bereinigt werden.

Ähnlich wie GPT-4o mini wird es mit von GPT-4 bereinigten Daten trainiert.

Zuerst das Modell vergrößern und dann auf dieser Basis „verkleinern“. Dies könnte ein neuer Trend in der Modellentwicklung sein.

Um eine anschauliche Metapher zu geben: Es ist, als ob das aktuelle große Modell das Problem hat, zu viele Datensätze zu haben und zu fett ist. Nach der Datenbereinigung und umfangreichem Training verwandelt es sich in ein kleines Modell mit schlanken Muskeln.

Dieser Prozess ist wie eine schrittweise Weiterentwicklung, und jede Modellgeneration hilft dabei, die nächste Generation von Trainingsdaten zu generieren, bis wir schließlich einen „perfekten Trainingssatz“ erhalten.

Auch OpenAI-CEO Sam Altman äußerte sich ähnlich und erklärte bereits im April 2023 das „Ende der Ära“ großer KI-Modelle.

Darüber hinaus wird zunehmend anerkannt, dass die Datenqualität ein entscheidender Erfolgsfaktor im KI-Training ist, unabhängig davon, ob es sich um echte Daten oder synthetische Daten handelt.

Altman glaubt, dass die entscheidende Frage darin besteht, wie KI-Systeme aus weniger Daten mehr lernen können.

Dasselbe Urteil haben Microsoft-Forscher bei der Entwicklung des Hugging-Face-AI-Forschers gefällt und sie haben hochwertige Trainingsdatensätze veröffentlicht.

Dies bedeutet, dass die blinde Erweiterung nicht mehr das einzige technische Ziel der Technologiegiganten ist. Selbst kleine, hochwertige Modelle können von mehr, vielfältigeren und qualitativ hochwertigeren Daten profitieren.

Die Rückkehr zu kleineren, effizienteren Modellen kann als Ziel der nächsten Integrationsstufe angesehen werden, und die Modellveröffentlichung von OpenAI zeigt klar die Richtung der zukünftigen Entwicklung auf.

Kommentarbereich: richtig, relevant und blutig

Karpathy erwähnte auch Teslas ähnlichen Ansatz beim autonomen Fahrnetzwerk.

Tesla verfügt über einen sogenannten „Offline-Tracker“, der durch die Ausführung eines früheren schwächeren Modells sauberere Trainingsdaten generiert.

Sobald er hörte, dass die Technologie von Tesla angeblich an der Spitze der Zeit sei, stürzte sich Musk schnell in den Kommentarbereich:

Die Internetnutzer im Kommentarbereich brachten auch ihre Wertschätzung für Karpathys Weitsicht zum Ausdruck, und ich stimme zu!

Für zukünftige allgemeine künstliche Intelligenz könnten kleinere und effizientere künstliche Intelligenzmodelle „Intelligenz“ in der künstlichen Intelligenz neu definieren und die Annahme „größer ist besser“ in Frage stellen.

Sebastian Raschka, Autor von „Python Machine Learning“, glaubt, dass dies einer Wissensdestillation gleicht, bei der aus einem großen 27B-Modell ein kleines Modell wie Gemma-2 destilliert wird.

Er erinnerte uns auch daran, dass Multiple-Choice-Tests wie MMLU Wissen testen können, tatsächliche Fähigkeiten jedoch nicht vollständig widerspiegeln können.

Einige Internetnutzer sind auch sehr einfallsreich. Wenn die kleinen Modelle gut funktionieren, gibt es eine Spezialisierung auf diesem Gebiet. Warum nicht mehrere kleine Modelle verwenden, um nacheinander Antworten zu generieren?

Rufen Sie 10 KI-Assistenten herbei und überlassen Sie es dann dem Klügsten, die endgültige Zusammenfassung zu erstellen. Es ist einfach die KI-Version einer Denkfabrik.

Ist AGI also ein allmächtiges großes Modell oder ist es das Ergebnis der Zusammenarbeit vieler kleiner Modelle?

Nachricht

Ist die Ära der großen Models vorbei?Big Boss Qi prognostiziert: KI-Modelle müssen möglicherweise verkleinert werden, bevor sie vergrößert werden können

Neuer Weisheitsbericht

Einführung

meine Kontaktdaten