Nachricht

OpenAI startet blutigen Kampf mit kleinen Modellen!Apples DCLM feiert ein starkes Debüt und zerschmettert die vollständige Open-Source-Lösung von Mistral 7B

2024-07-21

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Neuer Weisheitsbericht

Herausgeber: Tao Zi Qiao Yang

[Einführung in die neue Weisheit] Ist die Ära der kleinen Modelle da? OpenAI betrat mit GPT-4o mini zum ersten Mal das Schlachtfeld kleiner Modelle und HuggingFace veröffentlichte diese Woche nacheinander kleine Modelle. Heute hat Apple außerdem ein kleines DCLM-Modell mit 7 Milliarden Parametern herausgebracht, das Mistral-7B in der Leistung übertrifft.

Das Schlachtfeld der Kleinmodelle beginnt gleich!

Nach der Veröffentlichung von GPT-4o mini und Mistral NeMo stieg auch Apple ins Spiel ein.

Das kleine DCLM-Modell enthält zwei Parametergrößen – 7 Milliarden und 1,4 Milliarden – und ist bei Veröffentlichung Open Source. Der maximale Parameter von 7 Milliarden übertrifft Mistral-7B und seine Leistung liegt nahe an Llama 3 und Gemma.


Laut Vaishaal Shankar, einem Forschungswissenschaftler im ML-Team von Apple (ebenfalls DCLM-Entwickler), ist dies das bisher leistungsstärkste „wirklich Open Source“-Modell. Es verfügt nicht nur über Gewichte und Trainingscode, sondern basiert auch auf Open Source Datensatz DCLM-Baseline.


Im Vergleich zur Modellleistung ist das „echte Open-Source“-Modell von DCLM auffälliger.

Im Gegensatz dazu beschäftigen sich die meisten Technologiegiganten nur mit Closed-Source-Modellen oder „halten sich immer noch an der Pipa fest und bedecken ihre Gesichter zur Hälfte.“


Darüber hinaus prognostizierte Shankar, dass auch in Zukunft Modellzwischenkontrollpunkte und Optimiererstatus eingeführt werden.


Könnte es sein, dass dies der Frühling der LLM-Open-Source-Community ist?


Die DCLM-Serie ist vollständig Open Source

Derzeit sind alle Modellgewichte auf HuggingFace veröffentlicht und die Modellkarten enthalten im Wesentlichen wichtige Informationen.


https://huggingface.co/apple/DCLM-7B

DCLM-7B verwendet außerdem eine reine Decoder-Architektur und nutzt PyTorch- und OpenLM-Frameworks für das Vortraining.

Der DCLM-Basisdatensatz mit insgesamt 4T-Tokens stammt aus insgesamt 240T DCLM, und das DCLM-7B-Modell filtert weitere 2,5T davon für das Training heraus.


Die Kontextlänge beträgt 2048, was weniger als die 8 KB-Länge von Mistral 7B und Gemma 2 9B ist.

In Bezug auf die Leistung nutzte der Autor direkt die Evaluierungssuite LLM Foundry, um die Ergebnisse des Modells bei 53 Benchmark-Aufgaben zu testen.

Beim Vergleich mit anderen Modellen hat der Autor zusätzlich zum MMLU-Score auch zwei Indikatoren angepasst: „Kerngenauigkeit“ (Kern) und „erweiterte Genauigkeit“ (erweitert).

Ersteres ist die durchschnittliche Genauigkeit von 22 Aufgabenzentren, darunter HellaSwag und ARC-E, während letzteres alle 53 Aufgaben abdeckt.

Obwohl DCLM im Vergleich zu anderen offenen Datenmodellen gleicher Größe (sowohl Gewichte als auch Datensätze sind Open Source) nicht die meisten Daten verwendet, erzielt es bei allen drei Indikatoren die beste Leistung.


Die drei Spalten der Benchmark-Ergebnisse von links nach rechts sind: Kern, MMLU, Erweiterung

Im Vergleich zum vorherigen SOTA MAP-Neo-Modell erreichte die 5-Schuss-MMLU-Aufgabengenauigkeit des DCLM-7B 63,7 %, was einer Steigerung von 6,6 Prozentpunkten entspricht, während der für das Training erforderliche Rechenaufwand um 40 % reduziert wurde.

Im Vergleich zu Modellen mit Open-Source-Gewichten und Closed-Source-Datensätzen ist der Effekt jedoch nicht zufriedenstellend.

Bei verschiedenen Indikatoren besteht eine große Lücke zwischen DCLM und Phi-3, und die Werte entsprechen in etwa denen von Mistral-7B-v0.3 oder Gemma 8B.


Die Forscher fanden heraus, dass sich beim Training mit weiteren 100 B Daten aus demselben Datensatz und der Erweiterung der Kontextlänge auf 8.000 die Ergebnisse des Modells bei den Kern- und erweiterten Benchmarks weiter verbesserten, sich die MMLU-Ergebnisse jedoch nicht änderten.


Dieses Ergebnis übertrifft den Wert des Mistral 7B-v0.3 deutlich.

Darüber hinaus veröffentlichte HuggingFace auch eine Version des 7B-Modells zur Feinabstimmung der Anweisungen, die eine erhebliche Leistungsverbesserung bei der mathematischen Denkaufgabe GSM8K erzielte, wobei die Punktzahl von ursprünglich 2,1 auf 52,5 stieg.


https://huggingface.co/apple/DCLM-7B-8k

Neben Version 7B ist gleichzeitig auch Version 1.4B online. Wie durch ein Wunder hat sich die Menge der Trainingsdaten im Vergleich zur 7B-Version um 0,1 T erhöht.


https://huggingface.co/TRI-ML/DCLM-1B

Im Vergleich zum kürzlich veröffentlichten SmolLM von HuggingFace ist die Leistung von DCLM-1B deutlich besser, insbesondere der 5-Schuss-MMLU-Score, der 11,9 % höher ist als der von SmolLM.

Darüber hinaus ist der MMLU-Score von DCLM-1B mit 41,9 auch höher als der von Qwen-1.5B mit 37,87 und der von Phi-1.5B mit 35,90.


Das 7B-Modell fiel zurück, aber das 1.4B-Modell überholte es. Wie erwartet sind kleine Modelle die Spezialität von Apple.

Es ist erwähnenswert, dass das 7B-Modell nur unter der Sample Code License (ASCL) von Apple verfügbar ist, die 1.4B-Version jedoch unter Apache 2.0 veröffentlicht wird, was die kommerzielle Nutzung, Verbreitung und Modifikation ermöglicht.

Da wir nun über die dieses Mal erschienenen Modelle der DCLM-Serie sprechen, müssen wir deren wichtige Grundlage erwähnen – den DataComp-Benchmark.


Papieradresse: https://arxiv.org/pdf/2406.11794

Das DataComp-Papier wurde erstmals am 17. Juni veröffentlicht. Die Co-Autoren Jeffrey Li, Alex Fang und Co-Endautor Vaishaal Shankar sind ebenfalls Entwickler von Apple DCLM.

Der Artikel geht nicht nur ausführlich auf den Konstruktionsprozess des Datensatzes ein, sondern erwähnt auch einige Inhalte zum DCLM-Modell.

Vaishaal Shankar sagte, dass in Kürze eine aktualisierte Version dieses Dokuments veröffentlicht wird, um weitere technische Details zum Modell-Vortraining bereitzustellen.

Verglichen mit der Änderung des Modells für denselben Datensatz ist die Idee von DataComp das Gegenteil: Das für die Bewertung verwendete Modell ist festgelegt und die Aufgabe besteht darin, die besten Daten aus einem insgesamt 240 Tonnen großen Datenpool zu filtern und zu verarbeiten.

Man kann sagen, dass dieser Ansatz sehr gut mit den Forschungs- und Entwicklungsideen der Technologiegiganten übereinstimmt – für die Leistung von LLM werden Pre-Training-Daten zu einem wichtigeren Faktor als Modellarchitektur und Gewichte.

Schließlich veröffentlichen eine Reihe von „Open-Source“-Modellen wie Llama, Gemma und Phi nur Gewichte und keine Daten.

Sowohl Scaling Law als auch SLM sind erforderlich

Für KI-Technologiegiganten gilt manchmal: Je größer das Modell, desto besser.


Tatsächlich hat es in der KI-Community schon immer keinen Mangel an kleinen Modellen gegeben, wie zum Beispiel die mehrfachen Iterationen der Modelle der Phi-Serie von Microsoft und das Gemma 2 7B, das erst Ende Juni von Google aktualisiert wurde.

Diese Woche veröffentlichte OpenAI plötzlich GPT-4o mini, Mistral AI hat sich mit Nvidia zusammengetan, um Mistral NeMo herauszubringen, HuggingFace's SmoLLM und andere kleine Modelle wurden veröffentlicht, was dem Feld der kleinen Modelle erneut Feuer verleiht.

Wie ein OpenAI-Forscher sagte: „Obwohl wir lieber große Modelle trainieren als alle anderen, weiß OpenAI auch, wie man kleine Modelle trainiert.“


Kleine Modelle haben den Vorteil, dass sie kostengünstiger, schneller und professioneller sind. Sie werden normalerweise mit nur wenigen Datenmengen trainiert und sind für bestimmte Aufgaben konzipiert.

Die Verkleinerung großer Modelle und die anschließende Vergrößerung ihres Maßstabs könnten einer der Trends in der zukünftigen Entwicklung sein.


Vor zwei Tagen, als GPT-4o mini veröffentlicht wurde, veröffentlichte auch Andrej Karpathy einen langen Tweet, in dem er ähnliche Ansichten äußerte.


Er glaubt, dass der Wettbewerb um die Modellgröße „umgekehrt zunehmen“ wird, und zwar nicht immer größer, sondern darum, wer kleiner und leichter ist.

Der Grund, warum das aktuelle LLM nach und nach zu einem „Giganten“ geworden ist, liegt darin, dass der Trainingsprozess immer noch sehr verschwenderisch ist. Wir fordern das Modell grundsätzlich auf, sich an den Inhalt des gesamten Internets zu erinnern (und tatsächlich ist die Speicherfähigkeit von LLM recht gut). , und die Qualität ist besser als Menschen sind viel besser).

Doch für kleine Modelle haben sich die Trainingsziele geändert. Die entscheidende Frage ist, wie KI-Systeme aus weniger Daten mehr lernen können.

Wir müssen das Modell zuerst größer und dann kleiner machen, weil wir den „Giganten“ brauchen, um die Daten zu rekonstruieren und in eine ideale synthetische Form zu bringen, nach und nach den „perfekten Trainingssatz“ zu erhalten und ihn dann dem kleinen Modell zuzuführen.

Auch Musk stimmte dieser Ansicht zu. Die von Karpathy beschriebene Modellverbesserungsleiter entspricht genau dem Weg, den Tesla in der Realität eingeschlagen hat.


Im April 2023 verkündete Sam Altman das Ende der Ära großer KI-Modelle. In einem aktuellen Interview bestätigte er zudem die Datenqualität als zentralen Erfolgsfaktor für die weitere KI-Ausbildung.


Von dieser Annahme gingen Microsoft-Forscher bei der Entwicklung des Phi-Modells aus. Auch KI-Forscher von Hugging Face haben diese Hypothese kürzlich bestätigt und einen hochwertigen Trainingsdatensatz veröffentlicht.

Am Beispiel von GPT-4 belaufen sich die Kosten für die Entwicklung und Nutzung von mehr als einer Billion Parameter auf über 100 Millionen US-Dollar.

Ein kleines Modell, beispielsweise eines, das speziell auf einen rechtlichen Datensatz trainiert wurde, kann weniger als 10 Milliarden Parameter verwenden und weniger als 10 Millionen US-Dollar kosten. Es verbraucht weniger Rechenleistung, um auf jede Anfrage zu antworten, sodass die Kosten geringer sind.

Nadella sagte, dass die kleine Phi-Modellreihe nur 1/100 so groß ist wie das kostenlose Modell hinter OpenAI und dass ihre Leistung bei vielen Aufgaben fast genauso gut ist.


Darüber hinaus haben Google und die KI-Startups Mistral, Anthropic und Cohere in diesem Jahr auch kleinere Modelle herausgebracht.

Im Juni kündigte Apple seine eigene KI-Entwicklungs-Roadmap an und plant den Einsatz kleiner Modelle, damit die Software vollständig auf Telefonen ausgeführt werden kann, was sie schneller und sicherer macht.

Für viele Aufgaben, etwa das Zusammenfassen von Dokumenten oder das Generieren von Bildern, können große Modelle übertrieben sein.

Illia Polosukhin, die Autorin hinter der Pionierarbeit von Transformer, sagte, dass die Berechnung von 2+2 keine Billiarden Operationen erfordern sollte.

Allerdings haben die Technologieriesen die großen Modelle nicht aufgegeben. Auf der diesjährigen WWDC-Konferenz kündigte Apple die Integration von ChatGPT in den Siri-Assistenten an, um komplexe Aufgaben wie das Verfassen von E-Mails auszuführen.

Schließlich ist die Erweiterung der Parameterskala, die zum ultimativen AGI/ASI führt, direkt proportional zum Wachstum der Intelligenz.


Verweise:

https://venturebeat.com/ai/apple-shows-off-open-ai-prowess-new-models-outperform-mistral-and-hugging-face-offerings/

https://www.wsj.com/tech/ai/for-ai-giants-smaller-is-sometimes-better-ef07eb98?mod=tech_lead_story

https://the-decoder.com/ai-models-might-need-to-scale-down-to-scale-up-again/