Nachricht

Das kleine Modell stand auf, SOTA rannte aus dem Browser und umarmte mein Gesicht: Synthetische Daten sind nicht die Zukunft

2024-08-19

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Mengchen stammt aus dem Aofei-Tempel
Qubits |. Öffentliches Konto QbitAI

Das kleine SOTA-Modell, das direkt im Browser ausgeführt werden kann, ist da und gewinnt auf den Ebenen 200 Millionen, 500 Millionen bzw. 2 Milliarden, produziert von Huahuanlian.



Es gibt nur zwei Geheimnisse:

  • Filtern Sie Daten aggressiv
  • Trainieren Sie intensiv mit stark gefilterten Datensätzen

Chefwissenschaftler von HuaqiangThomas Wolf, fasst die Erfahrung des Teams bei der Entwicklung kleiner Modelle, dem Eröffnen neuer Perspektiven und dem Erregen der Aufmerksamkeit der Branche zusammen:

Synthetische Daten sind derzeit nur in bestimmten Bereichen nützlichDas Netzwerk ist so groß und vielfältig, dass das Potenzial realer Daten noch nicht vollständig ausgeschöpft ist.



Derzeit ist die 360M-Modellversion als Demo veröffentlicht und kann online gespielt werden (achten Sie auf den Verkehr).



Rufen Sie die lokale GPU auf, um sie im Browser auszuführen, einschließlich der Modellgewichte und der Web-Front-End-Benutzeroberfläche. Dies erfolgt in 400 MB.



Filtern Sie Netzwerkdaten strikt und die Leistung steigt sprunghaft an

Für die kleinen Modelle der Microsoft Phi-Serie wird behauptet, dass die Hälfte der synthetischen Daten verwendet wird und der Effekt sehr gut ist, die Daten werden jedoch nicht bekannt gegeben.

Die Open-Source-Community kann es nicht mehr ertragen, weil es so schwer zu ertragen ist:

Erstellen Sie einen großen synthetischen Datensatz für das Benchmarking und stellen Sie ihn als Open Source zur Verfügung.

Darüber hinaus deutete das Team vage an, dass dieser Schritt auch die Gerüchte überprüfen würde, dass Microsoft das Testset betrog, und ob dies in Betracht gezogen wurde.



Hugshuang wurde mit Mixtral-8-7B erstellt, dem damals besten Open-Source-Modell.25BSynthetische Daten.

Das trainierte Modell schneidet gut ab, liegt aber immer noch etwas unter dem Niveau von Phi-1 und Phi-1,5.

Sie versuchten, verschiedene Themen auf der Mittelschulebene durch große Modelle erklären zu lassen, schnitten aber letztlich beim MMLU-Test nur schlecht ab, da es sich bei MMLU um eine Frage auf PhD-Niveau handelt.



Der eigentliche Leistungsdurchbruch kam durch eine Nebenaufgabe:

Versuchen Sie es nicht nur mit der Generierung synthetischer Daten von Grund auf mit großen ModellenFiltern Sie Netzwerkdaten mithilfe großer Modellfilter

Konkret wurde ein Klassifikator unter Verwendung von Annotationen entwickelt, die von Llama3-70B-Struct generiert wurden.Behalten Sie nur die lehrreichsten Webseiten im FineWeb-Datensatz

Durch die Verwendung streng gefilterter Netzwerkdaten steigt die Leistung sprunghaft an und übertrifft alle anderen Modelle ähnlicher Größe bei den meisten Benchmarks, einschließlich Phi-1,5.



Das Huahuanglian-Team sagte, die Ergebnisse dieses Experiments seien"Bittersüß"’s: Obwohl die Modellleistung beispiellos hoch ist, zeigt sie auch, dass synthetische Daten immer noch nicht so gut sind wie echte Daten.

Später nutzten sie dieselbe Idee, um von natürlicher Sprache auf Code zu erweitern, und der gefilterte Codedatensatz erwies sich ebenfalls als sehr leistungsfähig.

Verbessern Sie den HumanEval-Benchmark-Score direkt von etwa 13 % auf über 20 %.

Im endgültigen gemischten Datensatz, den sie erstellten, machte der deduplizierte gefilterte Datensatz den größten Teil aus, während die reinen synthetischen Daten Cosmopedia v2 nur 15 % ausmachten.



Zusammenfassend lässt sich sagen: Sind synthetische Daten immer noch nützlich?

Das Team ist davon überzeugt, dass dies möglicherweise nur in Bereichen sinnvoller ist, in denen ein echter Mangel an realen Daten besteht, beispielsweise in der Argumentation und in der Mathematik.



Selbst kleine Modelle benötigen zum Trainieren Billionen von Token

Gerade als sie von diesen neuen Erkenntnissen und Ergebnissen begeistert waren, kam ein neuer Praktikant, Elie Bakouch, hinzu.

Obwohl er zu diesem Zeitpunkt nur ein Praktikant war, war er tatsächlich ein Experte für verschiedene Trainingstechniken.



Mit Elies Hilfe reduzierte das Team die Modellgröße von 1,7 B auf 360 M oder sogar 170 M, was den Standardmodellen GPT-1, GPT-2 und BERT entspricht.

Während dieses Prozesses wurde eine zweite wichtige Entdeckung gemacht: Im Gegensatz zum bisherigen KonsensSelbst kleine Modelle müssen mit Billionen von Token trainiert werden, je länger desto besser.

AuchDatenglühen(Annealen der Daten) hat sich ebenfalls als effektiv erwiesen, d. h. die Beibehaltung eines speziellen Satzes hochwertiger Daten für den letzten Teil des Trainings.

Die letzte veröffentlichte Modellserie eignet sich für den Einsatz auf verschiedenen Geräten, vom Smartphone bis zum Laptop. Das größte 1,7-B-Modell, BF16, belegt mit Genauigkeit nur 3 GB Speicher.

Als Referenz: Die Einstiegsversion des iPhone 15 verfügt auch über 6G und Android-Telefone haben sogar noch mehr.



Obwohl das dieses Mal trainierte Basismodell gut genug war, stellte das Team immer noch ein Problem fest.

Bisherige Ausrichtungs- und Feinabstimmungstechnologien wie SFT, DPO, PPO usw. sind für große Modelle sehr effektiv, für kleine Modelle jedoch nicht ideal.

Das Team analysierte, dass der Ausrichtungsdatensatz viele Konzepte enthielt, die für das kleine Modell zu komplex waren und es an gut konzipierten einfachen Aufgaben mangelte.

Die nächste neue Grube ist gegraben, interessierte Teams können mit der Arbeit beginnen und werden vielleicht zu den Rettern kleiner Modelle.

Online-Testversion:
https://huggingface.co/spaces/HuggingFaceTB/instant-smollm

Referenzlinks:
[1]https://huggingface.co/blog/smollm
[2]https://x.com/Thom_Wolf/status/1825094850686906857