Nachricht

Apple hat das 7B-Modell als Open Source bereitgestellt und den gesamten Trainingsprozessdatensatz auf einmal bereitgestellt. Netizens sagten: „Es ist ganz anders als bei Apple.“

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Apple ist das jüngste Unternehmen, das das Open-Source-Schlachtfeld für große Modelle betritt, und es ist offener als andere Unternehmen.

ausrollen7B-Modell, nicht nur die Wirkung ist die gleiche wieLama 3 8BEs ist ziemlich gut und gleichzeitig Open Source.Alle Schulungsprozesse und Ressourcen



Wissen Sie, vor nicht allzu langer Zeit hat Elizabeth Gibney, Herausgeberin des Nature-Magazins,Kritik schreiben

  • Viele KI-Modelle, die behaupten, Open Source zu sein, sind in Bezug auf Daten und Trainingsmethoden tatsächlich nicht transparent und können den Anforderungen echter wissenschaftlicher Forschung nicht gerecht werden.

Aber dieses Mal kam Apple tatsächlich in die Realität! !

Sogar der NLP-Wissenschaftler und Erfinder von AutoAWQ rief aus:

  • Apple hat ein Modell herausgebracht, das den Mistral 7B übertrifft, aber was noch besser ist, ist, dass alles vollständig Open Source ist.Enthält einen Datensatz vor dem Training



Es zog auch Internetnutzer dazu, sich im Internet lächerlich zu machen:



Was die Bedeutung dieser Open Source angeht, haben einige begeisterte Internetnutzer auch dazu beigetragen, sie zusammenzufassen:

  • Für alle, die ein Modell von Grund auf trainieren oder ein vorhandenes Modell verfeinern möchten,DatenverwaltungsprozessEs muss studiert werden.



Natürlich haben Mistral AI und NVIDIA neben OpenAI und Apple letzte Woche auch ein kleines Modell mit 12B-Parametern veröffentlicht.

Der Gründer von HuggingFace sagte:„Kleine Modellwoche“Kommen!



rollen! Rollen Sie weiter! Wie effektiv ist das kleine Modell, das Apple dieses Mal herausgebracht hat?

Der Effekt ähnelt Lama 3 8B

Reden wir nicht darüber, wie leistungsfähig es ist. Werfen wir einen Blick darauf, was der technische Leiter von Hugging Face gerade „ausgepackt“ hat.Grundkonfiguration des Modells

Etwas zusammenfassen:

  • 7B-Grundmodell, verwendet für offene Datensätze2,5T TokenSchulung durchführen
  • Hauptsächlich englische Daten, mit2048Token-Kontextfenster
  • Zu den Datensätzen gehören DCLM-BASELINE, StarCoder und ProofPile2
  • Der MMLU-Score liegt nahe bei Llama 3 8B
  • Schulung mit PyTorch und OpenLM-Framework



Konkret schlug das Forschungsteam zunächst ein Sprachmodell vorNeuer Maßstab für den Datenvergleich——DCLM。

Dieser Benchmark wurde vorgeschlagen, weil das Team Folgendes feststellte:

  • aus größeren Datensätzen durch Modelle des maschinellen Lernens (ML).Hochwertige Daten automatisch filtern und auswählen, kann der Schlüssel zum Aufbau eines hochwertigen Trainingssets sein.

Daher nutzt das Team DCLM zum Entwerfen hochwertiger Datensätze zur Verbesserung der Modellleistung, insbesondere im multimodalen Bereich.

DasIdeenEs ist ganz einfach: Verwenden Sie ein standardisiertes Framework, um Experimente durchzuführen, einschließlich fester Modellarchitektur, Trainingscode, Hyperparametern und Auswertung, und finden Sie schließlich heraus, welche Data-Wrangling-Strategie für das Training von Hochleistungsmodellen am besten geeignet ist.



Basierend auf den oben genannten Ideen konstruierte das Team eineHochwertiger Datensatz DCLM-BASELINE, und trainierte damit ein 7B-Parametermodell – DCLM-7B – von Grund auf.



Was ist die spezifische Leistung von DCLM-7B?

Die Ergebnisse zeigen, dass es beim MMLU-Benchmark 5-Schuss istGenauigkeitsrate erreicht 64 %, vergleichbar mit Mistral-7B-v0.3 (63 %) und Llama 3 8B (66 %), und die durchschnittliche Leistung bei 53 Aufgaben zum Verstehen natürlicher Sprache ist auch mit Llama 3 8B vergleichbar, während die erforderliche Berechnung nur 1 beträgt /6 davon.



Im Vergleich zu anderen Modellen derselben Größe übertrifft der MMLU-Wert des DCLM-7B den des Mistral-7B und liegt nahe am Llama 3 8B.



Schließlich, zTesten Sie die Wirkung eines neuen DatensatzesEinige Insider nutzten Kapasis llm.c, um GPT-2 1.5B zu trainieren und die beiden Datensätze von DCLM-Baseline und FineWeb-Edu zu vergleichen.



Die Ergebnisse zeigen, dass DCLM-Baseline erreicht wurdehöhere durchschnittliche Punktzahlund schneidet bei Aufgaben wie ARC (wissenschaftliches Denken von Grundschülern), HellaSwag (logisches Denken) und MMLU besser ab.



„Kleine“ Modelle werden zum neuen Trend

Zurück zum Anfang: „Kleine“ Modelle sind in letzter Zeit zum neuen Trend geworden.

Zunächst brachte HuggingFace eine Familie kleiner Modelle auf den Markt„SmolLM“, das die Modelle 135M, 360M und 1.7B umfasst.



Sie übertreffen Modelle ähnlicher Größe in einer Vielzahl von Inferenz- und Common-Sense-Benchmarks.



Dann wurde plötzlich OpenAI veröffentlichtGPT-4o mini, ist nicht nur die Fähigkeit nahe an GPT-4, sondern auch der Preis ist deutlich gesunken.



Nur in GPT-4o miniAm selben Tag veröffentlicht, Mistral AI und NVIDIA haben ein kleines Modell mit 12B-Parametern veröffentlicht——Mistral NeMo

In Bezug auf die Gesamtleistung besiegte Mistral NeMo Gemma 2 9B und Llama 3 8B in mehreren Benchmark-Tests.



Warum also fängt jeder an, kleine Modelle zu drehen?

Der Grund könnte darin liegen, dass der Gründer von Smol AI daran erinnert, dass das Modell zwar kleiner geworden ist, aber die Fähigkeiten des kleinen Modells ähnlich sindStark reduzierte Kosten



Genau wie auf dem Bild, das er zur Verfügung gestellt hat, sind die kleinen Modelle des GPT-4o mini im Allgemeinen günstiger als die auf der rechten Seite.



In dieser Hinsicht warte ich darauf, dass die Menschen, die Melonen essen, so sind:



Also, welches bevorzugen Sie?