Nachricht

Wie erstelle ich ein Open-Source-Modell, das GPT-4o besiegen kann? Alles über Llama 3.1 405B steht im Artikel

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Maschinenherzbericht

Redaktion von Machine Heart

Nach einem „versehentlichen Leak“ zwei Tage im Voraus wurde Llama 3.1 gestern Abend endlich offiziell veröffentlicht.

Llama 3.1 erweitert die Kontextlänge auf 128 KB und verfügt über drei Versionen: 8B, 70B und 405B, wodurch der Wettbewerbsstandard für große Modellbahnen noch einmal im Alleingang angehoben wird.

Für die KI-Community besteht die wichtigste Bedeutung von Llama 3.1 405B darin, dass es die Obergrenze der Fähigkeiten des Open-Source-Basismodells aktualisiert. Meta-Beamte sagten, dass seine Leistung bei einer Reihe von Aufgaben mit der besten geschlossenen Version vergleichbar sei Quellmodell.

Die folgende Tabelle zeigt, wie aktuelle Modelle der Llama 3-Serie bei wichtigen Benchmarks abschneiden. Es ist ersichtlich, dass die Leistung des 405B-Modells der von GPT-4o sehr nahe kommt.



Gleichzeitig veröffentlichte Meta das Papier „The Llama 3 Herd of Models“, in dem die bisherigen Forschungsdetails der Modelle der Llama 3-Serie enthüllt wurden.



Papieradresse: https://ai.meta.com/research/publications/the-llama-3-herd-of-models/

Schauen wir uns als Nächstes den Papierinhalt an.

Highlights aus Lama3-Papier

1. Nach dem Vortraining mit einer Kontextlänge von 8 KB verwendet Llama 3.1 405B eine Kontextlänge von 128 KB für kontinuierliches Training und unterstützt die Verwendung mehrerer Sprachen und Tools.

2. Im Vergleich zum vorherigen Llama-Modell hat Meta die Kurationspipelines für Vorverarbeitungs- und Vortrainingsdaten sowie die Qualitätssicherungs- und Filtermethoden für Nachtrainingsdaten gestärkt.

Meta ist davon überzeugt, dass es drei Schlüsselhebel für die Entwicklung qualitativ hochwertiger zugrunde liegender Modelle gibt: Daten-, Skalen- und Komplexitätsmanagement.

Erstens verbessert Meta im Vergleich zu früheren Versionen von Llama die für das Pre- und Post-Training verwendeten Daten sowohl quantitativ als auch qualitativ. Meta hat Llama 3 auf einem Korpus von etwa 15 Billionen mehrsprachigen Token vorab trainiert, verglichen mit Llama 2, das nur 1,8 Billionen Token verwendete.

Der Umfang des diesmal trainierten Modells ist viel größer als der des vorherigen Llama-Modells: Das Flaggschiff-Sprachmodell verwendet 3,8 × 10²⁵ Gleitkommaoperationen (FLOPs) für das Vortraining, was fast 50-mal größer ist als die größte Version von Llama 2 .

Basierend auf dem Skalierungsgesetz hat das aktuelle Flaggschiffmodell im Rahmen des Trainingsbudgets von Meta bereits ungefähr die rechnerisch optimale Größe, aber die Trainingszeit von Meta für kleinere Modelle hat die rechnerisch optimale Länge bei weitem überschritten. Die Ergebnisse zeigen, dass diese kleineren Modelle rechnerisch optimale Modelle bei gleichem Inferenzbudget übertreffen. In der Post-Training-Phase nutzte Meta das 405B-Flaggschiffmodell, um die Qualität kleinerer Modelle wie der 70B- und 8B-Modelle weiter zu verbessern.

3. Um die Massenproduktionsinferenz von 405B-Modellen zu unterstützen, quantisiert Meta 16-Bit (BF16) in 8-Bit (FP8), wodurch der Rechenaufwand reduziert wird und die Ausführung des Modells auf einem einzelnen Serverknoten ermöglicht wird.

4. Das Vortraining von 405B auf 15,6T-Tokens (3,8x10²⁵ FLOPs) ist eine große Herausforderung. Meta hat den gesamten Trainingsstapel optimiert und mehr als 16K H100-GPUs verwendet.

Wie PyTorch-Gründer und Meta Distinguished Engineer Soumith Chintala sagte, enthüllt das Llama3-Papier viele coole Details, darunter den Aufbau der Infrastruktur.



5. Nach dem Training verbessert Meta das Chat-Modell durch mehrere Ausrichtungsrunden, einschließlich überwachter Feinabstimmung (SFT), Ablehnungsstichproben und direkter Präferenzoptimierung. Die meisten SFT-Proben werden aus synthetischen Daten generiert.

Die Forscher trafen beim Design mehrere Entscheidungen, um die Skalierbarkeit des Modellentwicklungsprozesses zu maximieren. Beispielsweise wurde die standardmäßige dichte Transformer-Modellarchitektur mit nur geringfügigen Anpassungen anstelle einer Mischung aus Expertenmodellen gewählt, um die Trainingsstabilität zu maximieren. Ebenso wird ein relativ einfaches Post-Training-Verfahren angewendet, das auf überwachter Feinabstimmung (SFT), Ablehnungsstichprobe (RS) und direkter Präferenzoptimierung (DPO) basiert, und nicht auf komplexeren Reinforcement-Learning-Algorithmen, die tendenziell weniger stabil sind und schwierigere Erweiterung.

6. Im Rahmen des Llama 3-Entwicklungsprozesses entwickelte das Meta-Team auch multimodale Erweiterungen des Modells, um Bilderkennung, Videoerkennung und Sprachverständnis zu ermöglichen. Diese Modelle befinden sich noch in der aktiven Entwicklung und sind noch nicht zur Veröffentlichung bereit, aber der Artikel stellt die Ergebnisse vorläufiger Experimente mit diesen multimodalen Modellen vor.

7. Meta hat seine Lizenz aktualisiert, um Entwicklern die Nutzung der Ausgabe des Llama-Modells zur Verbesserung anderer Modelle zu ermöglichen.

Am Ende dieses Papiers sehen wir auch eine lange Liste von Mitwirkenden:





Diese Reihe von Faktoren hat heute schließlich die Llama 3-Serie hervorgebracht.

Für normale Entwickler ist die Verwendung von Modellen im Maßstab 405B natürlich eine Herausforderung und erfordert viel Rechenressourcen und Fachwissen.

Nach der Einführung ist das Ökosystem von Llama 3.1 bereit. Mehr als 25 Partner bieten Dienste an, die mit dem neuesten Modell funktionieren, darunter unter anderem Amazon Cloud Technologies, NVIDIA, Databricks, Groq, Dell, Azure, Google Cloud und Snowflake.



Weitere technische Details finden Sie im Originalpapier.