Nachricht

Das stärkste Modell Llama 3.1 405B wird offiziell veröffentlicht, Zuckerberg: Open Source leitet eine neue Ära ein

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Maschinenherzbericht

Redaktion von Machine Heart

Gerade jetzt wurde das lang erwartete Llama 3.1 offiziell veröffentlicht!

Meta gab offiziell bekannt, dass „Open Source eine neue Ära einläutet“.



Im offiziellen Blog sagte Meta: „Bis heute sind große Open-Source-Sprachmodelle hinsichtlich Funktionalität und Leistung meist hinter geschlossenen Modellen zurückgeblieben. Jetzt läuten wir eine neue Ära ein, die von Open Source angeführt wird. Wir haben Meta Llama öffentlich veröffentlicht.“ 3.1 405B Wir glauben, dass es sich um das größte und leistungsstärkste Open-Source-Basismodell der Welt handelt, mit bisher mehr als 300 Millionen Downloads aller Llama-Versionen, und wir fangen gerade erst an.“

Meta-Gründer und CEO Zuckerberg hat außerdem persönlich einen langen Artikel mit dem Titel „Open Source AI Is the Path Forward“ geschrieben, in dem er erklärt, warum Open Source eine gute Sache für alle Entwickler, Meta und die Welt ist.



Zu den Highlights dieser Veröffentlichung gehören:

  • Die neueste Modellreihe erweitert die Kontextlänge auf 128 KB, bietet Unterstützung für acht Sprachen und umfasst das Top-Open-Source-Modell Llama 3.1 405B;
  • Das Llama 3.1 405B spielt in einer eigenen Liga, wobei Meta offiziell sagt, dass es mit den besten Closed-Source-Modellen mithalten kann;
  • Diese Version stellt außerdem weitere Komponenten (einschließlich Referenzsysteme) bereit, die mit dem Modell zum Aufbau von Llama als System verwendet werden können.
  • Benutzer können Llama 3.1 405B über WhatsApp und meta.ai erleben.



Adresse: https://llama.meta.com/

Internetnutzer können es herunterladen und ausprobieren.

Lama 3.1 Einführung

Llama 3.1 405B ist das erste öffentlich verfügbare Modell, das in Bezug auf gesunden Menschenverstand, Manipulierbarkeit, Mathematik, Werkzeugnutzung und mehrsprachige Übersetzung mit Top-KI-Modellen mithalten kann.

Meta sagt, dass die neueste Generation von Llama neue Anwendungen und Modellierungsparadigmen inspirieren wird, einschließlich der Nutzung der Generierung synthetischer Daten zum Boosten und Trainieren kleinerer Modelle sowie der Modelldestillation – eine Fähigkeit, die im Open-Source-Bereich noch nie zuvor erreicht wurde.

Gleichzeitig brachte Meta auch aktualisierte Versionen der 8B- und 70B-Modelle auf den Markt, die mehrere Sprachen unterstützen, eine Kontextlänge von 128 KB und stärkere Argumentationsfunktionen haben. Die neuesten Modelle unterstützen erweiterte Anwendungsfälle wie die Zusammenfassung von Langtexten, mehrsprachige Konversationsagenten und Codierungsassistenten.

Llama 3.1 kann beispielsweise Geschichten ins Spanische übersetzen:



Wenn der Benutzer fragt: „Es gibt 3 Hemden, 5 Paar Shorts und 1 Kleid. Angenommen, Sie reisen 10 Tage lang. Sind die Kleidungsstücke ausreichend vorbereitet?“



Langer Kontext: Für hochgeladene Dokumente ist Llama 3.1 in der Lage, große Dokumente mit bis zu 8.000 Token zu analysieren und zusammenzufassen.



Der Codierungsassistent kann je nach Benutzeranforderungen schnell Code schreiben:



Darüber hinaus twitterte der Entwickler von Llama 3.1 405B auch „Spoiler“ und sagte, dass die Entwicklung eines Modells, das Sprach- und visuelle Funktionen wie GPT-4o integriert, noch in der Entwicklung sei.



Meta hat außerdem Änderungen an der Open-Source-Lizenz vorgenommen, um Entwicklern die Nutzung der Ausgabe von Llama-Modellen (einschließlich 405B) zur Verbesserung anderer Modelle zu ermöglichen. Darüber hinaus stellt Meta im Einklang mit seinem Open-Source-Engagement diese Modelle ab heute der Community zum Download unter llama.meta.com und Hugging Face zur Verfügung.

Download-Link:

  • https://huggingface.co/meta-llama
  • https://llama.meta.com/

Modellbewertung

Meta wird anhand von über 150 Benchmark-Datensätzen ausgewertet, zusätzlich zu einer umfassenden menschlichen Auswertung.

Experimentelle Ergebnisse zeigen, dass das Flaggschiffmodell Llama 3.1 405B bei einer Reihe von Aufgaben mit führenden Basismodellen wie GPT-4, GPT-4o und Claude 3.5 Sonnet konkurrenzfähig ist. Darüber hinaus sind die kleinen Modelle 8B und 70B mit Closed-Source- und Open-Source-Modellen mit ähnlicher Parameteranzahl konkurrenzfähig.







Modellarchitektur

Als bisher größtes Modell von Meta ist das Training von Llama 3.1 405B mit mehr als 15 Billionen Token eine große Herausforderung. Um ein Training in diesem Maßstab zu ermöglichen, optimierte Meta den gesamten Trainingsstapel und trainierte auf über 16.000 H100-GPUs. Damit war dieses Modell das erste Llama-Modell, das in diesem Maßstab trainiert wurde.



Um dieses Problem anzugehen, traf Meta die folgenden Entwurfsentscheidungen und konzentrierte sich dabei darauf, den Modellentwicklungsprozess skalierbar und einfach zu halten.

  • Anstelle eines Hybrid-Expertenmodells wurde eine Standard-Decoder-Transformer-Modellarchitektur mit nur geringfügigen Anpassungen gewählt, um die Trainingsstabilität zu maximieren.
  • Es kommt ein Post-Iteration-Trainingsverfahren zum Einsatz, das in jeder Runde eine überwachte Feinabstimmung und direkte Präferenzoptimierung verwendet. Dadurch ist Meta in der Lage, synthetische Daten höchster Qualität für jede Runde zu erstellen und die Leistung aller Funktionen zu verbessern.

Im Vergleich zu früheren Versionen von Llama hat Meta die Quantität und Qualität der für das Vor- und Nachtraining verwendeten Daten verbessert, beispielsweise durch die Entwicklung einer sorgfältigeren Vorverarbeitungs- und Verwaltungspipeline für Vortrainingsdaten und die Entwicklung einer strengeren Qualitätssicherung und Management für Post-Training-Daten.

Wie aufgrund der Skalierungsgesetze für Sprachmodelle zu erwarten war, übertraf das neue Flaggschiffmodell von Meta kleinere Modelle, die mit demselben Verfahren trainiert wurden. Meta verwendet außerdem ein 405B-Parametermodell, um die Qualität kleinerer Modelle nach dem Training zu verbessern.

Um die groß angelegte Inferenzausgabe des 405B-Modells zu unterstützen, quantisierte Meta das Modell von 16 Bit (BF16) auf 8 Bit (FP8), wodurch die erforderlichen Rechenanforderungen effektiv reduziert wurden und die Ausführung des Modells auf einem einzelnen Serverknoten ermöglicht wurde.

Befehls- und Chat-Optimierungen

Llama 3.1 405B ist bestrebt, die Nützlichkeit, Qualität und detaillierte Anleitungskonformität der Modelle bei der Reaktion auf Benutzeranweisungen zu verbessern und gleichzeitig ein hohes Maß an Sicherheit zu gewährleisten.

In der Post-Training-Phase erstellte das Forschungsteam das endgültige Chat-Modell, indem es mehrere Ausrichtungsrunden auf der Grundlage des vorab trainierten Modells durchführte. Jede Runde umfasst überwachte Feinabstimmung (SFT), Ablehnungsstichprobe (RS) und direkte Präferenzoptimierung (DPO).

Das Forschungsteam nutzt die Generierung synthetischer Daten, um die überwiegende Mehrheit der SFT-Beispiele zu erstellen, mit mehreren Iterationen, um immer hochwertigere synthetische Daten über alle Funktionen hinweg zu erzeugen. Darüber hinaus setzte das Forschungsteam mehrere Datenverarbeitungstechniken ein, um diese synthetischen Daten in höchster Qualität zu filtern und das Datenvolumen über die funktionale Skalierbarkeit hinweg zu optimieren.

Lama-System

Lama-Modelle existierten schon immer als Teil eines KI-Systems und können mehrere Komponenten koordinieren, einschließlich des Aufrufs externer Tools. Meta soll über das Basismodell hinausgehen und Entwicklern die Flexibilität geben, maßgeschneiderte Produkte zu entwerfen und zu erstellen, die ihrer Vision entsprechen.

Um KI verantwortungsvoll über die Modellebene hinaus zu entwickeln, hat Meta ein vollständiges Referenzsystem veröffentlicht, das mehrere Beispielanwendungen sowie neue Komponenten wie Llama Guard 3, ein mehrsprachiges Sicherheitsmodell, und Prompt Guard, einen Prompt-Injection-Filter, enthält. Diese Beispielanwendungen sind Open Source und können von der Open Source-Community erstellt werden.

Um breiter mit der Industrie, Start-ups und der Open-Source-Community zusammenzuarbeiten und dabei zu helfen, die Schnittstellen von Komponenten besser zu definieren, hat Meta eine Kommentaranfrage für „Llama Stack“ auf GitHub veröffentlicht. Llama Stack ist eine Reihe standardisierter Schnittstellen zum Erstellen kanonischer Toolchain-Komponenten (Feinabstimmung, Generierung synthetischer Daten) und Agentenanwendungen. Dies trägt dazu bei, die Interoperabilität einfacher zu erreichen.

Im Gegensatz zu geschlossenen Modellen stehen die Gewichte des Llama-Modells zum Download zur Verfügung. Entwickler können das Modell vollständig an ihre Bedürfnisse und Anwendungen anpassen, an neuen Datensätzen trainieren und zusätzliche Feinabstimmungen durchführen.

Entwickelt mit Llama 3.1 405B

Für normale Entwickler ist die Bereitstellung eines großen Modells wie 405B zweifellos eine Herausforderung und erfordert große Mengen an Rechenressourcen und Fachkenntnissen. Bei der Kommunikation mit der Entwickler-Community erkannte Meta, dass es bei der Entwicklung generativer KI nicht nur um die Eingabe von Eingabeaufforderungen in das Modell geht. Sie erwarten von allen Entwicklern, dass sie das Potenzial von Llama 3.1 405B in den folgenden Bereichen voll ausschöpfen:

  • Echtzeit- und Batch-Inferenz
  • überwachte Feinabstimmung
  • Testen und bewerten Sie die Modellleistung in bestimmten Anwendungen
  • Kontinuierliches Vortraining
  • Retrieval Augmented Generation (RAG)
  • Funktionsaufruf
  • Synthetische Datengenerierung

Ab der Markteinführung stehen Entwicklern alle erweiterten Funktionen des Modells Llama 3.1 405B zur Verfügung, damit sie sofort loslegen können. Entwickler können auch Workflows höherer Ordnung erkunden, beispielsweise die Generierung synthetischer Daten auf der Grundlage der Modelldestillation. Bei diesem Upgrade integriert Meta auch nahtlos Lösungen der Partner AWS, NVIDIA und Databricks, um eine effizientere Retrieval Augmentation Generation (RAG) zu erreichen. Darüber hinaus wurde Groq für Inferenz mit geringer Latenz für die Bereitstellung von Modellen in der Cloud optimiert und ähnliche Leistungsverbesserungen wurden für lokale Systeme vorgenommen.

Meta hat dieses Mal auch ein „Tool-Geschenkpaket“ für Llama 3.1 405B integriert, das Schlüsselprojekte wie vLLM, TensorRT und PyTorch umfasst, von der Modellentwicklung bis zur Bereitstellung „out of the box“ in einem Schritt.

Referenzlink: https://ai.meta.com/blog/meta-llama-3-1/