Belegung

Lama 3.1 ist geboren!Der Open-Source-Riese besiegte zum ersten Mal Closed Source und die Ära von GPT-4 für alle steht vor der Tür

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Neuer Weisheitsbericht

Herausgeber: Redaktion

[Einführung in die neue Weisheit] Das Muster der großen Modelle hat sich über Nacht erneut geändert. Llama 3.1 405B feierte ein großartiges Debüt und übertraf GPT-4o und Claude 3.5 Sonnet in mehreren Tests. Zum ersten Mal in der Geschichte besiegte ein Open-Source-Modell das derzeit stärkste Closed-Source-Modell. Xiao Zha sagte mutig: Open-Source-KI wird definitiv gewinnen, genau wie Linux schließlich gewonnen hat.

Der neue König von Open Source, Llama 3.1 405B, wurde gestern Abend offiziell veröffentlicht!

In mehreren Benchmarks wurden sowohl GPT-4o als auch Claude 3.5 Sonnet übertroffen. Mit anderen Worten: Das Closed-Source-SOTA-Modell wird bereits vom Open-Source-Modell eingeholt.


Über Nacht wurde der Llama 3.1 405B zum leistungsstärksten Modell der Welt.

(Gleichzeitig gibt es auch neue Versionen der Modelle 70B und 8B)


LeCun fasste mehrere Kernpunkte der Modellfamilie Llama 3.1 zusammen:

- 405B-Leistung vergleichbar mit den besten Closed-Source-Modellen

- Open Source/freie Verwendung von Gewichten und Code, was eine Feinabstimmung, Destillation in andere Modelle und den Einsatz überall ermöglicht

- 128.000 Kontext, mehrsprachig, gute Fähigkeit zur Codegenerierung, Fähigkeit zum komplexen Denken und Fähigkeit zur Werkzeugnutzung

- Die Llama Stack API ermöglicht eine einfache Integration


Man kann sagen, dass Meta dieses Mal den Geist von Open Source bis zum Ende umgesetzt und gleichzeitig großzügig ein Papier mit mehr als 90 Seiten veröffentlicht hat.

Thomas Wolf, Chefwissenschaftler von HuggingFace, lobte: Wenn Sie große Modelle von Grund auf untersuchen möchten, ist dieses Papier genau das Richtige für Sie!

Es deckt buchstäblich alles ab – Daten vor dem Training, Filterung, Annealing, synthetische Daten, Skalierungsgesetze, Infrastruktur, Parallelverarbeitung, Trainingsmethoden, Anpassung nach dem Training, Werkzeugnutzung, Benchmarking, Inferenzstrategien, Quantisierung, Vision, Sprache und Video …

AI2-Forscher Nathan Lambert schätzt, dass dieses 90-seitige Llama 3.1-Papier den Fortschritt des Open-Source-Modells direkt um 3–9 Monate vorantreiben wird!


Meta-CEO Xiao Zha schrieb stolz einen langen Artikel: Open-Source-Künstliche Intelligenz ist der Weg nach vorne.


In einem Interview mit der New York Times unterstützt Xiao Zha Open-Source-KI

In diesem Artikel erinnerte sich Xiao Zha emotional an Metas Kehrtwende in der LLM-Welle –

Letztes Jahr war der Llama 2 nur knapp mit den älteren Modellen vergleichbar, in diesem Jahr liegt der Llama 3 in einigen Punkten bereits vor den fortschrittlichsten Modellen, zukünftige Llama-Modelle werden die fortschrittlichsten Modelle sein.

Auf die Frage, die ihm schon oft gestellt wurde: „Sind Sie besorgt über den Verlust technischer Vorteile durch Open-Source-Llama?“, verglich sich Xiao Zha direkt mit Linux.

Er sagte, dass große Technologieunternehmen in der Vergangenheit stark in ihre eigenen Unix-Versionen investiert hätten, aber am Ende habe Open-Source-Linux gewonnen, weil es Entwicklern erlaubt habe, den Code nach Belieben zu ändern, was fortschrittlicher, sicherer und ökologisch umfassender sei.

Auch die KI wird sich zwangsläufig in ähnlicher Weise entwickeln.

Zu diesem Zweck hat Meta seine Lizenz gezielt gelockert, sodass Entwickler erstmals die hochwertige Ausgabe des Llama 3.1-Modells nutzen können, um KI-Modelle von Drittanbietern zu verbessern und zu entwickeln.


Netizen: Eine neue Ära beginnt

Nachdem Llama 3.1 offiziell aufgehoben wurde, sorgte es im gesamten Netzwerk für Aufruhr.

KI-Meister Karpathy äußerte sofort einige seiner eigenen Gedanken:

Heute, mit der Veröffentlichung des Modells 405B, stehen hochmoderne Großmodelle auf GPT-4/Claude 3.5 Sonnet-Niveau zum ersten Mal allen zur Nutzung und zum Bau offen. . Seine Gewichte sind Open Source und kommerziell lizenziert und ermöglichen die Generierung synthetischer Daten, die Destillation und die Feinabstimmung von Modellen.

Dies ist ein wirklich offenes LLM, das von Meta veröffentlicht wurde. Darüber hinaus haben sie auch einen 92-seitigen technischen Bericht veröffentlicht, der viele Modelldetails enthält: https://ai.meta.com/research/publications/the-llama-3-herd-of-models/


Die Philosophie hinter dieser Modellveröffentlichung wird in einem langen Artikel von Xiao Zha erläutert, der sehr lesenswert ist, da er alle wichtigen Ansichten und Argumente, die die Weltanschauung des offenen KI-Ökosystems stützen, sehr gut abdeckt:

Open-Source-KI ist die Zukunft.

Ich habe oft gesagt, dass LLM, wie schon in den 1980er Jahren, noch am Anfang steht, das nächste große Computing-Paradigma zu werden, und Meta positioniert sich eindeutig als führend in seinem offenen Ökosystem.

- Die Leute werden RAG mit diesen Modellen anfordern und verwenden

- Die Leute werden das Modell verfeinern

- Die Leute werden sie in kleinere Expertenmodelle für bestimmte Aufgaben und Anwendungen zerlegen

- Leute recherchieren es, vergleichen es, optimieren es

Darüber hinaus organisiert sich das offene Ökosystem modular selbst in Produkte, Anwendungen und Services und jeder Teilnehmer kann seine einzigartige Expertise einbringen.

Ein Beispiel ist, dass das KI-Chip-Start-up Groq das Llama 3.1-Modell integriert hat, das eine nahezu sofortige Argumentation von 8B-Modellen ermöglichen kann.

Karpathy sagte, dass er aufgrund der Serverbelastung anscheinend nicht in der Lage sei, den 405B auf Groq zu betreiben, dem derzeit möglicherweise leistungsstärksten und schnellsten großen Modell.


Er geht auch davon aus, dass Closed-Source-Modelle bald aufholen werden, und freut sich darauf.

Der Metaforscher Tian Yuandong sagte, dass eine neue Ära begonnen habe! Open-Source-LLM ist jetzt gleichwertig/besser als Closed-Source-LLM!


Der neue König der Open-Source-Modelle ist geboren.


Nach dem Test des fein abgestimmten Llama 3.1 8B sagte der Gründer von OpenPipe gerührt: Es gab noch nie ein so kleines und leistungsstarkes Open-Source-Modell – es schneidet bei jeder Aufgabe besser ab als GPT-4o mini!



Der leitende NVIDIA-Wissenschaftler Jim Fan sagte, dass die Leistungsfähigkeit von GPT-4 in unseren Händen liege. Dies ist ein historischer Moment.


Nur wenige Menschen achten auf die Infrastruktur hinter dem KI-Modelltraining. Soumith Chintala, der Vater von Pytorch, sagte, dass es in einer Anlage mit 16.000 GPUs auch zu Ausfällen kommen werde.

Diese Details sind im Llama 3.1-Papier verborgen, einschließlich der Art und Weise, wie man die Systemzuverlässigkeit parallelisiert und aufrechterhält. Erwähnenswert ist, dass das Meta-Team beim Modelltraining eine effektive Trainingszeit von 90 % erreicht hat.



Einige Internetnutzer haben detailliert darauf hingewiesen, dass während des Iterationsprozesses des Llama-Modells auch die GPU-Nutzung zunimmt.

Lama 1: 2048 GPUs

Lama 2: 4096 GPUs

Llama 3.1: 16384 GPUs (Tatsächlich wird Llama 3 auf zwei Clustern mit 24.000 GPUs trainiert)

Lama 4: ………


Die leistungsstärkste Open-Source-Modellfamilie

Tatsächlich wurden gestern einige wichtige Punkte zu den Modellen der Llama 3.1-Serie grundsätzlich verworfen.

Wie aus den durchgesickerten Informationen hervorgeht, kann Llama 3.1 8 Sprachen (Englisch, Deutsch, Französisch, Italienisch, Portugiesisch, Hindi, Spanisch und Thailändisch), mehrsprachige Konversationsagenten, Übersetzungsanwendungsfälle usw. unterstützen.

In Bezug auf die Kontextlänge haben sich alle Kontexte in den Modellen der Llama 3.1-Serie im Vergleich zu Llama 2 und Llama 3 um das 16-fache auf 128 KB erhöht.


Meta betonte, dass Llama 3.1 auch bei der Tool-Nutzung verbessert wurde und die Zero-Shot-Tool-Nutzung unterstützt, einschließlich Websuche, mathematische Operationen und Codeausführung.

Basierend auf dem langen Kontext weiß das Modell nicht nur, wann ein Werkzeug zu verwenden ist, sondern auch, wie es zu verwenden ist und wie die Ergebnisse zu interpretieren sind.

Darüber hinaus bietet Llama 3.1 durch Feinabstimmung große Flexibilität beim Aufruf benutzerdefinierter Tools.


Hauptfähigkeiten

Erstens kann Llama 3.1 als System ausgeführt werden, das „Agenten“-Aufgaben ausführen kann:

- Aufgaben aufschlüsseln und mehrstufige Überlegungen anstellen

- Werkzeuge verwenden

- Integrierte Tools: Modelle verfügen über eigene Kenntnisse über Tools wie Suche oder Code-Interpreter

- Zero-Shot-Lernen: Das Modell kann lernen, Werkzeuge durch kontextbezogene Werkzeugdefinitionen aufzurufen, die es zuvor noch nicht gesehen hat

Fragen Sie das Modell beispielsweise: „Dies ist eine CSV-Datei. Können Sie beschreiben, was darin enthalten ist?“

Es erkennt Folgendes: Diese CSV-Datei enthält monatliche Inflationsraten für viele Jahre und die Jahresspalte gibt das Jahr für jeden Satz monatlicher Inflationsraten an.


Als nächstes können wir es bitten, das Diagramm über die Zeit darzustellen.


Als nächstes kann es auch eine Reihe kniffliger Aufgaben erledigen, wie zum Beispiel die Darstellung des Trends des S&P500 auf demselben Chart.


Sobald Sie fertig sind, können Sie die Größe des Diagramms ändern, um Informationen zu verschiedenen Achsen hinzuzufügen.


Wie oben gezeigt, unterstützt Llama 3.1 8 Sprachen und ist daher in der Lage, mehrsprachige Übersetzungen durchzuführen.

Wir können das Märchen Hänsel und Gretel (Das Süßigkeitenhaus) ins Spanische übersetzen lassen.


Selbst bei komplexeren Argumentationsfragen kann Llama 3.1 leicht gewinnen.

„Ich habe 3 Hemden, 5 Paar Shorts und 1 Kleid. Ich mache eine 10-tägige Reise. Sind das genug Klamotten für meinen Urlaub?“

Die KI zerlegt die bekannten Bedingungen, entwirft einen sinnvollen passenden Plan für Oberteile, Shorts und Röcke und schlägt vor, dass es am besten ist, mehr Oberteile mitzubringen.


Nachdem die Begründung abgeschlossen war, stellte es uns auch sorgfältig einen detaillierteren Leitfaden für die Reisekleidung und eine Gepäckliste zur Verfügung.


Wir können KI auch Code von Hand schreiben lassen.

Lassen Sie es beispielsweise ein Programm erstellen, das einen rekursiven Backtracking-Algorithmus oder einen Tiefensuchalgorithmus verwendet, um ein perfektes Labyrinth mit anpassbarer Größe und Komplexität zu generieren.

Sobald die KI gestartet war, entstand sie aus dem Python-Code des Maze-Programms.


Nach Fertigstellung des Codes gibt AI auch eine ausführliche Erklärung.


Wenn wir als nächstes das Programm anpassen möchten, liefert uns der AI-Code-Assistent entsprechende Codevorschläge – Anpassung der Breite und Höhe.


Resultate der Auswertung

Um die Leistung von Llama3.1 zu bewerten, hat Meta nicht nur 150 Benchmark-Datensätze für mehrere Sprachen in den Test einbezogen, sondern diese auch in realen Szenarien verglichen.

Bei einer Vielzahl von Aufgaben kann 405B mit führenden Closed-Source-Modellen wie GPT-4, GPT-4o und Claude 3.5 Sonnet konkurrieren.


Die kleinen Modelle 8B und 70B schnitten auch in Closed-Source- und Open-Source-Modellen mit ähnlichen Parametermengen gut ab.

Zusätzlich zu langen Kontextaufgaben erreichten die 8B- und 70B-Modelle SOTA in allgemeinen Aufgaben, Codierung, Mathematik, logischem Denken, Werkzeuggebrauch und mehreren Sprachen.


In der menschlichen Bewertung liegt das Modell Llama 3.1 405B auf Augenhöhe mit GPT-4, aber etwas schlechter als GPT-4o.

Gegenüber dem Claude 3.5 Sonnet hat das große Modell 405B jedoch einen Vorteil mit einer Gewinnquote von 24,9 %.


Darüber hinaus verdrängte die optimierte Version von Llama 3.1 405B in Scales Rangliste Claude 3.5 Sonnet und GPT-4o in der folgenden Bewertung.

Bei Matheaufgaben belegte 405B den zweiten Platz hinter Claude 3.5 Sonnet. Allerdings schnitt Llama 3.1 bei Codierungsaufgaben relativ schlecht ab.


92 Seiten äußerst detaillierter technischer Bericht

Niemand kann Open Source so umfassend gestalten wie Meta. Der 92 Seiten lange technische Bericht wird ebenfalls heute veröffentlicht.


Papieradresse: https://ai.meta.com/research/publications/the-llama-3-herd-of-models/

Das Papier schlägt vor, dass Llama 3.1, ein hochwertiges Basismodell, über drei Schlüsselhebel verfügt: Daten-, Skalierungs- und Komplexitätsmanagement.

In Bezug auf die Daten wurden im Vergleich zur vorherigen Generation die Gesamtmenge und die Qualität der Daten in Llama 3.1 verbessert, z. B. sorgfältigere Vorverarbeitungs- und Verwaltungspipelines für Daten vor dem Training sowie strengere Qualitätssicherungs- und Filtermethoden für Post-Training Daten.

Llama 2 wurde nur mit 1,8T-Token-Daten vorab trainiert, während der mehrsprachige Vortrainingskorpus von Llama 3.1 15,6T-Token erreichte, was einer Steigerung um mehr als das Achtfache entspricht.

In Bezug auf die Skalierung verwendet das Training von Llama 3.1 mehr als 16.000 NVIDIA H100-GPUs, und die Gesamtberechnungsmenge erreicht 3,8e25 FLOPS, was fast dem 50-fachen von Llama 2 entspricht.

Um ein „Scale-Up“ besser zu erreichen, schlägt das Papier konkret den Aspekt des „Komplexitätsmanagements“ vor. Bei der Auswahl von Modellarchitekturen und Algorithmen muss stärker auf deren Stabilität und Skalierbarkeit geachtet werden.

Es ist erwähnenswert, dass Llama 3.1 nicht die beliebteste MoE-Architektur verwendet, sondern einen dichten Transformer mit reiner Decoder-Architektur. Nur die ursprüngliche Transformer-Architektur wurde geändert und angepasst, um die Trainingsstabilität zu maximieren.

Ähnliche Praktiken umfassen die Verwendung einfacher Post-Training-Prozesse wie SFT, RS und DPO anstelle komplexerer Reinforcement-Learning-Algorithmen.

Ähnlich wie bei vielen großen Modellen umfasst die Entwicklung von Llama 3 hauptsächlich zwei Phasen: Vortraining und Nachtraining.

Während des Vortrainings wird auch „Vorhersage des nächsten Tokens“ als Trainingsziel verwendet. Zunächst wird das Kontextfenster auf 8 KB eingestellt und dann in der Vortrainingsphase auf 128 KB erweitert.

In der Phase nach dem Training wird das Modell durch mehrere Runden iterativen menschlichen Feedbacks verbessert, wodurch die Codierungs- und Inferenzleistung erheblich verbessert und Funktionen zur Werkzeugnutzung integriert werden.

Darüber hinaus versucht das Papier, drei zusätzliche Stufen zu nutzen, um multimodale Funktionen wie Bilder, Videos und Stimmen zu Llama 3.1 hinzuzufügen:

- Multimodales Encoder-Vortraining: Die Vortrainingsdaten für Ersteres sind Bild-Text-Paare, während Letzteres eine selbstüberwachte Methode verwendet, um zu versuchen, die maskierten Teile des zu rekonstruieren Sprache durch diskretisierten Token-Teil.

- Vision-Adapter: besteht aus einer Reihe von Queraufmerksamkeitsschichten, die Darstellungen von Bildkodierern in vorab trainierte Sprachmodelle einfügen. Basierend auf Bildern versuchte das Papier auch, einen Videoadapter auf Video-Text-Paare zu trainieren.

- Sprachadapter: verbindet Sprachencoder und Sprachmodelle und integriert auch „Text-to-Speech“-Systeme.


Leider befinden sich die oben genannten multimodalen Funktionen noch in der Entwicklung und sind daher nicht im neu veröffentlichten Llama 3.1 enthalten.

Modellarchitektur

Llama 3.1 verwendet immer noch den standardmäßigen dichten Transformer und es gibt keinen signifikanten Unterschied in der Architektur zu Llama und Llama 2. Die Leistungsverbesserung ist hauptsächlich auf die Verbesserung der Qualität, Vielfalt und Skalierungserweiterung der Trainingsdaten zurückzuführen.


Im Vergleich zu Llama 3 weist die Architektur von Llama 3.1 die folgenden Verbesserungen auf:

- Grouped Query Attention (GQA): Mit 8 Schlüsselwert-Headern verbessert es die Inferenzgeschwindigkeit und reduziert den KV-Cache während der Dekodierung

- Aufmerksamkeitsmaske: Verhindern Sie die Selbstaufmerksamkeit zwischen verschiedenen Dokumenten in derselben Reihenfolge.Diese Technik hat beim Standard-Vortraining nur eine begrenzte Wirksamkeit, ist jedoch sehr wichtig, wenn das Vortraining bei sehr langen Sequenzen fortgesetzt wird.

- 128.000 Token-Vokabular: einschließlich 100.000 in Tiktoken und zusätzlich 28.000 zur besseren Unterstützung nicht-englischer Sprachen.Verbessertes Komprimierungsverhältnis für Englisch und Nicht-Englisch im Vergleich zu Llama 2

- Setzen Sie den Hyperparameter θ von RoPE auf 500.000: bessere Unterstützung für lange Kontexte

Die wichtigsten Hyperparameter des Modells sind in Tabelle 3 aufgeführt. Basierend auf der Datenmenge und der Trainingsrechenleistung hat die Größe des Modells die durch das Skalierungsgesetz offenbarte Rechenleistungsoptimierung erreicht.


Parallele Effizienz

Ein 405B-Modell auf 16.000 GPUs zu trainieren, ist bereits ein großes Projekt, wenn man nur Parallelität und Fehlerbehandlung berücksichtigt.

Zusätzlich zum Modell selbst erläutert das Papier auch das im Trainingsprozess verwendete Parallelisierungsschema sowie Speicher, Netzwerk und andere Infrastruktur.

Das Training von Llama 3.1 verwendet 4D-Parallelität (Tensor + Pipeline + Kontext + Daten). Unter BF16-Genauigkeit beträgt die GPU-Auslastung (MFU) etwa 38 % bis 41 %.


Das Fehlermanagement des Llama 3.1-Trainingsclusters ist ebenfalls sehr gut und erreicht mehr als 90 % der effektiven Trainingszeit. Dies bedeutet jedoch immer noch, dass es während der insgesamt 54 Tage des Vortrainings jeden Tag mindestens eine Unterbrechung gab.

Das Papier listet die Fehlerursachen aller 419 unerwarteten Unterbrechungen im Detail auf (Tabelle 5), was eine sehr wichtige Referenzbedeutung für den zukünftigen Aufbau von GPU-Clustern hat. Davon machten 78 % bestätigte oder vermutete Probleme mit der Hardware aus.


Da der automatisierte Betrieb und die Wartung des Clusters relativ vollständig sind, können die meisten Fehler automatisch behoben werden, obwohl es viele Fehler gibt. Während des gesamten Prozesses kam es nur bei drei Ausfällen zu einem manuellen Eingriff.

Verbessern Sie die Leistung bestimmter Funktionen

Code

Um die Codierungsfähigkeit des Modells zu verbessern, verwendet Meta Methoden wie die Schulung von Codierungsexperten, die Generierung synthetischer SFT-Daten, die Steuerung der Formatverbesserung durch Systemaufforderungen und die Erstellung von Qualitätsfiltern (Entfernen fehlerhafter Proben aus den Trainingsdaten).


Konvertieren von Python-Code (links) in PHP-Code (rechts) mit Llama 3, um den SFT-Datensatz um eine größere Auswahl an Programmiersprachen zu erweitern


Verbessern Sie die Codequalität durch Systemverbesserungen.Links: Keine Systemaufforderung. Rechts: Es gibt eine Systemaufforderung.

mehrsprachig

Um die mehrsprachigen Fähigkeiten von Llama 3 zu verbessern, hat Meta speziell einen Experten geschult, der mit mehr mehrsprachigen Daten umgehen kann, um hochwertige mehrsprachige Daten zur Feinabstimmung von Anweisungen zu erhalten und zu generieren (wie Deutsch, Französisch, Italienisch, Portugiesisch, Hindi (Englisch, Spanisch und Thailändisch) und gehen Sie auf spezifische Herausforderungen beim mehrsprachigen Onboarding ein.


Mathematische Argumentation

Das Trainieren von Modellen, die gut im mathematischen Denken sind, steht vor mehreren Herausforderungen, wie z. B. fehlende Hinweise, fehlender echter CoT, falsche Zwischenschritte, die Notwendigkeit, dem Modell die Verwendung externer Tools beizubringen, der Unterschied zwischen Training und Inferenz usw.

Zu diesem Zweck wendet Meta die folgenden Methoden an: Lösung des Problems unzureichender Hinweise, Verbesserung des schrittweisen Argumentationsprozesses in Trainingsdaten, Filterung des falschen Argumentationsprozesses, Kombination von Code- und Text-Argumentation sowie Lernen aus Feedback und Fehlern.


langer Kontext

In der letzten Vortrainingsphase erweitert Meta die Kontextlänge von Llama 3 von 8.000 Token auf 128.000.

In der Praxis stellte das Team fest, dass die Langkontextfähigkeit des Modells erheblich beeinträchtigt wird, wenn für SFT nur Kurzkontextdaten verwendet werden Beispiele.

Daher hat sich Meta für synthetische Daten entschieden, um diese Lücke zu schließen.

Mit einer frühen Version von Llama 3 generierten sie synthetische Daten basierend auf wichtigen Anwendungsfällen mit langem Kontext: (mehrere Runden) Fragenbeantwortung, Zusammenfassung langer Dokumente, Codebasis-Inferenz.

Werkzeugnutzung

Meta trainierte Llama 3 für die Interaktion mit Suchmaschinen, Python-Interpretern und mathematischen Berechnungsmaschinen.

Während des Entwicklungsprozesses, als Llama 3 schrittweise verbessert wurde, verkomplizierte Meta auch nach und nach das manuelle Anmerkungsprotokoll. Beginnen Sie mit der Kommentierung der Werkzeugnutzung in einer einzigen Drehung, gehen Sie zur Werkzeugnutzung in Gesprächen über und enden Sie mit der Kommentierung der Werkzeugnutzung in mehreren Schritten und der Datenanalyse.


Lama 3 führt mehrstufige Planung, Argumentation und Werkzeugaufrufe durch, um Aufgaben zu lösen


Bitten Sie das Modell anhand der bereitgestellten Datei, den Dateiinhalt zusammenzufassen, Fehler zu finden und zu beheben, den Code zu optimieren, eine Datenanalyse oder -visualisierung durchzuführen usw.

sachlich

Für das Halluzinationsproblem, eine anerkannte Herausforderung des LLM, verfolgt Meta einen Ansatz, bei dem die Halluzination an erster Stelle steht.

Das Prinzip, dem sie folgen, besteht darin, dass das Modell nach dem Training „wissen sollte, was es weiß“, anstatt Wissen hinzuzufügen.

Wendigkeit

Für Llama 3 verbessert Meta seine Manövrierfähigkeit durch Systemansagen mit Anweisungen in natürlicher Sprache, insbesondere in Bezug auf Antwortlänge, Format, Ton und Persona/Persönlichkeit.


„Sie sind ein hilfsbereiter, fröhlicher KI-Chatbot, der vielbeschäftigten Familien als Essensplanungsassistent dient.“

Teammitglied

Man kann sagen, dass das Team von Llama 3 sehr groß ist, mit allein fast 220 Kernmitgliedern und 312 weiteren Mitwirkenden.




Xiao Zha: Open-Source-KI ist die Zukunft

Wie wir alle wissen, war Xiao Zha schon immer ein treuer Unterstützer der Open-Source-KI.

Diesmal geht es nicht nur um die Veröffentlichung eines neuen und stärksten Modells, sondern auch darum, Open-Source-KI in den Vordergrund zu rücken.


In seinem Blog zog Xiao Zha direkt Lehren aus der Geschichte. In der Vergangenheit investierten große Technologieunternehmen stark in die Entwicklung von Closed-Source-Unix-Versionen.

Das Schlachtfeld von Unix ist hart umkämpft, aber derjenige, der zuletzt lacht, ist Open-Source-Linux.


Linux wurde ursprünglich von Entwicklern bevorzugt, da es den Entwicklern erlaubte, den Code nach Belieben zu ändern, und weil es erschwinglicher war.

Aber im Laufe der Zeit wurde es fortschrittlicher, sicherer und verfügte über mehr Funktionalität, die von einem breiteren Ökosystem unterstützt wurde als jedes geschlossene Unix.

Heutzutage ist Linux der Industriestandard für Cloud Computing und die meisten Betriebssysteme für mobile Geräte, und alle profitieren davon.

Xiao Zha glaubt, dass auch der Entwicklungsverlauf der KI derselbe sein wird, und verweist auf das Closed-Source-Modell „mehrerer Technologieunternehmen“.


„Heute entwickeln mehrere Technologieunternehmen führende geschlossene Modelle, aber Open Source schließt die Lücke schnell.“

Xiaozhas Mut, es direkt zu benennen, wird natürlich durch seine Stärke ermutigt. Letztes Jahr blieb Llama 2 immer noch hinter dem hochmodernen Modell der alten Generation zurück.

In diesem Jahr kann sich Llama 3 in puncto Leistung mit anderen Riesenmodellen messen.

Llama 3.1 405B ist das erste hochmoderne Open-Source-KI-Modell. Neben einem deutlich besseren Preis-Leistungs-Verhältnis im Vergleich zu geschlossenen Modellen ist das 405B-Modell aufgrund seiner Offenheit die beste Wahl für die Feinabstimmung und Destillation kleiner Modelle.

Warum ist Open-Source-KI gut für Entwickler?

Für Entwickler bietet das Festhalten am Open-Source-Modell fünf große Vorteile:

Erstens ermöglichen Open-Source-Modelle Entwicklern, ihre eigenen Modelle frei zu trainieren, zu optimieren und zu destillieren.

Die Anforderungen jedes Entwicklers sind unterschiedlich, wobei geräteinterne Aufgaben und Klassifizierungsaufgaben kleine Modelle erfordern, während komplexere Aufgaben große Modelle erfordern.

Mithilfe modernster Open-Source-Modelle können Entwickler mit ihren eigenen, auf die ideale Größe destillierten Daten weiter trainieren.

Zweitens können Sie die Einschränkung durch einen einzelnen Anbieter vermeiden.

Entwickler möchten sich nicht auf ein Modell verlassen, das sie nicht ausführen und kontrollieren können, und sie möchten nicht, dass Lieferanten das Modell ändern, die Nutzungsbedingungen ändern oder den Dienst sogar ganz einstellen.

Und Open Source ermöglicht den einfachen Wechsel und Einsatz von Modellen und schafft so ein umfassendes Ökosystem.

Drittens: Schützen Sie die Datensicherheit.

Entwickler müssen beim Umgang mit sensiblen Daten die Datensicherheit gewährleisten, was bedeutet, dass sie diese nicht über APIs an Closed-Source-Modelle senden dürfen.

Es ist bekannt, dass Open-Source-Software aufgrund eines transparenteren Entwicklungsprozesses im Allgemeinen sicherer ist.

Viertens arbeitet es effizient und zu geringeren Kosten.

Die Inferenzkosten für Entwickler, die Llama 3.1 405B ausführen, sind nur halb so hoch wie bei GPT-4o, unabhängig davon, ob es sich um benutzerseitige oder Offline-Inferenzaufgaben handelt.

Fünftens wird Open Source langfristig zu einem branchenweiten Standard werden.

Tatsächlich entwickelt sich Open Source schneller als Closed-Source-Modelle, und Entwickler möchten in der Lage sein, ihre Systeme auf Architekturen aufzubauen, die langfristige Vorteile bieten.

Nach Ansicht von Xiao Zha wird die Veröffentlichung von Llama 3.1 ein Wendepunkt in der Branche sein und Open Source immer unaufhaltsamer machen.

Verweise:

https://ai.meta.com/blog/meta-llama-3-1/

https://llama.meta.com/

https://www.facebook.com/4/posts/10115716861061241/?rdid=VE0wPWaJDdF21j32