Llama 3.1 im Vorfeld durchgesickert und GPT-4o vom Thron gestoßen? Schneller und 10-mal günstiger

Llama 3.1 im Vorfeld durchgesickert und GPT-4o vom Thron gestoßen?Schneller und 10-mal günstiger

2024-07-24

Text |. Chang Minxiao und Yuan Yingliang

Herausgeber: Anita Tang

Wenn es das Schicksal von Llamas großem Modell ist, zur Obergrenze von Open-Source-Modellen zu werden, dann ist „tragisches Durchsickern“ die Katastrophe, die Llama überwinden muss.

Im März 2023 wurde Llama 2 vorab geleakt und Meta musste das Modell als Open Source veröffentlichen.

Heute wiederholt sich die Geschichte erneut.

Am 12. Juli pazifischer Zeit gab ein Meta-Mitarbeiter bekannt, dass Meta plant, die bisher größte Parameterskalenversion von Llama zu veröffentlichen: Llama 3.1 405B am 23. Juli 2024 Ortszeit. Er gab bekannt, dass 405B das erste multimodale Modell der Llama-Serie sein wird.

Am 22. Juli pazifischer Zeit, einen Tag vor der geplanten Veröffentlichung, wurden jedoch die Modell- und Benchmark-Ergebnisse von Llama 3.1 in technischen Communities wie Reddit durchgesickert, und der Magnetlink von Llama 3.1 (ein Programm zum Herunterladen von Dokumenten) wurde veröffentlicht wurden in Communities wie HuggingFace verbreitet.

Den durchgesickerten Ergebnissen nach zu urteilen,Die Leistung von Llama 3.1 ist vergleichbar mit der GPT-4o von OpenAI!

Einige KI-Blogger lobten, dass die Veröffentlichung von Llama 3.1 ein weiterer Tag sein wird, der das Schicksal der KI-Welt verändern wird:

△Quelle:X

Durchgesickerte Benchmark-Ergebnisse zeigen, dass Llama 3.1 drei Größen hat: 8B, 70B und 405B. Das 70B-Modell mit der geringsten Anzahl an Parametern weist in vielerlei Hinsicht eine mit GPT-4o vergleichbare Leistung auf.

△Das Bild oben zeigt den Vergleich zwischen den einzelnen Versionen von Llama 3.1 und OpenAI GPT-4o und Llama 3 8B/70B. Darunter übertrifft auch die 70B-Version, die in der Mitte der Skala liegt, GPT-4o in vielerlei Hinsicht. Bildquelle: X-Benutzer @mattshumer_

Einige Internetnutzer wiesen darauf hin, dass Llama 3.1 405B ≈ GPT-4o, basierend auf diesem Benchmark, Llama 3.1 70B das erste leichte Modell und GPT-4o mini sein wird, das OpenAI besiegen kann.

△Bildquelle: X-Benutzer @corbtt

Viele Internetnutzer, die das Modell für „Early Adopters“ heruntergeladen haben, haben jedoch herausgefunden, dass die durchgesickerte Version von Llama 3.1 405B eine Dateigröße von etwa 820 GB hat und fast dreimal so viel Speicher benötigt wie Llama 2 (ungefähr 280 GB), das die volle Genauigkeit beibehält.

Das bedeutet, dass es für einzelne Entwickler schwierig sein wird, Llama 3.1 auf ihren eigenen Computern auszuführen, es sei denn, Sie haben eine Mine zu Hause und können sich genügend GPUs leisten. Einige Internetnutzer spekulieren, dass Llama 3.1 nicht für Einzelpersonen, sondern für Institutionen und Unternehmen gedacht sei.

Auch das noch nicht offiziell angekündigte Lama 3.1 wurde mit kaltem Wasser übergossen. Viele Internetnutzer beschwerten sich: Llama 3.1 stellt zu hohe Anforderungen an die GPU und ist nicht so gut wie der GPT-4o mini von OpenAI nebenan.

△Netizen-Kommentare zu X. Bildquelle: X-Benutzer @_Talesh

Funktionsiteration, Indikatoroptimierung und Reduzierung der Rechenressourcen

Durchgesickerten Modellinformationen zufolge verfügt Llama 3.1 über mehr Iterationen in der Funktionalität als Llama 3, das am 19. April 2024 veröffentlicht wird, einschließlich längerer Kontextfenster, mehrsprachiger Ein- und Ausgabe sowie einer möglichen Integration von Entwickler- und Drittanbieter-Tools.

Datentraining: Llama 3.1 wurde mit mehr als 15T-Tokens aus öffentlichen Quellen trainiert. Die Feinabstimmungsdaten umfassen öffentlich verfügbare Befehlsoptimierungsdatensätze (im Gegensatz zu Llama-3!) und über 25 Millionen synthetisch generierte Beispiele. Mehrsprachiger Dialog: Llama 3.1 unterstützt 8 Sprachen: Englisch, Deutsch, Französisch, Italienisch, Portugiesisch, Hindi, Spanisch und Thailändisch. Obwohl es leider nicht auf Chinesisch verfügbar ist, können Entwickler die Llama 3.1-Modelle für andere Sprachen als die 8 unterstützten Sprachen optimieren. Kontextfenster: Die Kontextlänge jeder Version wird von 8 KB auf 128 KB erweitert, was in etwa der Fähigkeit des Modells entspricht, sich 96.000 Wörter gleichzeitig zu merken, zu verstehen und zu verarbeiten, also fast das gesamte Original von „Harry Potter“.

Viele Internetnutzer möchten es unbedingt ausprobieren und Llama 3.1 mit den „Vorgängern“ des Modells konkurrieren lassen. Sie stellen fest, dass nicht nur die Indikatoren erheblich verbessert wurden, sondern auch die Rechenressourcen erheblich gespart wurden.

Basierend auf Tests von Internetnutzern wurden die Fähigkeiten von Llama 3.1 im Vergleich zu Llama 3 deutlich verbessert. Unter diesen haben human_eval und trueqa_mc1 erhebliche Fortschritte gemacht, was bedeutet, dass die Fähigkeit zur Generierung von Programmiercode stärker ist und die Antworten auf Fragen authentischer sind.

Gleichzeitig verfügt das Instruct-Modell von Llama 3 im Vergleich zum Basismodell über deutlich verbesserte Indikatoren wie schnelles Lernen, kontextbezogenes Lernen und effiziente Parameter-Feinabstimmung.

Dies ist sinnvoll, da das Basismodell normalerweise nicht auf eine bestimmte Aufgabe abgestimmt ist, während das Instruct-Modell speziell darauf trainiert ist, Anweisungen zu befolgen oder bestimmte Aufgaben auszuführen. Im Allgemeinen schneiden die Indikatoren des Instruct-Modells besser ab.

Umso mehr freuen sich die Leute auf die offizielle Veröffentlichung von Llama3.1. Die derzeit durchgesickerten Llama3.1-Modelltestergebnisse beziehen sich nur auf das Basismodell, während das Instruct-Modell möglicherweise eine bessere Leistung erbringt!

△Bildquelle: X-Benutzer @thenameless7741

Überraschenderweise erreichte das Modell Llama 3.1 70B in den Benchmark-Testergebnissen GPT-4o oder übertraf es sogar, während das Modell Llama 3.1 8B nahe an der Leistung des Modells Llama 3 70B lag. Einige Internetnutzer spekulierten, dass hierfür möglicherweise die Modelldestillationstechnologie verwendet wurde, das heißt, die Modelle 8B und 70B wurden vom größten Modell 405B vereinfacht, wodurch die großen Modelle „kleiner“ wurden.

Die Modelldestillationstechnologie kann als ein Schüler betrachtet werden, der von einem Lehrer lernt. Das große und leistungsstarke Modell (das Lehrermodell) ist der Lehrer, und das kleinere und einfachere Modell (das Schülermodell) ist der Schüler. Das Schülermodell lernt, indem es das Lehrermodell „nachahmt“, wodurch die Ausgabe so nah wie möglich an die Ausgabe des Lehrermodells herankommt und dadurch ähnliche Kenntnisse und Fähigkeiten erlernt.

Das durch Destillation trainierte Studentenmodell kann die Modellgröße und den Bedarf an Rechenressourcen reduzieren und gleichzeitig eine hohe Leistung und beträchtliche Genauigkeit beibehalten.

△Quelle: Reddit

Nicht jeder kann damit umgehen, aber der Preis ist angemessen.

Ob Llama 3.1 wie erwartet Open Source sein wird, ist noch unbekannt. Aber auch wenn es Open Source ist: Wenn Sie Llama 3.1 nutzen möchten, müssen Sie immer noch eine Mine zu Hause haben.

Wenn Sie Llama 3.1 ausführen möchten, ist eine ausreichende GPU die einfachste Eintrittskarte.

Durchgesickerte Dokumente zeigen, dass die Trainingszeit von Llama 3.1 405B auf Hardware vom Typ H100-80GB 30,84 Mio. GPU-Stunden beträgt. Das bedeutet, dass unter der Annahme, dass nur ein H100-80GB pro Stunde verwendet wird, 30,84 Mio. Stunden benötigt werden, um Llama 3.1 405B auszuführen – es wird 3500 Jahre dauern, bis das Modell läuft!

△Quelle: Reddit

Wenn Sie eine private Bereitstellung wünschen und das Unternehmen Llama 3.1 405B innerhalb eines Monats erfolgreich ausführen möchte, muss es mindestens 43.000 H100-80 GB reservieren. Berechnet auf der Grundlage des H100-Stückpreises von 40.000 US-Dollar.Bei Verwendung von Llama 3.1 405B-Rechenleistungskarten beträgt der Preis bis zu 1,7 Milliarden US-Dollar, was 12,5 Milliarden Yuan entspricht.

Die gute Nachricht ist jedoch, dass die Inferenzkosten von Llama 3.1 möglicherweise günstiger sind.

Laut Artificial Analysis sind die für den Durchsatz von 1 Million Token erforderlichen Kosten für Llama 3.1 405B günstiger und kostengünstiger als hochmoderne Modelle ähnlicher Qualität (GPT-4o und Claude 3.5 Sonnet).

△Bildquelle: X-Benutzer @ArtificialAnlys

Darüber hinaus spekulierten einige Internetnutzer anhand des Quelldateicodes, dass Llama 3.1 405B ein Mitgliedsprodukt werden könnte und Benutzer für die Nutzung bezahlen müssen. Wir müssen jedoch noch auf die offizielle Veröffentlichung der tatsächlichen Situation warten.

△Bildquelle: X-Benutzer @testingcatalog

(36Kr-Autor Zhou Xinyu hat ebenfalls zu diesem Artikel beigetragen)

Willkommen zur Kommunikation

Nachricht

Llama 3.1 im Vorfeld durchgesickert und GPT-4o vom Thron gestoßen?Schneller und 10-mal günstiger

Einführung

meine Kontaktdaten