Die Magnetverbindung von Llama 3.1 ist vorzeitig durchgesickert! Der Thron des Open-Source-Modells wechselte über Nacht den Besitzer, GPT-4o wurde übertroffen

Die Magnetverbindung von Llama 3.1 ist vorzeitig durchgesickert!Der Thron des Open-Source-Modells wechselte über Nacht den Besitzer, GPT-4o wurde übertroffen

2024-07-23

Neuer Weisheitsbericht

Herausgeber: Redaktion

[Einführung in die neue Weisheit] Llama 3.1 ist schon wieder im Vorfeld durchgesickert! Die Entwicklergemeinschaft ist wieder in Aufruhr: Das größte Modell ist 405B, die Modelle 8B und 70B werden gleichzeitig aktualisiert und die Modellgröße beträgt etwa 820 GB. Die Benchmark-Testergebnisse sind erstaunlich und der Magnetlink kursiert wild im gesamten Netzwerk.

Die Geschichte wiederholt sich erneut, Llama 3.1 405B ist im Voraus durchgesickert!

Mittlerweile haben sich Benchmarks und Magnet-Links herumgesprochen.

Zusätzlich zum größten 405B hat Meta dieses Mal auch die Anfang Mai veröffentlichten 8B- und 70B-Modelle aktualisiert und die Kontextlänge auf 128 KB erhöht.

Zu diesem Zeitpunkt wurde die Modellversion offiziell von Llama 3 auf Llama 3.1 iteriert.

Den Angaben des Magnet-Links zufolge beträgt die Größe des neuen Modells 763,48 GB (ca. 820 GB).

Aus dem durchgesickerten „Benchmark-Test“ geht hervor, dass selbst das kleine 8B-Modell gut abschneiden kann und die Leistung des 70B-Modells bei mehreren Benchmarks mit GPT-4o mithalten kann.

Die Entwickler waren wütend, als sie die Testergebnisse sahen. Aidan McLau, CEO von Topology, rief aus:

Wenn die Benchmarks des Llama 3-405B wahr wären, wäre das der Fall

- Werde das beste Model der Welt

- Für jeden anpassbar

- Günstiger als GPT-4o!

Matt Schumer, CEO von HyperWriteAI, prognostiziert: Es wird definitiv das SOTA im Open-Source-Modell werden. (Sogar 70B kann mit GPT-4o konkurrieren, ganz zu schweigen davon, dass dies vor der Feinabstimmung der Anweisungen erfolgt.)

Stellen Sie sich ein Modell auf GPT-4o-Ebene vor, das mit 330 Token pro Sekunde läuft und zehnmal günstiger ist. Das ist so aufregend.

Morgen wird ein wilder Tag!

Und Xiao Zhas Worte deuteten auf die Ankunft von 405B hin – den ruhigen Moment vor der schicksalhaften Woche.

Viele Internetnutzer fragen OpenAI online: Wann wird das neue Modell veröffentlicht?

Llama 3.1-Familie, morgen eingeführt

Laut der durchgesickerten Modellkarte wird Llama 3.1 am 23. veröffentlicht.

Die Lizenzen sind „Custom Commercial License“ und „Llama 3.1 Community License“.

Durchgesickerte Modellkarte: https://pastebin.com/9jGkYbXY

Konkret handelt es sich bei der mehrsprachigen Großmodellreihe Llama 3.1 um einen Satz vorab trainierter und durch Anweisungen fein abgestimmter generativer Modelle, einschließlich der drei Parametergrößen 8B, 70B und 405B.

Llama 3.1-Nur-Text-Modelle (8B, 70B, 405B) nach der Feinabstimmung der Anweisungen, optimiert für mehrsprachige Konversationsanwendungsfälle.

Neben Englisch werden sieben Sprachen unterstützt, darunter Deutsch, Französisch, Italienisch, Portugiesisch, Hindi, Spanisch und Thailändisch.

Berichten zufolge umfassen die neuen Funktionen von Llama 3.1 einen längeren Kontext, Unterstützung für mehrsprachige Eingabe und Ausgabe sowie die Integration von Entwicklern mit Tools von Drittanbietern.

Benchmarks

Eine Benchmark-Grafik auf GitHub (jetzt 404) zeigt die hervorragende Leistung von Llama 3.1 im Benchmark-Test.

Konkret stellte Llama 3.1 405B in der Benchmark-Bewertung des Benchmark-Pre-Training-Modells die neuesten Rekorde bei allgemeinen Aufgaben, Wissensbegründung und Leseverständnis auf.

Insbesondere bei den Unterteilungs-Benchmarks MMLU und SQuAD ist die Verbesserung am deutlichsten.

Gleichzeitig wurden die Parameterversionen Llama 3.1 8B und 70B im Vergleich zu Llama 3 leicht verbessert. Allerdings ist 70B Llama 3.1 in mancher Hinsicht nicht so gut wie die Vorgängergeneration.

Darüber hinaus ist im Feinabstimmungsmodell der Anweisung zu erkennen, dass Llama 3.1 405B stärker ist als das vorab trainierte Modell. In den Bereichen Argumentation, Codierung, Mathematik, Werkzeugnutzung und mehrsprachige Benchmarks haben sie die fein abgestimmten 8B- und 70B-Versionen übertroffen.

Die fein abgestimmten Modelle Llama 3.1 8B und 70B verbesserten auch die Leistung bei mehreren Fähigkeitsaufgaben deutlich.

Einige Internetnutzer haben die Benchmarks anderer führender Modelle zusammengestellt. Durch Vergleich zeigt sich, dass der Claude 3.5 Sonnet der König aller Benchmarks ist.

Die fein abgestimmte Version von Llama 3.1 405B ist nur im mathematischen Benchmark MMLU Pro die beste und schlägt alle großen Modelle mit einer Punktzahl von 73,3 %.

Darüber hinaus liegt 405B bei den Benchmarks GPQA (Graduate Level Professional Knowledge and Reasoning), Mathematik, DROP (Reading Comprehension), MGSM (Multilingual Mathematics), HumanEval (Programmierung) und BBH (Knowledge Assessment) auf Augenhöhe mit GPT-4o. .

Darüber hinaus liegt 405B deutlich vor dem neuesten GPT-4o-Mini-Modell.

Llama 3.1 ist ein autoregressives Sprachmodell, das eine optimierte Transformer-Architektur verwendet. Die angepasste Version verwendet SFT und RLHF, um den menschlichen Sicherheitspräferenzen gerecht zu werden.

Bei Modellen der Llama 3.1-Serie bezieht sich die Token-Anzahl nur auf Daten vor dem Training.

Alle Modellversionen verwenden Grouped Query Attention (GQA), um die Skalierbarkeit der Inferenz zu verbessern.

15T-Token-Trainingsdaten

Wie Llama 3 ist auch Llama 3.1 auf etwa 15 Billionen Token aus öffentlich zugänglichen Quellen vorab trainiert.

Zu den Feinabstimmungsdaten gehören öffentlich verfügbare Befehlsdatensätze sowie mehr als 25 Millionen synthetische Proben. Daten vor dem Training sind bis Dezember 2023 verfügbar.

Verfügbar für kommerzielle Forschung

Llama 3.1 unterstützt mehrere Sprachumgebungen für kommerzielle und Forschungszwecke.

Mit Anweisungen verfeinerte Nur-Text-Modelle eignen sich für Chat-Assistenten, während vorab trainierte Modelle an eine Vielzahl von Aufgaben zur Generierung natürlicher Sprache angepasst werden können. Die Llama 3.1-Modellsammlung unterstützt auch die Nutzung ihrer Modellausgabe zur Verbesserung anderer Modelle, einschließlich der Generierung synthetischer Daten und der Modelldestillation.

Verstöße gegen Nutzungsgesetze und -vorschriften, Nutzungsrichtlinien und verbotene Llama 3.1-Community-Lizenzen sowie unterstützte Sprachen liegen außerhalb des Geltungsbereichs.

Und das Team betonte, dass Llama 3.1 zusätzlich zu den 8 unterstützten Sprachen auf einer größeren Anzahl von Sprachen trainiert wird. Entwickler können es verfeinern und auf andere Sprachen anwenden, vorausgesetzt, dass Richtlinien wie Community-Lizenzen befolgt werden und die Verwendung sicher und verantwortungsvoll ist.

39,3 Millionen GPU-Stunden Training

Während des Vortrainings verwendet Meta eine angepasste Trainingsbibliothek, einen von Meta angepassten GPU-Cluster und eine Produktionsinfrastruktur. Feinabstimmung, Anmerkungen und Auswertungen werden auch an der Produktionsinfrastruktur durchgeführt.

Das Training hat insgesamt 39,3 Millionen GPU-Stunden Rechenzeit in Anspruch genommen, und der Hardwaretyp ist H100-80 GB (TDP beträgt 700 W).

Die Trainingszeit ist die gesamte GPU-Zeit, die zum Trainieren jedes Modells erforderlich ist, und der Stromverbrauch ist die Spitzenleistungskapazität jedes GPU-Geräts, angepasst an die Stromverbrauchseffizienz.

Die gesamten standortbezogenen Treibhausgasemissionen der Schulung werden auf 11.390 Tonnen Kohlendioxidäquivalent (CO2eq) geschätzt.

Meta betonte, dass das Unternehmen seit 2020 Netto-Treibhausgasemissionen von Null aufrechterhalten hat und dass 100 % seines Stroms aus erneuerbaren Ressourcen erzeugt wird, sodass seine gesamten Treibhausgasemissionen basierend auf einem Markt-Benchmark bei 0 Tonnen Kohlendioxidäquivalent liegen.

erhebliches Risiko

Meta hat auch Tests zu großen Risiken durchgeführt.

Beinhaltet CBRNE-Nützlichkeit (chemische, biologische, radiologische, nukleare und explosive Materialien), Kindersicherheit und Cyberangriffe.

Bei Cyberangriffen untersuchte das Team, ob LLMs die menschlichen Fähigkeiten bei Hacking-Aufgaben verbessern können, einschließlich Fähigkeitsniveau und Geschwindigkeit.

Die Forschung konzentriert sich auf die Bewertung der Fähigkeit von LLMs, als autonome Agenten bei Cyberangriffen eingesetzt zu werden, insbesondere bei Angriffen durch Ransomware.

Das Hauptziel besteht darin, zu bewerten, ob diese Modelle komplexe Cyberangriffe als unabhängige Agenten ohne menschliches Eingreifen effektiv durchführen können.

Internetnutzer braten den Topf und werden wieder Zeuge der Geschichte

Nachdem der Magnet-Link veröffentlicht wurde, begannen ungeduldige Internetnutzer direkt mit dem Download, aber das kann lange dauern.

Einige Internetnutzer warten auf die Veröffentlichung von Llama 3.1 405B morgen und werden erneut Zeuge der Geschichte!

Die Kluft zwischen Open-Source- und Closed-Source-Modellen hat sich erneut verringert.

Jemand hat auch die klassische Fallenfrage „Wer ist größer, 9,11 oder 9,9?“ getestet und Llama 3.1-405B hat sie tatsächlich richtig beantwortet.

Für die „GPU-Armen“ sind 820 GB zu unwillig, um auf einem Notebook zu laufen.

Verweise:

https://x.com/bindureddy/status/1815443198459990098

https://x.com/kimmonismus/status/1815314833236984274

https://x.com/mattshumer_/status/1815453195717742838

https://x.com/swishfever/status/1815512729286815756

Belegung

Die Magnetverbindung von Llama 3.1 ist vorzeitig durchgesickert!Der Thron des Open-Source-Modells wechselte über Nacht den Besitzer, GPT-4o wurde übertroffen

Einführung

meine Kontaktdaten