ChatGPT-Moment für große Open-Source-Modelle? Der mit Spannung erwartete Llama 3 405B steht kurz vor der Veröffentlichung

ChatGPT-Moment für große Open-Source-Modelle?Das mit Spannung erwartete Llama 3 405B steht kurz vor der Veröffentlichung

2024-07-23

Der lang erwartete Llama 3 405B, dessen Veröffentlichung ursprünglich für den 23. geplant war, kommt.

Als Topmodell der Llama 3-Serie verfügt die 405B-Version über 405 Milliarden Parameter und ist eines der bislang größten Open-Source-Modelle.

In den frühen Morgenstunden der letzten Nacht hat META plötzlich Evaluierungsdaten für Llama 3.1-405B durchgesickert. Einige Internetnutzer sagten voraus, dass zur gleichen Zeit eine Llama 3.1-70B-Version veröffentlicht werden könnte, weil „(Modelle im Voraus durchgesickert) eine alte Tradition von META ist.“ . Das letztjährige Lama-Modell war Did it Once.

Einige Analysten glauben, dass Llama 3 405B nicht nur eine weitere Verbesserung der Fähigkeiten der künstlichen Intelligenz darstellt. Für Open-Source-KI ist dies ein PotenzialChatGPTMoment“, in dem modernste KI wirklich demokratisiert und direkt in die Hände von Entwicklern gelegt wird.

Drei Vorhersagen für die bevorstehende Ankündigung von Llama 3 405B

Einige Analysten prognostizierten die Höhepunkte der bevorstehenden Ankündigung von Llama 3 405B aus drei Perspektiven: Datenqualität, Modellökosystem und API-Lösungen.

Erstens könnte Llama 3 405B die Datenqualität für Spezialmodelle revolutionieren.

Für Entwickler, die sich auf die Erstellung professioneller KI-Modelle konzentrieren, besteht eine langfristige Herausforderung darin, qualitativ hochwertige Trainingsdaten zu erhalten. Kleinere Expertenmodelle (1-10B-Parameter) nutzen häufig Destillationstechniken, um ihren Trainingsdatensatz mit der Ausgabe des größeren Modells zu erweitern.Allerdings mitOpenAISolche Daten von Closed-Source-Giganten wie Google Cloud unterliegen strengen Beschränkungen, was kommerzielle Anwendungen einschränkt.

Es entstand Llama 3 405B. Als Open-Source-Gigant, der mit der Leistungsfähigkeit proprietärer Modelle mithalten kann, bietet es Entwicklern eine neue Grundlage für die Erstellung umfangreicher, uneingeschränkter Datensätze. Dies bedeutet, dass Entwickler die destillierte Ausgabe von Llama 3 405B frei nutzen können, um Nischenmodelle zu trainieren, was Innovations- und Bereitstellungszyklen in professionellen Bereichen erheblich beschleunigt. Erwarten Sie einen Anstieg der Entwicklung leistungsstarker, fein abgestimmter Modelle, die sowohl robust als auch Open-Source-ethisch sind.

Zweitens wird Llama 3 405B ein neues Modell-Ökosystem bilden: von Basismodellen bis hin zu Expertenkombinationen

Die Einführung von Llama 3 405B könnte die Architektur von KI-Systemen neu definieren. Die schiere Größe des Modells (405 Milliarden Parameter) mag eine Einheitslösung bedeuten, aber die wahre Stärke liegt in seiner Integration in ein hierarchisches Modellsystem. Dieser Ansatz wird besonders für Entwickler interessant sein, die in unterschiedlichen Maßstäben mit KI arbeiten.

Erwarten Sie einen Übergang zu einem dynamischeren Modellökosystem, wobei der Llama 3 405B als Rückgrat fungiert und von kleinen und mittelgroßen Modellen unterstützt wird. Diese Systeme können Techniken wie die spekulative Dekodierung verwenden, bei der weniger komplexe Modelle den Großteil der Verarbeitung übernehmen und das 405B-Modell nur dann aufrufen, wenn es zur Überprüfung und Fehlerkorrektur erforderlich ist. Dies maximiert nicht nur die Effizienz, sondern eröffnet auch neue Möglichkeiten zur Optimierung von Rechenressourcen und Reaktionszeiten in Echtzeitanwendungen, insbesondere bei der Ausführung auf SambaNova-RDUs, die für diese Aufgaben optimiert sind.

Schließlich hat Llama 3 405B die Konkurrenz um die effizienteste API

Mit großer Leistung geht große Verantwortung einher – und für den Llama 3 405B ist der Einsatz eine große Herausforderung. Entwickler und Organisationen müssen hinsichtlich der Modellkomplexität und betrieblichen Anforderungen vorsichtig sein. Es wird einen Wettbewerb zwischen KI-Cloud-Anbietern geben, um die effizienteste und kostengünstigste API-Lösung für die Bereitstellung von Llama 3 405B bereitzustellen.

Diese Situation bietet Entwicklern eine einzigartige Gelegenheit, mit verschiedenen Plattformen zu interagieren und zu vergleichen, wie verschiedene APIs mit solch großen Modellen umgehen.Die Gewinner in diesem Bereich werden diejenigen sein, die APIs bereitstellen können, die nicht nur die Rechenlast effektiv verwalten, sondern auch die Modellgenauigkeit nicht beeinträchtigen oder unverhältnismäßig steigernCO2-Fußabdruck。

Zusammenfassend ist Llama 3 405B nicht nur ein weiteres Werkzeug im KI-Arsenal; es ist ein grundlegender Wandel hin zu offener, skalierbarer und effizienter KI-Entwicklung. Analysten glauben, dass die Einführung von Llama 3 405B den Benutzern neue Horizonte eröffnen wird, sei es die Feinabstimmung von Nischenmodellen, der Aufbau komplexer KI-Systeme oder die Optimierung von Bereitstellungsstrategien.

Was denken Internetnutzer?

Netizens haben im Subreddit LocalLLaMA gepostet und Informationen über Meta Llama 3.1 mit 405 Milliarden Parametern geteilt. Den Ergebnissen dieses KI-Modells in mehreren wichtigen KI-Benchmarks nach zu urteilen, übertraf seine Leistung den aktuellen Marktführer, nämlich OpenAIGPT-4oDies ist das erste Mal, dass ein Open-Source-Modell den aktuellen Stand der Technik Closed Source schlagen kannLL.M.Modell.

Wie in den Benchmarks gezeigt, übertrifft Meta Llama 3.1 GPT-4o in mehreren Tests wie GSM8K, Hellaswag, boolq, MMLU-humanities, MMLU-other, MMLU-stem und winograd. Allerdings übertrifft es GPT-4o in HumanEval und MMLU-. Sozial Wissenschaftlich hinkt es GPT-4o hinterher.

Ethan Mollick, außerordentlicher Professor an der Wharton School der University of Pennsylvania, schreibt:

Wenn diese Statistiken stimmen, kann man mit Sicherheit sagen, dass die Top-Al-Modelle ab dieser Woche für jedermann kostenlos erhältlich sein werden.

Regierungen, Organisationen und Unternehmen in jedem Land der Welt können die gleichen KI-Funktionen nutzen wie alle anderen. Das wird ein Spaß.

Einige Internetnutzer fassten mehrere Highlights des Llama 3.1-Modells zusammen:

Das Modell verwendet 15T+ Token aus öffentlichen Quellen für das Training, und die Frist für die Daten vor dem Training ist Dezember 2023;

Zu den Feinabstimmungsdaten gehören öffentlich verfügbare Datensätze zur Feinabstimmung von Anweisungen (im Gegensatz zu Llama 3) und 15 Millionen synthetischen Proben.

Das Modell unterstützt mehrere Sprachen, darunter Englisch, Französisch, Deutsch, Hindi, Italienisch, Portugiesisch, Spanisch und Thailändisch.

Einige Internetnutzer sagten, dies sei das erste Mal, dass ein Open-Source-Modell Closed-Source-Modelle wie GPT4o und Claude Sonnet 3.5 übertreffe und bei mehreren Benchmarks SOTA erreiche.

Nachricht

ChatGPT-Moment für große Open-Source-Modelle?Das mit Spannung erwartete Llama 3 405B steht kurz vor der Veröffentlichung

Drei Vorhersagen für die bevorstehende Ankündigung von Llama 3 405B

Was denken Internetnutzer?

Einführung

meine Kontaktdaten