Nachricht

Das leistungsstärkste Open-Source-Großmodell wurde über Nacht zu einem Gott! Die Veröffentlichung von Llama 3.1 ist schockierend: Die Ära des wirklich universellen GPT-4 ist angebrochen

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


kluge Dinge
Autor: Zhi Dongxi Redaktion

Zhidongxi berichtete am 24. Juli, dass Meta gestern Abend die Einführung des bislang leistungsstärksten Open-Source-Modells angekündigt habe –Lama 3.1 405B, veröffentlichte auch die neu aktualisierten Modelle Llama 3.1 70B und 8B.

Llama 3.1 405B unterstützt die Kontextlänge von128.000 Token, bezogen auf15 Billionen TokenÜber 16.000 H100-GPUsDies ist das erste Lama-Modell, das Meta jemals in diesem Maßstab trainiert hat.

Die Auswertungsergebnisse der Forscher auf Basis von mehr als 150 Benchmark-Testsätzen zeigen, dassLlama 3.1 405B funktioniert mit GPT-4o, Claude 3.5 Sonnet und Gemini Ultra sowie andere Kopfmodelle der Branche.


Zusätzlich zu seiner starken Leistung veröffentlichte Meta-Gründer und CEO Mark Zuckerberg auch persönlich einen Artikel, um ihn zu unterstützen. Er sagte, dass es nicht nur bessere Kosten und eine bessere Leistung als Closed-Source-Modelle bietet.Das Open-Source-Modell 405B wird für Unternehmen die beste Wahl sein, um kleinere Modelle zu optimieren und zu trainieren

Meta AI kündigte seinen Zugriff auf Llama 3.1 405B an und führte neue Funktionen wie KI-Bildbearbeitung, KI-Programmierung und intelligente Assistenten für VR/AR-Geräte ein. Zuckerberg sagte voraus,Die Nutzung des Meta-KI-Assistenten wird in einigen Monaten die von ChatGPT übertreffen


▲Meta AI unterstützt Echtzeit-Audio- und Videointeraktion zwischen Quest-Headsets und Benutzern

Auch das Open-Source-Ökosystem von Meta ist bereit. Meta undMehr als 25 PartnerLlama 3.1-Modelle werden verfügbar sein, darunter unter anderem Amazon AWS, NVIDIA, Databricks, Groq, Dell, Microsoft Azure und Google Cloud.

Bisher wurde die Gesamtzahl der Downloads aller Llama-Modellversionen überschritten300 Millionen MalDie Veröffentlichung des Llama 3.1-Modells, das dem Mainstream-Closed-Source-Modell entspricht, könnte bedeuten, dass die Geschichte des Open-Source-Modells, die Meta erzählen möchte, gerade erst begonnen hat ...


Modell-Download-Link:

https://llama.meta.com/

https://huggingface.co/meta-llama

Papierlink:

https://t.co/IZqC6DJkaq


▲Zusammenfassung der Modellpapierinterpretation von Meta Llama 3.1

1. Das 405B-Open-Source-Modell wird mit GPT-4o verglichen und 25 Partner sind bereit

Meta bewertete die Leistung von mehr als 150 Benchmark-Datensätzen und stellte fest, dass Llama 3.1 405B in einer Reihe von Aufgaben wie gesundem Menschenverstand, Bedienbarkeit, Mathematik, Werkzeugnutzung und mehrsprachiger Übersetzung mit GPT-4o, Claude 3.5 Sonnet und Gemini Ultra vergleichbar ist . .


In einem realen Szenario wurde Llama 3.1 405B mit der menschlichen Bewertung und seinen Ergebnissen verglichenDie Gesamtleistung ist besser als bei GPT-4o und Claude 3.5 Sonnet


aufgewertetLama 3.1 8B und 70BModelle bieten außerdem eine bessere Leistung als Modelle mit derselben Parametergröße. Diese kleineren Parametermodelle unterstützen das gleiche 128K-Token-Kontextfenster, Mehrsprachigkeit, verbesserte Inferenz und die Verwendung modernster Tools zur Unterstützung komplexerer Anwendungen.


Meta hat seine Lizenz aktualisiert, um Entwicklern erstmals die Nutzung der Ausgabe des Llama-Modells einschließlich der 405B-Parameterskala zur Verbesserung anderer Modelle zu ermöglichen.

Gleichzeitig wurde das Open-Source-Ökosystem von Meta weiter ausgebaut und mehr als 25 Unternehmen haben das neue Llama 3.1-Modell auf den Markt gebracht.

In,Amazon Cloud-Technologie, Databricks und Nvidia Um Entwickler bei der Feinabstimmung und dem Training ihrer eigenen Modelle zu unterstützen, wird eine umfassende Palette von Diensten eingeführt. Das KI-Chip-Startup Groq und andere haben diesmal kostengünstige Inferenzdienste mit geringer Latenz für alle neuen Modelle entwickelt, die von Meta veröffentlicht werden.

Gleichzeitig werden diese Modelle seinAmazon Cloud-Technologie, Microsoft Azure, Google Cloud, OracleBereitstellung von Diensten auf wichtigen Cloud-Plattformen.

Scale AI, Dell, DeloitteUnternehmen wie Llama sind bereit, Unternehmen bei der Einführung von Llama-Modellen zu unterstützen und benutzerdefinierte Modelle mithilfe ihrer eigenen Daten zu trainieren.

Llama 3.1 405B ist nicht nur das stärkste Open-Source-Modell, sondern wird voraussichtlich auch das stärkste Modell werden. Der Abstand zwischen Open Source und Closed Source wurde erneut stark verkürzt.

2. Optimieren Sie den Trainingsstapel vollständig und konzentrieren Sie sich darauf, das Modell skalierbar zu machen

Um Modelle auf Basis von 15 Billionen Token trainieren zu können und dabei innerhalb einer angemessenen Zeit die von den Forschern gewünschten Ergebnisse zu erzielen, hat Meta den Trainingsstack vollständig optimiert.


Bei der Bewältigung der oben genannten Herausforderungen hat sich Meta entschieden, sich auf Strategien zu konzentrieren, die den Modellentwicklungsprozess skalierbar und einfacher halten:

1. Die Forscher wähltenStandard-Decoder-Transformer-ModellarchitekturDurch kleine Anpassungen anstelle der Verwendung eines MoE-Hybrid-Expertenmodells kann die Trainingsstabilität maximiert werden.

2. Die verwendeten ForscherIteratives Post-Training-Verfahren , unter Verwendung überwachter Feinabstimmung und direkter Präferenzoptimierung in jeder Runde. Dadurch kann das Modell für jede Runde synthetische Daten höchster Qualität erstellen und die Leistung in jeder Funktion verbessern.

Im Vergleich zu den vorherigen Modellen der Llama-Serie verbessert Meta die Quantität und Qualität der Daten, die vor und nach dem Training verwendet werden.Zu diesen Verbesserungen gehören:Entwickeln Sie sorgfältigere Vorverarbeitungs- und Verwaltungspipelines für Daten vor dem Training, entwickeln Sie eine strengere Qualitätssicherung und filtern Sie Methoden für Daten nach dem Training

Wie aufgrund der Skalierungsgesetze großer Sprachmodelle zu erwarten ist, übertrifft das neue Flaggschiffmodell von Meta kleinere Modelle, die mit derselben Strategie trainiert wurden. Meta verbesserte auch die Trainingsqualität seiner kleineren Modelle mithilfe eines Modells mit 405B-Parametern.

Um eine groß angelegte Inferenz des 405B-Parametermodells zu unterstützen, quantisierten die Forscher gleichzeitig das Modell von BF16 bis FP8, wodurch die erforderlichen Rechenanforderungen effektiv reduziert wurden und die Ausführung des Modells innerhalb eines einzelnen Serverknotens ermöglicht wurde.

Im Hinblick auf Anweisungen und Chat-Feinabstimmung erstellten die Forscher das endgültige Modell, indem sie mehrere Ausrichtungsrunden auf dem vorab trainierten Modell durchführten, wobei jede Runde überwachte Feinabstimmung (SFT), Ablehnungsstichprobe (RS) usw. umfasste Direkte Präferenzoptimierung (DPO) Die überwiegende Mehrheit der SFT-Beispiele wird mithilfe der Generierung synthetischer Daten generiert, um synthetische Daten höherer Qualität über alle Funktionen hinweg zu erzeugen.

Darüber hinaus nutzt Meta mehrere Datenverarbeitungstechniken, um diese synthetischen Daten in höchster Qualität zu filtern, was es neuen Modellen ermöglicht, Datenmengen über funktionale Skalierbarkeit hinweg zu optimieren.

Auch auf der Datenseite haben die Forscher die Daten sorgfältig ausbalanciert, um qualitativ hochwertige Modelle mit allen Funktionen zu erstellen. Beispielsweise ermöglicht die Beibehaltung der Modellqualität bei kurzen Kontext-Benchmarks die Skalierung auf 128.000 Kontextlängen.

Darüber hinaus kündigte Meta auch die Einführung eines Overalls anLama-System . Das System deckt nicht nur das Llama-Modell ab, sondern umfasst auch die Koordination mehrerer Komponenten und externe Toolaufrufe, um Entwicklern bei der Entwicklung maßgeschneiderter Produkte zu helfen, die stärker als das Basismodell sind.

Das Llama-System wird eine Reihe neuer Komponenten umfassen, darunter auch neue Open-Source-KomponentenSicherheitstools Wie zum Beispiel Llama Guard 3 (mehrsprachiges Sicherheitsmodell) und Prompt Guard (Instant-Injection-Filter). Um unterschiedliche Komponenten zu verbinden, hat Meta außerdem eine Bitte um Kommentare zur Llama Stack API herausgegeben, einer Standardschnittstelle, die es Drittprojekten einfacher machen soll, das Llama-Modell zu nutzen.

Für normale Entwickler ist die Verwendung von Modellen im 405B-Maßstab immer noch eine Herausforderung, die viel Rechenressourcen und Fachwissen erfordert.

Basierend auf dem Llama-System geht es bei der generativen KI-Entwicklung nicht nur um die Eingabe von Modellen, um das 405B-Modell zu verwenden, um mehr Aufgaben zu erledigen, einschließlich Echtzeit- und Batch-Argumentation, überwachter Feinabstimmung und Modellbewertung für bestimmte Anwendungen Pre-Training und Retrieval-Enhanced Generation (RAG), Funktionsaufrufe, synthetische Datengenerierung usw.

Dies ist das bisher größte von Meta eingeführte Modell. In Zukunft werden gerätefreundlichere Größen, mehr Modi und Updates auf Agentenebene veröffentlicht.

drei,Sprengstoffmodifikation des großen Modells 405BMeta-KI, Quest intelligenter SprachassistentAktualisierung

Mittlerweile gehören mehrere Terminals Meta, wie zWhatsApp- und Meta-KI-ChatbotZhongdu begann mit der Verwendung von Llama 3.1 405B.


Meta AI unterstützt derzeit sieben neue Sprachen. Dieses Mal bringt Meta eine Reihe neuer Meta AI-Kreativtools auf den Markt, die sich hauptsächlich auf Bereiche wie visuelle Generierung, Mathematik und Codierung konzentrieren.

Erster Blick auf die visuelle Generierung, Meta AI startet„Imagine Me“-Funktion zur Bildgenerierung, die es Benutzern ermöglicht, im Meta-KI-Chat „Stellen Sie sich mich vor“ einzugeben und Aufforderungen wie „Stellen Sie sich mich als König vor“ oder „Stellen Sie sich mich in einem surrealen Gemälde vor“, um Bilder zu generieren und diese mit Freunden und Familie zu teilen.


Meta AI wird online sein„Mit KI bearbeiten“ Mit der Funktion können Benutzer ganz einfach per Mausklick Objekte hinzufügen oder entfernen oder sie ändern und bearbeiten, während der Rest des Bildes unverändert bleibt, wie zum Beispiel „Katze in Corgi ändern“. Meta AI unterstützt auch das Hinzufügen neu erstellter Bilder zu Facebook-Posts sowie auf sozialen Plattformen wie Instagram, Messenger und WhatsApp.


Im Bereich Mathematik und Programmierung können Benutzer mit Schritt-für-Schritt-Erklärungen und Feedback Hilfe bei Mathematikaufgaben erhalten, mit Debugging-Unterstützung und Optimierungsvorschlägen Code schneller schreiben und unter fachkundiger Anleitung komplexe technische und wissenschaftliche Konzepte meistern.


Benutzer können die Codierungskompetenz und Bildgenerierungsfunktionen von Meta AI kombinieren, um neue Spiele von Grund auf oder neue Versionen klassischer Spiele zu erstellen. Es dauert nur wenige Minuten, Ihre fantastischen Ideen in die Realität umzusetzen und den Benutzern sogar eine direkte Vorschau des Spiels zu ermöglichen.

Erwähnenswert ist, dass Meta AI auch dafür geeignet istRay-Ban Meta Datenbrille und wird nächsten Monat im experimentellen Modus auf Meta Quest in den USA und Kanada starten. Meta AI wird die aktuellen Sprachbefehle auf Quest ersetzen und es Benutzern ermöglichen, das Headset freihändig zu steuern, Antworten auf Fragen zu erhalten, über Echtzeitinformationen auf dem Laufenden zu bleiben, das Wetter zu überprüfen und vieles mehr.

Benutzer können Meta AI auch mit der Ansicht verwenden, die sie im Headset sehen, indem sie sie beispielsweise nach Dingen fragen, die sie in der physischen Umgebung sehen.

4. Zuckerbergs offener Brief: Open Source ist besser für Entwickler, Meta und die Welt

Die Llama 3.1-Serie wurde gerade veröffentlicht und gleichzeitig wurde Zuckerbergs langer Blog auf der offiziellen Website veröffentlicht, wodurch der Schießpulvergeruch zwischen Open- und Closed-Source-Modellen noch stärker wird.


▲Screenshot eines Teils von Zuckerbergs offenem Brief

Zu Beginn erwähnte Zuckerberg, dass sich die Lücke zwischen Open-Source- und Closed-Source-Modellen allmählich schließt. Letztes Jahr war Llama 2 nur auf Augenhöhe mit dem fortschrittlichsten Closed-Source-Modell der Vorgängergeneration. In diesem Jahr liegt der Llama 3 auf Augenhöhe mit den fortschrittlichsten Modellen und liegt in einigen Bereichen vorne.

Er geht davon aus, dass das Llama-Modell ab dem nächsten Jahr das fortschrittlichste der Branche sein wird . Und die aktuellen Modelle der Llama-Serie nehmen hinsichtlich Offenheit, Modifizierbarkeit und Wirtschaftlichkeit bereits eine Spitzenposition ein.

In seinem Blog wies er direkt auf das Closed-Source-Modell hin und beantwortete drei wichtige Fragen: Warum Open-Source-KI gut für Entwickler ist, warum Open-Source-KI gut für Meta ist und warum Open-Source-KI gut für die Welt ist.

Erstens: Warum ist Open-Source-KI gut für Entwickler?

Er glaubt, dass Entwickler ihre eigenen Modelle trainieren und optimieren müssen, um ihren spezifischen Anforderungen gerecht zu werden; Entwickler müssen ihr eigenes Schicksal kontrollieren, anstatt an einen geschlossenen Lieferanten gebunden zu sein; Entwickler müssen effizient sein; Modell, das kostengünstig zu betreiben ist; Entwickler möchten in ein Ökosystem investieren, das langfristig zum Standard wird.

Der Vorteil von Open-Source-KI besteht für Meta darin, dass das Geschäftsmodell von Meta darin besteht, die besten Erfahrungen und Dienste für die Menschen zu schaffen. Um dies zu erreichen, muss es seiner Meinung nach sicherstellen, dass es immer Zugriff auf die beste Technologie hat und nicht in die Enge gerät Ökosystem der Wettbewerber.

Gleichzeitig wird Open-Source-KI Meta dazu ermutigen, Llama zu einem vollständigen Ökosystem mit dem Potenzial zum Industriestandard zu entwickeln.

Er erwähnte auch, dass einer der Hauptunterschiede zwischen Meta- und Closed-Source-Modellanbietern darin besteht, dass der Verkauf des Zugangs zu KI-Modellen nicht das Geschäftsmodell von Meta ist, was bedeutet, dass Open Source weder den Umsatz noch die Nachhaltigkeit oder die kontinuierlichen Investitionen in die Forschungskapazität beeinträchtigt .

Schließlich kann Meta auf eine lange Geschichte von Open-Source-Projekten und Erfolgen zurückblicken.

Zur Debatte über die Sicherheit von Open-Source-KI-Modellen sagt Zuckerberg FolgendesOpen-Source-KI wird sicherer sein als andere Optionen . Er glaubt, dass Open Source dafür sorgen wird, dass mehr Menschen auf der ganzen Welt die Vorteile und Chancen der KI nutzen können, dass die Macht nicht in den Händen einiger weniger Unternehmen konzentriert ist und dass die Technologie in der gesamten Gesellschaft gleichmäßiger und sicherer eingesetzt werden kann.

Fazit: Meta hat einen weiteren Schritt gemacht und die Debatte über die offenen und geschlossenen Quellen großer Modelle hat sich verändert.

Der Kampf zwischen Open- und Closed-Source-Großmodellen geht weiter ...

Aus der Veröffentlichung der Modellreihe Meta Llama 3.1 ist ersichtlich, dass die Kluft zwischen großen Open-Source- und Closed-Source-Modellen kleiner wird und eine starke Tendenz besteht, miteinander Schritt zu halten und aufzuholen . Als treuer Unterstützer des großen Open-Source-Modelllagers und Pionier der technologischen Innovation ist Meta seit der Veröffentlichung der Llama-Modellreihe entschlossen, ein eigenes Open-Source-Ökosystem aufzubauen. Gleichzeitig wird Meta im Vergleich zum vorherigen Llama-Modell auch für diese neue Modellversion ein internes Team aufbauen, um möglichst vielen Entwicklern und Partnern die Nutzung der Llama-Serie zu ermöglichen.

Meta hat einen weiteren Schritt unternommen, was den Abschluss der Debatte über Open-Source- und Closed-Source-Modelle noch verwirrender macht. Letztendlich entscheiden sich jedoch viele Unternehmen und Entwickler für die Verwendung von Open-Source- oder Closed-Source-Modellen entsprechend den spezifischen Anforderungen und Situationen. Daher wird es einige Zeit dauern, die spezifischen Fähigkeiten des Modells und seine anwendbaren realen Anforderungen zu beweisen. Lebensszenarien.