Nachricht

Meta veröffentlicht Llama 3.1, das stärkste Open-Source-Modell, Zuckerberg: Es wird ein Wendepunkt für die Branche sein

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Am Abend des 23. Juli, Pekinger Zeit, veröffentlichte Meta offiziell die neueste Open-Source-Großmodellreihe Llama 3.1 und verringerte damit die Lücke zwischen Open-Source-Modellen und Closed-Source-Modellen weiter. Llama 3.1 umfasst die drei Parametergrößen 8B, 70B und 450B. Das 450B-Parametermodell hat OpenAIs GPT-4o in mehreren Benchmark-Tests übertroffen und ist mit führenden Closed-Source-Modellen wie Claude 3.5 Sonnet vergleichbar.


Meta-Gründer und CEO Zuckerberg veröffentlichte gleichzeitig einen Blog auf der offiziellen Website, um die Dynamik für diese Veröffentlichung zu steigern. Er sagte, dass die Version 3.1 von Llama ein Wendepunkt in der Branche sein werde, und zwar hauptsächlich auf Open Source Quell-KI ist die Entwicklungsrichtung.

Jim Fan, leitender Forschungswissenschaftler bei Nvidia, hat auf

In Bezug auf spezifische Details wurde das Modellkontextfenster der drei Versionen von Llama 3.1 von 8 KB auf 128 KB erhöht, um das 16-fache erweitert und unterstützt gleichzeitig 8 Sprachen. Das Modell Llama 3.1 -405B verwendete mehr als 15 Billionen Token für das Training, und um diesen Trainingsumfang zu erreichen, verwendete das Team 16.000 H100-GPUs. Offiziell ist das 405B-Modell das erste in diesem Maßstab trainierte Lama-Modell.

Große Open-Source-Sprachmodelle hinken hinsichtlich Funktionalität und Leistung meist den Closed-Source-Modellen hinterher, „aber jetzt treten wir in eine neue Ära ein, die von Open Source angeführt wird.“

Im offiziellen Blog bewertete Meta die Leistung von mehr als 150 Benchmark-Datensätzen und verglich die Leistung von Llama 3.1 mit anderen Modellen. Das Flaggschiffmodell Llama 3.1 -405B kann mit GPT in einer Reihe von Aufgaben wie gesundem Menschenverstand, Bedienbarkeit, konkurrieren. und Mathematik. -4, GPT-4o ist vergleichbar mit Claude 3.5 Sonett. Darüber hinaus sind die kleinen Modelle 8B und 70B mit Closed-Source- und Open-Source-Modellen mit ähnlicher Parameteranzahl konkurrenzfähig.


In realen Szenarien wurde Llama 3.1 405B mit menschlicher Bewertung verglichen und seine Gesamtleistung war besser als GPT-4o und Claude 3.5 Sonnet.


Dieses Mal hat Meta auch die Open-Source-Lizenz aktualisiert, sodass Entwickler erstmals die Ausgabe des Llama-Modells (einschließlich 405B) verwenden können, um andere Modelle zu verbessern. Beim Benchmarking von GPT-4o sagten Beamte, dass sie auch eine Kombinationsmethode verwenden werden, um Bild-, Video- und Sprachfunktionen in Llama 3 zu integrieren, damit das Modell Bilder und Videos erkennen und die Interaktion über Sprache unterstützen kann. Diese Funktion befindet sich jedoch noch in der Entwicklung und ist noch nicht zur Veröffentlichung bereit.

Im offiziellen Blog sagte Meta, dass die Gesamtdownloads aller Llama-Versionen bisher 300 Millionen Mal überschritten haben.

Zusätzlich zu dieser Modellversion veröffentlichte Zuckerberg auf der offiziellen Website auch einen langen Artikel mit dem Titel „Open Source AI Is the Path Forward“, in dem er die Bedeutung von Open Source erwähnte. Er glaubt, dass Open Source für alle Entwickler, für Meta und andere von Vorteil ist zur Welt ist eine gute Sache.


Als Beispiel nannte Zuckerberg den Sieg des Open-Source-Systems Linux über das Closed-Source-System Unix und glaubte, dass sich die künstliche Intelligenz in ähnlicher Weise entwickeln werde. „Es gibt mehrere Technologieunternehmen, die führende geschlossene Modelle entwickeln, aber Open Source schließt die Lücke schnell.“ Er erwähnte, dass Llama 2 letztes Jahr nur mit dem Modell der älteren Generation verglichen werden konnte. Und dieses Jahr ist der Llama 3 in einigen Bereichen konkurrenzfähig und in einigen Bereichen sogar vor den fortschrittlichsten Modellen.

Zuckerberg glaubt, dass Open Source Innovationen fördern, Kosten senken und die Sicherheit verbessern kann. Durch die Nutzung von Open Source können Entwickler ihre eigenen Modelle trainieren, verfeinern und destillieren. Jede Organisation hat unterschiedliche Anforderungen, und diese Anforderungen werden am besten durch die Verwendung von Modellen unterschiedlicher Größe erfüllt, die auf der Grundlage spezifischer Daten trainiert oder verfeinert werden. von.

Gleichzeitig sind Entwickler zum Schutz der Datensicherheit nicht an geschlossene Anbieter gebunden. „Open-Source-Software ist tendenziell sicherer, weil ihre Entwicklung transparenter ist und umfassend überprüft werden kann.“

Zuckerberg erwähnte auch, dass Entwickler die Inferenz auf Llama 3.1 405B auf ihrer eigenen Infrastruktur zu einem Kostenaufwand von etwa 50 % ausführen können, verglichen mit der Verwendung eines geschlossenen Modells wie GPT-4o, das für die Benutzeroberfläche geeignet ist und Offline-Inferenzaufgaben.

„Open-Source-Künstliche Intelligenz stellt die beste Chance der Welt dar.“ Nach Ansicht von Zuckerberg kann der Einsatz dieser Technologie die größten wirtschaftlichen Chancen und Sicherheit schaffen.