Nachricht

Das Open-Source-Modell übertrifft das stärkste Closed-Source-Modell. Kann Llama 3.1 das KI-Ökosystem untergraben? |Jiazi Guangnian

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Zuckerberg verspricht, Open Source bis zum Ende zu verfolgen.

Autor|Suchoi

Herausgeber|Zhao Jian

Lama 3.1 ist endlich da.

Am 23. Juli, Ortszeit in den Vereinigten Staaten, veröffentlichte Meta offiziell Llama 3.1. Es umfasst drei Größen: 8B, 70B und 405B, und der maximale Kontext wird auf 128 KB erhöht. Llama ist derzeit eine der großen Modellreihen mit den meisten Nutzern und der stärksten Leistung im Open-Source-Bereich.

Die Hauptpunkte dieses Lama 3.1 sind:

1. Es gibt drei Versionen: 8B, 70B und 405B, von denen Version 405B derzeit eines der größten Open-Source-Modelle ist. 2. Das Modell verfügt über 405 Milliarden Parameter und übertrifft die bestehenden Top-KI-Modelle in der Leistung Ein längeres Kontextfenster (bis zu 128.000 Token), das komplexere Aufgaben und Konversationen bewältigen kann. 4. Unterstützt mehrsprachige Eingabe und Ausgabe, wodurch die Vielseitigkeit und Anwendbarkeit des Modells verbessert wird. 5. Verbesserte Argumentationsfähigkeiten, insbesondere bei der Lösung Komplexe mathematische Probleme lösen und Inhalte im Handumdrehen generieren.

Meta schrieb in seinem offiziellen Blog: „Heute ist es immer noch normal, dass die Leistung großer Open-Source-Sprachmodelle hinter Closed-Source-Modellen zurückbleibt. Aber jetzt läuten wir eine neue Ära ein, die von Open Source angeführt wird. Unsere öffentliche Veröffentlichung von Meta.“ Llama 3.1 405B ist das weltweit erste Das größte und leistungsstärkste Open-Source-Basismodell im Internet, mit über 300 Millionen kumulierten Downloads aller Llama-Versionen bis heute, das ist erst der Anfang.“

Die Debatte zwischen Open Source und Closed Source war schon immer ein heißes Thema im Technologiebereich.

Open-Source-Software ist transparenter und flexibler und ermöglicht es Entwicklern auf der ganzen Welt, Code gemeinsam zu überprüfen, zu ändern und zu verbessern, wodurch schnelle Innovationen und technologischer Fortschritt gefördert werden. Closed-Source-Modelle werden in der Regel von einem einzelnen Unternehmen oder einer einzelnen Organisation entwickelt und gepflegt, die professionellen Support und Dienstleistungen zur Gewährleistung der Sicherheit und Stabilität der Software bereitstellen kann. Dieses Modell schränkt jedoch auch die Kontroll- und Anpassungsmöglichkeiten des Benutzers ein.

Bisher war das Closed-Source-Modell immer etwas besser. Bis zur Veröffentlichung von Llama 3.1 war die anhaltende heftige Open-Source- und Closed-Source-Debatte geprägt: Das Open-Source-Modell kann endlich mit dem Closed-Source-Modell konkurrieren.

Laut den von Meta bereitgestellten Benchmark-Daten ist die beliebteste Version 405B hinsichtlich der Leistung bereits mit GPT-4 und Claude 3 vergleichbar. Unter diesen wird die menschliche Bewertung hauptsächlich verwendet, um die Fähigkeit des Modells zu bewerten, Code zu verstehen und zu generieren und abstrakte Logikprobleme zu lösen. Im Wettbewerb mit anderen großen Modellen scheint das Llama 3.1 405B etwas besser zu sein.


Llama 3.1 liegt auf Augenhöhe mit GPT-4 und Claude 3.5. Quelle: Meta

Andrew Ng, außerordentlicher Professor für Informatik und Elektrotechnik und Direktor des Labors für künstliche Intelligenz an der Stanford University, lobte in den sozialen Medien „die Meta- und Llama-Teams für ihren enormen Beitrag zu Open Source“. „Mit seiner größeren Kontextlänge und verbesserten Funktionalität ist Llama 3.1 ein fantastisches Geschenk für alle“, sagte er und hoffte, dass „alberne Vorschriften wie der in Kalifornien vorgeschlagene SB1047 Innovationen wie diese nicht verhindern werden.“


Ng Endas soziale Medien, Quelle: X

Yann LeCun, Turing-Award-Gewinner und Chefwissenschaftler für künstliche Intelligenz bei Meta, zitierte die Leistungsbeschreibung von Llama 3.1 durch The Verge – Meta hat das bisher größte und beste Open-Source-Modell für künstliche Intelligenz veröffentlicht: Llama 3.1 schneidet bei bestimmten Benchmarks gut ab. Beim Testen hat es übertroffen OpenAI und andere Konkurrenten.


Yang Likuns soziale Medien, Quelle: X

Interessanterweise wurde gestern auf HugginFace und GitHub vermutet, dass die 405B-Version von Llama 3.1 „gestohlen“ wurde. Die vom Whistleblower gesendeten Bewertungsdaten stimmen im Wesentlichen mit den heute offiziell veröffentlichten Versionsinformationen überein.

Mark Zuckerberg, der Gründer und CEO von Meta, hat persönlich einen langen Artikel mit dem Titel „Open Source AI Is the Path Forward“ geschrieben, in dem er die Vorteile von Open Source für Entwickler und Meta detailliert beschreibt und warum es weltweit wichtig ist.

Er prognostiziert, dass Meta AI bis Ende dieses Jahres ChatGPT als am weitesten verbreiteten Assistenten überholen wird.

Er sagte auch:Gelübde, Open Source bis zum Ende umzusetzen.


Artikelausschnitt von „Open Source AI Is the Path Forward“, Quell-Meta

1.Die Entstehung von Lama 3.1

In Bezug auf die Modellarchitektur wird Llama 3.1 als Metas bisher größtes Modell auf Daten von mehr als 15 Billionen Token trainiert, und die Vortrainingsdaten sind bis Dezember 2023 verfügbar.

Um ein Training in so großem Maßstab in angemessener Zeit umzusetzen und die gewünschten Ergebnisse zu erzielen, optimierte Meta den gesamten Trainingsstapel und verwendete mehr als 16.000 Blöcke von H100. 405B ist das erste in diesem Maßstab trainierte Llama-Modell.


Transformer-Modellarchitektur im Llama 3.1-Textgenerierungsprozess, Quelle: Meta

Um die Stabilität und den Komfort des Trainings zu maximieren, wählte Meta zur Feinabstimmung die Standard-Decoder-Only-Transformer-Modellarchitektur anstelle der derzeit beliebten Mixed Expert Model (MoE)-Architektur.

Diese Entscheidung ermöglicht es Llama 3.1, bei der Unterstützung von Kontextlängen von bis zu 128 KB weiterhin eine qualitativ hochwertige Ausgabe von Kurztexten sicherzustellen und so eine flexible Verarbeitung von Lang- und Kurztexten zu ermöglichen, anstatt sich nur auf Langtexte zu konzentrieren.

Gleichzeitig implementierte das Forschungsteam eine iterative Post-Training-Methode, um hochwertige synthetische Daten zu generieren und die verschiedenen Funktionen des Modells durch jede Runde überwachter Feinabstimmung und direkter Präferenzoptimierung zu verbessern. Im Vergleich zu früheren Versionen erhöht Llama 3.1 die Quantität und Qualität der Daten vor und nach dem Training, führt detailliertere Vorverarbeitungs- und Verwaltungsprozesse sowie strengere Qualitätssicherungs- und Filtertechnologien ein.

Gemäß dem Expansionsgesetz von Sprachmodellen übertrifft Llama 3.1 frühere kleine Modelle, die das gleiche Trainingsverfahren verwenden, in der Leistung.

Um den Betriebsanforderungen großer 405B-Modelle gerecht zu werden, quantisierte Meta die Modelldaten von 16 Bit (BF16) auf 8 Bit (FP8), was den Bedarf an Rechenressourcen erheblich reduzierte und die Ausführung des Modells ermöglichte ein einzelner Serverknoten.

Im Hinblick auf die Befehls- und Chat-Feinabstimmung des Llama 3.1 405B-Modells ist das Entwicklungsteam bestrebt, die Reaktionsfähigkeit, Praktikabilität und Qualität des Modells auf Benutzerbefehle zu verbessern und gleichzeitig ein hohes Maß an Sicherheit zu gewährleisten.

In der Phase nach dem Training nahm das Team mehrere Anpassungsrunden auf der Grundlage des Vortrainings vor. Jede Runde umfasst überwachte Feinabstimmung (SFT), Ablehnungsstichprobe (RS) und direkte Präferenzoptimierung (DPO).Darüber hinaus nutzte das Team die Generierung synthetischer Daten, um die überwiegende Mehrheit der SFT-Beispiele zu generieren, was bedeutet, dass es sich nicht ausschließlich auf Daten aus der realen Welt stützte, sondern vielmehr auf algorithmisch generierte Daten, um das Modell zu trainieren.

Gleichzeitig nutzt das Team verschiedene Datenverarbeitungsmethoden, um diese Daten zu filtern, um höchste Qualität zu gewährleisten und den Anwendungsbereich fein abgestimmter Daten zu erweitern.

Meta untersucht außerdem eine neue Strategie, die darin besteht, das 405B-Modell als „Lehrermodell“ für die 70B- und 8B-Modelle zu verwenden und so aus großen Modellen kleine, maßgeschneiderte Modelle zu extrahieren, die den Anforderungen verschiedener Branchen entsprechen. Dieser Ansatz deckt sich mit der Strategie von GPT-4o mini.Das heißt: „Zuerst groß machen, dann klein machen“

Andrej Karpathy, eines der ehemaligen OpenAI-Gründungsmitglieder, kommentierte einmal GPT-4o Mini: „Das Modell muss zuerst größer werden, bevor es kleiner werden kann. Weil wir sie brauchen, um (automatisch) dabei zu helfen, die Trainingsdaten zu rekonstruieren, um sie ideal zu machen.“ synthetisches Format.“ Er wies darauf hin, dass diese Methode die Tiefe und Breite des Wissens großer Modelle effektiv in kleinere Modelle übertragen kann, die praktischer und kostengünstiger sind.

Als führendes Unternehmen im Open-Source-Modellbereich hat Meta auch bei der Unterstützung von Einrichtungen für das Llama-Modell Aufrichtigkeit bewiesen.

Das Llama-System ist als umfassendes Framework konzipiert, das mehrere Komponenten integrieren kann, einschließlich des Aufrufs externer Tools. Ziel von Meta ist es, ein umfassenderes System bereitzustellen, das es Entwicklern ermöglicht, flexibel maßgeschneiderte Produkte zu entwerfen und zu erstellen, die ihren Anforderungen entsprechen.

Um die KI verantwortungsvoll über die Modellebene hinaus weiterzuentwickeln, veröffentlichte das Forschungsteam ein vollständiges Referenzsystem mit mehreren Beispielanwendungen und neuen Komponenten, wie dem mehrsprachigen Sicherheitsmodell Llama Guard 3 und dem Prompt-Injection-Filter Prompt Guard. Diese Anwendungen sind Open Source und stehen der Community zur Weiterentwicklung zur Verfügung.

Um Komponentenschnittstellen besser zu definieren und ihre Standardisierung in der Branche voranzutreiben, arbeiteten die Forscher mit der Industrie, Startups und der breiteren Community zusammen und veröffentlichten den „Llama Stack“-Vorschlag auf GitHub. Hierbei handelt es sich um eine Reihe standardisierter Schnittstellen, die den Aufbau von Toolchain-Komponenten (z. B. Feinabstimmung, Generierung synthetischer Daten) und Agentenanwendungen vereinfachen.

Laut den von Meta bereitgestellten Benchmark-Testdaten erzielte Llama 3.1 405B beim NIH/Multi-Needle-Benchmark-Test einen Wert von 98,1, was hinsichtlich der Leistungswerte mit GPT-4 und Claude 3,5 vergleichbar ist. Die 405B-Version verfügt über eine hervorragende Fähigkeit, umfangreiche Textinformationen zu integrieren und erzielte beim ZeroSCROLLS/QuALITY-Benchmark-Test eine Punktzahl von 95,2. Sie ist sehr freundlich zu KI-Anwendungsentwicklern, die sich Sorgen um die RAG-Leistung machen.


Llama 3.1 im Vergleich mit Closed-Source-Modellen wie GPT4, Quelle: Meta


Llama 3.1 im Vergleich zu Open-Source-Modellen wie Mistral 7B Instruct, Quelle: Meta

Die Version Llama 3.1 8B ist deutlich besser als Gemma 2 9B 1T und Mistral 7B Instruct und ihre Leistung wurde im Vergleich zur vorherigen Generation Llama 3 8B deutlich verbessert. Gleichzeitig übertraf die Version Llama 3.1 70B sogar GPT-3.5 Turbo.

Dem offiziellen Bericht des Llama-Teams zufolge führten sie eine eingehende Leistungsbewertung und umfangreiche manuelle Tests dieser Modelle anhand von mehr als 150 mehrsprachigen Benchmark-Datensätzen durch. Die Ergebnisse zeigen, dass das Topmodell von Llama bei verschiedenen Aufgaben mit den Top-Basismodellen auf dem Markt wie GPT-4, GPT-4o und Claude 3.5 Sonnet vergleichbar ist. Gleichzeitig zeigte die kleine Version von Llama im Vergleich zu Closed- und Open-Source-Modellen mit ähnlichen Parameterskalen auch eine starke Wettbewerbsfähigkeit.


2.Die Debatte zwischen Open-Source- und Closed-Source-Modellen

Kann das Open-Source-Modell das Closed-Source-Modell übertreffen?

Dieses Thema ist seit letztem Jahr umstritten. Die Entwicklungspfade der beiden Modelle repräsentieren unterschiedliche technische Philosophien und haben jeweils ihre eigenen Vorzüge bei der Förderung des technologischen Fortschritts und der Erfüllung von Geschäftsanforderungen.

Beispielsweise ist Llama 3.1 ein großes Open-Source-Modell, das Forschern und Entwicklern den Zugriff auf den Quellcode ermöglicht und die Benutzer das Modell frei studieren, ändern und sogar verbessern können. Diese Offenheit fördert eine umfassende Zusammenarbeit und Innovation und ermöglicht es Entwicklern mit unterschiedlichem Hintergrund, gemeinsam an der Lösung von Problemen zu arbeiten.

Im Gegensatz dazu ist ChatGPT ein von OpenAI entwickeltes Closed-Source-Modell. Obwohl es API-Zugriff bietet, werden sein Kernalgorithmus und seine Trainingsdaten nicht vollständig offengelegt. Der Closed-Source-Charakter von GPT-3 macht es robuster auf dem Weg zur Kommerzialisierung. Gleichzeitig gewährleistet seine Kontrollierbarkeit die Stabilität und Sicherheit des Produkts und macht es für Unternehmen vertrauenswürdiger beim Umgang mit sensiblen Informationen. Allerdings schränkt diese Geschlossenheit auch die Fähigkeit externer Forscher ein, das Modell vollständig zu verstehen und zu erneuern.

Im Mai letzten Jahres berichteten ausländische Medien, dass Google ein Dokument mit dem Thema durchgesickert habe: „Wir haben keinen Burggraben und OpenAI auch nicht. Während wir immer noch streiten, hat Open Source still und heimlich unsere Arbeitsplätze gestohlen.“ Nachdem Meta im selben Jahr das Open-Source-Großmodell Llama 2 veröffentlicht hatte, sagte Yang Likun, dass Llama 2 die Marktstruktur großer Sprachmodelle verändern würde.

Die Menschen freuen sich auf die Open-Source-Community unter der Führung der Llama-Modellreihe. Zuvor war das fortschrittlichste Closed-Source-Modell GPT-4 immer etwas besser, obwohl der Abstand zwischen Llama 3 zu diesem Zeitpunkt bereits sehr gering war.

Die maßgeblichste Liste im Bereich der Großmodelle ist die Large Model Arena (LLM Arena), die das ELO-Punktesystem aus dem Schach übernommen hat. Die Grundregel besteht darin, Benutzern die Möglichkeit zu geben, zwei anonymen Modellen (z. B. ChatGPT, Claude, Llama) eine Frage zu stellen und für das Modell mit der besseren Antwort zu stimmen. Modelle mit besseren Antworten erhalten Punkte und die endgültige Platzierung wird durch die gesammelten Punkte bestimmt. Arean ELO hat Abstimmungsdaten von 500.000 Menschen gesammelt.


Eine Übersicht der großen Model-Rankings, Quelle: LLM Arena

In der LLM Arena-Rangliste belegt der GPT-4o von OpenAI derzeit den Spitzenplatz. Die Top-Ten-Modelle sind alle Closed-Source-Modelle. Obwohl das Closed-Source-Modell in der Rangliste immer noch weit vorn liegt, wächst die Kluft zwischen Open-Source- und Closed-Source-Modellen nicht, wie Robin Li auf der Baidu AI Developer Conference 2024 sagte, sondern verringert sich tatsächlich allmählich.


Während der WAIC sagte Robin Li: „Open Source ist eigentlich eine Art IQ-Steuer.“Quelle: Baidu

Mit der heutigen Veröffentlichung von Llama 3.1 kann das Open-Source-Modell endlich mit dem Closed-Source-Modell konkurrieren.

Welches Open-Source- oder Closed-Source-Modell besser ist, hat „Jiazi Guangnian“ mit vielen Praktikern der KI-Branche diskutiert. Die Branche geht im Allgemeinen davon aus, dass:Es hängt oft von der persönlichen Einstellung ab und ist kein einfaches Schwarz-Weiß-Thema.

Beim Thema Open Source und Closed Source geht es nicht nur um einen rein technischen Unterschied, sondern vielmehr um die Wahl des Geschäftsmodells. Unabhängig davon, ob es sich um ein Open-Source- oder Closed-Source-Großmodell handelt, wurde derzeit noch kein vollständig erfolgreiches Geschäftsmodell gefunden.

Welche Faktoren beeinflussen also die Leistungsunterschiede zwischen Open-Source- und Closed-Source-Modellen?

Zhang Junlin, Leiter der Forschung und Entwicklung neuer Technologien bei Weibo, wies darauf hin, dass die Wachstumsrate der Modellfähigkeiten ein Schlüsselfaktor sei. Wenn die Modellfähigkeit schnell wächst, bedeutet dies, dass in kurzer Zeit eine große Menge an Rechenressourcen erforderlich ist. In diesem Fall hat das Closed-Source-Modell aufgrund seiner Ressourcenvorteile mehr Vorteile. Im Gegenteil, wenn die Modellfähigkeiten langsam wachsen, wird die Kluft zwischen Open Source und Closed Source kleiner und die Aufholgeschwindigkeit wird sich beschleunigen.

Er glaubt, dass der Leistungsunterschied zwischen Open- und Closed-Source-Modellen in den nächsten Jahren von der Entwicklung der Technologie „Synthetische Daten“ abhängen wird. Wenn die „Synthetische Daten“-Technologie in den nächsten zwei Jahren erhebliche Fortschritte macht, könnte die Kluft zwischen beiden größer werden; wenn es keinen Durchbruch gibt, werden die Fähigkeiten beider tendenziell ähnlich sein.

Insgesamt werden „synthetische Daten“ in Zukunft eine Schlüsseltechnologie für die Entwicklung großer Sprachmodelle werden.

Open Source oder Closed Source allein bestimmen nicht die Leistung des Modells. Closed-Source-Modelle sind nicht führend, weil sie Closed-Source sind, und Open-Source-Modelle fallen nicht zurück, weil sie Open-Source sind. Im Gegenteil: Das Modell wählt Closed Source, weil es führend ist, und muss sich für Open Source entscheiden, weil es nicht führend genug ist.

Wenn ein Unternehmen ein hochleistungsfähiges Modell herstellt, ist es möglicherweise nicht mehr Open Source.

Beispielsweise gehören das französische Star-Startup Mistral, sein leistungsstärkstes Open-Source-7B-Modell Mistral-7B und das erste Open-Source-MoE-Modell 8x7B (MMLU 70) zu den beliebtesten Modellen in der Open-Source-Community. Mistral-Medium (MMLU-75) und Mistral-Large (MMLU-81), die anschließend von Mistral trainiert wurden, sind jedoch beide Closed-Source-Modelle.

Derzeit werden sowohl das leistungsstärkste Closed-Source-Modell als auch das leistungsstärkste Open-Source-Modell von großen Unternehmen dominiert, und unter den großen Unternehmen weist Meta die größte Open-Source-Entscheidung auf.Wenn OpenAI aus kommerziellen Gründen kein Open Source ist, welchen Zweck hat Meta dann, wenn es Open Source ist und Benutzern ermöglicht, es kostenlos auszuprobieren?

Im Finanzbericht des letzten Quartals antwortete Zuckerberg auf diese Angelegenheit, dass Metas offene Quelle seiner KI-Technologie technologische Innovationen fördern, die Modellqualität verbessern, Industriestandards etablieren, Talente anziehen, die Transparenz erhöhen und langfristige Strategien unterstützen solle.

Dieses Mal erklärte Zuckerberg in „Open Source AI Is the Path Forward“ ausführlich, „warum Open-Source-KI gut für Entwickler ist“:

In Gesprächen mit Entwicklern, CEOs und Regierungsbeamten aus der ganzen Welt höre ich oft, wie sie die Notwendigkeit betonen, ihre eigenen Modelle zu trainieren, zu verfeinern und zu optimieren.

Jede Organisation hat einzigartige Anforderungen, und Modelle unterschiedlicher Größe können für diese Anforderungen optimiert, trainiert oder mit spezifischen Daten verfeinert werden. Einfache Aufgaben auf dem Gerät und Klassifizierungsaufgaben erfordern möglicherweise kleinere Modelle, während komplexere Aufgaben größere Modelle erfordern.

Jetzt können Sie hochmoderne Llama-Modelle verwenden und sie weiterhin mit Ihren eigenen Daten trainieren und sie später auf Ihren idealen Maßstab optimieren – ohne dass wir oder jemand anderes jemals Zugriff auf Ihre Daten hat.

Wir müssen unser eigenes Schicksal kontrollieren und dürfen nicht einem Closed-Source-Anbieter verpflichtet sein.

Viele Unternehmen möchten sich nicht auf ein Modell verlassen, das sie nicht selbst verwalten und kontrollieren können. Sie befürchten, dass Anbieter von Closed-Source-Modellen das Modell oder die Nutzungsbedingungen ändern oder sogar ihre Dienste ganz einstellen könnten. Sie möchten auch nicht an eine einzige Cloud-Plattform gebunden sein, die exklusive Rechte für ein bestimmtes Modell besitzt. Open Source stellt vielen Unternehmen eine kompatible Toolkette zur Verfügung und erleichtert so den Wechsel zwischen verschiedenen Systemen.

Wir müssen unsere Daten schützen.

Viele Organisationen verarbeiten sensible Daten und müssen diese Daten davor schützen, über Cloud-APIs in Closed-Source-Modelle gesendet zu werden. Andere Organisationen vertrauen einfach nicht dem Ansatz der Anbieter von Closed-Source-Modellen bei der Datenverarbeitung. Open Source löst diese Probleme, indem es Ihnen ermöglicht, Modelle überall auszuführen, und gilt aufgrund der Transparenz des Entwicklungsprozesses allgemein als sicherer.

Wir brauchen eine effiziente und wirtschaftliche Arbeitsweise.

Entwickler können Llama 3.1 405B-Modelle zur Inferenz auf ihrer eigenen Infrastruktur ausführen, und zwar zu etwa der Hälfte der Kosten für die Verwendung von Closed-Source-Modellen wie GPT-4o, die sowohl für benutzerorientierte als auch für Offline-Inferenzaufgaben geeignet sind.

Wir setzen auf ein Ökosystem, das langfristig zum Standard zu werden verspricht.

Viele Menschen sehen, dass sich Open-Source-Modelle schneller entwickeln als Closed-Source-Modelle, und sie hoffen, dass die von ihnen erstellte Systemarchitektur langfristig die größten Vorteile bringt.

(Titelbild vom Meta X-Konto)