Nachricht

Lama 3.1 offiziell veröffentlicht: 405 Milliarden Parametermodell Open Source, Xiao Zha: Open Source bis zum Ende durchführen

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Text |. Deng Yongyi und Zhou Xinyu

Herausgeber|Su Jianxun

Der Thron von GPT-4o ist noch nicht warm, Xiao Zha führte die Open-Source-Armee an und stürmte dorthin –

Wie zuvor gemunkelt wurde, veröffentlichte Meta Llama 3.1 am 23. Juli (Pazifikzeit) in den USA offiziell. Dies ist heute die am weitesten verbreitete und leistungsstärkste große Modellreihe im Open-Source-Bereich.

Zufälligerweise wurde Llama 3.1 am Tag vor seiner Veröffentlichung in der Entwickler-Community „durchgesickert“. Zusätzlich zu den Modellinformationen enthielt es auch einen Magnetlink zum 405B-Modell. Die Entwickler spielten bereits begeistert damit.

Die offiziell veröffentlichten Informationen zu Llama 3.1 stimmen ebenfalls mit den Nachrichten überein: Es gibt drei Größen: 8B, 70B und 405B, und die Kontextlänge wurde auf 128 KB erhöht.

Laut den von Meta bereitgestellten Benchmark-Testdaten ist die Leistung des beliebtesten 405B (405 Milliarden Parameter) bereits mit GPT-4 und Claude 3.5 vergleichbar.


△Vergleich mit GPT-4 und Claude 3.5

Vor den aktuellen Topmodellen von Yishui hat Llama 3.1 keine Angst:


△Vergleich mit Closed-Source-Modell


△Vergleich mit Open-Source-Modell

Man kann sagen, dass die Veröffentlichung von Llama 3.1 einen Meilenstein im jüngsten erbitterten Kampf zwischen Open-Source- und Closed-Source-Routen darstellt: Die Top-Open-Source-Modelle haben sich tatsächlich mit den Top-Closed-Source-Modellen zusammengetan.

„Bisher hinkten große Open-Source-Sprachmodelle in Bezug auf Funktionalität und Leistung meist hinter geschlossenen Modellen hinterher. Jetzt läuten wir eine neue Ära ein, die von Open Source angeführt wird“, sagte Meta.


△Ein Bild, das in letzter Zeit im KI-Kreis populär geworden ist: Das Open-Source-Modell holt das Closed-Source-Modell ein

Meta fügte seiner offiziellen Veröffentlichung außerdem ein 92-seitiges Papier bei, in dem Trainingsdetails enthüllt wurden:

Llama 3.1 wurde anhand von Daten von mehr als 15 Billionen Token und unter Verwendung von 16.000 H100-Blöcken trainiert. Die verwendeten Vortrainingsdaten beziehen sich auf Dezember 2023. Um die Trainingsstabilität zu gewährleisten, wird zur Anpassung ausschließlich die Transformer-Modellarchitektur anstelle der derzeit beliebten Mixed Expert Model (MoE)-Architektur verwendet.

Dies führt auch dazu, dass Llama 3.1 eine qualitativ hochwertige Ausgabe kurzer Kontextfenster beibehalten kann, selbst wenn es auf eine Kontextlänge von 128 KB erweitert wird. Es ist nicht mehr „langer Text speziell“, sondern „lang und kurz frei“.

Derzeit gibt es weltweit kein so großes Open-Source-Modell, das einen solchen Schulungsumfang erreicht hat.

Für weitere Details haben wir es vor ein paar Stunden auch im Detail vorgestellt. Ich werde hier nicht näher darauf eingehen.

Im Jahr 2024, da der Umfang der Modellschulung immer größer wird, fragen sich Entwickler auch: Werden große Unternehmen, die enorme Schulungskosten bezahlt haben, weiterhin Open Source anbieten?

Schließlich ist OpenAI eine Lehre aus der Vergangenheit – in den Anfängen hielt es am Geist von Open Source fest, aber seit GPT3.5 populär wurde und kommerzialisiert wurde, ist OpenAI nicht mehr Open Source und wird als Closed AI verspottet.

Doch im Moment der Veröffentlichung von Llama 3.1 betonte Zuckerberg noch einmal:

Führen Sie Open Source bis zum Ende durch!

Zusätzlich zur Veröffentlichung des Modells veröffentlichte Xiao Zha auch ein nachdenkliches und idealistisches Open-Source-Manifest, in dem erklärt wurde, warum Meta Open Source sein sollte und warum Open Source für Entwickler von Vorteil ist.

Es ist erwähnenswert, dass seiner Meinung nach die Wahl des Open-Source-Wegs, obwohl die Vereinigten Staaten und China einem harten KI-Wettbewerb ausgesetzt sind, immer noch mehr Vorteile als Nachteile mit sich bringt.

Okay, Llama 3.1 ist bereits so und wir müssen die Frage noch einmal stellen: Wann kommen OpenAI und GPT-5?

Das Folgende ist Zuckerbergs offener Brief, zusammengestellt von „Intelligent Emergence“:

„Open-Source-KI ist der Weg nach vorne“

In den Anfängen des Hochleistungsrechnens investierten die damaligen großen Technologieunternehmen stark in die Entwicklung ihrer eigenen Closed-Source-Versionen von Unix. Zu dieser Zeit war es kaum vorstellbar, eine derart fortschrittliche Software anders zu entwickeln.

Dennoch setzte sich Open-Source-Linux schließlich durch – zunächst, weil es den Entwicklern ermöglichte, seinen Code nach Belieben zu ändern, und weil es mit der Zeit billiger wurde, es fortschrittlicher und sicherer wurde und über ein breiteres Ökosystem als jedes Closed-Source-Unix verfügte, das mehr Funktionen unterstützte . Heute ist Linux die branchenübliche Grundlage für Cloud Computing und das Betriebssystem, auf dem die meisten Mobilgeräte laufen – und wir alle profitieren von seiner Exzellenz.

Ich glaube, dass sich die künstliche Intelligenz ähnlich entwickeln wird. Heute entwickeln mehrere Technologieunternehmen führende Closed-Source-Modelle. Aber Open Source schließt diese Lücke schnell. Letztes Jahr war das Llama 2 nur mit Modellen der älteren Generation vergleichbar, die hinter der Spitzenklasse zurückblieben. In diesem Jahr konkurriert der Llama 3 mit den fortschrittlichsten Modellen und liegt in einigen Bereichen vorne. Wir gehen davon aus, dass das zukünftige Llama ab dem nächsten Jahr das fortschrittlichste der Branche sein wird. Doch davor war Llama bereits führend in den Bereichen Open Source, Modifizierbarkeit und Kosteneffizienz.

Heute machen wir den nächsten Schritt, um Open-Source-KI zum Industriestandard zu machen. Wir werden Llama 3.1 405B, das erste branchenführende Open-Source-KI-Modell, sowie neue und verbesserte Modelle Llama 3.1 70B und 8B veröffentlichen. Abgesehen davon, dass es im Vergleich zu Closed-Source-Modellen ein besseres Kosten-Leistungs-Verhältnis bietet, ist das 405B-Modell aufgrund der Tatsache, dass es Open Source ist, die beste Wahl für die Feinabstimmung und Extraktion kleinerer Modelle.

Neben der Veröffentlichung dieser Modelle arbeiten wir auch mit einer Reihe von Unternehmen zusammen, um das breitere Ökosystem zu erweitern. Amazon, Databricks und Nvidia bringen eine vollständige Suite von Diensten auf den Markt, um Entwickler bei der Feinabstimmung und Verfeinerung ihrer eigenen Modelle zu unterstützen. Innovative Unternehmen wie Groq (ein KI-Chip-Startup) haben kostengünstige Inferenzdienste mit geringer Latenz für alle neuen Modelle entwickelt.

Diese Modelle werden in allen wichtigen Clouds verfügbar sein, einschließlich AWS, Azure, Google, Oracle und mehr. Scale.AI, Dell, Deloitte und andere sind bereit, Unternehmen bei der Bereitstellung von Llama und dem Training benutzerdefinierter Modelle mithilfe ihrer eigenen Daten zu unterstützen. Während die Community wächst und immer mehr Unternehmen neue Dienste entwickeln, können wir gemeinsam Llama zu einem Industriestandard machen und allen die Vorteile der KI zugänglich machen.

Meta setzt sich für Open-Source-KI ein. Ich werde darlegen, warum Open Source meiner Meinung nach der beste Entwicklungs-Stack für Menschen ist, warum Open Source Llama gut für Meta ist, warum Open Source AI gut für die Welt ist und aus diesem Grund ist die Open Source-Community hier, um zu bleiben.

Warum Open-Source-KI gut für Entwickler ist

Wenn ich mit Entwicklern, CEOs und Regierungsbeamten auf der ganzen Welt spreche, höre ich normalerweise einige Themen:

Wir müssen unsere eigenen Modelle trainieren, verfeinern und verfeinern.

Jede Organisation hat unterschiedliche Anforderungen, die am besten durch Modelle unterschiedlicher Größe erfüllt werden, die anhand spezifischer Daten trainiert oder verfeinert werden. Geräteinterne Aufgaben und Klassifizierungsaufgaben erfordern kleinere Modelle, während komplexere Aufgaben größere Modelle erfordern.

Jetzt können Sie hochmoderne Llama-Modelle verwenden, sie mit Ihren eigenen Daten weiter trainieren und sie dann zu Ihrem Modell mit optimaler Größe verfeinern – ohne dass wir oder jemand anderes jemals Ihre Daten sieht.

Wir müssen unser eigenes Schicksal kontrollieren und dürfen nicht an einen Closed-Source-Anbieter gebunden sein.

Viele Unternehmen möchten sich nicht auf ein Modell verlassen, das sie nicht ausführen und kontrollieren können. Sie möchten nicht, dass Anbieter von Closed-Source-Modellen ihre Modelle ändern, ihre Nutzungsbedingungen ändern oder sie sogar ganz einstellen können. Sie möchten auch nicht an eine einzige Cloud gebunden sein, die exklusive Rechte für ein bestimmtes Modell besitzt. Open Source bietet kompatible Toolchains für viele Unternehmensökosysteme, zwischen denen Sie problemlos wechseln können.

Wir müssen unsere Daten schützen.

Viele Organisationen verarbeiten sensible Daten, die geschützt werden müssen und nicht über Cloud-APIs in ein Closed-Source-Modell übertragen werden können. Andere Organisationen vertrauen den Anbietern von Closed-Source-Modellen ihre Daten einfach nicht an. Open Source löst diese Probleme, indem es Ihnen ermöglicht, das Modell überall auszuführen, wo Sie möchten. Es ist allgemein anerkannt, dass Open-Source-Software sicherer ist, weil sie transparenter entwickelt wird.

Wir brauchen ein effizientes und bezahlbares Betriebsmodell.

Entwickler können Inferenz auf Llama 3.1 405B auf ihrer eigenen Infrastruktur ausführen, und zwar zu etwa 50 % der Kosten für die Verwendung von Closed-Source-Modellen wie GPT-4o für benutzerorientierte und Offline-Inferenzaufgaben.

Wir setzen auf ein Ökosystem, das langfristig zum Standard werden kann.

Viele Menschen sehen, dass sich Open Source schneller entwickelt als Closed-Source-Modelle, und sie möchten, dass die Architektur, in der ihre Systeme aufgebaut sind, ihnen langfristig den größten Vorteil verschafft.

Warum Open-Source-KI gut für Meta ist

Das Geschäftsmodell von Meta besteht darin, die besten Erlebnisse und Dienstleistungen für Menschen zu schaffen. Um dies zu erreichen, müssen wir sicherstellen, dass wir immer Zugriff auf die beste Technologie haben, anstatt an das Closed-Source-Ökosystem eines Konkurrenten gebunden zu sein, das unsere Möglichkeiten einschränkt.

Eine meiner prägenden Erfahrungen war, dass unsere Dienste durch das eingeschränkt wurden, was Apple uns erlaubte, auf seiner Plattform aufzubauen. Die Art und Weise, wie sie Entwickler besteuern, die willkürlichen Regeln, die sie anwenden, und all die Produktinnovationen, die sie an der Veröffentlichung hindern, machen deutlich: Wenn wir die besten Versionen unserer Produkte entwickeln können und die Konkurrenz nicht einschränken kann, was wir entwickeln können, dann sind Meta und Viele andere Unternehmen werden die Freiheit haben, bessere Dienstleistungen für die Menschen zu entwickeln. Auf philosophischer Ebene ist dies der Hauptgrund, warum ich so stark an den Aufbau eines Open-Source-Ökosystems für die nächste Generation von Computern in den Bereichen KI und AR/VR glaube.

Ich werde oft gefragt, ob ich mir Sorgen mache, dass Open-Source-Llama technische Vorteile aufgibt, aber ich denke, dass dabei einige wichtige Gründe außer Acht gelassen werden:

Erstens: Um sicherzustellen, dass wir Zugriff auf die beste Technologie haben und nicht langfristig an ein Closed-Source-Ökosystem gebunden sind, muss sich Llama zu einem vollständigen Ökosystem entwickeln, das Werkzeuge, Effizienzverbesserungen, Siliziumoptimierung und andere Integrationen umfasst. Wenn wir das einzige Unternehmen wären, das Llama nutzt, würde das Ökosystem nicht wachsen und wir wären nicht besser als die Closed-Source-Unix-Varianten.

Zweitens erwarte ich, dass sich der Wettbewerb mit der Weiterentwicklung der Intelligenz verschärfen wird, was bedeutet, dass die Leute zu diesem Zeitpunkt, wenn sie ein bestimmtes Modell als Open Source nutzen, nicht auf das nächste Modell verzichten werden, das einen größeren Vorteil hat. Der Weg von Llama zum Industriestandard führt über ein Modell des konsequenten Wettbewerbs, der Effizienz und von Generation zu Generation Open Source.

Drittens besteht ein wesentlicher Unterschied zwischen Meta- und Closed-Source-Modellanbietern darin, dass der Verkauf des Zugangs zu KI-Modellen nicht unser Geschäftsmodell ist. Das bedeutet, dass die öffentliche Veröffentlichung von Llama unseren Umsatz, unsere Nachhaltigkeit oder unsere Fähigkeit, in die Forschung zu investieren, nicht beeinträchtigt, wie dies bei Closed-Source-Anbietern der Fall ist. (Dies ist einer der Gründe, warum mehrere Closed-Source-Anbieter bei Regierungen Lobbyarbeit gegen Open Source betrieben haben.)

Schließlich kann Meta auf eine lange Geschichte und Erfolge bei Open-Source-Projekten zurückblicken. Wir haben Milliarden von Dollar gespart, indem wir unsere Server-, Netzwerk- und Rechenzentrumsdesigns über das Open Source Compute Project veröffentlicht und unsere Lieferkette auf unsere Designs standardisiert haben. Wir profitieren von Ökosysteminnovationen, führenden Open-Source-Tools wie PyTorch, React und vielen mehr. Dieser Ansatz hat bei uns immer funktioniert, wenn wir langfristig dabei geblieben sind.

Warum Open-Source-KI gut für die Welt ist

Ich glaube, dass Open Source für eine positive KI-Zukunft notwendig ist. Künstliche Intelligenz hat ein größeres Potenzial als jede andere moderne Technologie, die menschliche Produktivität, Kreativität und Lebensqualität zu steigern, die medizinische und wissenschaftliche Forschung voranzutreiben und gleichzeitig das Wirtschaftswachstum zu beschleunigen.

Open Source wird dafür sorgen, dass mehr Menschen auf der ganzen Welt Zugang zu den Vorteilen und Möglichkeiten der KI haben, die Macht nicht in den Händen einiger weniger Unternehmen konzentriert wird und die Technologie in der gesamten Gesellschaft gleichmäßiger und sicherer eingesetzt werden kann.

Es gibt eine anhaltende Debatte über die Sicherheit von Open-Source-KI-Modellen, und ich bin der Ansicht, dass Open-Source-KI sicherer sein wird als die Alternativen. Ich denke, die Regierungen werden zu dem Schluss kommen, dass es in ihrem Interesse liegt, Open Source zu unterstützen, weil es die Welt wohlhabender und sicherer machen wird.

Mein Verständnis von Sicherheit ist, dass wir uns vor zwei Arten von Schaden schützen müssen: unbeabsichtigtem Schaden und vorsätzlichem Schaden. Von unbeabsichtigtem Schaden spricht man, wenn ein KI-System Schaden anrichten kann, obwohl die Person, die es betreibt, nicht die Absicht hatte, dies zu tun.

Beispielsweise können moderne KI-Modelle versehentlich schlechte Gesundheitsratschläge geben. Oder, in einem eher futuristischen Szenario, befürchten einige, dass Modelle sich unbeabsichtigt selbst replizieren oder Ziele zum Nachteil des Menschen überoptimieren könnten. Vorsätzlicher Schaden liegt vor, wenn ein böswilliger Akteur ein KI-Modell mit dem Ziel nutzt, Schaden anzurichten.

Es ist erwähnenswert, dass unbeabsichtigter Schaden die meisten Bedenken der Menschen in Bezug auf künstliche Intelligenz abdeckt – von den Auswirkungen, die KI-Systeme auf die Milliarden von Menschen haben werden, die sie nutzen werden, bis hin zu den wahrhaft katastrophalen Science-Fiction-Szenarien für die Menschheit. In dieser Hinsicht dürfte Open Source wesentlich sicherer sein, da das System transparenter ist und weitreichend überprüft werden kann.

Aus diesem Grund war Open-Source-Software in der Vergangenheit sicherer. Ebenso kann die Verwendung von Llama und seinen Sicherheitssystemen wie Llama Guard sicherer sein als ein Closed-Source-Modell. Daher konzentrieren sich die meisten Diskussionen über die Sicherheit von Open-Source-KI auf vorsätzlichen Schaden.

Unser Sicherheitsprozess umfasst strenge Tests und Red-Teams, um zu bewerten, ob unsere Modelle in der Lage sind, erheblichen Schaden anzurichten, mit dem Ziel, das Risiko vor der Veröffentlichung zu mindern. Da das Modell Open Source ist, kann es jeder selbst testen.

Wir müssen bedenken, dass diese Modelle auf Informationen trainiert werden, die bereits im Internet verfügbar sind. Wenn wir also über Schäden nachdenken, sollte unser Ausgangspunkt sein, ob ein Modell schneller ist als Informationen, die von Google oder anderen Suchergebnissen abgerufen werden können. Es ist wahrscheinlicher, dass es Schaden anrichtet.

Bei Überlegungen zu vorsätzlichem Schaden ist es hilfreich, zwischen dem zu unterscheiden, was ein Einzelner oder ein kleiner Akteur tun könnte, und dem, was ein großer Akteur wie ein Nationalstaat mit enormen Ressourcen tun könnte.

Irgendwann in der Zukunft könnten sich einzelne böswillige Akteure die Intelligenz von KI-Modellen zunutze machen, um aus den im Internet verfügbaren Informationen völlig neue Arten von Schaden zu verursachen. An diesem Punkt wird das Kräfteverhältnis entscheidend für die Sicherheit der KI sein.

Ich denke, es wäre besser, in einer Welt zu leben, in der KI weit verbreitet ist, damit die großen Spieler die Macht der kleineren Bösewichte ausgleichen können. So verwalten wir die Sicherheit in sozialen Netzwerken – unsere leistungsstärkeren KI-Systeme identifizieren und blockieren Bedrohungen durch weniger raffinierte Angreifer, die häufig kleinere KI-Systeme verwenden.

Im weiteren Sinne werden große Institutionen, die KI in großem Maßstab einsetzen, zur Sicherheit und Stabilität der Gesellschaft als Ganzes beitragen. Solange jeder Zugang zu ähnlichen Modellen hat – etwas, das Open Source erleichtert –, werden Regierungen und Behörden mit mehr Rechenressourcen in der Lage sein, schlechte Akteure mit weniger Rechenaufwand zu überprüfen.

Die nächste Frage ist, wie die Vereinigten Staaten und die Demokratien auf Bedrohungen durch Länder mit enormen Ressourcen wie China reagieren sollten. Der Vorteil der Vereinigten Staaten liegt in der Dezentralisierung und Open-Source-Innovation.

Manche Leute glauben, dass wir unsere Modelle blockieren müssen, um zu verhindern, dass China sie erhält, aber mein Punkt ist, dass das nicht funktionieren wird und nur die Vereinigten Staaten und ihre Verbündeten benachteiligen wird. Unsere Gegner sind sehr gut in der Spionage. Der Diebstahl von Modellen auf einem USB-Stick ist relativ einfach, und die Art und Weise, wie die meisten Technologieunternehmen vorgehen, macht es nicht viel schwieriger.

Eine Welt, in der es nur Closed-Source-Modelle gibt, dürfte höchstwahrscheinlich dazu führen, dass eine Handvoll großer Unternehmen und unsere geopolitischen Gegner Zugang zu führenden Modellen haben, während Start-ups, Universitäten und kleine Unternehmen zu kurz kommen.

Darüber hinaus erhöht die Beschränkung der US-Innovation auf Closed-Source-Entwicklungen die Wahrscheinlichkeit, dass wir einfach nicht die Führung übernehmen. Stattdessen denke ich, dass unsere beste Strategie darin besteht, ein starkes Open-Source-Ökosystem aufzubauen und unsere führenden Unternehmen eng mit unseren Regierungen und Verbündeten zusammenarbeiten zu lassen, um sicherzustellen, dass sie die neuesten Fortschritte optimal nutzen und langfristig einen nachhaltigen First-Mover-Vorteil haben können.

Denken Sie bei der Betrachtung künftiger Möglichkeiten daran, dass die meisten der heute führenden Technologieunternehmen und wissenschaftlichen Forschungen auf Open-Source-Software basieren. Wenn wir gemeinsam investieren, wird die nächste Generation von Unternehmen und Forschung Open-Source-KI nutzen. Dazu gehören junge Start-ups sowie Menschen an Universitäten und in Ländern, die möglicherweise nicht über die Ressourcen verfügen, um ihre eigene hochmoderne KI von Grund auf zu entwickeln.

Am wichtigsten ist, dass Open-Source-KI die weltweit beste Gelegenheit darstellt, diese Technologie zu nutzen, um die größten wirtschaftlichen Chancen und Sicherheit für alle zu schaffen.

lasst uns gemeinsam bauen

Frühere Llama-Modelle hat Meta für sich selbst entwickelt und dann veröffentlicht, ohne sich zu sehr auf den Aufbau des breiteren Ökosystems zu konzentrieren.

Mit dieser Einführung verfolgen wir einen anderen Ansatz. Wir bauen intern Teams auf, um Llama möglichst vielen Entwicklern und Partnern zur Verfügung zu stellen, und wir bauen auch aktiv Partnerschaften auf, damit mehr Unternehmen im Ökosystem ihren Kunden ebenfalls einzigartige Funktionen anbieten können.

Ich glaube, dass die Veröffentlichung von Llama 3.1 ein Wendepunkt in der Branche sein wird, da die meisten Entwickler beginnen, hauptsächlich Open Source zu verwenden, und ich hoffe, dass dieser Ansatz von hier aus nur noch wachsen wird. Ich hoffe, dass Sie uns auf unserem Weg begleiten, die Vorteile der künstlichen Intelligenz allen Menschen auf der Welt zugänglich zu machen.

Der Link, um Llama 3.1 zu erhalten, lautet: https://llama.meta.com/

MZ (Mark Zuckerberg)

Willkommen zur Kommunikation

Willkommen zur Kommunikation