Open Source = das leistungsstärkste Modell! Llama 3.1 veröffentlicht, Zuckerberg: Watershed moment

Open Source = das leistungsstärkste Modell! Llama 3.1 veröffentlicht, Zuckerberg: Wendepunkt

2024-07-24

Baijiao stammt aus dem Aofei-Tempel
Qubits |. Öffentliches Konto QbitAI

Nur,LIama 3.1Offiziell veröffentlicht, Aufstieg auf den Thron der großen Models!

In mehr als 150 Benchmark-Testsätzen entspricht die Leistung der 405B-Version den bestehenden SOTA-Modellen GPT-4o und Claude 3.5 Sonnet oder übertrifft diese sogar.

Mit anderen Worten, dieses MalDas stärkste Open-Source-Modell ist das stärkste Modell。

Zuvor wurde Llama 3.1 viele Male aufgedeckt und durchgesickert, und jetzt kann man sagen, dass es schon lange darauf gewartet hat.

Ab heute kann das Modell auf der offiziellen Website heruntergeladen und verwendet werden, und die Meta AI-Anwendung kann online ausprobiert werden.

Was von der Forschungsgemeinschaft noch mehr geschätzt wird, ist die Veröffentlichung von fast 100 Seiten mit detaillierten Artikeln, die alles im Prozess der Erstellung von Llama 3.1 abdecken: Pre-Training-Daten, Filterung, Annealing, synthetische Daten, Skalierungsgesetze, Infrastruktur, Parallelität, Training Rezepte, Anpassung nach dem Training, Werkzeugnutzung, Benchmarking, Inferenzstrategien, Quantifizierung, Vision, Stimme, Video ...

Der Chefwissenschaftler von HuggingFace lobte: Wenn Sie anfangen, große Modelle von Grund auf zu studieren, beginnen Sie mit der Lektüre dieses Artikels.

Xiao ZhaZuckerbergIn seinem letzten Interview mit Bloomberg machte er sich ausdrücklich über OpenAI lustig.

Altmans Führung ist lobenswert, aber es ist etwas ironisch, dass das Unternehmen namens OpenAI zu einem führenden Unternehmen bei der Entwicklung geschlossener Modelle für künstliche Intelligenz geworden ist.

Xiao Zha hat auch speziell dafür einen langen Artikel geschrieben:Open-Source-KI ist der Weg in die Zukunft。

In der Vergangenheit blieben Open-Source-Modelle in Bezug auf Leistung, Funktionalität usw. meist hinter Closed-Source-Modellen zurück, aber jetzt:

Genau wie Open-Source-Linux hat es sich unter den Closed-Source-Systemen hervorgetan und an Popularität gewonnen, ist nach und nach fortschrittlicher und sicherer geworden und verfügt über ein breiteres Ökosystem als Closed-Source-Systeme.
Ich glaube, dass Llama 3.1 ein Wendepunkt in der Branche sein wird.

Bis heute wurde die Gesamtzahl der Downloads aller Llama-Versionen 300 Millionen Mal überschritten, und auch Meta stellt kühne Behauptungen auf:

Das ist erst der Anfang.

Auch große Cloud-Anbieter haben so schnell wie möglich die Unterstützung für Llama 3.1 eingeführt, und der Preis liegt bei Tante Jiang:

LIama 3.1 offiziell veröffentlicht

Schauen wir uns zunächst die Modellfunktionen an.

Llama 3.1 erweitert die Kontextlänge auf 128 KB und bietet Unterstützung für acht Sprachen.

Unter ihnen hat die Super Large Cup 405B-Version die bestehenden Topmodelle in Bezug auf gesunden Menschenverstand, Manövrierfähigkeit, Mathematik, Werkzeugnutzung und mehrsprachige Übersetzungsfähigkeiten erreicht und sogar übertroffen.

Darüber hinaus wurden auch verbesserte Versionen der Modelle 8B und 70B auf den Markt gebracht, deren Fähigkeiten im Wesentlichen denen der Topmodelle mit denselben Parametern entsprechen.

Schauen wir noch einmalModellarchitektur。

Laut der offiziellen Einführung ist das Training des Llama 3.1 405B-Modells auf mehr als 15 Billionen Token eine ziemliche Herausforderung.

Dazu optimierten sie den gesamten Trainingsstack deutlich und erweiterten die Rechenleistungsskala des Modells erstmals auf mehr als 16.000 H100-GPUs.

Konkret verwenden wir weiterhin die Standard-Decoder-Transformer-Architektur mit einigen geringfügigen Änderungen und übernehmen einen iterativen Post-Training-Prozess mit SFT (überwachte Feinabstimmung) und DPO (direkte Präferenzoptimierung) in jeder Runde, um die Fähigkeit zu verbessern Leistung.

Im Vergleich zu früheren Versionen von Llama haben sie die Quantität und Qualität der Daten verbessert, die vor und nach dem Training verwendet werden.

Um die Massenproduktionsinferenz von Modellen der Größe 405B zu unterstützen, quantisierte Meta das Modell von 16-Bit-Werten (BF16) auf 8-Bit-Werte (FP8), wodurch die erforderlichen Rechenanforderungen effektiv reduziert wurden und die Ausführung des Modells innerhalb eines einzelnen Serverknotens ermöglicht wurde.

existierenFeinabstimmung der AnleitungAndererseits verbessert Meta auch die Fähigkeit des Modells, auf Benutzeranweisungen zu reagieren, und verbessert seine Fähigkeit, detaillierte Anweisungen zu befolgen und gleichzeitig die Sicherheit zu gewährleisten.

In der Phase nach dem Training führt Meta mehrere Ausrichtungsrunden basierend auf dem vorab trainierten Modell durch.

Jede Runde umfasst Supervised Fine-Tuning (SFT), Rejection Sampling (RS) und Direct Preference Optimization (DPO).

Sie generierten die meisten SFT-Beispiele mithilfe synthetischer Daten und führten mehrere Iterationen durch.

Darüber hinaus werden verschiedene Datenverarbeitungstechniken eingesetzt, um diese synthetischen Daten in höchster Qualität zu filtern.

Insgesamt werden 15T-Tokens mit dem Llama-2-Modell bereinigt und gefiltert, während die code- und mathematikbezogenen Datenverarbeitungspipelines hauptsächlich auf den Methoden von Deepseek basieren.

Zusätzlich zu den einfachsten Antworten gemäß den prompten Worten sagten Meta-Beamte, dass jeder normale Entwickler damit fortgeschrittene Dinge tun kann, wie zum Beispiel:

Echtzeit- und Batch-Inferenz
Überwachen Sie die Feinabstimmung
Bewerten Sie Modelle für bestimmte Anwendungen
Kontinuierliches Vortraining
Retrieval Augmented Generation (RAG)
Funktionsaufruf
Synthetische Datengenerierung

Und dahinter steht die Unterstützung seiner starken ökologischen Partner.

Xiao Zha schreibt einen langen Artikel: Open-Source-KI ist der Weg nach vorne

(Das Folgende wurde von Big Model übersetzt und der Hauptinhalt extrahiert. Wenn es Auslassungen oder Fehler gibt, korrigieren Sie diese bitte!)

In den Anfängen des Hochleistungsrechnens investierten die damaligen großen Technologieunternehmen viel in die Entwicklung ihrer eigenen Closed-Source-Versionen von Unix. Damals war es schwer vorstellbar, dass solch fortschrittliche Software auf andere Weise als Closed Source produziert werden könnte. Das Open-Source-Betriebssystem Linux erfreute sich jedoch schließlich großer Beliebtheit – zunächst weil es Entwicklern ermöglichte, den Code frei und kostengünstiger zu ändern, wurde Linux im Laufe der Zeit nicht nur fortschrittlicher und sicherer, sondern baute auch ein breiteres Ökosystem auf als jedes Closed-Source-Unix System, das mehr Funktionen unterstützt. Heutzutage ist Linux die branchenübliche Grundlage für Cloud Computing und die meisten Betriebssysteme für mobile Geräte, und wir alle genießen dadurch bessere Produkte.

Ich glaube, dass sich die künstliche Intelligenz ähnlich entwickeln wird . Heute entwickeln mehrere Technologieunternehmen führende Closed-Source-Modelle. Aber Open Source schließt die Lücke schnell. Letztes Jahr war der Llama 2 nur mit Modellen vergleichbar, die eine Generation später waren. In diesem Jahr konkurriert das Llama 3 mit den fortschrittlichsten Modellen und liegt in einigen Bereichen vorne. Wir gehen davon aus, dass die künftigen Llama-Modelle ab dem nächsten Jahr die fortschrittlichsten der Branche sein werden. Aber schon vorher war Llama führend in Sachen Offenheit, Modifizierbarkeit und Kosteneffizienz.

Heute bewegen wir uns in Richtung„Open-Source-Künstliche Intelligenz wird zum Industriestandard“ Richtung. Wir haben Llama 3.1 405B veröffentlicht, das erste hochmoderne Open-Source-KI-Modell, sowie verbesserte Modelle Llama 3.1 70B und 8B. Neben einem deutlich besseren Kosten-Leistungs-Verhältnis im Vergleich zu Closed-Source-Modellen ist das 405B-Modell aufgrund seiner Offenheit auch die beste Wahl für die Feinabstimmung und Destillation kleinerer Modelle.

Zusätzlich zur Veröffentlichung dieser Modelle arbeiten wir mit einer Reihe von Unternehmen zusammen, um das breitere Ökosystem zu erweitern. Amazon, Databricks und Nvidia bringen eine Reihe von Diensten auf den Markt, die es Entwicklern ermöglichen, ihre eigenen Modelle zu verfeinern und zu destillieren. Innovatoren wie Groq haben für alle neuen Modelle kostengünstige Inferenzdienste mit geringer Latenz entwickelt. Diese Modelle werden auf allen wichtigen Cloud-Plattformen verfügbar sein, einschließlich AWS, Azure, Google, Oracle und mehr. Unternehmen wie Scale.AI, Dell, Deloitte und andere sind bereit, Unternehmen bei der Einführung von Llama zu unterstützen und benutzerdefinierte Modelle mit ihren eigenen Daten zu trainieren. Während die Community wächst und immer mehr Unternehmen neue Dienste entwickeln, können wir gemeinsam Llama zum Branchenstandard machen und allen die Vorteile der KI zugänglich machen.

Meta widmet sich der Open-Source-künstlichen Intelligenz. Ich werde darlegen, warum Open Source meiner Meinung nach der beste Entwicklungs-Stack ist, warum Open Source Llama gut für Meta ist und warum Open Source AI gut für die Welt und daher eine langfristig nachhaltige Plattform ist.

Warum Open-Source-KI gut für Entwickler ist

Wenn ich mit Entwicklern, CEOs und Beamten auf der ganzen Welt spreche, höre ich normalerweise einige Themen:

Wir müssen unsere eigenen Modelle trainieren, verfeinern und destillieren . . Jede Organisation hat ihre eigenen individuellen Anforderungen und eignet sich am besten für die Verwendung von Modellen unterschiedlicher Größe, die auf der Grundlage ihrer spezifischen Daten trainiert oder verfeinert werden können. Für On-Device-Aufgaben und Klassifizierungsaufgaben genügen kleine Modelle; für komplexere Aufgaben werden große Modelle benötigt. Jetzt können Sie die Vorteile hochmoderner Llama-Modelle nutzen, sie weiterhin mit Ihren eigenen Daten trainieren und sie dann in eine Modellgröße destillieren, die Ihren Anforderungen am besten entspricht – ohne dass wir oder andere Ihre Daten sehen.
Wir müssen unser eigenes Schicksal kontrollieren und dürfen nicht an Closed-Source-Anbieter gebunden sein . Viele Organisationen möchten sich nicht auf ein Modell verlassen, das sie nicht selbst verwalten und kontrollieren können. Sie möchten nicht, dass ein Anbieter eines Closed-Source-Modells das Modell ändern, die Nutzungsbedingungen ändern oder den Dienst sogar ganz einstellen kann. Sie wollen sich auch nicht auf die exklusive Nutzung von Modellen auf nur einer Cloud-Plattform beschränken. Open Source ermöglicht es einem breiten Ökosystem von Unternehmen, über kompatible Toolchains zu verfügen, sodass Sie problemlos zwischen ihnen wechseln können.
Wir müssen unsere Daten sicher aufbewahren . Viele Organisationen verarbeiten sensible Daten, die geschützt werden müssen und nicht über Cloud-APIs in einem Closed-Source-Modell gesendet werden können. Es gibt auch Organisationen, die ihre Daten den Anbietern von Closed-Source-Modellen einfach nicht anvertrauen. Open Source löst diese Probleme, indem es Ihnen ermöglicht, Modelle überall auszuführen. Man geht allgemein davon aus, dass Open-Source-Software im Allgemeinen sicherer ist, weil ihr Entwicklungsprozess transparenter ist.
Wir brauchen ein Modell, das effizient funktioniert und erschwinglich ist . Entwickler können Llama 3.1 405B-Inferenz auf ihrer eigenen Infrastruktur ausführen, sei es für benutzerorientierte oder Offline-Inferenzaufgaben, und das zu etwa der Hälfte der Kosten für die Verwendung von Closed-Source-Modellen wie GPT-4o.
Wir wollen in Ökosysteme investieren, die zu langfristigen Standards werden . Viele Leute sehen, dass sich Open Source schneller entwickelt als Closed-Source-Modelle, und sie möchten ihre Systeme auf der Architektur aufbauen, die ihnen langfristig den größten Vorteil verschafft.

Warum Open-Source-KI gut für Meta ist

Das Geschäftsmodell von Meta besteht darin, die besten Erlebnisse und Dienstleistungen für Menschen zu schaffen. Um dies zu erreichen, müssen wir sicherstellen, dass wir stets Zugriff auf die beste Technologie haben und nicht an die Closed-Source-Ökosysteme unserer Wettbewerber gebunden sind, was unsere Innovationsfähigkeit einschränkt.

Eine meiner wichtigsten Erfahrungen war, dass unsere Dienste durch die Einschränkungen von Apple hinsichtlich dessen, was wir auf ihrer Plattform aufbauen konnten, eingeschränkt waren. Von der Art und Weise, wie sie Entwickler besteuern, über die Regeln, die sie willkürlich anwenden, bis hin zu all den Produktinnovationen, die sie an der Veröffentlichung hindern, ist klar: Wenn wir die besten Versionen unserer Produkte entwickeln können, können die Konkurrenten unsere Innovation, Meta und viele andere nicht einschränken Andere Unternehmen werden in der Lage sein, den Menschen bessere Dienstleistungen anzubieten. Aus philosophischer Sicht ist dies der Hauptgrund, warum ich fest an den Aufbau eines offenen Ökosystems für die nächste Computergeneration in den Bereichen KI und AR/VR glaube.

Ich werde oft gefragt, ob ich mir Sorgen mache, technische Vorteile durch das Open-Sourcing von Llama aufzugeben, aber ich denke, dass dies aus mehreren Gründen das Gesamtbild verfehlt:

Erstens: Um sicherzustellen, dass wir Zugriff auf die beste Technologie haben und nicht langfristig an ein Closed-Source-Ökosystem gebunden sind, muss sich Llama zu einem vollständigen Ökosystem von Tools entwickeln, einschließlich Effizienzverbesserungen, Siliziumoptimierung und anderen Integrationen. Wenn wir das einzige Unternehmen wären, das Llama nutzt, würde das Ökosystem nicht wachsen und wir würden nicht besser abschneiden als Closed-Source-Versionen von Unix.

Zweitens gehe ich davon aus, dass die Entwicklung der KI weiterhin sehr wettbewerbsintensiv sein wird, was bedeutet, dass die Open-Sourcing-Lösung eines bestimmten Modells keinen größeren Vorteil bietet als das jeweils nächstbeste Modell. Der Weg von Llama zum Industriestandard besteht darin, weiterhin Wettbewerbsfähigkeit, Effizienz und Offenheit aufrechtzuerhalten und sich von Generation zu Generation weiterzuentwickeln.

Drittens besteht ein wesentlicher Unterschied zwischen Meta- und Closed-Source-Modellanbietern darin, dass der Verkauf des Zugangs zu KI-Modellen nicht unser Geschäftsmodell ist. Das bedeutet, dass die öffentliche Veröffentlichung von Llama unseren Umsatz, unsere Nachhaltigkeit oder unsere Fähigkeit, in die Forschung zu investieren, nicht beeinträchtigt, was bei Closed-Source-Anbietern nicht der Fall ist.

Schließlich kann Meta auf eine lange Geschichte von Open-Source-Projekten und Erfolgen zurückblicken. Wir haben durch das Open Compute-Projekt Milliarden von Dollar gespart, indem wir Server-, Netzwerk- und Rechenzentrumsdesigns veröffentlicht und die Lieferkette unsere Designs standardisieren ließen. Wir profitieren von Ökosysteminnovationen durch Open-Source-Lösungen führender Tools wie PyTorch, React und mehr. Dieser Ansatz hat sich bei uns immer langfristig bewährt.

Warum Open-Source-KI gut für die Welt ist

Ich glaube, dass Open Source entscheidend für eine positive KI-Zukunft ist. Künstliche Intelligenz hat ein größeres Potenzial als jede andere moderne Technologie, die menschliche Produktivität, Kreativität und Lebensqualität zu steigern – und das Wirtschaftswachstum zu beschleunigen und gleichzeitig Fortschritte in der Medizin und der wissenschaftlichen Forschung voranzutreiben. Open Source wird dafür sorgen, dass mehr Menschen auf der ganzen Welt Zugang zu den Vorteilen und Möglichkeiten der KI haben, die Macht nicht in den Händen einiger weniger Unternehmen konzentriert wird und die Technologie in der gesamten Gesellschaft gleichmäßiger und sicherer eingesetzt werden kann.

Es gibt eine anhaltende Debatte über die Sicherheit von Open-Source-KI-Modellen, und ich bin der Ansicht, dass Open-Source-KI sicherer sein wird als die Alternativen.

Ich verstehe den Sicherheitsrahmen so, dass wir uns vor zwei Arten von Schäden schützen müssen: unbeabsichtigten und absichtlichen. Von unbeabsichtigtem Schaden spricht man, wenn ein KI-System Schaden anrichten kann, obwohl die Person, die es betreibt, dies nicht beabsichtigt hat. Beispielsweise können moderne KI-Modelle versehentlich schlechte Gesundheitsratschläge geben. Oder, in einem eher futuristischen Szenario, befürchten einige, dass Modelle sich unbeabsichtigt replizieren oder Ziele zum Nachteil des Menschen überoptimieren könnten. Vorsätzlicher Schaden liegt vor, wenn ein böswilliger Akteur ein KI-Modell mit der Absicht nutzt, Schaden anzurichten.

Es ist erwähnenswert, dass unbeabsichtigter Schaden die meisten Bedenken der Menschen in Bezug auf künstliche Intelligenz abdeckt – von den Auswirkungen, die KI-Systeme auf die Milliarden von Menschen haben werden, die sie nutzen, bis hin zu den meisten Science-Fiction-Szenarien, die für die Menschheit wirklich katastrophal sind. In dieser Hinsicht sollte Open Source sicherer sein, da das System transparenter ist und umfassender überprüft werden kann. Historisch gesehen war Open-Source-Software daher sicherer. Ebenso wird die Verwendung von Llama und seinen Sicherheitssystemen wie Llama Guard wahrscheinlich sicherer und zuverlässiger sein als ein Closed-Source-Modell. Daher konzentrieren sich die meisten Gespräche über die Sicherheit von Open-Source-KI auf vorsätzlichen Schaden.

Unser Sicherheitsprozess umfasst strenge Tests und Red-Teams, um die Fähigkeit unserer Modelle, erheblichen Schaden anzurichten, zu bewerten, mit dem Ziel, das Risiko vor der Veröffentlichung zu mindern. Da das Modell offen ist, kann es jeder selbst testen. Wir müssen bedenken, dass diese Modelle auf Informationen trainiert werden, die bereits im Internet vorhanden sind. Bei der Schadensbeurteilung sollte der Ausgangspunkt daher sein, ob das Modell zu mehr Schaden beitragen kann als Informationen, die schnell von Google oder anderen Suchergebnissen abgerufen werden können.

Denken Sie bei der Betrachtung künftiger Möglichkeiten daran, dass die meisten der heute führenden Technologieunternehmen und wissenschaftlichen Forschungen auf Open-Source-Software basieren. Wenn wir gemeinsam investieren, wird die nächste Generation von Unternehmen und Forschung Open-Source-KI nutzen.

Am wichtigsten ist, dass Open-Source-KI die weltweit beste Gelegenheit darstellt, diese Technologie zu nutzen, um die wirtschaftlichen Chancen und die Sicherheit für alle zu maximieren.

lasst uns gemeinsam bauen

Wie bei früheren Llama-Modellen entwickelte sich Meta und veröffentlichte es dann selbst, ohne viel Wert auf den Aufbau eines breiteren Ökosystems zu legen. Bei diesem Start haben wir einen anderen Ansatz gewählt. Wir bauen das Team intern auf, um Llama möglichst vielen Entwicklern und Partnern zur Verfügung zu stellen, und wir bauen auch aktiv Partnerschaften auf, damit mehr Unternehmen im Ökosystem ihren Kunden ebenfalls einzigartige Funktionen bieten können.

Ich glaubeDie Veröffentlichung von Llama 3.1 wird ein Wendepunkt für die Branche sein , werden die meisten Entwickler anfangen, hauptsächlich Open Source zu verwenden, und ich gehe davon aus, dass dieser Ansatz von nun an nur noch zunehmen wird. Ich hoffe, dass Sie uns auf unserem Weg begleiten, die Vorteile der künstlichen Intelligenz allen Menschen auf der Welt zugänglich zu machen.

Aktueller Interview-Link:
https://x.com/rowancheung/status/1815763595197616155

Referenzlinks:
[1]https://about.fb.com/news/2024/07/open-source-ai-is-the-path-forward/
[2]https://ai.meta.com/blog/meta-llama-3-1/

Nachricht

Open Source = das leistungsstärkste Modell! Llama 3.1 veröffentlicht, Zuckerberg: Wendepunkt

Einführung

meine Kontaktdaten