Gibt es in der großen Modelbranche überhaupt kein „echtes“ Open Source?

2024-08-01

Autor |. Zhou Xiaoxiao
E-Mail｜ [email protected]

Der Open-Source-Markt für große Modelle war in letzter Zeit sehr lebhaft. Zuerst hat Apple das 7-Milliarden-Parameter-Kleinmodell DCLM veröffentlicht, und dann wurden die Schwergewichte Meta's Llama 3.1 und Mistral Large 2 nacheinander in vielen Benchmark-Tests veröffentlicht übertraf das Closed-Source-SOTA-Modell.

Allerdings zeigt die Debatte zwischen den Open-Source- und Closed-Source-Fraktionen keine Anzeichen für ein Ende.

Auf der einen Seite sagte Meta nach der Veröffentlichung von Llama 3.1: „Jetzt läuten wir eine neue Ära ein, die von Open Source geleitet wird.“ Auf der anderen Seite schrieb Sam Altman einen Artikel in der „Washington Post“, in dem er den Widerspruch direkt ansprach zwischen Open Source und Closed Source auf der Landes- und Bewusstseinsebene.

Auf der World Artificial Intelligence Conference vor einiger Zeit stellte Robin Li unverblümt fest, dass „Open Source eigentlich eine Art IQ-Steuer“ sei, weil Closed-Source-Modelle offensichtlich leistungsfähiger seien und geringere Argumentationskosten hätten, was erneut Diskussionen auslöste.

Später äußerte Fu Sheng auch seine Meinung. Er glaubte, dass die beiden Lager Open Source und Closed Source miteinander konkurrieren und sich gemeinsam entwickeln. Er widerlegte auch die Ansicht, dass „Open Source eigentlich eine Art IQ-Steuer ist“: „Das große Open-Source-Sprachmodell ist kostenlos, wie kam es zur IQ-Steuer und wer erhebt die Steuer?“, „Wenn heutige Unternehmen sie nutzen.“ Bezahlte Closed-Source-Modelle in großen Sprachen, das nennt man „IQ-Steuer“, insbesondere die sehr hohen Modelllizenzgebühren und API-Gebühren, die Hunderte Millionen pro Jahr kosten und schließlich als Dekoration zurückgekauft werden und nicht einmal von Mitarbeitern verwendet werden können sie überhaupt (das Modell).“

Der Kern dieser Debatte betrifft die Richtung und das Modell der Technologieentwicklung, die die Ansichten und Positionen verschiedener Interessengruppen widerspiegeln. Bevor wir über Open Source und Closed Source großer Sprachmodelle sprechen, müssen wir die Begriffe „Open Source“ und „Open Source“ klären. Closed Source". Zwei Grundkonzepte.

Der Begriff „Open Source“ kommt aus dem Softwarebereich und bezieht sich auf die Offenlegung des Quellcodes der Software während des Entwicklungsprozesses für die Öffentlichkeit, sodass jeder ihn einsehen, ändern und verbreiten kann.Quelloffene SoftwareDie Entwicklung von Software folgt in der Regel den Prinzipien der gegenseitigen Zusammenarbeit und der Peer-Produktion und fördert die Verbesserung von Produktionsmodulen, Kommunikationspipelines und interaktiven Communities. Typische Vertreter sind Linux und Mozilla Firefox.

Closed-Source-Software (proprietäre Software) Aus kommerziellen oder anderen Gründen wird der Quellcode nicht offengelegt und es werden nur computerlesbare Programme (z. B. im Binärformat) bereitgestellt. Der Quellcode ist ausschließlich Eigentum des Entwicklers und wird von ihm kontrolliert. Typische Vertreter sind Windows und Android.

Open Source ist ein Softwareentwicklungsmodell, das auf Offenheit, Austausch und Zusammenarbeit basiert. Es ermutigt alle, sich an der Entwicklung und Verbesserung von Software zu beteiligen, und fördert den kontinuierlichen Fortschritt und die weit verbreitete Anwendung von Technologie.

Mit Closed Source entwickelte Software ist mit größerer Wahrscheinlichkeit ein stabiles, fokussiertes Produkt, aber Closed-Source-Software kostet in der Regel Geld, und wenn sie Fehler oder fehlende Funktionen aufweist, müssen Sie warten, bis der Entwickler das Problem behebt.

Was ein großes Open-Source-Modell ist, hat die Branche keinen klaren Konsens wie bei Open-Source-Software erzielt.

Die Open-Source-Modelle großer Sprachen und die Open-Source-Software sind im Konzept ähnlich. Sie basieren beide auf Offenheit, Austausch und Zusammenarbeit, ermutigen die Community, sich an Entwicklung und Verbesserung zu beteiligen, fördern den technologischen Fortschritt und verbessern die Transparenz.

Allerdings gibt es erhebliche Unterschiede in der Umsetzung und den Anforderungen.

Open-Source-Software zielt hauptsächlich auf Anwendungen und Tools ab, und Open-Source hat einen geringeren Ressourcenbedarf, während Open-Source für große Sprachmodelle eine große Menge an Rechenressourcen und qualitativ hochwertigen Daten erfordert und möglicherweise stärkere Nutzungsbeschränkungen aufweist. Während daher beide Open-Source-Lösungen darauf abzielen, Innovation und Technologieverbreitung zu fördern, sind große Open-Source-Sprachmodelle mit einer größeren Komplexität konfrontiert und auch die Form des Community-Beitrags ist anders.

Robin Li betonte auch den Unterschied zwischen den beiden. Open-Source-Modell bedeutet nicht Open-Source-Code: „Open-Source-Modell kann nur eine Reihe von Parametern erhalten, und Sie müssen SFT (überwachte Feinabstimmung) und Sicherheitsausrichtung durchführen. Auch wenn.“ Wenn Sie den entsprechenden Quellcode erhalten, können Sie ihn nicht erhalten. „Zu wissen, wie viele und welcher Anteil an Daten zum Trainieren dieser Parameter verwendet wurden, wird es nicht jedem ermöglichen, Öl ins Feuer zu gießen. Wenn Sie diese Dinge erhalten, wird es Ihnen nicht möglich sein auf den Schultern von Giganten stehen und sich iterativ weiterentwickeln.

Die prozessübergreifende Open Source großer Sprachmodelle umfasst die Offenheit und Transparenz des gesamten Prozesses der Modellentwicklung, von der Datenerfassung über das Modelldesign, das Training bis hin zur Bereitstellung. Dieser Ansatz umfasst nicht nur die Offenlegung von Datensätzen und der Modellarchitektur, sondern umfasst auch die Codefreigabe des Trainingsprozesses und die Veröffentlichung vorab trainierter Modellgewichte.

Im vergangenen Jahr hat die Zahl großer Sprachmodelle enorm zugenommen, viele behaupten, Open Source zu sein, aber wie offen sind sie wirklich?

Andreas Liesenfeld, ein Forscher für künstliche Intelligenz an der Radboud-Universität in den Niederlanden, und der Computerlinguist Mark Dingemanse stellten außerdem fest, dass der Begriff „Open Source“ zwar weit verbreitet ist, viele Modelle jedoch bestenfalls „offene Gewichte“ sind, und die meisten anderen Dinge darüber Systemaufbau Alle Aspekte werden ausgeblendet.

Obwohl beispielsweise Technologien wie Meta und Microsoft ihre großen Sprachmodelle als „Open Source“ vermarkten, geben sie keine wichtigen Informationen im Zusammenhang mit der zugrunde liegenden Technologie preis. Was sie überraschte, war, dass die Leistung von KI-Unternehmen und -Institutionen mit weniger Ressourcen noch lobenswerter war.

Das Forschungsteam analysierte eine Reihe beliebter „Open-Source“-Großsprachenmodellprojekte und bewertete ihre tatsächliche Offenheit unter verschiedenen Aspekten wie Code, Daten, Gewichtungen, APIs und Dokumentation. Die Studie nutzte auch ChatGPT von OpenAI als Referenzpunkt für Closed Source und verdeutlichte so den wahren Zustand von „Open Source“-Projekten.

✔ bedeutet offen, ~ bedeutet teilweise offen und X bedeutet geschlossen

Die Ergebnisse zeigen erhebliche Unterschiede zwischen den Projekten. Laut dieser Rangliste ist OLMo von Allen Institute for AI das Open-Source-Modell, gefolgt von BloomZ von BigScience, die beide von gemeinnützigen Organisationen entwickelt wurden.

In dem Papier heißt es, dass Metas Llama und Google DeepMinds Gemma zwar behaupten, Open Source oder Open zu sein, es sich aber tatsächlich nur um offene Gewichte handelt. Externe Forscher können auf vorab trainierte Modelle zugreifen und diese verwenden, können das Modell jedoch nicht überprüfen oder anpassen und wissen nicht, wie Das Modell zielt auf bestimmte Aufgaben ab.

Die jüngsten Veröffentlichungen von LLaMA 3 und Mistral Large 2 haben viel Aufmerksamkeit erregt. Im Hinblick auf die Modelloffenheit stellt LLaMA 3 Modellgewichte bereit und kann auf diese vorab trainierten und durch Anweisungen abgestimmten Modellgewichte zugreifen. Darüber hinaus bietet Meta auch einige grundlegende Codes für die Modellvorabschulung und die Feinabstimmung der Anweisungen Der vollständige Trainingscode wird nicht bereitgestellt und die Trainingsdaten für LLaMA 3 werden nicht veröffentlicht. Aber dieses Mal brachte LMeta einen 93-seitigen technischen Bericht zu LLaMA 3.1 405B.

Die Situation bei Mistral Large 2 ist ähnlich. Es behält einen hohen Grad an Offenheit in Bezug auf Modellgewichte und APIs bei, weist jedoch einen geringeren Grad an Offenheit in Bezug auf vollständigen Code und Trainingsdaten auf. Es verfolgt eine Strategie, die kommerzielle Interessen und Offenheit in Einklang bringt. Erlauben der Forschungsnutzung mit Einschränkungen für die kommerzielle Nutzung.

Google sagte, das Unternehmen sei bei der Beschreibung des Modells „sehr präzise in seiner Sprache“ gewesen und habe Gemma als „Open“ und nicht als „Open Source“ bezeichnet. „Bestehende Open-Source-Konzepte sind nicht immer direkt auf KI-Systeme anwendbar“,

Ein wichtiger Kontext für diese Studie ist das EU-Gesetz über künstliche Intelligenz, das bei seinem Inkrafttreten lockerere Vorschriften für als offen eingestufte Modelle vorsieht, sodass die Definition von Open Source möglicherweise an Bedeutung gewinnt.

Die einzige Möglichkeit zur Innovation besteht laut den Forschern darin, das Modell zu optimieren, wofür man genügend Informationen benötigt, um eine eigene Version zu erstellen. Darüber hinaus müssen Modelle unter die Lupe genommen werden. Wenn ein Modell beispielsweise an einer großen Anzahl von Testproben trainiert wird, ist das Bestehen eines bestimmten Tests möglicherweise kein Erfolg.

Sie freuen sich auch über das Aufkommen so vieler Open-Source-Alternativen und ChatGPT ist so beliebt, dass man leicht etwas über seine Trainingsdaten oder andere Tricks hinter den Kulissen vergisst. Dies ist eine Falle für diejenigen, die das Modell besser verstehen oder darauf basierende Anwendungen erstellen möchten, während Open-Source-Alternativen kritische Grundlagenforschung ermöglichen.

Silicon Star hat auch Statistiken zur Open-Source-Situation einiger inländischer Open-Source-Großsprachenmodelle erstellt:

Aus der Tabelle können wir ersehen, dass, ähnlich wie in Übersee, das umfassendere Open-Source-Modell im Wesentlichen von Forschungseinrichtungen geleitet wird. Dies liegt hauptsächlich daran, dass das Ziel von Forschungseinrichtungen darin besteht, den wissenschaftlichen Forschungsfortschritt und die Industrieentwicklung zu fördern, und sie sind mehr geneigt, ihre Forschungsergebnisse offenzulegen.

Kommerzielle Unternehmen nutzen ihre Ressourcenvorteile, um leistungsfähigere Modelle zu entwickeln und sich durch entsprechende Open-Source-Strategien Wettbewerbsvorteile zu verschaffen.

Von GPT-3 bis BERT hat Open Source dem großen Modell-Ökosystem wichtige Impulse gegeben.

Durch die Veröffentlichung seiner Architektur und Trainingsmethoden können Forscher und Entwickler diese Grundlagen weiter erforschen und verbessern, was zu moderneren Technologien und Anwendungen führt.

Das Aufkommen großer Open-Source-Modelle hat die Schwelle für die Entwicklung erheblich gesenkt. Entwickler und kleine und mittlere Unternehmen können diese fortschrittlichen KI-Technologien nutzen, ohne Modelle von Grund auf neu erstellen zu müssen, wodurch viel Zeit und Ressourcen gespart werden. Dadurch können weitere innovative Projekte und Produkte schneller umgesetzt werden, was die Entwicklung der gesamten Branche vorantreibt. Entwickler tauschen aktiv Optimierungsmethoden und Anwendungsfälle auf der Open-Source-Plattform aus, was auch die Technologiereife und -anwendung fördert.

Für Bildung und wissenschaftliche Forschung stellen Open-Source-Modelle großer Sprachen wertvolle Ressourcen dar. Durch das Studium und die Verwendung dieser Modelle können Studenten und unerfahrene Entwickler schnell fortschrittliche KI-Technologien erlernen, die Lernkurve verkürzen und frischen Wind in die Branche bringen.

Allerdings ist die Offenheit großer Sprachmodelle keine einfache binäre Eigenschaft. Die Transformer-basierte Systemarchitektur und ihr Trainingsprozess sind äußerst komplex und lassen sich nur schwer als offen oder geschlossen klassifizieren. Das große Open-Source-Modell ist keine einfache Bezeichnung, sondern eher ein Spektrum, das von vollständig Open Source bis teilweise Open Source mit unterschiedlichem Grad reicht.

Open Source für große Sprachmodelle ist eine komplexe und sorgfältige Aufgabe, und nicht alle Modelle müssen Open Source sein.

Wir sollten keine vollständige Open Source in Form einer „moralischen Entführung“ fordern, da dies eine Menge Technologie-, Ressourcen- und Sicherheitsüberlegungen erfordert und ein Gleichgewicht zwischen Offenheit und Sicherheit, Innovation und Verantwortung erfordert. Wie bei anderen Aspekten der Technologie schaffen unterschiedliche Arten des Beitrags ein reichhaltigeres Technologie-Ökosystem.

Die Beziehung zwischen Open-Source- und Closed-Source-Modellen kann mit der Koexistenz von Open-Source- und Closed-Source-Software in der Softwareindustrie verglichen werden.

Das Open-Source-Modell fördert die flächendeckende Verbreitung und Innovation von Technologie und bietet mehr Möglichkeiten für Forscher und Unternehmen, während das Closed-Source-Modell die Verbesserung von Standards in der gesamten Branche fördert. Der gesunde Wettbewerb zwischen beiden inspiriert zu kontinuierlicher Verbesserung und bietet Benutzern vielfältige Auswahlmöglichkeiten.

So wie Open Source und proprietäre Software gemeinsam das heutige Software-Ökosystem geprägt haben,Es gibt keinen binären Gegensatz zwischen Open-Source- und Closed-Source-Großmodellen. Die Koexistenz beider ist eine wichtige Triebkraft für die kontinuierliche Weiterentwicklung der KI-Technologie und die Erfüllung der Anforderungen unterschiedlicher Anwendungsszenarien. Letztlich werden Nutzer und Markt die für sie passende Wahl treffen.

Nachricht

Gibt es in der großen Modelbranche überhaupt kein „echtes“ Open Source?

Einführung

meine Kontaktdaten