Hinter dem kleineren und leistungsstärkeren GPT-4o mini ist die Zukunft der KI-Modelle nicht mehr größer und besser

Hinter dem kleineren und leistungsstärkeren GPT-4o mini sieht die Zukunft der KI-Modelle nicht mehr so aus, dass größer gleich besser ist

2024-07-27

letzte Woche OpenAI Machen Sie spät in der Nacht einen großen Schritt,GPT-4o Der Mini warf GPT-3.5 Turbo aus dem Ruhestand und übertraf sogar GPT-4 in der großen Modellarena LMSYS.

Diese Woche wurde Meta veröffentlicht Wenn bei großen Modellen noch die Größe 405B der ersten Staffel erwartet wird, dann bringen die Größen 8B und 70B der neuen Versionen weitere Überraschungen.

Und das ist vielleicht nicht das Ende des kleinen Modellwettbewerbs, sondern eher ein neuer Anfang.

Es ist nicht so, dass große Modelle unerschwinglich sind, aber kleine Modelle sind kostengünstiger

In der riesigen Welt der KI-Kreise hatten kleine Modelle schon immer ihre eigenen Legenden.

Von außen betrachtet wurde der letztjährige Blockbuster Mistral 7B gleich nach seiner Veröffentlichung als „bestes 7B-Modell“ gefeiert. Es schlug das 13B-Parametermodell Llama 2 in mehreren Bewertungsbenchmarks und übertraf es in Bezug auf Argumentation, Mathematik und Codegenerierung .

In diesem Jahr hat Microsoft auch das leistungsstärkste Modell mit kleinen Parametern, Phi-3-mini, als Open-Source-Version bereitgestellt. Obwohl die Anzahl der Parameter nur 3,8 Milliarden beträgt, liegen die Ergebnisse der Leistungsbewertung weit über dem Niveau derselben Parameterskala und sind mit größeren Modellen wie z. B. vergleichbar GPT-3.5 und Claude-3 Sonett.

Im Detail hat Wall Intelligence Anfang Februar MiniCPM auf den Markt gebracht, ein Side-to-Side-Sprachmodell mit nur 2B-Parametern. Es verwendet eine kleinere Größe, um eine stärkere Leistung zu erzielen, und übertrifft das beliebte französische Modell Mistral-7B. Little Steel". Pistole".

Vor nicht allzu langer Zeit übertraf MiniCPM-Llama3-V2.5, das nur eine Parametergröße von 8B hat, größere Modelle wie GPT-4V und Gemini Pro in Bezug auf multimodale Gesamtleistung und OCR-Fähigkeiten. Daher wurde es von der Stanford-Universität kritisiert KI-Team der Universität.

Bis letzte Woche startete OpenAI, das spät in der Nacht bombardierte, das, was es als „das leistungsstärkste und kostengünstigste Modell mit kleinen Parametern“ bezeichnete – GPT-4o mini, was die Aufmerksamkeit aller wieder auf das kleine Modell lenkte.

Seitdem OpenAI die Welt in die Vorstellung generativer KI hineingezogen hat, von langen Kontexten über rollierende Parameter bis hin zu Agenten und nun auch Preiskämpfen, drehte sich die Entwicklung im In- und Ausland immer um eine Logik: auf dem Gebiet zu bleiben, indem man sich der Kommerzialisierung zuwendet . Auf dem Kartentisch.

Daher fällt in der öffentlichen Meinung am meisten auf, dass OpenAI, das die Preise gesenkt hat, in einen Preiskampf zu geraten scheint.

Viele Menschen haben möglicherweise keine klare Vorstellung vom Preis des GPT-4o mini. GPT-4o mini pro 1 Million EingabenZeichen Der Preis beträgt 15 Cent und der Preis pro 1 Million ausgegebener Token beträgt 60 Cent, was mehr als 60 % günstiger ist als bei GPT-3.5 Turbo.

Mit anderen Worten: GPT-4o mini generiert ein 2500-seitiges Buch für nur 60 Cent.

Sam Altman, CEO von OpenAI, beklagte bei

Während der Preiskampf bei großen Modellen immer härter wird, dürften einige effiziente und wirtschaftliche Open-Source-Kleinmodelle eher die Aufmerksamkeit des Marktes auf sich ziehen. Schließlich ist es nicht so, dass große Modelle nicht verwendet werden können, sondern dass kleine Modelle kostengünstiger sind .

Wenn einerseits GPUs auf der ganzen Welt ausverkauft oder gar nicht mehr vorrätig sind, reichen kleine Open-Source-Modelle mit geringeren Schulungs- und Bereitstellungskosten aus, um nach und nach die Oberhand zu gewinnen.

Beispielsweise kann das von Mianbi Intelligence eingeführte MiniCPM mit seinen kleineren Parametern einen drastischen Rückgang der Inferenzkosten erzielen und sogar eine CPU-Inferenz erzielen. Es ist nur eine Maschine für das kontinuierliche Parametertraining und eine Grafikkarte für die Feinabstimmung der Parameter erforderlich sind auch kontinuierliche Verbesserungen Kostenraum.

Wenn Sie ein erfahrener Entwickler sind, können Sie sogar ein vertikales Modell im Rechtsbereich trainieren, indem Sie selbst ein kleines Modell erstellen. Die Inferenzkosten betragen möglicherweise nur ein Tausendstel der Kosten für die Feinabstimmung eines großen Modells.

Die Implementierung einiger terminalseitiger „kleiner Modelle“-Anwendungen hat vielen Herstellern den Beginn der Rentabilität ermöglicht. Facewall Intelligence half beispielsweise dem Mittleren Volksgericht Shenzhen bei der Einführung eines durch künstliche Intelligenz unterstützten Gerichtsverfahrens und bewies damit den Wert der Technologie für den Markt.

Natürlich ist es zutreffender zu sagen, dass die Veränderung, die wir sehen werden, nicht eine Verlagerung von großen zu kleinen Modellen ist, sondern eine Verlagerung von einer einzelnen Modellkategorie zu einem Portfolio von Modellen, wobei die Wahl des richtigen Modells davon abhängt auf die spezifischen Bedürfnisse der Organisation, die Komplexität der Aufgaben und die verfügbaren Ressourcen.

Kleine Modelle hingegen lassen sich einfacher bereitstellen und in mobile Geräte, eingebettete Systeme oder Umgebungen mit geringem Stromverbrauch integrieren.

Der Parameterumfang eines kleinen Modells ist im Vergleich zu einem großen Modell relativ klein, sein Bedarf an Rechenressourcen (wie KI-Rechenleistung, Speicher usw.) ist geringer und kann auf Endgeräten mit begrenzter Geschwindigkeit reibungsloser laufen Ressourcen. Darüber hinaus stellen endseitige Geräte in der Regel höhere Anforderungen an den Energieverbrauch, die Wärmeerzeugung und andere Probleme. Speziell entwickelte kleine Modelle können sich besser an die Einschränkungen endseitiger Geräte anpassen.

Zhao Ming, CEO von Honor, sagte, dass aufgrund von Problemen mit der KI-Rechenleistung auf der Clientseite die Parameter zwischen 1B und 10B liegen könnten, und das große NetzwerkmodellCloud ComputingDie Fähigkeit kann 10-100 Milliarden oder sogar mehr erreichen. Diese Fähigkeit ist die Lücke zwischen den beiden.

Das Telefon steht auf sehr begrenztem Raum, oder? Es unterstützt 7 Milliarden bei einer begrenzten Batterie, einer begrenzten Wärmeableitung und einer begrenzten Speicherumgebung. Wenn Sie sich vorstellen, dass es so viele Einschränkungen gibt, muss es das Schwierigste sein.

Wir haben auch die Helden hinter den Kulissen enthüllt, die für die Bedienung von Apples Smartphones verantwortlich sind. Unter ihnen ist das fein abgestimmte 3B-Kleinmodell für Aufgaben wie Zusammenfassung und Polieren zuständig Gemma-7B und ist für den Betrieb auf mobilen Endgeräten geeignet.

Wir sehen also, dass der frühere OpenAI-Guru Andrej Karpathy kürzlich zu dem Urteil gelangt ist, dass der Wettbewerb bei der Modellgröße eine „umgekehrte Involution“ sein wird, also nicht immer größer wird, sondern kleiner und flexibler wird.

Warum können kleine Modelle die Großen mit den Kleinen besiegen?

Die Prognose von Andrej Karpathy ist nicht unbegründet.

In diesem datenzentrierten Zeitalter werden Modelle immer größer und komplexer. Die meisten der sehr großen Modelle (wie GPT-4), die auf massiven Daten trainiert werden, werden tatsächlich dazu verwendet, sich eine große Anzahl irrelevanter Details zu merken, d. h. Informationen zu speichern Auswendig.

Allerdings kann das fein abgestimmte Modell bei bestimmten Aufgaben sogar „das Große mit dem Kleinen gewinnen“ und seine Benutzerfreundlichkeit ist mit vielen „supergroßen Modellen“ vergleichbar.

Clem Delangue, CEO von Hugging Face, hat außerdem vorgeschlagen, dass bis zu 99 % der Anwendungsfälle durch den Einsatz kleiner Modelle gelöst werden können, und prognostizierte, dass 2024 das Jahr der kleinen Sprachmodelle sein wird.

Bevor wir die Gründe untersuchen, müssen wir zunächst einige wissenschaftliche Erkenntnisse bekannt machen.

Im Jahr 2020 schlug OpenAI in einem Artikel ein berühmtes Gesetz vor: das Skalierungsgesetz, was bedeutet, dass mit zunehmender Größe des Modells auch seine Leistung zunimmt. Mit der Einführung von Modellen wie GPT-4 kamen nach und nach die Vorteile des Skalierungsgesetzes zum Vorschein.

Forscher und Ingenieure auf dem Gebiet der KI sind fest davon überzeugt, dass durch die Erhöhung der Anzahl der Parameter des Modells die Lernfähigkeit und die Generalisierungsfähigkeit des Modells weiter verbessert werden können. Auf diese Weise haben wir den Sprung des Modellmaßstabs von Milliarden Parametern auf Hunderte von Milliarden und sogar einen Anstieg zu Modellen mit Billionen Parametern erlebt.

In der Welt der KI ist die Größe eines Modells nicht das einzige Kriterium zur Messung seiner Intelligenz.

Im Gegenteil: Durch die Optimierung des Algorithmus, die Verbesserung der Datenqualität und die Verwendung fortschrittlicher Komprimierungstechnologie kann ein gut konzipiertes kleines Modell bei bestimmten Aufgaben häufig eine Leistung erbringen, die mit der eines großen Modells vergleichbar oder sogar besser ist.

Diese Strategie, mit kleinen Mitteln größere Ergebnisse zu erzielen, entwickelt sich zu einem neuen Trend im Bereich der KI.Unter anderem ist die Verbesserung der Datenqualität eine Möglichkeit für kleine Modelle, große Modelle zu überzeugen.

Satish Jayanthi, CTO und Mitbegründer von Coalesce, beschrieb einmal die Rolle von Daten in Modellen:

Hätte es das im 17. Jahrhundert gegeben LL.M. , und wir fragten ChatGPT, ob die Erde rund oder flach sei, und es antwortete, dass die Erde flach sei, weil die von uns bereitgestellten Daten es davon überzeugt hätten, dass dies der Fall sei. Die Daten, die wir LLM zur Verfügung stellen, und die Art und Weise, wie wir sie trainieren, wirken sich direkt auf die Ausgabe aus.

Um qualitativ hochwertige Ergebnisse zu erzielen, müssen große Sprachmodelle anhand hochwertiger, zielgerichteter Daten für bestimmte Themen und Domänen trainiert werden. So wie Studierende hochwertige Lehrbücher zum Lernen benötigen, benötigen LLMs auch hochwertige Datenquellen.

Liu Zhiyuan, ständiger außerordentlicher Professor am Institut für Informatik der Tsinghua-Universität und leitender Wissenschaftler für wandnahe Intelligenz, gab die traditionelle gewalttätige Ästhetik auf, hart zu arbeiten, um Wunder zu erreichen, und schlug kürzlich das Wandwandgesetz im Zeitalter des Großen vor Modelle, das heißt, die Wissensdichte des Modells nimmt weiter zu und verdoppelt sich durchschnittlich alle acht Monate.

Darunter ist Wissensdichte = Modellfähigkeit/Modellparameter, die an der Berechnung beteiligt sind.

Liu Zhiyuan erklärte anschaulich, dass, wenn Ihnen 100 IQ-Testfragen gestellt werden, Ihre Punktzahl nicht nur davon abhängt, wie viele Fragen Sie richtig beantworten, sondern auch von der Anzahl der Neuronen, die Sie zum Beantworten dieser Fragen verwenden. Je mehr Aufgaben Sie mit weniger Neuronen erledigen, desto höher ist Ihr IQ.

Genau das ist der Kerngedanke, den Wissensdichte vermittelt:

Es besteht aus zwei Elementen. Ein Element ist die Fähigkeit dieses Modells. Das zweite Element ist die Anzahl der für diese Fähigkeit erforderlichen Neuronen bzw. der entsprechende Rechenleistungsverbrauch.

Verglichen mit dem von OpenAI im Jahr 2020 veröffentlichten GPT-3 mit 175 Milliarden Parametern veröffentlichte es im Jahr 2024 MiniCPM-2.4B mit der gleichen Leistung, aber nur 2,4 Milliarden Parametern wie GPT-3, was die Wissensdichte um etwa das 86-fache erhöhte.

Eine Studie der University of Toronto zeigt auch, dass nicht alle Daten notwendig sind. Sie identifiziert qualitativ hochwertige Teilmengen aus großen Datensätzen, die einfacher zu verarbeiten sind und alle Informationen und Vielfalt im Originaldatensatz beibehalten.

Selbst wenn bis zu 95 % der Trainingsdaten entfernt werden, wird die Vorhersageleistung des Modells innerhalb einer bestimmten Verteilung möglicherweise nicht wesentlich beeinträchtigt.

Jüngstes Beispiel ist das Großmodell Meta Llama 3.1.

Als Meta Llama 3 trainierte, speiste es 15T-Token-Trainingsdaten ein, aber Thomas Scialom, ein Meta-KI-Forscher, der für die Post-Training-Arbeit von Llama2 und Llama3 verantwortlich ist, sagte: „Der Text im Internet ist voller nutzloser Informationen und darauf basierendes Training.“ Diese Informationen sind eine Verschwendung von Rechenressourcen.

Lama 3 hatte nach dem Training keine von Menschen geschriebenen Antworten... es nutzte lediglich die rein synthetischen Daten von Lama 2.

Darüber hinaus ist die Wissensdestillation auch eine der wichtigen Methoden, um „das Große mit dem Kleinen zu erobern“.

Wissensdestillation bezieht sich auf die Verwendung eines großen und komplexen „Lehrermodells“, um das Training eines kleinen und einfachen „Schülermodells“ zu leiten, wodurch die leistungsstarke Leistung und die überlegene Generalisierungsfähigkeit des großen Modells auf leichtere, rechnerischere kleinere Modelle übertragen werden können weniger.

Nach der Veröffentlichung von Llama 3.1 betonte Meta-CEO Zuckerberg in seinem langen Artikel „Open Source AI Is the Path Forward“ auch die Bedeutung der Feinabstimmung und Destillation kleiner Modelle.

Wir müssen unsere eigenen Modelle trainieren, verfeinern und destillieren. Jede Organisation hat unterschiedliche Anforderungen, die am besten durch den Einsatz von Modellen erfüllt werden, die in unterschiedlichen Maßstäben und mit spezifischen Daten trainiert oder verfeinert werden.

Jetzt können Sie hochmoderne Llama-Modelle verwenden, sie weiterhin anhand Ihrer eigenen Daten trainieren und sie dann auf die Modellgröße destillieren, die Ihren Anforderungen am besten entspricht – ohne dass wir oder jemand anderes Ihre Daten sieht.

In der Branche wird außerdem allgemein davon ausgegangen, dass die 8B- und 70B-Versionen von Meta Llama 3.1 aus ultragroßen Tassen destilliert werden. Daher wurde die Gesamtleistung deutlich verbessert und auch die Modelleffizienz ist höher.

Oder auch die Optimierung der Modellarchitektur ist von entscheidender Bedeutung. Die ursprüngliche Absicht des MobileNet-Designs besteht beispielsweise darin, effiziente Deep-Learning-Modelle auf mobilen Geräten zu implementieren.

Durch die in der Tiefe trennbare Faltung wird die Anzahl der Parameter des Modells erheblich reduziert. Im Vergleich zu ResNet reduziert MobileNetV1 die Anzahl der Parameter um etwa das 8- bis 9-fache.

MobileNet ist aufgrund der geringeren Anzahl von Parametern recheneffizienter. Dies ist besonders wichtig für ressourcenbeschränkte Umgebungen wie mobile Geräte, da dadurch der Rechen- und Speicherbedarf erheblich reduziert werden kann, ohne dass die Leistung zu stark beeinträchtigt wird.

Trotz der Fortschritte auf technischer Ebene steht die KI-Branche selbst immer noch vor der Herausforderung langfristiger Investitionen und hoher Kosten, und der Renditezyklus ist relativ lang.

Nach unvollständigen Statistiken von „Daily Economic News“ waren Ende April dieses Jahres insgesamt etwa 305 große Modelle in China auf den Markt gebracht worden, doch am 16. Mai gab es noch etwa 165 große Modelle, die dies noch nicht getan hatten Registrierung abgeschlossen.

Baidu-Gründer Robin Li kritisierte öffentlich, dass die Existenz vieler aktueller Basismodelle eine Verschwendung von Ressourcen sei, und schlug vor, Ressourcen stärker zu nutzen, um die Möglichkeit der Kombination von Modellen mit Branchen zu erkunden und die nächste potenzielle Superanwendung zu entwickeln.

Dies ist auch ein Kernthema in der aktuellen KI-Branche, der unverhältnismäßige Widerspruch zwischen der Zunahme der Modellzahl und der Umsetzung praktischer Anwendungen.

Angesichts dieser Herausforderung hat sich die Branche nach und nach darauf konzentriert, die Anwendung der KI-Technologie zu beschleunigen, und kleine Modelle mit niedrigen Bereitstellungskosten und höherer Effizienz sind zu einem geeigneteren Durchbruchspunkt geworden.

Es entstehen auch einige kleine Modelle, die sich auf bestimmte Bereiche konzentrieren, beispielsweise große Kochmodelle und große Modelle für Live-Streaming. Obwohl diese Namen vielleicht etwas bluffend wirken, sind sie genau auf dem richtigen Weg.

Kurz gesagt, KI wird in Zukunft nicht mehr eine einzelne, riesige Existenz sein, sondern vielfältiger und personalisierter sein. Der Aufstieg kleiner Modelle spiegelt diesen Trend wider. Ihre hervorragende Leistung bei bestimmten Aufgaben beweist, dass „klein aber fein“ auch Respekt und Anerkennung gewinnen kann.

Eine Sache noch

Wenn Sie das Modell vorab auf Ihrem iPhone ausführen möchten, können Sie es auch mit einer iOS-App namens „Hugging Chat“ versuchen, die von Hugging Face gestartet wurde.

Durch das Herunterladen der App mit einem Magic and Outer Zone App Store-Konto können Benutzer auf eine Vielzahl von Open-Source-Modellen zugreifen und diese nutzen, darunter unter anderem Phi 3, Mixtral, Command R+ und andere Modelle.

Herzliche Erinnerung: Für ein besseres Erlebnis und eine bessere Leistung wird empfohlen, die Pro-Version des iPhone der neuesten Generation zu verwenden.

Nachricht

Hinter dem kleineren und leistungsstärkeren GPT-4o mini sieht die Zukunft der KI-Modelle nicht mehr so aus, dass größer gleich besser ist

Einführung

meine Kontaktdaten

Nachricht

Hinter dem kleineren und leistungsstärkeren GPT-4o mini sieht die Zukunft der KI-Modelle nicht mehr so ​​aus, dass größer gleich besser ist

Einführung

meine Kontaktdaten

Hinter dem kleineren und leistungsstärkeren GPT-4o mini sieht die Zukunft der KI-Modelle nicht mehr so aus, dass größer gleich besser ist