Jia Yangqing: Große Modellgrößen kehren zum alten Weg zurück von CNN; Das Gleiche gilt für Tesla

2024-08-01

Das Haus stammt aus dem Aofei-Tempel
Qubits |. Öffentliches Konto QbitAI

Die große Modellgröße von Transformer ändert sich und es kehrt zum alten Weg von CNN zurück!

Da jeder von LLaMA 3.1 angezogen wird,Jia YangqingSo ein Gefühl.

Wenn wir die Entwicklung großer Modellgrößen mit der Entwicklung von CNN vergleichen, können wir einen offensichtlichen Trend und ein offensichtliches Phänomen feststellen:

In der ImageNet-Ära erlebten Forscher und technische Praktiker ein schnelles Wachstum der Parametergrößen und begannen dann, auf kleinere, effizientere Modelle umzusteigen.

Klingt es genauso wie die Skalierung der Modellparameter durch GPT? Die Branche stimmt dem Skalierungsgesetz im Allgemeinen zu, und dann erscheinen GPT-4o mini, Apple DCLM-7B und Google Gemma 2B?

Jia Yangqing sagte mit einem Lächeln: „Das ist aus der Zeit vor den großen Modellen, und viele Leute erinnern sich vielleicht nicht mehr so gut daran :)“.

Darüber hinaus ist Jia Yangqing nicht der Einzige, der dies wahrnimmt.Das glaubt auch KI-Meister Kapasi：

Der Wettbewerb bei großen Modellgrößen nimmt zu ... aber die Erfolge gehen in die entgegengesetzte Richtung!
Das Modell muss zuerst „größer“ anstreben, bevor es „kleiner“ anstrebt, da wir diesen Prozess benötigen, um die Trainingsdaten in ein ideales, synthetisches Format zu rekonstruieren.

Er geht sogar davon aus, dass wir Modelle sehen werden, die gut und zuverlässig zum Denken sind.

Und die Parameterskala ist sehr klein.

Sogar Musk sagte wiederholt im Kommentarbereich von Kapasi:

Das oben Gesagte kann man wahrscheinlich als „Große Leute sehen das Gleiche“ bezeichnen.

Erweitern und reden

Die Emotionen von Jia Yangqing beginnen mit LLaMA 3.1, das nur einen kurzen Tag auf dem stärksten Thron blieb.

Es war das erste Mal, dass „das stärkste Open-Source-Modell = das stärkste Modell“ realisiert wurde. Es überrascht nicht, dass es große Aufmerksamkeit erregte.

Allerdings brachte Jia Yangqing zu diesem Zeitpunkt einen Punkt vor:

"Aber ich denke,Die Branche wird von kleinen vertikalen Modellen wirklich gedeihen。”

Was kleine vertikale Modelle sind, machte Jia Yangqing ebenfalls sehr deutlich, wie etwa die großen kleinen und mittelgroßen Modelle, die durch Iynx von Patrouns AI repräsentiert werden (das Halluzinationserkennungsmodell des Unternehmens, das GPT-4o bei Halluzinationsaufgaben übertrifft).

Jia Yangqing sagte, dass er persönlich das 100-Milliarden-Parameter-Modell sehr mag.

In Wirklichkeit stellte er jedoch fest, dass große Modelle mit Parameterbereichen zwischen 7B und 70B für jedermann einfacher zu verwenden sind:

Sie sind einfacher zu hosten und erfordern keinen großen Datenverkehr, um profitabel zu sein.
Solange Sie klare Fragen stellen, können Sie – im Gegensatz zu einigen früheren Annahmen – eine anständige Qualitätsausgabe erhalten.

Gleichzeitig hörte er, dass die neuesten, schnelleren Modelle von OpenAI auch kleiner wurden als die „modernen“ größeren Modelle.

„Wenn ich das richtig verstehe, dann ist dies definitiv ein Hinweis auf Branchentrends.“ Jia Yangqing brachte seinen Standpunkt direkt zum Ausdruck: „Das heißt, in der realen Welt Modelle zu verwenden, die anwendbar, kostengünstig und dennoch leistungsstark sind.“

Seitdem hat Jia Yangqing kurz die Entwicklungsgeschichte von CNN geklärt.

Erstens ist es die Ära des Aufstiegs von CNN.

Ausgehend von AlexNet (2012) begann eine etwa dreijährige Phase des Modellwachstums.

VGGNet, das 2014 erschien, ist ein Modell mit sehr starker Leistung und Skalierbarkeit.

Zweitens gibt es eine Phase des Personalabbaus.

Im Jahr 2015 reduzierte GoogleNet die Modellgröße von „GB“ auf „MB“, was einer Reduzierung um das Hundertfache entspricht. Die Modellleistung ging dadurch jedoch nicht stark zurück, sondern behielt eine gute Leistung bei.

Ähnlichen Trends folgt das 2015 eingeführte SqueezeNet-Modell.

Eine Zeit lang lag der Schwerpunkt der Entwicklung auf dem Streben nach Ausgewogenheit.

Nachfolgende Studien wie ResNet (2015), ResNeXT (2016) usw. haben eine moderate Modellgröße beibehalten.

Es ist erwähnenswert, dass die Kontrolle der Modellgröße nicht zu einer Reduzierung der Berechnungsmenge führt – tatsächlich ist jeder bereit, mehr Rechenressourcen zu investieren und einen Zustand mit „gleichen Parametern, aber effizienter“ anzustreben.

Was folgte, war eine Zeit, in der CNN nebenbei tanzte.

MobileNet ist beispielsweise ein interessantes Projekt, das 2017 von Google gestartet wurde.

Interessant ist, dass es nur sehr wenige Ressourcen beansprucht, aber eine hervorragende Leistung bietet.

Erst letzte Woche sagte jemand gegenüber Jia Yangqing: „Wow, wir verwenden immer noch MobileNet, weil es auf dem Gerät ausgeführt werden kann und eine hervorragende Allgemeingültigkeit bei der Einbettung von Funktionen bietet.“

Schließlich entlehnte Jia Yangqing ein Bild aus „A Survey on Efficient Convolutional Neural Networks and Hardware Acceleration“ von Ghimire et al.:

Und stellte noch einmal seine Frage:

Werden große Modelgrößen dem gleichen Trend wie in der CNN-Ära folgen?

Was denken Internetnutzer?

Tatsächlich gibt es viele Beispiele dafür, dass der GPT-4o mini den Entwicklungspfad großer Modelle einschlägt, „nicht groß, sondern klein“.

Als die oben genannten Personen diese Ansicht äußerten, nickten einige sofort und führten weitere ähnliche Beispiele an, um zu beweisen, dass sie den gleichen Trend sahen.

Jemand folgte sofort:

Ich habe hier ein neues positives Beispiel! Gemma-2 destilliert Modellwissen mit einer Parametergröße von 27B in eine kleinere Version.

Einige Internetnutzer sagten, dass die Entwicklung größerer Modelle eine „Intensivierung“ der Ausbildung nachfolgender Generationen kleinerer und vertikalerer Modelle bedeute.

Dieser iterative Prozess führt letztendlich zu einem sogenannten „perfekten Trainingssatz“.

Auf diese Weise können kleinere große Modelle genauso intelligent oder sogar intelligenter sein als die heutigen großen Modelle mit riesigen Parametern in bestimmten Bereichen.

Kurzgesagt,Das Modell muss zunächst vergrößert werden, bevor es verkleinert werden kann.

Die meisten Leute, die diesen Standpunkt diskutierten, stimmen diesem Trend immer noch zu. Einige Leute sagten unverblümt: „Das ist eine gute Sache und praktischer und nützlicher als der Parameterwettbewerb ‚Mein Modell ist größer als Ihr Modell‘.“

Aber natürlich!

Durchsuchen von Online-Kommentarbereichen,Andere machten andere Geräusche.

Dieser Freund hat beispielsweise eine Nachricht unter Jia Yangqings Tweet hinterlassen:

Mistral Large (das Unternehmen dahinter, Mistral AI), LLaMA 3.1 (das Unternehmen dahinter, Meta) und OpenAI, die Unternehmen mit den wettbewerbsfähigsten Modellen, trainieren derzeit möglicherweise alle größere Modelle.
Einen Trend zu „technologischen Durchbrüchen mit kleineren Modellen“ sehe ich nicht.

Auf diese Frage antwortete Jia Yangqing prompt.

Dies ist, was er sagte: „Das ist richtig! Wenn ich sage, dass große Modelgrößen möglicherweise dem alten Weg von CNN folgen, möchte ich auf keinen Fall alle dazu auffordern, mit der Ausbildung größerer Models aufzuhören.“

Er erklärte weiter, dass die ursprüngliche Absicht dahinter sei, dass mit der zunehmenden Verbreitung von Technologie (einschließlich CNN und großen Modellen) jeder begonnen habe, kostengünstigeren Modellen immer mehr Aufmerksamkeit zu schenken. "

Daher können effizientere kleine und große Modelle möglicherweise die „Intelligenz“ der KI neu definieren und die Annahme „Größer ist besser“ in Frage stellen.

Stimmen Sie dieser Ansicht zu?

Referenzlinks:
[1]https://x.com/jiayq/status/1818703217263624385
[2]https://x.com/fun000001/status/1818791560697594310
[3]https://www.patronus.ai/
[4]https://twitter.com/karpathy/status/1814038096218083497

Nachricht