Jia Yangqing: I modelli di grandi dimensioni stanno tornando al vecchio percorso della CNN. Musk: lo stesso vale per Tesla

Jia Yangqing: I modelli di grandi dimensioni stanno tornando al vecchio percorso della CNN. Musk: lo stesso vale per Tesla;

2024-08-01

La casa ha origine dal Tempio Aofei
Qubit |. Account pubblico QbitAI

Le dimensioni del modello grande di Transformer cambiano e sta tornando al vecchio percorso della CNN!

Visto che tutti sono attratti da LLaMA 3.1,Jia YangqingChe sentimento.

Confrontando lo sviluppo di modelli di grandi dimensioni con lo sviluppo della CNN, possiamo trovare una tendenza e un fenomeno evidenti:

Nell'era di ImageNet, ricercatori e professionisti tecnici hanno assistito a una rapida crescita delle dimensioni dei parametri e poi hanno iniziato a passare a modelli più piccoli ed efficienti.

Sembra lo stesso dell'aumento dei parametri del modello da parte di GPT? L'industria generalmente è d'accordo con la legge sullo scaling, e poi appaiono GPT-4o mini, Apple DCLM-7B e Google Gemma 2B?

Jia Yangqing ha detto con un sorriso: "Questo risale all'era pre-grande modello e molte persone potrebbero non ricordarlo bene :)".

Inoltre, Jia Yangqing non è l’unica a percepirlo.Anche il maestro dell'intelligenza artificiale Kapasi la pensa così：

La concorrenza nei modelli di grandi dimensioni è in aumento... ma i rotoli stanno arrivando nella direzione opposta!
Il modello deve prima perseguire il "più grande" prima di perseguire il "più piccolo", perché abbiamo bisogno che questo processo ci aiuti a ricostruire i dati di addestramento in un formato ideale e sintetico.

Scommette addirittura che vedremo modelli buoni e affidabili per pensare.

E la scala dei parametri è molto piccola.

Anche Musk ha ripetutamente affermato nell'area commenti di Kapasi:

Quanto sopra può probabilmente essere definito "i grandi vedono la stessa cosa".

Espandi e parla

L'emozione di Jia Yangqing inizia con LLaMA 3.1, che è rimasto sul trono più forte solo per un breve giorno.

Era la prima volta che veniva realizzato "il modello open source più forte = il modello più forte". Non sorprende che abbia attirato molta attenzione.

Tuttavia, Jia Yangqing a questo punto ha avanzato un punto:

"Ma io penso,L’industria prospererà davvero grazie ai piccoli modelli verticali。”

Per quanto riguarda cosa siano i piccoli modelli verticali, anche Jia Yangqing lo ha chiarito molto chiaramente, come quei grandi modelli di piccole e medie dimensioni rappresentati da Iynx di Patrouns AI (il modello di rilevamento delle allucinazioni dell'azienda, che supera GPT-4o nei compiti di allucinazioni).

Jia Yangqing ha detto che in termini di preferenze personali, personalmente gli piace molto il modello da 100 miliardi di parametri.

Ma in realtà ha osservato che i modelli di grandi dimensioni con intervalli di parametri compresi tra 7B e 70B sono più facili da usare per tutti:

Sono più facili da ospitare e non richiedono un traffico enorme per essere redditizi;
Finché poni domande chiare, puoi ottenere risultati di qualità decente, contrariamente ad alcune credenze precedenti.

Allo stesso tempo, ha sentito che anche gli ultimi modelli più veloci di OpenAI stavano iniziando a diventare più piccoli rispetto ai modelli più grandi "all'avanguardia".

"Se ho capito bene, questo è sicuramente indicativo delle tendenze del settore." Jia Yangqing ha affermato direttamente il suo punto di vista, "vale a dire, nel mondo reale, utilizzare modelli applicabili, convenienti e comunque potenti".

Da allora, Jia Yangqing ha brevemente risolto la storia dello sviluppo della CNN.

Innanzitutto è l’era dell’ascesa della CNN.

Prendendo AlexNet (2012) come punto di partenza, è iniziato un periodo di circa tre anni di crescita su scala modello.

VGGNet, apparso nel 2014, è un modello con prestazioni e dimensioni molto potenti.

In secondo luogo, c’è un periodo di ridimensionamento.

Nel 2015, GoogleNet ha ridotto le dimensioni del modello dal livello "GB" al livello "MB", ovvero una riduzione di 100 volte, tuttavia, le prestazioni del modello non sono diminuite drasticamente a causa di ciò, ma hanno mantenuto buone prestazioni;

Seguendo tendenze simili troviamo il modello SqueezeNet lanciato nel 2015.

Per un certo periodo, il focus dello sviluppo è stato il perseguimento dell’equilibrio.

Studi successivi, come ResNet (2015), ResNeXT (2016), ecc., hanno mantenuto una dimensione del modello moderata.

Vale la pena notare che il controllo delle dimensioni del modello non comporta una riduzione della quantità di calcoli - infatti, tutti sono disposti a investire più risorse di calcolo e ricercare uno stato con "stessi parametri ma più efficienti".

Quello che seguì fu un periodo in cui la CNN ballava a margine.

Ad esempio, MobileNet è uno sforzo interessante lanciato da Google nel 2017.

La cosa interessante è che occupa pochissime risorse ma ha ottime prestazioni.

Proprio la settimana scorsa, qualcuno ha detto a Jia Yangqing: "Wow~ stiamo ancora utilizzando MobileNet perché può essere eseguito sul dispositivo e ha funzionalità eccellenti che incorporano generalità."

Infine, Jia Yangqing ha preso in prestito un'immagine da "A Survey on Efficient Convolutional Neural Networks and Hardware Acceleration" di Ghimire et al.:

E ancora una volta ha posto la sua domanda:

I modelli di grandi dimensioni seguiranno la stessa tendenza dell’era della CNN?

Cosa pensano i netizen?

Sono infatti molti gli esempi di GPT-4o mini che intraprendono la strada dello sviluppo di modelli di grandi dimensioni, “non grandi ma piccoli”.

Quando le persone sopra menzionate hanno espresso questo punto di vista, alcune persone hanno immediatamente annuito e hanno presentato altri esempi simili per dimostrare di aver visto la stessa tendenza.

Qualcuno lo seguì immediatamente:

Ho un nuovo esempio positivo qui! Gemma-2 distilla la conoscenza del modello con una dimensione dei parametri di 27B in una versione più piccola.

Alcuni netizen hanno affermato che sviluppare modelli più grandi significa “intensificare” la formazione delle generazioni successive di modelli più piccoli e più verticali.

Questo processo iterativo alla fine produce quello che viene chiamato un "set di addestramento perfetto".

In questo modo, i modelli più piccoli e di grandi dimensioni possono essere altrettanto intelligenti o addirittura più intelligenti dei modelli di grandi dimensioni di oggi con parametri enormi in campi specifici.

In poche parole,Il modello deve prima essere ingrandito prima di poter essere rimpicciolito.

La maggior parte delle persone che hanno discusso di questo punto di vista sono ancora d'accordo con questa tendenza. Alcune persone hanno detto senza mezzi termini: "Questa è una buona cosa ed è più pratica e utile della concorrenza basata sul parametro "Il mio modello è più grande del tuo modello".

Ma certo!

Navigando nelle sezioni dei commenti online,Altri facevano rumori diversi.

Ad esempio, questo amico ha lasciato un messaggio sotto il tweet di Jia Yangqing:

Mistral Large (la società dietro, Mistral AI), LLaMA 3.1 (la società dietro, Meta) e OpenAI, le aziende con i modelli più competitivi, potrebbero attualmente addestrare modelli più grandi.
Non vedo una tendenza alle “scoperte tecnologiche con modelli più piccoli”.

Di fronte a questa domanda, Jia Yangqing ha risposto prontamente.

Questo è quello che ha detto: "Esatto! Quando dico che i modelli di grandi dimensioni potrebbero seguire il vecchio percorso della CNN, non intendo assolutamente invitare tutti a smettere di addestrare modelli più grandi".

Ha inoltre spiegato che l'intenzione originale di dire questo è che man mano che la tecnologia (inclusa la CNN e i modelli di grandi dimensioni) diventa sempre più ampiamente implementata, tutti hanno iniziato a prestare sempre più attenzione a modelli più convenienti. "

Pertanto, forse modelli piccoli e grandi più efficienti possono ridefinire “l’intelligenza” dell’intelligenza artificiale e sfidare il presupposto secondo cui “più grande è meglio”.

Sei d'accordo con questo punto di vista?

Link di riferimento:
[1]https://x.com/jiayq/status/1818703217263624385
[2]https://x.com/fun000001/status/1818791560697594310
[3]https://www.patronus.ai/
[4]https://twitter.com/karpathy/status/1814038096218083497

notizia