notizia

La guerra dei prezzi è feroce e il piccolo modello di intelligenza artificiale è in forte ascesa

2024-07-30

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

L’esplosione di piccoli modelli di intelligenza artificiale è diventata una nuova arena in cui i giganti dell’intelligenza artificiale possono competere.

La guerra dei prezzi dei grandi modelli è in corso da sempre. Le aziende di intelligenza artificiale che hanno investito ingenti somme di denaro hanno urgente bisogno di fare ulteriori progressi nelle loro storie commerciali. Recentemente hanno lanciato i propri piccoli modelli a basso costo e facili da implementare ed è iniziata una nuova tornata di gare.

Innanzitutto, HuggingFace ha rilasciato SmolLM - 135M, 360M e 1.7B. Ha utilizzato solo token da 650B per l'addestramento, ma le sue prestazioni hanno superato Qwen 1.5B e Phi 1.5B.

Il giorno successivo, Mistral AI e NVIDIA hanno rilasciato congiuntamente Mistral NeMo, definito "il miglior modello piccolo di Mistral AI. È facile da usare e può sostituire direttamente qualsiasi sistema che utilizza Mistral 7B".

Lo stesso giorno, OpenAI ha fatto "shopping sfrenato" e ha lanciato una versione mini di GPT-4o - GPT-4o Mini. Ha definito questo nuovo modello "il modello a parametri ridotti più potente ed economico" e lo ha considerato come The il modello di visualizzazione sostituisce la posizione "front stage" della versione web di GPT-3.5.

Per non essere da meno, Apple ha rilasciato il modello piccolo DCLM lo stesso giorno di OpenAI ed è diventato open source non appena è stato rilasciato. "Questo è il modello veramente open source con le migliori prestazioni fino ad oggi", ha affermato Vaishaal Shankar, ricercatore del team ML di Apple.

Questi modelli hanno parametri piccoli e occupano meno memoria. In scenari specifici, dopo la messa a punto, i risultati possono essere paragonabili a modelli di grandi dimensioni, rendendoli una scelta conveniente.

"I piccoli modelli devono essere più facili da realizzare valore." Xu Xiaotian, capo architetto dei dati e dell'intelligenza artificiale di IBM Cina, ha dichiarato in un'intervista con un giornalista del 21st Century Business Herald: "Un gruppo di piccoli modelli professionisti collabora con gli agenti per raggiungere l’integrazione dei flussi commerciali, della funzionalità e dell’economia sarà più fattibile sessualmente”.

Nel campo di battaglia del modello generativo dell’IA, la velocità di iterazione è estremamente elevata. Il “migliore” di oggi potrebbe essere immediatamente sconfitto dalla nuova versione di domani, e i “record storici” vengono costantemente ribaltati e riscritti. "I modelli vengono aggiornati troppo velocemente ed è difficile giudicare. Un produttore afferma che è il 'più grande e il migliore', mentre un altro produttore afferma che è il 'il più piccolo e il migliore.'" Un osservatore esperto nel campo dell'intelligenza artificiale l'industria ha detto al 21st Century Business Herald Secondo i giornalisti, i modelli di intelligenza artificiale sono sorprendenti Se le aziende di intelligenza artificiale vogliono avere successo nelle storie di business, devono lavorare dieci o cento volte.


Fonte immagine: disegno creativo Xu Shuxing


Il binario per modellino piccolo si apre "roll"

I giganti dell’intelligenza artificiale stanno lanciando intensamente piccoli modelli per competere non solo in termini di prestazioni ma anche di prezzo.

Secondo il sito web ufficiale di Open AI, nei test benchmark come MMLU, MGSM, HumanEval e MMMU, GPT-4o mini ha dimostrato un migliore ragionamento testuale e visivo e un ragionamento matematico rispetto a modelli piccoli come GPT-3.5 Turbo e Gemini Flash, Claude Haiku, capacità di codifica e ragionamento multimodale, in particolare capacità di ragionamento matematico e di codifica, sono di gran lunga migliori di GPT-3.5 Turbo e altri modelli piccoli e leggermente più deboli di GPT-4o. Nelle ultime classifiche dell'arena dei blind test LMSYS, GPT-4o mini ha anche ottenuto il primo posto insieme a GPT-4o. Anche il CEO di OpenAI Sam Altman non ha potuto nascondere la sua eccitazione e ha pubblicato sulla piattaforma dei social media, dicendo: "Non siamo mai stati così emozionati. su qualsiasi valutazione."

Oltre alle ottime prestazioni, OpenAI presenta anche una carta vincente a basso costo. Quando è andato online il 18 luglio, OpenAI ha annunciato che GPT-4o mini avrebbe un prezzo di 15 centesimi per milione di token di input e 60 centesimi per milione di token di output, ovvero oltre il 60% in meno rispetto a GPT-3.5 Turbo. Il 24 luglio OpenAI ha nuovamente annunciato che da oggi fino al 23 settembre fornirà gratuitamente i servizi di mini fine tuning GPT-4o per gli utenti di livello 4 e 5, con un limite giornaliero di 2 milioni di token, e l'eccedenza verrà addebitata a 3 dollari per 1 milione di token. OpenAI ha dichiarato: "Ci aspettiamo che GPT-4o mini amplierà l'ambito di applicazione dell'intelligenza artificiale e renderà l'intelligenza artificiale più conveniente".

Il rapporto di ricerca di Ping An Securities ritiene che GPT-4o mini sia una nuova generazione di "piccolo modello" di intelligenza artificiale entry-level con un prezzo significativamente ridotto, che ha sia prestazioni che convenienza. Attualmente, i modelli di grandi dimensioni in tutto il mondo stanno gradualmente mostrando una tendenza di sviluppo che si sta spostando da una competizione unilaterale sulle prestazioni a una che enfatizza sia le prestazioni che la praticità. Quando le capacità dei modelli di grandi dimensioni raggiungono un certo livello, si sposteranno inevitabilmente verso l’applicazione Migliorando il rapporto costi-benefici dei loro prodotti e promuovendo la promozione e l’implementazione di applicazioni a valle, ci si aspetta che i grandi produttori di modelli accelerino la formazione di un circuito commerciale chiuso nel settore. catena industriale di grande modello.

Anche il modello Apple DCLM rilasciato dopo GPT-4o mini attira l'attenzione. DCLM ha reso completamente open source il codice, i pesi, il processo di formazione e i set di dati. DCLM è diviso in due dimensioni: 1,4 miliardi di parametri e 7 miliardi di parametri. La sua versione da 7 miliardi di parametri supera Mistral-7B e le sue prestazioni sono vicine a Llama 3 e Gemma. Sul benchmark MMLU (5 colpi), DCLM-7B ha raggiunto una precisione del 63,7%. Secondo i ricercatori, questa prestazione migliora del 6,6% rispetto al precedente modello di linguaggio open data all’avanguardia MAP-Neo e richiede il 40% in meno di calcoli. Ancora più importante, questo risultato supera Mistral-7B-v0.3 con una precisione del 62,7% ed è vicino a Gemma 8B con una precisione del 64,3%, Llama3 8B con una precisione del 66,2% e Phi-3 7B con una precisione del 69,9%.

Piuttosto che “più grande è meglio”, Apple preferisce seguire il percorso del modello piccolo. Nell'aprile di quest'anno, Apple ha annunciato una famiglia di quattro modelli di grandi dimensioni pre-addestrati chiamati OpenELM, che erano di dimensioni estremamente ridotte. A quel tempo, si stavano già muovendo verso l'obiettivo di "consentire all'intelligenza artificiale di funzionare localmente sui dispositivi Apple".

A giugno, Apple ha rivelato la sua tabella di marcia per lo sviluppo dell'intelligenza artificiale e ha pianificato di incorporare senza problemi piccoli modelli nei dispositivi mobili, il che non solo raggiungerà l'obiettivo di "più veloce e più sicuro", ma risolverà anche il problema finale dell'integrazione di dispositivi mobili e modelli in un colpo solo. .

Mistral NeMo, realizzato in collaborazione con Mistral AI e NVIDIA, è sottoposto a una fase avanzata di messa a punto e allineamento per eccellere nel seguire istruzioni precise, ragionare, gestire più cicli di conversazioni e generare codice. Resta inteso che Mistral NeMo si rivolge principalmente agli ambienti aziendali e mira a consentire alle imprese di implementare soluzioni di intelligenza artificiale senza richiedere grandi quantità di risorse cloud.

In un'intervista con Venturebeat, Bryan Catanzaro, vicepresidente della ricerca applicata sul deep learning presso NVIDIA, ha approfondito i vantaggi dei piccoli modelli. "I modelli piccoli sono più facili da ottenere e gestire e possono avere modelli di business diversi perché le persone possono eseguirli sui propri sistemi a casa", ha affermato.

I modelli di grandi dimensioni sono entrati nella seconda metà. Dai volumi tecnici alle applicazioni, il mercato è sempre più interessato a modelli ad alta efficienza e a basso costo che siano più facili da implementare localmente. Ciò riflette il desiderio di sicurezza, privacy, alta efficienza e costi elevati prestazione.

Gli analisti del settore ritengono che esista una nuova chiara tendenza nell'implementazione dell'intelligenza artificiale, ovvero modelli che possono funzionare in modo efficiente su hardware locale, che sta dissipando le preoccupazioni di molte aziende sull'adozione su larga scala di soluzioni di intelligenza artificiale, come la privacy dei dati, la latenza e l'elevata costi. “Ciò potrebbe rendere la concorrenza più equa e anche le piccole imprese con risorse limitate riceveranno la benedizione dei modelli di intelligenza artificiale, colmando così il divario intrinseco con le grandi imprese”.


Mettiti al volante del piccolo modello di pista

Perché i giganti dell’intelligenza artificiale stanno aprendo piste per modelli di piccole dimensioni? in parte o per considerazioni di costo.

I modelli di grandi dimensioni sono costosi da sviluppare e gestire e persino giganti come OpenAI faticano a permetterseli.

Recentemente, un insider ha analizzato che “OpenAI potrebbe perdere 5 miliardi di dollari quest’anno e affrontare il rischio di rimanere senza fondi entro 12 mesi”. A partire da marzo di quest'anno, OpenAl ha speso quasi 4 miliardi di dollari per affittare server Microsoft per eseguire ChatGPT e il suo modello LLM (Large Language Model) sottostante. Oltre alla gestione di ChatGPT, i costi di formazione di OpenAl, comprese le tariffe per i dati, potrebbero salire a 3 miliardi di dollari quest'anno. L’anno scorso, OpenAl ha accelerato la formazione di nuove IA più velocemente di quanto inizialmente previsto, secondo persone a conoscenza della questione. OpenAl aveva inizialmente pianificato di spendere circa 800 milioni di dollari per tali costi, ma ha finito per spendere molto di più.

In confronto, i modelli piccoli hanno un costo contenuto, una risposta rapida e possono essere eseguiti localmente, rendendoli più adattabili a esigenze di utilizzo personalizzate e precise. Gli addetti ai lavori del settore hanno affermato: "Con l'hardware di intelligenza artificiale globale che scarseggia, i modelli piccoli significano costi di implementazione e formazione inferiori e i loro effetti di output sono sufficienti per gestire alcuni compiti specifici".

Un importante uomo d'affari responsabile di un'azienda nazionale di intelligenza artificiale ha detto a un giornalista del 21st Century Business Herald che una piccola scala di parametri può far risparmiare significativamente sui costi di inferenza. Il costo dell'hardware richiesto per l'addestramento e l'adattamento del modello è di gran lunga inferiore a quello di un modello di grandi dimensioni. Gli sviluppatori maturi possono anche addestrare modelli verticali a basso costo, i costi di queste operazioni sono molto inferiori a quelli dei modelli di grandi dimensioni.

La recente previsione di Andrej Karpathy, membro fondatore di OpenAI ed ex direttore senior dell’intelligenza artificiale presso Tesla, è abbastanza rappresentativa. Ha proposto che la competizione dimensionale dei modelli generativi verrà invertita per competere con il modello più piccolo e intelligente.

Nella spiegazione di Andrej Karpathy, il motivo per cui l'attuale modello grande è così grande è che è ancora molto dispendioso durante l'allenamento. Sebbene il modello grande abbia una memoria molto buona, significa anche che ricorda molti dettagli irrilevanti quei contenuti Questo non dovrebbe essere chiamato ripetutamente in un problema specifico.

Per i modelli di piccole dimensioni, gli obiettivi di formazione diventano più semplici, più diretti e più efficienti, consentendo all’IA di apprendere più informazioni utili in modo più diretto.

Tuttavia, i modelli grandi e quelli piccoli non sono una "scelta" e i loro percorsi di sviluppo hanno ancora l'importanza di imparare gli uni dagli altri.

Andrej Karpathy ha affermato: "Il modello deve prima diventare più grande prima di poter rimpicciolirsi. Perché abbiamo bisogno di modelli di grandi dimensioni per ricostruire e modellare i dati in una forma ideale. Un modello aiuta a generare dati di addestramento per il modello successivo e ottiene gradualmente un addestramento perfetto impostato. Quindi alimentalo al modello piccolo, che non ha bisogno di ricordare tutto ma ha bisogno di cercarlo di tanto in tanto per assicurarsi che sia accurato.

Robin Li ha anche affermato alla Baidu AI Developer Conference Create 2024 che in futuro le applicazioni native AI su larga scala saranno fondamentalmente l'architettura Moe, che è un mix di modelli grandi e piccoli. Robin Li ha anche affermato che distillare un modello di base attraverso la compressione di un modello di grandi dimensioni e quindi addestrarlo con i dati è molto meglio che addestrare un modello piccolo da zero. È migliore, più veloce e più conveniente di un modello addestrato sulla base di un modello open source . Basso.