Microsoft e NVIDIA scommettono sui modelli piccoli I modelli grandi non sono più popolari?

2024-08-26

Nello sviluppo dell’intelligenza artificiale, i giganti della tecnologia un tempo gareggiavano per sviluppare modelli linguistici su larga scala, ma ora è emersa una nuova tendenza: i modelli linguistici piccoli (SLM) stanno gradualmente emergendo, sfidando il concetto passato di “più grande è meglio”.

Cina visiva

Il 21 agosto, ora locale, Microsoft e NVIDIA hanno rilasciato successivamente gli ultimi modelli in piccolo linguaggio: Phi-3.5-mini-instruct e Mistral-NeMo-Minitron8B. Il principale punto di forza di entrambi i modelli è il buon equilibrio tra utilizzo delle risorse di calcolo e prestazioni funzionali. In un certo senso, le loro prestazioni possono persino competere con i modelli più grandi.

Clem Delangue, CEO della startup di intelligenza artificiale Hugging Face, ha sottolineato che fino al 99% degli scenari di utilizzo possono essere risolti da SLM e ha previsto che il 2024 sarà l’anno di SLM. Secondo statistiche incomplete, i giganti della tecnologia tra cui Meta, Microsoft e Google hanno rilasciato quest'anno 9 piccoli modelli.

I costi di formazione dei modelli di grandi dimensioni aumentano

L’ascesa dell’SLM non è casuale, ma è strettamente correlata alle sfide dei modelli di grandi dimensioni (LLM) in termini di miglioramento delle prestazioni e consumo di risorse.

Un confronto delle prestazioni pubblicato ad aprile dalle startup AI Vellum e Hugging Face ha mostrato che il divario prestazionale tra i LLM si sta riducendo rapidamente, soprattutto in compiti specifici come domande a scelta multipla, ragionamento e problemi matematici, dove le differenze tra i modelli di punta sono estremamente grandi . Piccolo. Ad esempio, nelle domande a scelta multipla, Claude 3 Opus, GPT-4 e Gemini Ultra hanno raggiunto tutti una precisione superiore all'83%, mentre nei compiti di inferenza, Claude3 Opus, GPT-4 e Gemini 1.5Pro hanno tutti raggiunto una precisione di oltre il 92%.

Gary Marcus, ex capo di Uber AI, ha sottolineato: "Penso che tutti direbbero che GPT-4 è un passo avanti rispetto a GPT-3.5, ma da allora non c'è stato alcun salto di qualità in più di un anno".

Rispetto al limitato miglioramento delle prestazioni, il costo della formazione del LLM è in costante aumento. L’addestramento di questi modelli richiede enormi quantità di dati e centinaia di milioni o addirittura trilioni di parametri, con un conseguente consumo di risorse estremamente elevato. La potenza di calcolo e il consumo di energia necessari per formare ed eseguire il LLM sono sconcertanti, rendendo difficile per le piccole organizzazioni o gli individui partecipare allo sviluppo LLM di base.

L'Agenzia internazionale per l'energia stima che il consumo di elettricità relativo ai data center, alla criptovaluta e all'intelligenza artificiale sarà più o meno equivalente all'intero consumo di elettricità del Giappone entro il 2026.

Il CEO di OpenAI Altman una volta ha dichiarato in un evento del MIT che l'addestramento di GPT-4 costerebbe almeno 100 milioni di dollari, mentre il CEO di Anthropic Dario Amodei ha previsto che il costo dell'addestramento del modello potrebbe raggiungere i 100 miliardi di dollari in futuro.

Inoltre, anche la complessità degli strumenti e delle tecniche necessari per utilizzare LLM aumenta la curva di apprendimento degli sviluppatori. L'intero processo, dalla formazione alla distribuzione, richiede molto tempo, rallentando lo sviluppo. Uno studio dell’Università di Cambridge mostra che le aziende possono impiegare 90 giorni o più per implementare un modello di machine learning.

Un altro grosso problema con LLM è che è incline all'"illusione", ovvero l'output generato dal modello sembra ragionevole, ma in realtà non è corretto. Questo perché LLM è addestrato a prevedere la parola successiva più probabile in base ai modelli presenti nei dati, piuttosto che a comprendere veramente le informazioni. Di conseguenza, LLM può generare con sicurezza false dichiarazioni, fabbricare fatti o combinare concetti non correlati in modi assurdi. Come individuare e ridurre queste "illusioni" è una sfida continua nello sviluppo di modelli linguistici affidabili e affidabili.

I modelli piccoli riducono i costi

Le preoccupazioni circa l’enorme fabbisogno energetico del LLM, nonché le opportunità di mercato per fornire alle imprese opzioni di intelligenza artificiale più diversificate, hanno portato le aziende tecnologiche a rivolgere gradualmente la loro attenzione al SLM.

I giornalisti del "Daily Economic News" hanno notato che sia le startup AI come Arcee, Sakana AI e Hugging Face, sia i giganti della tecnologia, stanno attirando investitori e clienti attraverso SLM e metodi più economici.

In precedenza, Google, Meta, OpenAI e Anthropic hanno tutti rilasciato piccoli modelli più compatti e flessibili rispetto all'ammiraglia LLM. Ciò non solo riduce i costi di sviluppo e implementazione, ma fornisce anche ai clienti commerciali una soluzione più economica. Date le crescenti preoccupazioni tra gli investitori riguardo ai costi elevati e ai rendimenti incerti delle iniziative legate all’intelligenza artificiale, un numero maggiore di aziende tecnologiche potrebbe scegliere questa strada. Anche Microsoft e NVIDIA hanno ora lanciato i propri modelli piccoli (SLM).

Gli SLM sono versioni semplificate degli LLM con meno parametri e progettazioni più semplici e richiedono meno dati e tempi di formazione: solo minuti o ore. Ciò rende SLM più efficiente e più facile da implementare su dispositivi di piccole dimensioni. Ad esempio, possono essere integrati nei telefoni cellulari senza impegnare risorse di supercalcolo, riducendo così i costi e migliorando significativamente la reattività.

Un altro grande vantaggio di SLM è la sua specializzazione per applicazioni specifiche. Gli SLM si concentrano su compiti o domini specifici, il che li rende più efficienti nelle applicazioni pratiche. Ad esempio, gli SLM spesso superano i modelli generici nell'analisi del sentiment, nel riconoscimento delle entità denominate o nella risposta a domande specifiche del dominio. Questa personalizzazione consente alle aziende di creare modelli che soddisfano in modo efficiente le loro esigenze specifiche.

Gli SLM sono anche meno inclini alle “allucinazioni” all’interno di un dominio specifico perché sono generalmente addestrati su set di dati più ristretti e mirati, il che aiuta il modello ad apprendere i modelli e le informazioni più rilevanti per il suo compito. La natura mirata della SLM riduce la probabilità di generare output irrilevanti, inaspettati o incoerenti.

Nonostante le sue dimensioni ridotte, le prestazioni dell'SLM non sono inferiori sotto alcuni aspetti ai modelli più grandi. L'ultimo Phi-3.5-mini-instruct di Microsoft ha solo 3,8 miliardi di parametri, ma le sue prestazioni sono migliori rispetto ai modelli con parametri molto più alti di Llama3.18B e Mistral7B. Aaron Mueller, esperto di ricerca sui modelli linguistici presso la Northeastern University (un'importante università di ricerca privata con sede a Boston, Massachusetts, USA), ha sottolineato che l'espansione del numero di parametri non è l'unico modo per migliorare le prestazioni del modello producono anche risultati simili.

Il CEO di OpenAI Altman ha dichiarato in un evento di aprile che crede che siamo alla fine dell'era dei modelli giganti e che "miglioreremo le loro prestazioni in altri modi".

Tuttavia, va notato che, sebbene la specializzazione della SLM rappresenti un grande vantaggio, presenta anche dei limiti. Questi modelli possono avere scarse prestazioni al di fuori del loro specifico ambito di formazione, mancano di un’ampia base di conoscenze e non sono in grado di generare contenuti rilevanti su un’ampia gamma di argomenti rispetto al LLM. Questa limitazione richiede che gli utenti possano dover implementare più SLM per coprire diverse aree di domanda, complicando così l’infrastruttura AI.

Con il rapido sviluppo del campo dell’intelligenza artificiale, gli standard per i modelli di piccole dimensioni potrebbero continuare a cambiare. David Ha, co-fondatore e amministratore delegato della startup Sakana con sede a Tokyo, ha affermato che i modelli di intelligenza artificiale che sembravano enormi qualche anno fa ora sembrano “modesti”. "Le dimensioni sono sempre relative", ha detto David Ha.

notizie economiche quotidiane

Segnalazione/feedback

notizia

Microsoft e NVIDIA scommettono sui modelli piccoli I modelli grandi non sono più popolari?

Introduzione

Le mie informazioni di contatto