La direzione dei modelli su larga scala è cambiata e OpenAI Apple ha fatto un'inversione di rotta

La direzione dei modelli su larga scala è cambiata e OpenAI Apple ha fatto un’inversione di rotta

2024-07-22

cose intelligenti
AutoreZeR0
L'editore Mo Ying

L’intelligenza artificiale generativa sembra avere uno schema invisibile: di tanto in tanto si verifica uno scioccante evento di “incidente automobilistico” su larga scala.

Solo quest'anno è stato rilasciato il modello Google Gemini 1.5 Pro, è stato lanciato il modello di generazione video OpenAI Sora e OpenAI GPT-4o è stato rilasciato alla Google I/O Developer Conference, consentendo agli spettatori di tutto il mondo di annusare la forte concorrenza per egemonia tra i grandi modelli. L'odore della polvere da sparo.

Se tutte le coincidenze precedenti suggeriscono che OpenAI ha deliberatamente intercettato Google, nel giro di quattro giorni la settimana scorsa Hugging Face, OpenAI, Mistral e Apple hanno rilasciato successivamente i loro modelli leggeri più potenti, che è sicuramente l'ultima tendenza nel settore dell'intelligenza artificiale.

Ora, i grandi modelli di intelligenza artificiale non riguardano più solo le corse"Più grande e più forte", e si arrotolò violentemente"Fai piccole cose e fai cose belle"。

Superare GPT-4o non è più l'unico KPI. I modelli di grandi dimensioni sono entrati in un periodo critico per competere sul mercato. Per impressionare gli utenti, non dobbiamo solo fare affidamento sulla dimostrazione della forza tecnica, ma anche dimostrare che i nostri modelli costano di più -efficace--Il modello è più piccolo con le stesse prestazioni e le prestazioni sono più elevate con gli stessi parametri e si risparmia denaro.。

▲I modelli leggeri GPT-4o mini e Mistral NeMo appena rilasciati la settimana scorsa sono molto all'avanguardia in termini di rapporto costi-prestazioni (Fonte: Analisi Artificiale)

In effetti, questa tendenza tecnologica di "riavvolgimento di grandi modelli nella miniaturizzazione" ha iniziato a fermentare nella seconda metà dello scorso anno.

I game changer sono due aziende. Una è la startup francese di intelligenza artificiale Mistral AI, che nel settembre dello scorso anno ha sconfitto Llama 2 con 13 miliardi di parametri utilizzando un modello di grandi dimensioni, l'altra è la startup cinese di intelligenza artificiale Face the Wall Intelligence. Nel febbraio di quest'anno ha lanciato un modello MiniCPM end-side più concentrato, ottenendo prestazioni superiori a Llama 2 13B con soli 2,4 miliardi di parametri.

Entrambe le startup sono ben note nella comunità degli sviluppatori e molti modelli sono in cima alla hot list dell'open source. In particolare, Wall-Facing Intelligence, nato dal Natural Language Processing Laboratory dell'Università di Tsinghua, ha suscitato scalpore quest'anno quando il suo modello multimodale è stato "bombardato" da un team delle migliori università degli Stati Uniti il lavoro originale è stato riconosciuto nei circoli accademici in patria e all'estero, rendendo i modelli di intelligenza artificiale open source nazionali orgogliosi di se stessi.

Dall'anno scorso Apple ha anche iniziato a ricercare modelli lato terminale che possano adattarsi meglio ai telefoni cellulari. OpenAI, che ha seguito il percorso di un’espansione ampia e violenta, è un nuovo concorrente relativamente sorprendente. Il lancio del modello leggero GPT-4o mini la scorsa settimana significa che il fratello maggiore ha preso l'iniziativa di scendere dall '"altare" e ha iniziato a seguire la tendenza del settore, cercando di utilizzare modelli più economici e più facili da ottenere per sfruttare un mercato più ampio.

Il 2024 sarà un anno critico per la “miniaturizzazione” dei grandi modelli!

▲ Le statistiche incomplete dei modelli linguistici generali leggeri appena rilasciati nel 2024 sono incluse solo nel modello linguistico generale con una quantità di parametri pari a ≤8B che può essere implementata sul lato dispositivo e i modelli multimodali non sono inclusi (Fonte: Zhidongxi)

1. La “Legge di Moore” nell’era dei grandi modelli: solo l’efficienza può portare alla sostenibilità

Attualmente, la ricerca e lo sviluppo di grandi modelli stanno cadendo in inerzia:Vigorosamente miracoloso。

Nel 2020, un documento di OpenAI ha verificato che esiste una forte correlazione tra prestazioni del modello e scala. Finché si ingoiano più dati di alta qualità e si addestra un modello più grande, è possibile ottenere prestazioni più elevate.

Seguendo questo percorso semplice ma efficace, negli ultimi due anni, si è verificata una rapida corsa globale per perseguire modelli più ampi. Ciò nasconde il pericolo dell’egemonia algoritmica. Solo i team con fondi e potenza di calcolo sufficienti hanno il capitale per partecipare alla competizione per un lungo periodo.

L'anno scorso, il CEO di OpenAI Sam Altman ha rivelato che il costo della formazione GPT-4 è almeno100 milioni di dollari . In assenza di un modello di business ad alto profitto, anche le grandi aziende tecnologiche con tasche profonde avranno difficoltà a permettersi investimenti a lungo termine indipendentemente dai costi. L’ambiente ecologico non può tollerare questo gioco senza fondo in cui si brucia denaro.

Il divario prestazionale tra i principali modelli linguistici di grandi dimensioni si sta visibilmente riducendo. Sebbene GPT-4o sia saldamente al primo posto, la differenza nei punteggi dei benchmark con Claude 3 Opus e Gemini 1.5 Pro rimane invariata. In alcune funzionalità, decine di miliardi di modelli di grandi dimensioni possono persino ottenere prestazioni migliori. La dimensione del modello non è più l’unico fattore decisivo che influenza le prestazioni.

Non è che i modelli più grandi siano poco attraenti, è che i modelli leggeri sono più convenienti.

L'immagine seguente è un grafico dell'andamento dei costi dell'inferenza dell'intelligenza artificiale condiviso dall'ingegnere dell'intelligenza artificiale Karina Ngugen sulle piattaforme social alla fine di marzo di quest'anno. Traccia chiaramente la relazione tra le prestazioni di modelli linguistici di grandi dimensioni sul benchmark MMLU e il suo costo dal 2022: Oltre. tempo, il modello linguistico ottiene punteggi di precisione MMLU più elevati e i costi associati diminuiscono in modo significativo. La precisione del nuovo modello raggiunge circa l'80%, mentre le prestazioni in termini di costi sono inferiori di ordini di grandezza rispetto a pochi anni fa.

Il mondo sta cambiando molto velocemente e negli ultimi mesi c’è stata un’ondata di nuovi modelli leggeri ed economici.

▲I modelli di dimensioni più piccole possono raggiungere prestazioni eccellenti a costi inferiori (Fonte: AI incorporata)

"La competizione per modelli linguistici di grandi dimensioni si sta intensificando, al contrario!", scommette il guru della tecnologia AI Andrej Karpathy: "Vedremo alcuni modelli molto, molto piccoli 'pensare' molto bene e in modo affidabile."

Capacità del modello ÷ parametri del modello coinvolti nel calcolo = densità di conoscenza , questa dimensione di misurazione può essere utilizzata per rappresentare che i modelli con la stessa scala di parametri possono avere una forte intelligenza. Il grande modello GPT-3 rilasciato a giugno 2020 ha 175 miliardi di parametri.Nel febbraio di quest'anno, la dimensione dei parametri del modello intelligente MiniCPM-2.4B rivolto a parete che ha raggiunto le stesse prestazioni è stata ridotta a 2,4 miliardi, il che equivale ad un aumento della densità di conoscenza di circa86 volte。

Sulla base di queste tendenze, Liu Zhiyuan, professore associato permanente del Dipartimento di Informatica dell'Università di Tsinghua e capo scienziato dell'intelligenza wall-facing, ha recentemente avanzato un punto di vista interessante:L'era dei grandi modelli ha la sua "Legge di Moore"。

in particolare,Con lo sviluppo coordinato di dati, potenza di calcolo e algoritmi, la densità di conoscenza dei modelli di grandi dimensioni continua ad aumentare, raddoppiando in media ogni otto mesi.。

▲Dai cambiamenti nell'elenco OpenCompass, possiamo vedere che piccoli parametri e modelli ad alte prestazioni sono diventati una tendenza

Aumentando la densità dei circuiti sul chip, i dispositivi informatici con la stessa potenza di calcolo si evolveranno da supercomputer che possono stare in più stanze a telefoni cellulari che possono essere portati in tasca. Il successivo sviluppo di modelli di grandi dimensioni seguirà uno schema simile. Liu Zhiyuan ha chiamato la legge guida da lui proposta "Legge rivolta al muro".

Se questa tendenza continua,Per addestrare un modello con 100 miliardi di parametri, sarà in grado di raggiungere le capacità di un modello con 50 miliardi di parametri in 8 mesi. In altri 8 mesi, può essere raggiunto con solo 25 miliardi di parametri.。

2. Le forze sono divise in più direzioni: la guerra dei prezzi closed source è in pieno svolgimento e l'open source Cina, Stati Uniti ed Europa sono in competizione tra loro.

I giocatori che attualmente partecipano alla competizione dei modelli leggeri di grandi dimensioni sono divisi in molti gruppi.

OpenAI, Google e Anthropic hanno tutti intrapreso la strada del closed source. I loro modelli di punta come GPT-4o, Claude 3.5 Sonnet e Gemini 1.5 Pro controllano i livelli di prestazioni più elevati e la scala dei parametri di questi modelli raggiunge centinaia di miliardi o addirittura trilioni.

Il modello leggero è una versione ridotta del suo modello di punta. Dopo il lancio di OpenAI la scorsa settimana, GPT-4o mini è diventata l'opzione più conveniente sul mercato sotto i 10B in virtù delle sue prestazioni che superano Gemini Flash e Claude Haiku ha sostituito GPT-3.5 per l'uso gratuito da parte degli utenti ToB ha abbassato drasticamente il prezzo dell'API, abbassando la soglia per l'adozione della tecnologia dei modelli di grandi dimensioni.

Andriy Burkov, autore di "Machine Learning Engineering", deduce che i parametri specificati del GPT-4o mini sono intorno ai 7 miliardi in base al prezzo. Il CEO di Wall-facing Intelligence, Li Dahai, ipotizza che GPT-4o mini sia un modello "ampio MoE" con un gran numero di esperti, piuttosto che un modello lato dispositivo. È posizionato come un modello cloud conveniente per ridurre notevolmente l'industria costo di implementazione di modelli di grandi dimensioni.

Il campo del modello leggero open source è ancora più ampio, con attori rappresentativi provenienti da Cina, Stati Uniti ed Europa.

Domestic Alibaba, Wall-Facing Intelligence, SenseTime e Shanghai Artificial Intelligence Laboratory hanno tutti reso open source alcuni modelli leggeri.Tra questi, i modelli della serie Qwen di Alibaba sono spesso utilizzati nei test di benchmark dei modelli leggeri, e i modelli di intelligenza a parete della serie MiniCPM sono anche esempi di utilizzo di piccoli parametri per scavalcare modelli di grandi dimensioni in pochi secondi e sono molto apprezzati nella comunità open source.

Face Wall Intelligence è un team imprenditoriale lungimirante. Nel 2020, ha preso l'iniziativa di intraprendere il percorso del grande modello in Cina. Ha iniziato molto presto a esplorare come utilizzare una tecnologia di perfezionamento efficiente per ridurre i costi di formazione di AI Agent all'inizio dello scorso anno e ha rilasciato più di 100 miliardi di agenti AI in agosto, applicando modelli di grandi dimensioni e tecnologia degli agenti a finanza, istruzione, affari governativi, terminali intelligenti e altri scenari, formulando la direzione dei dispositivi. collaborazione cloud alla fine dell'anno, per poi lanciare quest'anno una serie di modelli lato dispositivo ad alta efficienza e a basso consumo energetico.

Negli ultimi sei mesi, Wallface Intelligence ha rilasciato i modelli base MiniCPM 2.4B e MiniCPM 1.2B, il modello di testo lungo MiniCPM-2B-128k, il modello multimodale MiniCPM-V 2.0 e il livello di prestazioni GPT-4V MiniCPM- Llama3-V 2.5. Modello esperto ibrido MiniCPM-MoE-8x2B, ecc. Finora, il volume complessivo di download della serie MiniCPM ha raggiunto quasi 950.000, con 12.000 stelle.

Questa startup ha anche implementato un modello MiniCPM-S 1.2B più efficiente dal punto di vista energetico attraverso un'efficiente architettura sparsa: la densità di conoscenza ha raggiunto 2,57 volte quella del modello denso MiniCPM 1.2B della stessa scala e 12,1 volte quella di Mistral-7B, deducendo ulteriormente la "legge del muro". Promuovere una significativa riduzione del costo dell'inferenza di modelli di grandi dimensioni.

▲Il modello intelligente della serie MiniCPM rivolto a parete esegue rapidamente l'iterazione e migliora la densità della conoscenza

Nel campo del modello open source leggero negli Stati Uniti, le principali aziende tecnologiche hanno un alto grado di partecipazione, tra cui Meta, Microsoft, Google, Apple, Stability AI, ecc., e la storia di "l'onda dietro colpisce l'onda davanti" giù sulla spiaggia" viene spesso messo in scena.

La scorsa settimana Hugging Face ha lanciato anche i modelli SmolLM con tre specifiche di parametri: 135M, 360M e 1.7B. Rispetto ai modelli della stessa dimensione, le prestazioni sono molto competitive. La versione 1.7B ha superato Microsoft Phi-1.5 in numerosi test benchmark. , Google MobileLLM-1.5B e Alibaba Qwen2-1.5B.

Apple, famosa per essere "chiusa", è una nota scuola open source nel campo dell'intelligenza artificiale: ha rilasciato il modello multimodale Ferret nell'ottobre dello scorso anno, nell'aprile di quest'anno ha rilasciato quattro pre-formazione OpenELM; modelli con parametri che vanno da 2,7 miliardi a 30 miliardi; e Tra gli ultimi modelli DCLM, le prestazioni della versione 6.9B superano Mistral 7B e il punteggio MMLU della versione 1.4B supera SmolLM-1.7B.

▲Apple utilizza DCLM-Baseline per addestrare il modello (arancione), che mostra buone prestazioni rispetto ai modelli closed source (croci) e ad altri set di dati e modelli open source (cerchi)

Il giocatore rappresentativo in Europa non è altro che il modello grande di unicorno francese Mistral AI.La scorsa settimana ha appena rilasciato il modello a tazza piccola Mistral Nemo 12B, che supporta l'elaborazione del contesto da 128k. Le sue prestazioni superano Google Gemma 2 9B e Llama 2 8B. Le sue capacità di ragionamento, conoscenza del mondo e codifica sono le più forti tra i modelli open source della stessa portata .

Questi progressi stanno mostrando il potenziale applicativo della miniaturizzazione di modelli di grandi dimensioni.

Clem Delangue, co-fondatore e CEO di Hugging Face, ha previsto: “Modelli più piccoli, più economici, più veloci e più personalizzati copriranno il 99% dei casi d’uso . Non hai bisogno di un’auto di Formula 1 da 1 milione di dollari per andare al lavoro ogni giorno, né hai bisogno di un chatbot cliente bancario per dirti il significato della vita! "

3. Come sei diventato un esperto di risparmio nel settore dei modelli di grandi dimensioni?

Il riavvolgimento e la miniaturizzazione di modelli di grandi dimensioni è una tendenza inevitabile per l’intelligenza artificiale a vantaggio di tutti.

Non tutte le applicazioni richiedono il modello grande più potente. La concorrenza aziendale considera il rapporto costo-efficacia e sottolinea l’alta qualità e il basso prezzo. Scenari e aziende diversi hanno esigenze molto diverse in termini di qualità della produzione e di rapporto costo-efficacia.

I modelli su larga scala comporteranno costi di apprendimento elevati per gli sviluppatori e richiederanno molti problemi dalla formazione all’implementazione. Un modello più snello può ridurre il rapporto input-output e utilizzare meno fondi, dati, risorse hardware e cicli di formazione per costruire modelli competitivi, riducendo così i costi infrastrutturali, contribuendo a migliorare l’accessibilità e ad accelerare lo sviluppo del modello e l’implementazione delle applicazioni.

▲Secondo il documento Apple DataComp-LM, minori sono i parametri del modello, minori saranno la potenza di calcolo e il tempo necessari per la formazione.

Per applicazioni specifiche, i modelli leggeri richiedono meno dati, quindi possono essere ottimizzati più facilmente per attività specifiche per ottenere le prestazioni e l'efficienza che soddisfano le tue esigenze. Grazie a un'architettura semplificata, questo tipo di modello richiede meno capacità di archiviazione e potenza di calcolo. Dopo aver ottimizzato la progettazione per l'hardware end-side, può essere eseguito localmente su laptop, smartphone o altri piccoli dispositivi, con bassa latenza, facile accesso e protezione. I vantaggi in termini di privacy e sicurezza garantiscono che i dati personali non verranno trasmessi all'esterno.

Sebbene il modello leggero e ad alte prestazioni sia piccolo, deve essere "Utilizza una potenza di calcolo e un consumo energetico limitati per condensare la conoscenza in un modello con parametri più piccoli"La soglia tecnica non è bassa.

Il processo di formazione èPrima ingrandisci, poi rimpicciolisci , distillando l'essenza della conoscenza da modelli complessi di grandi dimensioni. Ad esempio, il modello multimodale a tazza piccola Gemma-2 di Google è stato perfezionato utilizzando la conoscenza del modello 27B.

Ma in termini di percorsi tecnici specifici, i diversi giocatori hanno approcci diversi.

Ad esempio dentrodati di allenamento D'altra parte, Meta ha fornito con orgoglio i dati di addestramento dei token Llama 3 15T. Microsoft, Apple, ecc. si concentrano sull'ottimizzazione dei set di dati di addestramento e sull'innovazione dei metodi di dati. Microsoft Phi-3 utilizza solo token 3.3T e Apple DCLM 7B utilizza solo token 2.6T. Secondo il documento Apple DataComp-LM,Il miglioramento dei set di dati di addestramento può trovare un equilibrio tra calcolo e prestazioni, riducendo i costi di formazione . Rilasciato di recente la scorsa settimana, Mistral NeMo comprime testo e codice in modo più efficiente rispetto ai modelli precedenti utilizzando l'avanzato tagger Tekken.

“Diventare più piccoli” richiede ancoraInnovazione dell'architettura . Ad esempio, il modello OpenELM di Apple esegue una progettazione di messa a punto gerarchica per i colli di bottiglia hardware per migliorare l'efficienza operativa sul lato finale; il modello sparso efficiente MiniCPM-S 1.2B intelligente rivolto a parete raggiunge una scarsità di quasi l'88%, consentendo il livello di collegamento completo Il consumo è ridotto all'84% e la velocità di decodifica è 2,8 volte superiore rispetto al corrispondente modello denso senza compromettere le prestazioni.

▲Classificazione tecnica per la realizzazione di modelli linguistici di grandi dimensioni efficienti in termini di risorse (Fonte: documento "Beyond Efficiency: A Systematic Survey of Resource-Efficient Large Language Models")

Il grande modello è un progetto sistematico che necessita di essere approfondito”scienza dell'intelligenza artificiale"Direzione, intendoAttraverso l’iterazione continua di soluzioni tecniche come algoritmi, architettura, governance dei dati e fusione multimodale, possiamo addestrare i modelli in modo più affidabile, prevedibile e con una qualità superiore., per migliorare continuamente la densità di conoscenza di modelli di grandi dimensioni.

Per addestrare e ottimizzare rapidamente i modelli, è necessario creare una linea di produzione efficiente.È necessario costruire una piattaforma di suite di strumenti per l'intero processo e formare una strategia di formazione del modello efficiente e scalabile. . Ad esempio, il meccanismo sandbox del modello rivolto verso il muro consente di ottenere una rapida formazione delle capacità del modello utilizzando modelli piccoli per prevedere le prestazioni di modelli di grandi dimensioni e condividendo schemi di iperparametri tra modelli grandi e piccoli.

▲Confronto effettivo della velocità di decodifica dell'inferenza MiniCPM 1.2B e MiniCPM-S 1.2B

Al fine di accelerare l'uso di modelli di grandi dimensioni nei terminali intelligenti, Facewall Intelligence ha recentemente reso open source il primo set di strumenti pronti all'uso per modelli di grandi dimensioni lato client "MobileCPM" e ha fornito tutorial in stile tata per aiutare gli sviluppatori a integrare modelli di grandi dimensioni nelle app con un clic.

▲Set di strumenti modello grande lato terminale intelligente rivolto a parete "MobileCPM"

Quest’anno coincide con l’esplosione dell’IA lato dispositivo. Dai giganti dei chip come Intel, Nvidia, AMD e Qualcomm ai principali produttori di PC e smartphone AI, stanno tutti promuovendo una varietà di applicazioni AI lato dispositivo. I produttori di terminali hanno iniziato a unire le forze con i produttori di modelli generali per promuovere l'implementazione di modelli leggeri in un'ampia gamma di dispositivi end-side.

Man mano che le prestazioni dei chip end-side diventano più forti e la densità della conoscenza del modello aumenta, i modelli che possono essere eseguiti localmente sui dispositivi end-side diventano più grandi e migliori.Ora GPT-4V può funzionare sul lato terminale, prevede Liu ZhiyuanNel prossimo anno, i modelli di livello GPT-3.5 potranno essere messi in funzione sul lato dispositivo e nei prossimi due anni, i modelli di livello GPT-4o potranno essere messi in funzione sul lato finale.。

Conclusione: avviare un grande concorso di modelli che non bruci soldi folli

Nel mondo della tecnologia, la tendenza storica a diventare più piccoli, più economici e più facili da usare è sempre ricorrente. Nell’era del mainframe, i computer erano beni di lusso di fascia alta accessibili solo ai ricchi e alle élite. Entrando nell’era dei minicomputer, i progressi tecnologici hanno reso i dispositivi informatici più portatili e più facili da usare, e i PC e i telefoni cellulari sono entrati nel lavoro quotidiano e nella vita del grande pubblico.

Proprio come abbiamo bisogno di supercomputer con un’enorme potenza di calcolo e di telefoni cellulari che la gente comune possa mettere in tasca, l’era dell’intelligenza artificiale generativa richiede modelli di grandi dimensioni estremamente intelligenti che siano più vicini agli utenti, più convenienti e in grado di soddisfare applicazioni economiche specifiche modello di domanda.

OpenAI GPT-4o è ancora all'apice dei modelli di grandi dimensioni IA più potenti, ma non è più invincibile come prima. Numerosi modelli di grandi dimensioni di livello GPT-4 hanno raggiunto prestazioni simili. Allo stesso tempo, modelli di grandi dimensioni più compatti ed efficienti stanno sfidando il concetto di “più grande è meglio”. Si prevede che la nuova tendenza di “usare piccolo per fare grande” cambierà il modo di sviluppo dell’intelligenza artificiale e aprirà nuove possibilità di implementazione dell’intelligenza artificiale negli ambienti aziendali e di consumo.

Il passaggio alla miniaturizzazione segna un cambiamento importante nel settore dell’intelligenza artificiale. Le grandi competizioni di modelli hanno iniziato a spostarsi dal concentrarsi sul miglioramento delle prestazioni a concentrarsi su esigenze più dettagliate nel mondo reale. In mezzo a questa mania, il potere open source della Cina, rappresentato dall'intelligenza a muro, sta crescendo vigorosamente attraverso una serie di innovazioni tecnologiche, verifica la legge della densità di conoscenza di modelli di grandi dimensioni in un modo più economicamente fattibile e, infine, promuove l'uso di. modelli di grandi dimensioni in scenari applicativi pratici.

notizia

La direzione dei modelli su larga scala è cambiata e OpenAI Apple ha fatto un’inversione di rotta

introduzione

le mie informazioni di contatto