Nel grande settore dei modelli non esiste un “vero” open source?

2024-08-01

Autore｜ Sorriso del lunedì
Invia un'e-mail｜ [email protected]

Il mercato dei modelli di grandi dimensioni open source è stato molto vivace di recente. Innanzitutto, Apple ha reso open source il modello piccolo DCLM da 7 miliardi di parametri, quindi i pesi massimi Llama 3.1 e Mistral Large 2 sono stati resi open source uno dopo l'altro In molti test di benchmark, Llama 3.1 ha superato il modello SOTA closed source.

Tuttavia, il dibattito tra le fazioni open source e closed source non mostra segni di interruzione.

Da un lato, Meta ha dichiarato dopo il rilascio di Llama 3.1: "Ora stiamo inaugurando una nuova era guidata dall'open source." Dall'altro, Sam Altman ha scritto un articolo sul "Washington Post", sollevando direttamente la contraddizione tra open source e closed source al livello nazionale e morfologico.

Qualche tempo fa, alla Conferenza mondiale sull'intelligenza artificiale, Robin Li ha affermato senza mezzi termini che "l'open source è in realtà una sorta di tassa sul QI" perché i modelli closed-source sono ovviamente più potenti e hanno costi di ragionamento inferiori, cosa che ha innescato ancora una volta discussioni.

Successivamente, anche Fu Sheng ha espresso la sua opinione. Crede che i due campi dell'open source e del closed source competano tra loro e si sviluppino insieme. Ha anche confutato l'opinione secondo cui "l'open source è in realtà una sorta di tassa sul QI": "Il grande modello linguistico open source è gratuito, come ha ottenuto la tassa sul QI e chi riscuote la tassa?", "Se le aziende di oggi usano grandi modelli linguistici a pagamento, chiamati "tassa sul QI", in particolare le tariffe molto elevate per la licenza dei modelli e le tariffe API, che costavano centinaia di milioni all'anno e alla fine venivano riacquistate come decorazioni e persino i dipendenti non potevano usarle affatto (i modelli).”

Il nocciolo di questo dibattito riguarda la direzione e il modello di sviluppo tecnologico, che riflette le opinioni e le posizioni delle diverse parti interessate. Prima di parlare di open source e closed source di grandi modelli linguistici, dobbiamo chiarire i termini "open source" e "open source". closed source". Due concetti fondamentali.

Il termine "open source" deriva dal campo del software e si riferisce al rendere pubblico il codice sorgente durante il processo di sviluppo del software, consentendo a chiunque di visualizzarlo, modificarlo e distribuirlo.software open sourceLo sviluppo del software segue solitamente i principi della cooperazione reciproca e della produzione tra pari, promuovendo il miglioramento dei moduli di produzione, dei canali di comunicazione e delle comunità interattive. Rappresentanti tipici includono Linux e Mozilla Firefox.

Software closed source (software proprietario) Per ragioni commerciali o di altro tipo, il codice sorgente non viene divulgato e vengono forniti solo programmi leggibili dal computer (come il formato binario). Il codice sorgente è di proprietà e controllato solo dallo sviluppatore. I rappresentanti tipici includono Windows e Android.

L'open source è un modello di sviluppo software basato sull'apertura, la condivisione e la collaborazione. Incoraggia tutti a partecipare allo sviluppo e al miglioramento del software e promuove il progresso continuo e l'applicazione diffusa della tecnologia.

È più probabile che il software sviluppato con closed source sia un prodotto stabile e mirato, ma il software closed source di solito costa denaro e, se presenta bug o funzionalità mancanti, devi attendere che lo sviluppatore risolva il problema.

Per quanto riguarda cosa sia un grande modello open source, l’industria non ha raggiunto un consenso chiaro come il software open source.

I modelli linguistici di grandi dimensioni e il software open source sono simili nel concetto. Entrambi si basano sull'apertura, sulla condivisione e sulla collaborazione, incoraggiando la comunità a partecipare allo sviluppo e al miglioramento, promuovendo il progresso tecnologico e migliorando la trasparenza.

Tuttavia, esistono differenze significative nell’implementazione e nei requisiti.

Il software open source si rivolge principalmente ad applicazioni e strumenti e l'open source ha requisiti di risorse inferiori, mentre l'open source di modelli linguistici di grandi dimensioni coinvolge una grande quantità di risorse informatiche e dati di alta qualità e può avere maggiori restrizioni di utilizzo. Pertanto, mentre entrambi gli open source mirano a promuovere l’innovazione e la diffusione della tecnologia, il modello linguistico open source di grandi dimensioni deve affrontare maggiori complessità e anche la forma del contributo della comunità è diversa.

Robin Li ha anche sottolineato la differenza tra i due. Il modello open source non significa codice open source: "Il modello open source può ottenere solo un mucchio di parametri e devi fare SFT (ottimizzazione supervisionata) e allineamento della sicurezza. Anche se ottieni il codice sorgente corrispondente, non puoi ottenerlo. "Sapere quanti e quale proporzione di dati sono stati utilizzati per addestrare questi parametri non consentirà a tutti di aggiungere benzina sul fuoco. Ottenere queste cose non ti consentirà stare sulle spalle dei giganti e svilupparsi in modo iterativo ".

L'open source completo del processo di modelli linguistici di grandi dimensioni include il rendere aperto e trasparente l'intero processo di sviluppo del modello, dalla raccolta dei dati, alla progettazione del modello, dalla formazione alla distribuzione. Questo approccio non include solo la divulgazione dei set di dati e dell'architettura del modello, ma copre anche la condivisione del codice del processo di addestramento e il rilascio dei pesi del modello preaddestrato.

L'anno scorso si è assistito a un enorme aumento del numero di grandi modelli linguistici, molti dei quali dichiarano di essere open source, ma quanto sono realmente aperti?

Andreas Liesenfeld, uno studioso di ricerca sull'intelligenza artificiale presso la Radboud University nei Paesi Bassi, e il linguista computazionale Mark Dingemanse hanno anche scoperto che, sebbene il termine "open source" sia ampiamente utilizzato, molti modelli sono solo "pesi aperti" nella migliore delle ipotesi, e la maggior parte delle altre cose su costruzione del sistema Tutti gli aspetti sono nascosti.

Ad esempio, sebbene tecnologie come Meta e Microsoft commercializzino i loro grandi modelli linguistici come "open source", non divulgano informazioni importanti relative alla tecnologia sottostante. Ciò che li ha sorpresi è stato che la performance delle aziende e delle istituzioni di intelligenza artificiale con meno risorse è stata ancora più encomiabile.

Il team di ricerca ha analizzato una serie di popolari progetti di modelli linguistici di grandi dimensioni "open source" e ha valutato la loro effettiva apertura da molteplici aspetti come codice, dati, pesi, API e documentazione. Lo studio ha utilizzato anche ChatGPT di OpenAI come punto di riferimento per i progetti closed source, evidenziando il vero stato dei progetti “open source”.

✔ significa aperto, ~ significa parzialmente aperto e X significa chiuso

I risultati mostrano differenze significative tra i progetti. Secondo questa classifica, OLMo dell’Allen Institute for AI è il modello più open source, seguito da BloomZ di BigScience, entrambi sviluppati da organizzazioni no-profit.

Il documento afferma che, sebbene Llama di Meta e Gemma di Google DeepMind affermino di essere open source o aperti, in realtà sono solo pesi aperti. I ricercatori esterni possono accedere e utilizzare modelli pre-addestrati, ma non possono ispezionare o personalizzare il modello e non sanno come il modello si rivolge a compiti specifici. Apportare modifiche precise.

Le recenti versioni di LLaMA 3 e Mistral Large 2 hanno attirato molta attenzione. In termini di apertura del modello, LLaMA 3 espone i pesi del modello. Gli utenti possono accedere e utilizzare questi pesi del modello pre-addestrati e ottimizzati per le istruzioni. Inoltre, Meta fornisce anche alcuni codici di base per il pre-addestramento del modello e la messa a punto delle istruzioni. ma non viene fornito il codice di formazione completo e i dati di formazione per LLaMA 3 non vengono resi pubblici. Ma questa volta LMeta ha portato un rapporto tecnico di 93 pagine su LLaMA 3.1 405B.

La situazione di Mistral Large 2 è simile. Mantiene un elevato grado di apertura in termini di pesi del modello e API, ma un grado inferiore di apertura in termini di codice completo e dati di formazione. Adotta una strategia che bilancia interessi commerciali e apertura. consentire la ricerca Uso con restrizioni sull'uso commerciale.

Google ha affermato che la società è stata "molto precisa nel suo linguaggio" nel descrivere il modello e ha definito Gemma open piuttosto che open source. "I concetti open source esistenti non sono sempre direttamente applicabili ai sistemi di intelligenza artificiale",

Un contesto importante per questo studio è l'Artificial Intelligence Act dell'UE, che quando entrerà in vigore imporrà norme più flessibili sui modelli classificati come aperti, quindi le definizioni sull'open source potrebbero diventare più importanti.

L’unico modo per innovare, dicono i ricercatori, è modificare il modello, per il quale sono necessarie informazioni sufficienti per costruire la propria versione. Non solo, ma i modelli devono essere esaminati attentamente. Ad esempio, se un modello viene addestrato su un gran numero di campioni di prova, superare un test specifico potrebbe non essere un risultato.

Sono anche entusiasti dell'emergere di così tante alternative open source e ChatGPT è così popolare che è facile dimenticare qualsiasi cosa sui suoi dati di addestramento o altri trucchi dietro le quinte. Questa è una trappola per coloro che desiderano comprendere meglio il modello o creare applicazioni basate su di esso, mentre le alternative open source consentono una ricerca di base critica.

Silicon Star ha anche realizzato statistiche sulla situazione open source di alcuni grandi modelli linguistici open source nazionali:

Possiamo vedere dalla tabella che, analogamente alla situazione all’estero, il modello open source più completo è fondamentalmente guidato dagli istituti di ricerca. Ciò è dovuto principalmente al fatto che l’obiettivo degli istituti di ricerca è promuovere il progresso della ricerca scientifica e lo sviluppo dell’industria, e non solo inclini a rendere pubblici i risultati della loro ricerca.

Le aziende commerciali sfruttano i vantaggi derivanti dalle risorse per sviluppare modelli più potenti e ottenere vantaggi nella concorrenza attraverso adeguate strategie open source.

Da GPT-3 a BERT, l’open source ha dato un impulso importante al grande ecosistema di modelli.

Rendendo pubblici l'architettura e i metodi di formazione, ricercatori e sviluppatori possono esplorare e migliorare ulteriormente queste basi, portando a tecnologie e applicazioni più all'avanguardia.

L’emergere di modelli di grandi dimensioni open source ha abbassato significativamente la soglia di sviluppo. Gli sviluppatori e le piccole e medie imprese possono trarre vantaggio da queste tecnologie avanzate di intelligenza artificiale senza dover costruire modelli da zero, risparmiando così molto tempo e risorse. Ciò consente di realizzare rapidamente progetti e prodotti più innovativi, favorendo lo sviluppo dell’intero settore. Gli sviluppatori condividono attivamente metodi di ottimizzazione e casi applicativi sulla piattaforma open source, che promuove anche la maturità e l'applicazione della tecnologia.

Per l’istruzione e la ricerca scientifica, i grandi modelli linguistici open source forniscono risorse preziose. Studiando e utilizzando questi modelli, gli studenti e gli sviluppatori alle prime armi possono padroneggiare rapidamente le tecnologie di intelligenza artificiale avanzate, abbreviare la curva di apprendimento e portare nuova linfa al settore.

Tuttavia, l’apertura dei modelli linguistici di grandi dimensioni non è una semplice proprietà binaria. L'architettura del sistema basato su Transformer e il suo processo di formazione sono estremamente complessi e difficili da classificare semplicemente come aperti o chiusi. Il grande modello open source non è una semplice etichetta, ma più simile a uno spettro, che va da completamente open source a parzialmente open source, con vari gradi.

L’open source di modelli linguistici di grandi dimensioni è un compito complesso e meticoloso e non tutti i modelli devono essere open source.

Né dovremmo richiedere l’open source completo sotto forma di “rapimento morale”, perché ciò implica molta tecnologia, risorse e considerazioni sulla sicurezza, e richiede un equilibrio tra apertura e sicurezza, innovazione e responsabilità. Come per altri aspetti della tecnologia, diversi modi di contribuire costruiscono un ecosistema tecnologico più ricco.

La relazione tra modelli open source e closed source può essere paragonata alla coesistenza di software open source e closed source nell'industria del software.

Il modello open source promuove la diffusione capillare e l'innovazione della tecnologia e offre maggiori possibilità a ricercatori e imprese, mentre il modello closed source promuove il miglioramento degli standard nell'intero settore. La sana competizione tra i due ispira il miglioramento continuo e offre agli utenti scelte diverse.

Proprio come il software open source e quello proprietario hanno plasmato congiuntamente l’ecosistema software odierno,Non esiste alcuna opposizione binaria tra i grandi modelli open source e closed source. La coesistenza dei due costituisce un’importante forza trainante per il continuo progresso della tecnologia AI e per soddisfare le esigenze di diversi scenari applicativi. Alla fine, saranno gli utenti e il mercato a fare la scelta più adatta a loro.

notizia

Nel grande settore dei modelli non esiste un “vero” open source?

introduzione

le mie informazioni di contatto