Parla di come pensare ai modelli di grandi dimensioni con lo scienziato del deep learning Yann LeCun

Parliamo di come pensare ai grandi modelli con lo scienziato del deep learning Yann LeCun

2024-08-09

Con il progresso e la popolarità della tecnologia dell’intelligenza artificiale generativa negli ultimi due anni, l’utilizzo di modelli di grandi dimensioni per generare contenuti è gradualmente diventato parte della vita delle persone comuni. Questo processo sembra semplice: quando inseriamo un'istruzione, il modello grande può emettere direttamente la risposta per noi. Tuttavia, dietro le quinte, nessuno conosce i principi di funzionamento interni e il processo decisionale del modello. Questa è la famosa "scatola nera dell'apprendimento automatico".

A causa dell’inspiegabilità dei modelli a scatola nera, la sicurezza dell’intelligenza artificiale è sempre stata messa in discussione. Così gli scienziati hanno iniziato a provare ad aprire la scatola nera dei modelli di grandi dimensioni, che nel settore viene chiamata "ricerca sulla scatola bianca". Da un lato, lo studio dei modelli white-box può aiutare le persone a comprendere i modelli black-box, ottimizzando così modelli di grandi dimensioni e migliorando l’efficienza. D’altro canto, l’obiettivo della ricerca white-box è quello di spingere l’intelligenza artificiale, una materia ingegneristica, nella scienza.

Questa volta abbiamo invitatoChen Yubei, Professore assistente, Dipartimento di ingegneria elettrica e informatica, Università della California, Davis, il suo contenuto di ricerca è legato al "modello scatola bianca". Inoltre, è anche ricercatore post-dottorato di Yann LeCun, vincitore del Premio Turing e capo scienziato di Meta. In questo episodio, ha chiacchierato con noi degli ultimi progressi della ricerca sui modelli white-box e ha anche condiviso con noi Yann LeCun, uno scienziato con cui ha familiarità che ha sperimentato gli alti e bassi del settore dell'intelligenza artificiale ma rimane puramente concentrato .

Grafica di Violet Dashi. Illustrazioni di Nadia e Simple Line

Di seguito sono riportate le interviste selezionate

01 Cervello umano e modello di grandi dimensioni

"Silicon Valley 101":Puoi innanzitutto introdurre brevemente la ricerca sul "modello scatola bianca" che stai portando avanti? Durante la tua ricerca, hai scoperto come spiegare i problemi di input e output di GPT?

Chen Yubei:In effetti, un obiettivo relativamente ampio in questa direzione è quello di promuovere l’apprendimento profondo da una materia puramente empirica a una materia scientifica, o di trasformare l’ingegneria in scienza, perché attualmente l’ingegneria si sta sviluppando in modo relativamente rapido ma la scienza è relativamente lenta. Esisteva un modello chiamato word embedding, che poteva apprendere alcune rappresentazioni del linguaggio.

Tutti in realtà avevano una domanda in quel momento: le prestazioni delle nostre attività sono migliorate, ma cosa ha causato esattamente questo miglioramento? Quindi abbiamo fatto un lavoro molto precoce in quel periodo, cercando di aprire queste rappresentazioni delle parole. Quando lo apri, troverai alcuni fenomeni molto interessanti.

Ad esempio, se prendi la parola mela, puoi trovare alcuni meta-significati. Ad esempio, uno dei significati potrebbe rappresentare il frutto e un altro potrebbe rappresentare il dessert. Se scavi più a fondo, troverai il significato di tecnologia e prodotti, che ovviamente si riferisce ai prodotti Apple. Quindi scoprirai che puoi trovare questi meta-significati lungo una parola, e quindi puoi estendere questo metodo a un modello linguistico più ampio.

In altre parole, dopo aver appreso un modello linguistico ampio, possiamo cercare alcuni metasignificati nel modello e quindi provare ad aprirlo. Troverai un modello linguistico ampio, che in realtà ha molti livelli.

Nel livello primario apparirà un fenomeno chiamato "disambiguazione delle parole". Ad esempio, c'è una parola in inglese chiamata "sinistra". Questa parola significa sia girare a sinistra che il passato di lasciare. Quindi il suo significato specifico dipende dal contesto prima e dopo il contesto, quindi il grande linguaggio Il modello completa la disambiguazione delle parole nei primi strati.

A medio termine, scoprirai che emergono alcuni nuovi significati. A quel tempo, pensavamo che una cosa molto interessante fosse chiamata "Conversione di unità". Una volta che si desidera convertire i chilometri in miglia e la temperatura da Fahrenheit a Celsius, verrà aperto questo significato in questo modo. Molti livelli simili di questo meta-significato.

Man mano che sali, scoprirai anche che esiste uno schema tra questi meta-significati. Questo schema è che quando un significato ripetuto appare nel contesto, verrà attivato. Puoi usare questo metodo per aprire il grande linguaggio modelli e piccoli modelli linguistici. Naturalmente, queste idee non sono del tutto nuove. In realtà hanno una storia nei modelli visivi. Ad esempio, ci sono state esplorazioni simili a partire da Matthew Zeiler.

"Silicon Valley 101":Seguendo questa linea di pensiero, se sappiamo come funziona una parte, possiamo ottimizzarla molto dal punto di vista ingegneristico?

Chen Yubei:Sì, questa è un'ottima domanda. Penso che un requisito relativamente elevato per qualsiasi teoria sia che possa guidare la pratica. Quindi, quando realizzavamo modelli linguistici e rappresentazioni del vocabolario, uno degli obiettivi che avevamo in quel momento era che, dopo averlo compreso, potessimo a nostra volta ottimizzare questi modelli. ? In effetti, è possibile.

Ad esempio, se trovi un metasignificato in un modello linguistico ampio, questo si attiverà quando vedrà un certo metasignificato, quindi questo neurone potrà essere utilizzato come discriminatore e potrai utilizzare questo qualcosa per svolgere alcuni compiti. Modificando questi meta-significati, la distorsione del modello viene corretta.

È che se riesco a individuarlo, allora posso modificarlo. Recentemente, Anthropic ha svolto un lavoro simile, ovvero individuare alcuni pregiudizi che potrebbero esistere nel modello linguistico e quindi apportarvi alcune modifiche per rendere il modello più giusto e sicuro.

"Silicon Valley 101":Ho visto che anche OpenAI ha condotto uno studio l'anno scorso, che ha utilizzato GPT4 per spiegare GPT2 e vedere come funziona GPT2. Ad esempio, hanno scoperto che il neurone del GPT 2 verrà attivato quando si risponde a tutte le domande relative alla storia degli Stati Uniti intorno al 1800. Il 12° neurone della linea 5 verrà attivato quando si risponde in cinese, sarà il 13° neurone attivo la linea 12. è attivata.

Se il neurone che risponde in cinese viene spento, la sua capacità di comprendere il cinese diminuirà notevolmente. Ma più i neuroni sono indietro, ad esempio quando raggiungono circa 2000 righe, la loro credibilità complessiva è diminuita notevolmente. Hai notato la loro ricerca?

Ricerca OpenAI: lascia che GPT4 spieghi i neuroni GPT2

Chen Yubei:Non ho ancora letto questo articolo, ma questo metodo è molto simile all'intervento sui neuroni del cervello. Equivalente a adesso, se esiste una rete neurale, questa rete significa che in un certo senso può trovare un'esistenza locale anziché essere completamente dispersa, quindi su di essa possono essere eseguite alcune operazioni. Ad esempio, se un certo neurone viene tagliato, si può pensare che una certa parte della sua capacità sia relativamente perduta.
In realtà, lo stesso vale per le persone. Ad esempio, una persona affetta da epilessia può avere alcune barriere linguistiche dopo l'intervento chirurgico, ma ciò non influisce su altre funzioni del corpo umano. In linea di principio sembra essere simile.

"Silicon Valley 101":OpenAI e Anthropic stanno attualmente studiando l'interpretabilità di modelli di grandi dimensioni. C'è qualche differenza tra la tua ricerca e la loro?

Chen Yubei:In effetti, nessuno sa se la ricerca sul modello della scatola bianca avrà successo in futuro. Ne ho già discusso con il mio supervisore, ma tutti concordano sul fatto che vale la pena tentare. Se torniamo a quest’area, ciò che la nostra ricerca vuole fare è in realtà comprendere l’intelligenza artificiale, ricostruirla attraverso la nostra comprensione, e poi costruire fondamentalmente qualcosa di diverso. Quindi l'osservazione, cioè l'interpretabilità, penso sia solo un mezzo.
In altre parole, sia che apra questo modello, sia che esegua questi esperimenti o apporto alcune modifiche al modello, penso che questi siano alcuni dei metodi che proviamo nel processo di comprensione, ma ciò che è veramente importante nella scatola bianca il modello deve ancora tornare al segnale stesso. Perché che si tratti di un cervello umano o di una macchina, l'essenza del loro apprendimento si basa sui segnali.

Ci sono alcune strutture nel nostro mondo, e anche loro devono imparare attraverso queste strutture, e sono queste strutture che imparano. Possiamo quindi trovare le leggi dietro queste strutture, così come alcuni strumenti matematici per rappresentarle, e poi riorganizzare queste cose per costruire un modello diverso? Se ciò sarà possibile, penso che si creeranno aspettative per il miglioramento della robustezza, della sicurezza e dell’affidabilità dei nostri sistemi.
Inoltre, la sua efficienza aumenterà. Questo è un po' come la teoria della termodinamica apparsa dopo l'apparizione della macchina a vapore, sostenendo così la sua trasformazione da soggetto interamente artigianale a scienza. Allo stesso modo, oggi sembra che per la prima volta disponiamo di un motore a vapore sui dati. Poiché non comprendevamo prima i nostri dati, possiamo finalmente iniziare a sviluppare alcuni algoritmi di intelligenza artificiale per catturare i modelli nei dati.

"Silicon Valley 101":Quindi sarà più efficiente dal punto di vista energetico.

Chen Yubei:Quando si tratta di risparmio energetico, posso darvi alcuni esempi interessanti. Il primo punto è sicuramente il risparmio energetico, perché il cervello equivale a una lampadina con un consumo di 20 watt, e gli attuali supercomputer possono consumare più di un milione di watt.

Il secondo punto è che se guardiamo all’evoluzione dei vari organismi in natura, la loro efficienza evolutiva è in realtà molto elevata. Ad esempio, esiste un tipo speciale di ragno chiamato Jumping Spider. Ha solo pochi milioni di neuroni, ma può creare linee di gruppo tridimensionali molto complesse per catturare la sua preda.

Ragno saltatore, Wikipedia

E una delle cose più interessanti per me è l’efficienza con cui le persone utilizzano i dati. L'attuale volume di dati di Llama3 ha raggiunto circa 13 trilioni di token. Ma quanti dati può ricevere una persona nel corso della sua vita? Supponendo di poter ottenere 30 fotogrammi di immagini al secondo e che il tempo di acquisizione giornaliero sia di 12 ore, e lo facciamo per 20 anni, probabilmente possiamo ottenere 10 miliardi di token e il testo può essere ottenuto quasi la stessa quantità di dati è molto più piccolo di quello di un modello di grandi dimensioni.
Quindi la domanda è: come fanno le persone a ottenere una capacità di generalizzazione così forte attraverso una quantità di dati così piccola? Questo è ciò che trovo sorprendente nell’efficienza del cervello umano.

"Silicon Valley 101":È più difficile scoprire come funzionano i grandi modelli o come funziona il cervello umano? Mi sembra difficile.

Chen Yubei:Entrambi hanno le proprie difficoltà, ma hanno un approccio simile. Che si tratti del cervello umano o di un grande modello linguistico, proviamo a osservarlo e vedere a cosa risponde.

Questo metodo può essere effettivamente dimostrato dalle ricerche sulla corteccia visiva di David Hubel e Torsten Weisel, che vinsero il Premio Nobel per la Fisiologia negli anni '80. Hanno trovato una cellula semplice e hanno cercato di studiare come questi neuroni generano impulsi quando una persona vede qualcosa. Hanno analizzato i diversi stati di risposta dei neuroni quando guardavano cose diverse, come quando non rispondevano affatto e quando erano molto eccitati. , e poi hanno trovato il campo recettivo del neurone.

DH Hubel e TN Wiesel, vincitori del Premio Nobel per la Fisiologia e la Medicina nel 1981

Il nostro studio oggi sui modelli linguistici di grandi dimensioni è in realtà simile. Cerchiamo input diversi e poi capiamo quali neuroni all'interno del modello sono interessati a quali input. Ma ci sono ancora delle differenze.

La prima differenza è che ci sono molte limitazioni all’osservazione del cervello umano, sia tramite elettrodi plug-in che tramite metodi di interfaccia cervello-computer. Tuttavia, un vantaggio naturale dei modelli linguistici di grandi dimensioni è che i metodi di osservazione non sono più limitati un metodo migliore, puoi analizzarlo a lungo termine e puoi anche analizzare ulteriormente il modello attraverso alcuni metodi differenziali.

Ma il suo svantaggio è che la capacità dei modelli di grandi dimensioni è molto inferiore a quella del cervello, in particolare dei modelli linguistici di grandi dimensioni, perché impara il mondo solo dal linguaggio, quindi la sua comprensione del mondo è incompleta, proprio come non esiste per gli esseri umani altri sensi tranne il linguaggio.

Al contrario, il cervello può elaborare segnali più dimensionali e i sensi sono molto ricchi. A volte pensiamo a una domanda: il linguaggio è completo? Se non c'è il supporto degli altri sensi, tutti i concetti nel linguaggio possono esistere indipendentemente o hanno bisogno del supporto di altri sensi per raggiungere la vera comprensione.

Ad esempio, se l'oggetto "frigorifero" non è correlato alle sensazioni di caldo e freddo nel mondo reale, ma descrive solo caratteristiche statistiche come avere una porta, questa descrizione sarà incompleta.

"Silicon Valley 101":Quindi in effetti, rispetto al cervello, l’attuale modello di grandi dimensioni manca ancora molto. Ma poiché possiamo smontarlo e studiarlo, pensi che vada ancora un po' oltre l'ambizione di svelare i segreti del cervello.

Chen Yubei:La difficoltà nel comprendere un modello linguistico ampio è che hai molti modi per osservarlo e puoi capirlo di più. Ad esempio, se ci sono due macchine, una macchina è completamente osservabile e l'altra è parzialmente osservabile, quindi intuitivamente parlando, la macchina completamente osservabile è più facile da capire. Naturalmente ha alcune capacità che questa macchina non ha, quindi non può sostituire una certa comprensione del cervello umano.

"Silicon Valley 101":Vorrei anche introdurre al pubblico il fatto che Yubei ha già studiato neuroscienze. Quindi pensi che il tuo background in materia ti aiuterà nella tua attuale ricerca nel campo dell'intelligenza artificiale? Esistono metodi di ricerca interdisciplinari che possono essere appresi gli uni dagli altri?

Chen Yubei:In realtà non sono uno specialista in neuroscienze computazionali. La mia laurea era presso il Dipartimento di Elettronica dell'Università di Tsinghua e il Dipartimento di Ingegneria Elettrica e Informatica di Berkeley. Tuttavia, l'istituto di ricerca in cui lavoravo a quel tempo era un istituto di ricerca sulle neuroscienze, quindi il mio mentore era un esperto di computazione. neuroscienze.

Per quanto riguarda la domanda di adesso, penso che lo studio delle neuroscienze di solito sia per me fonte di ispirazione. Perché quando conosci questi sistemi in natura e cosa possono fare, potresti avere idee diverse e rivedere il problema in questione.

Ad esempio, un'immagine è un segnale di ingresso bidimensionale, i suoi pixel sono orizzontali e verticali e quindi forma una griglia. Ma la retina umana non ha questo aspetto. Innanzitutto è un tipo di recettore con percezioni diverse. Questo recettore è disposto in modo molto denso ma non molto regolare, è molto denso al centro e diventa sparso verso entrambi i lati.
Di fronte a un segnale di ingresso di questo tipo, prima di tutto, le reti neurali convoluzionali a cui siamo abituati falliranno, perché qui anche la convoluzione non è definita. Quindi, quando vedremo questa situazione nei sistemi biologici, riconsidereremo da dove provengono queste cosiddette convoluzioni.

"Silicon Valley 101":Quindi riconsidererai il metodo, è giusto? Deve essere implementato in questo modo?

Chen Yubei:SÌ. Supponiamo che un giorno ti svegli e tutti i tuoi neuroni siano disturbati. Riesci ancora a capire il mondo? Perché quello che vedi non è più un'immagine e non puoi più utilizzare una rete neurale convoluzionale per farlo. Di che tipo di metodo hai bisogno?

Anche se non abbiamo risolto completamente questo problema, in realtà abbiamo fatto un passo avanti. Sebbene tutti i miei neuroni siano interrotti, cioè i pixel nell'immagine del nostro recettore siano interrotti, esiste una qualche relazione tra i pixel adiacenti. Ad esempio, quando guardiamo un'immagine, scopriremo che se un pixel è rosso, è più probabile che i pixel circostanti siano rossi. Quindi, attraverso questa relazione, puoi lasciare che questi pixel trovino nuovamente amici e quindi puoi mettere simili pixel insieme. I pixel si auto-organizzano in alcune relazioni.

Quindi in questo momento, aggiungendo una struttura come Transformer nel modello linguistico di grandi dimensioni, possiamo rappresentare nuovamente questa immagine e le prestazioni di questa rappresentazione sono piuttosto buone. Questo è un esempio di come riesaminare alcune delle nostre attuali pratiche ingegneristiche ispirate alla natura e quindi proporre alcuni metodi diversi.

Modello di scatola nera, immagine AIGC tramite Firefly

"Silicon Valley 101":Esistono ancora molte somiglianze tra la ricerca sui grandi modelli di intelligenza artificiale e la neuroscienza del cervello umano. Ci saranno neuroscienziati che collaboreranno con te nella ricerca trasversale dal loro punto di vista?

Chen Yubei:In effetti, ci sono molti neuroscienziati, statistici e matematici che vogliono comprendere alcune strutture nei segnali naturali, e anche prestare attenzione a come funzionano i neuroni nel cervello, e poi combinare i due per cercare di proporre alcune rappresentazioni minimaliste dei segnali.

Ad esempio, nel cervello troverai un fenomeno secondo cui, sebbene ci siano molti neuroni, i neuroni che lavorano contemporaneamente sono in realtà molto scarsi. Ad esempio, se ci sono 1 milione di neuroni, solo poche migliaia potrebbero funzionare.

Sulla base di ciò, nei primi anni nel campo delle neuroscienze è stato proposto un metodo di codifica sparsa, ovvero è possibile trovare delle rappresentazioni sparse a bassa dimensione in questo segnale di alto livello? L'algoritmo costruito sulla base di questa idea è molto simile alla rappresentazione dei neuroni che si osservano nel cervello, quindi si tratta di un successo non supervisionato nelle prime neuroscienze computazionali.

Ad oggi, il nostro intero campo di ricerca ha un nome chiamato Statistica dei segnali naturali. Il suo obiettivo è rivelare alcune strutture di base dietro i segnali. Tuttavia, rispetto ai modelli di grandi dimensioni, non è così semplice come lo sviluppo della ricerca che unisce le neuroscienze come i modelli è in realtà relativamente lento. In realtà penso che da un lato possa essere perché il problema è complicato, ma dall'altro anche perché sono relativamente poche le persone che investono in questa direzione.

02 "Sorpasso attuale" del modello della scatola nera

"Silicon Valley 101":Per dirla semplicemente, oggi sono troppo poche le persone che studiano i modelli della scatola bianca. Ma prima dell’emergere di modelli di grandi dimensioni, anche il machine learning tradizionale rientra nella categoria della ricerca sui modelli white-box?

Chen Yubei:Penso che questa affermazione possa essere considerata corretta. Questi precedenti modelli di machine learning sono relativamente semplici e relativamente comprensibili.

"Silicon Valley 101":Allora perché l’attuale progresso della ricerca sull’intero modello della scatola nera è in grado di superare il modello della scatola bianca negli angoli, molto più velocemente?

Chen Yubei:Quando verrà posta questa domanda, saremo nervosi per un momento prima di rispondere.

"Silicon Valley 101":Perché essere nervoso?

Chen Yubei:Poiché questa domanda è molto acuta, in realtà si chiede se si tratti di un modello di scatola bianca o di un percorso comprensibile a cui dovremmo rinunciare. Dalla nostra epoca non studieremo più la scienza nel campo dell’intelligenza artificiale e in futuro tutto diventerà una materia empirica? Ma non la penso ancora così.
Tornando alla tua domanda proprio ora, cosa è successo esattamente in questo processo? Il primo punto è che il modello a scatola nera ha meno bagagli. Se vuoi che questo metodo funzioni e che sia spiegabile, ci sono troppi requisiti, quindi il modello della scatola nera rinuncia prima a una cosa per lasciarlo funzionare.

Il secondo motivo è relativamente ignorato da tutti, ovvero la crescita dei dati in controtendenza, ovvero l’espansione della scala.

Richard Sutton ha scritto in precedenza in un blog e ha affermato che c'è qualcosa che non è stato rotto negli ultimi 20 anni, ovvero che quando avremo più dati e più calcoli, dovremmo trovare algoritmi che possano veramente espandere questo modello in tutto i dati. Penso che questo sia un aspetto molto importante del modello della scatola nera, o del nostro attuale progresso empirico.

Vale a dire, quando disponiamo di dati più grandi, dati migliori, più calcoli e modelli più grandi, allora possiamo imparare di più. Ma se torniamo a questo problema, tutti hanno una ricerca nel modello della scatola bianca, ovvero che il modello stesso debba essere semplice.

Un confronto tra Black Box ML e White Box ML

"Silicon Valley 101":Perché i modelli white box dovrebbero essere semplici? Vuol dire che se è troppo complesso sarà difficile progettarlo?
Chen Yubei:SÌ. In effetti, quando si fa teoria si possono comprendere solo cose concise, che devono essere semplificate ancora e ancora. Tuttavia, quando le persone perseguono la semplicità del modello, possono anche semplificare eccessivamente ancora e ancora. Una volta che si verifica questa semplificazione eccessiva, il modello non può descrivere completamente la forma dei dati. Quindi, quando ci saranno più dati, il modello non sarà in grado di continuare e le sue capacità saranno limitate.

Quindi penso che questa sia anche una difficoltà che tutti abbiamo dovuto affrontare quando studiavamo i modelli a scatola bianca e i modelli semplici in passato. Non solo dobbiamo portare con noi il modello, ma abbiamo anche bisogno del suo bagaglio interpretabile, e ho anche bisogno che sia semplice. Quando porterai tutte queste cose, scoprirai che questo bagaglio è troppo pesante. Quando semplifichi eccessivamente, introduci errori e gli errori si accumuleranno e non sarai in grado di andare avanti in seguito.
"Silicon Valley 101":Ma ora, con il rapido sviluppo dei modelli a scatola nera, stiamo iniziando a provare a risolverlo di nuovo.
Chen Yubei:SÌ. E questa volta, quando lo risolveremo, potremmo rivisitare questo problema. Cioè, non dobbiamo necessariamente semplificare completamente il modello a quel livello, può comunque rappresentare il lato più complesso del mondo.

Ma allo stesso tempo, speriamo ancora che sia relativamente comprensibile, quindi se un giorno riusciremo a realizzare un modello white-box, allora penso che ogni tentativo precedente sia una semplificazione eccessiva, ma speriamo che ogni semplificazione possa andare avanti. Non abbiamo nemmeno bisogno di realizzare un modello a scatola completamente bianca. Forse possiamo realizzare un modello a scatola bianca che non sia potente come il modello grande, ma sia relativamente semplice.
È utile per noi comprendere l'essenza dell'apprendimento e questa comprensione può a sua volta consentirci di migliorare l'efficienza dell'addestramento di modelli di grandi dimensioni. Ho discusso diverse volte di problemi di efficienza con Yann, il che significa che se la teoria alla base di ciò viene sviluppata, potremmo essere in grado di aumentare l'efficienza della pratica ingegneristica di ordini di grandezza.
"Silicon Valley 101":Il punto di vista di Yann è che preferisce sviluppare un modello a scatola bianca o un modello a scatola nera?
Chen Yubei:Yann è uno scienziato noto per le sue capacità ingegneristiche, quindi molti dei suoi tentativi implicano ancora che questa cosa funzioni prima. Ma Yann sostiene anche la ricerca sul modello white-box. Durante la mia discussione con lui, ha ritenuto che valesse la pena esplorare questa strada, ma non sapeva se sarebbe stata realizzabile per un obiettivo troppo ambizioso, ma qualcuno doveva pur farlo.
"Silicon Valley 101":Sembra che il modello della scatola nera sia un problema di ingegneria, mentre il modello della scatola bianca deve spiegarlo scientificamente. Sebbene dal punto di vista della commercializzazione, il suo rapporto input-output non sia così elevato, se alla fine questa cosa potrà essere costruita, sarà comunque di grande valore per la sicurezza dell’intelligenza artificiale e delle sue future applicazioni commerciali.
Chen Yubei:Per quanto riguarda la commercializzazione, in realtà penso che l’intenzione originale di tutti coloro che fanno ricerca di base sull’intelligenza artificiale non sia quella di avere alcuna applicazione come intenzione originale, ma di essere guidati da una curiosità relativamente pura riguardo alla questione dell’intelligenza. In questo modo si potrebbero scoprire alcuni modelli , che a sua volta può aiutare nella pratica ingegneristica. La ricerca in sé non è progettata per nessuna applicazione specifica.

Inoltre, quando perseguiamo questo tipo di modello a scatola bianca e questo tipo di efficienza massima, ci porremo anche una domanda, vale a dire se il grande modello linguistico che stiamo costruendo ora possa essere raggiunto solo attraverso questo tipo di scala o Legge di scalabilità. Va bene semplicemente scendere? Non credo. Poiché gli esseri umani non possono accettare una quantità di dati così grande, un’altra questione importante che stiamo studiando è come ottenere una capacità di generalizzazione relativamente elevata con una piccola quantità di dati.

"Silicon Valley 101":Questo dovrebbe essere un problema studiato anche dagli studiosi del modello della scatola nera. Quali studiosi e scuole stanno attualmente studiando il modello della scatola bianca?

Chen Yubei:Al momento, ci sono principalmente tre forze dell’IA. La prima forza è parte dell’esperienza che abbiamo generato nel processo di studio di questi modelli ingegneristici e quindi di visualizzazione, come quello a cui Anthropic e OpenAI hanno recentemente partecipato.

Ricerca antropica: estrazione di caratteristiche interpretabili dalla rete neurale Claude 3 Sonetto

Il secondo è la neuroscienza computazionale che cerca di comprendere il cervello umano e trovare modi in cui potrebbero esistere alcuni ricordi.

Un'altra scuola di pensiero consiste nel considerare la struttura di base del segnale da una prospettiva matematica e statistica. Naturalmente, ci saranno molti crossover tra questi tre tipi.
"Silicon Valley 101":A quale genere appartieni?
Chen Yubei:In effetti, sono più o meno influenzato da tutti e tre i gruppi. Quando ero a Berkeley, il mio mentore e insegnante Ma Yi appartenevano tutti alla scuola di neuroscienze e statistica matematica, mentre Yann aveva una formazione più ingegneristica. Ritengo inoltre che questi tre metodi siano accettabili perché alla fine ci porteranno a muoverci nella stessa direzione.
"Silicon Valley 101":Quale direzione è la stessa? Ci sono risultati graduali adesso?
Chen Yubei:Il passo finale è comprendere il modello. In precedenza ci sono stati alcuni risultati graduali, ad esempio se possiamo creare alcune reti anche con due o tre livelli e possiamo vedere cosa imparano a ogni livello. Alla fine, ho scoperto che se vuoi rappresentare un numero, imparerai tutti i suoi tratti, quindi collegherai insieme tratti simili, quindi potrai costruire il livello successivo di rappresentazione, strato per strato, finalmente trovato il numero.
"Silicon Valley 101":La tua attuale ricerca porterà all’ottimizzazione del modello della scatola nera?

Chen Yubei:Innanzitutto, man mano che la tua comprensione si approfondisce, potresti essere in grado di ottimizzare il modello della scatola nera e renderlo più efficiente. La seconda è unificare diversi modelli di scatole nere, riducendo così molti sprechi inutili. Allo stesso tempo, c’è un altro pilastro del lavoro che coinvolge il mio laboratorio, ovvero studiare non solo la percezione ma anche il controllo.

Quando si dà a questi grandi modelli linguistici la capacità di interagire con il mondo, è possibile ottenere la stessa capacità di generalizzazione nel sistema di controllo? Cosa significa? Vale a dire, nel sistema percettivo, scoprirai che ho imparato le mele, le pere e poi la pesca. Poiché ho già imparato un concetto simile di mele e pere, posso imparare rapidamente il concetto di pesca.

Quindi nel campo del controllo è possibile ottenere prestazioni simili? Ad esempio, se un robot impara a camminare in avanti e a saltare sul posto, può essere rapidamente trasformato in un robot che salta in avanti e cammina allo stesso tempo?

"Silicon Valley 101": Se ti venisse chiesto di dare una conclusione, pensi che utilizzando la ricerca sul modello white box per svelare il segreto del funzionamento del modello di grandi dimensioni, dov'è l'attuale barra di avanzamento?
Chen Yubei:In effetti, nessuno di noi sa quanto sia lunga questa barra di avanzamento, ritengo che in realtà sia lontana da questo obiettivo. Non è necessariamente uno sviluppo lineare, potrebbe essere più simile a un salto quantico. Quando emerge una nuova comprensione, potresti immediatamente fare un grande passo avanti.

Se vuoi creare un ChatGPT white-box, penso che questo sia ancora abbastanza lontano, ma potremmo essere in grado di creare un modello abbastanza buono e pienamente comprensibile in grado di riprodurre le capacità di AlexNet in quel momento. Questo modello può eseguire il riconoscimento Imagenet. Possiamo capire come esegue ogni passaggio, come si trasforma passo dopo passo in un gatto e un cane, e quindi qual è la struttura generata di questo gatto e cane?

Esempio di WordNet utilizzato da ImageNet

"Silicon Valley 101":Il riconoscimento ImageNet è una scatola bianca o una scatola nera?

Chen Yubei:Non abbiamo ancora scoperto come funziona. C'era una certa comprensione da alcune delle prime visualizzazioni fatte da Matthew Zeiler e Rob Fergus e da molti ricercatori, ma nessuno era stato in grado di creare un modello in cui potessimo comprendere ogni passaggio e continuare a lavorare bene.
"Silicon Valley 101":Quindi forse l’obiettivo del modello della scatola bianca è quello di essere messo in scena. Ad esempio, il primo passo è spiegare come funziona ImageNet. Dopo che il mistero è stato risolto, possiamo spiegare come funzionano alcuni piccoli modelli, proprio come usare GPT 4 per spiegare come funziona GPT 2, e poi spiegare lentamente i modelli più grandi il modello funziona.
Chen Yubei:SÌ. Penso che questo processo richieda ancora molto tempo e che siano necessarie più persone che investano in questa direzione. Perché la maggior parte dei lavori attualmente sono nel campo dell'ingegneria. Se lo mettiamo nelle scuole, allora bisogna avere delle idee originali, invece di dire tu vai in scala, e io andrò in scala, allora tutti sono in scala, e alla fine non c'è distinzione, dipende tutto da who Quale macchina è la migliore e chi ha più dati?

03 Quello che so di Yann LeCun

"Silicon Valley 101":Successivamente voglio parlare con te del tuo consulente post-dottorato, Yann LeCun. Vorrei innanzitutto presentarvi Yann LeCun. Il suo nome cinese è Yang Likun. È uno scienziato informatico francese. Ha dato molti contributi nei campi dell'apprendimento automatico, della visione artificiale, dei robot mobili e della neuroscienza computazionale ". "Padre di Internet".

LeCun è attualmente il capo scienziato dell'intelligenza artificiale a Meta e insegna alla New York University. È stato pioniere delle reti neurali convoluzionali (CNN) negli anni '80, una tecnologia che è diventata la base della moderna visione artificiale. LeCun, insieme a Geoffrey Hinton e Yoshua Bengio, hanno ricevuto il Turing Award 2018 per il loro lavoro pionieristico nel deep learning.
Puoi spiegare i principali risultati della ricerca scientifica di Yann ai nostri amici non tecnici e perché è così famoso?

Chen Yubei:Yann studia il campo dell’intelligenza artificiale delle reti neurali dagli anni ’80 e ha sperimentato molti alti e bassi e il declino di diverse scuole di pensiero. Tuttavia, ha sempre insistito sulle reti di deep learning ed è una persona che ha camminato nell’oscurità.

Ad esempio, nel 2000 era molto difficile pubblicare articoli relativi al deep learning. Quanto è stato difficile? Se nel tuo articolo esiste la parola Neurale o Rete, la probabilità di essere rifiutato è molto alta. Se è presente Rete neurale, verrà sostanzialmente rifiutato.

Quindi per loro in quel momento fu un momento buio e anche i finanziamenti ne risentirono. Ma sono stati in grado di perseverare in questa oscurità e di non arrendersi mai, e alla fine sono usciti da questa oscurità. Oggi, le reti neurali profonde hanno cambiato il mondo, penso che questa sia in realtà la loro vincita del Premio Turing, un ricordo dei loro primi anni di attività pionieristica giorni.

Yann Le Cun

"Silicon Valley 101":Perché hai scelto il suo gruppo quando eri uno studente post-dottorato?
Chen Yubei:Questa è un'avventura piuttosto interessante. In realtà ero piuttosto confuso in quel momento e non pensavo nemmeno di laurearmi quel semestre. Perché la mia determinazione è quella di realizzare un modello white-box durante il mio dottorato, e le prestazioni dovrebbero essere paragonabili ad AlexNet, ma non è ancora pronto.

Penso che se voglio continuare la mia ricerca, a chi dovrei rivolgermi come postdoc? Ero ad una riunione in quel momento e poi ho incontrato Yann sul posto. In realtà non sono una persona particolarmente speculativa. Penso che tutti vogliano trovare Yann come postdoc, quindi quando l'ho incontrato, volevo principalmente parlare delle sue opinioni sul mio lavoro e di alcune prospettive sulle direzioni della ricerca .

Di conseguenza, la conversazione durante l'incontro è stata molto buona. Aveva riflettuto anche sulla mia direzione di ricerca e su alcune delle questioni a cui avevo pensato, ma dal punto di vista delle reti neurali. Quindi in quel momento mi ha chiesto se fossi interessato a fare domanda per una posizione post-dottorato. Ovviamente ho fatto domanda, quindi siamo andati subito d'accordo.

"Silicon Valley 101":Che tipo di mentore è? Offre agli studenti molto spazio libero da esplorare e aiuta molto discutere con tutti.
Chen Yubei:Primo，La seconda situazione non è più possibile per lui. Molte persone hanno bisogno del suo tempo, e il tempo che può dedicare a tutti è relativamente poco.

In realtà è simile al mio supervisore del dottorato, è molto spirito libero in alcune direzioni generali, ma penso che un'altra somiglianza tra loro sia che insisteranno su ciò in cui credono, cioè potrebbe darti una direzione e un obiettivo. Ma non importa come vai, se in barca o in macchina, non controllerà questi dettagli.
In effetti, la sua direzione generale non è cambiata nel corso degli anni. È sempre stato l'apprendimento autosuperato. L'apprendimento autosupervisionato è in realtà diviso in due parti. Una parte è l'autosupervisione basata sulla percezione. Un’altra parte più importante è come effettuare l’autosupervisione in modo incarnato, ovvero ora stiamo realizzando un modello mondiale, che è una direzione in cui crede.

In realtà gli ho dato questo nome perché ho letto un articolo intitolato World Model scritto da David Ha e Jürgen Schmidhuber, e ho pensato che il nome fosse piuttosto interessante.

Un'architettura di sistema per l'intelligenza autonoma, Mata AI

"Silicon Valley 101":Pensi che la direzione di ricerca di Yann sia diversa da quella di OpenAI e Anthropic?
Chen Yubei:Se proprio voglio dire qualcosa di diverso, penso che quello che Yann vuole è che il modello debba avere diverse caratteristiche. Il primo è avere la capacità di incarnarsi, il che significa che non si tratta semplicemente di una pila di dati, ma che il modello può eventualmente esplorare il mondo da solo.
"Silicon Valley 101":Qual è la differenza? Sembra che tutti sperino di ottenere finalmente un risultato del genere.
Chen Yubei:L'esecuzione è diversa. Ad esempio, OpenAI penso sia Scaling Law, il che significa dati più e migliori, quindi più calcoli e modelli più grandi. Ma Yann è ancora più scientifico. Quello che pensa è che se vogliamo davvero portare a un'intelligenza più simile a quella umana, cosa è necessario esattamente? Penserà che accumulare semplicemente dati non è sufficiente.
"Silicon Valley 101":Quindi Yann è in realtà equivalente alla ricerca sulla scatola nera e sulla scatola bianca insieme.

Chen Yubei:Penso che a Yann in realtà non importi molto se questo possa essere sviluppato in una scienza. Al momento, penso che le sue opinioni siano principalmente empiriche e ingegneristiche. Spera che questo sistema possa funzionare meglio. Questo è in realtà quello che è sempre stato molto bravo a.

"Silicon Valley 101":Quando OpenAI ha dimostrato che Scaling Law può ottenere buoni risultati, pensi che Yann sia cambiato nei suoi metodi e nel suo modo di pensare nella ricerca scientifica? Oppure è ancora molto fedele alla sua linea originale?

Chen Yubei:In effetti, non è contrario alla legge di ridimensionamento. Non credo che tutti siano in conflitto su questo argomento. La vera differenza possibile è che gran parte del lavoro di OpenAI è in realtà orientato al prodotto ed eseguito agli estremi nel campo dell'ingegneria, ma Yann in realtà sta facendo ricerca in una forma più scientifica.

Quando pensa a questi problemi, in realtà non ha molto a che fare con i prodotti, pensa solo a una cosa, ovvero come raggiungere l’intelligenza. Perché è in questo campo da troppo tempo ed è stato profondamente coinvolto in questo campo per più di otto anni, quindi potrebbe ancora restare fedele ai suoi ideali quando esamina questi problemi.

"Silicon Valley 101":Lasciare che l’intelligenza impari in modo autonomo è la prima caratteristica della ricerca di Yann. Quali altre caratteristiche ci sono?

Chen Yubei:C'è anche qualcosa in cui Yann ha sempre creduto chiamato JEPA, Joint Embedding Predictive Architecture. Vale a dire, ovviamente, il modello deve avere la capacità di apprendere in modo indipendente, ma ancora più importante è che il modello possa anche apprendere alcune regole di livello superiore durante l’apprendimento dei dati.

In effetti, attualmente ci sono due gruppi. Un gruppo spera di ricostruire completamente i dati attraverso l'apprendimento, che può essere considerata un'idea di compressione. Tuttavia, Yann non vuole tornare completamente a questa immagine perché la ricostruzione di questa immagine contiene troppi dettagli i dettagli non sono le informazioni più importanti quando si esprimono giudizi sul sistema.

"Silicon Valley 101":Questo punto è diverso dal tuo mentore Ma Yi a Berkeley?

Chen Yubei:In realtà tra loro non c'è alcun conflitto essenziale su questo punto di vista, ma il modo di esprimerlo è diverso. L'insegnante Ma ritiene che le leggi di questo mondo siano semplici. Yann ritiene che questi dettagli siano effettivamente dannosi per i compiti a valle o per alcuni giudizi, quindi è necessario trovare quelle leggi di alto livello.

In realtà, i due sono la stessa cosa, perché le regole di alto livello sono generalmente semplici. L'insegnante Ma dice spesso che tutto è compresso. Se lo guardi dal punto di vista di Yann, scoprirai che la compressione è effettivamente corretta, ma la struttura gerarchica dei dati è in realtà diversa.

Poiché il mondo reale è complesso, se scavi nei dettagli del mondo reale, scoprirai che molte cose sono in realtà strutture di basso livello. C'è una struttura nei dati, e tutto ciò che ha struttura è un riflesso della deviazione dal rumore. Vale a dire, tutto ciò che non ha struttura è rumore, e tutto ciò che lascia rumore significa che c'è struttura.

Impareremo queste strutture, ma ci sono diversi livelli di struttura. Ma quando salite di livello, su una scala più ampia, scoprirete che la struttura in realtà non è più importante. Se la guardate a quel livello, queste cose sono diventate come il rumore.

Quindi il punto di vista di Yann è che la compressione è corretta, ma dobbiamo avere un apprendimento gerarchico, apprendere tutte le strutture nel segnale e apprendere strutture sempre più elevate. Tuttavia, la struttura più avanzata spesso non rappresenta gran parte dell'intera compressione e potrebbe andare persa durante il processo di ottimizzazione, poiché un gran numero di cose sono a livelli bassi e la quantità di informazioni come il rumore è maggiore, più si è in alto e più si cammina tali strutture diventano più difficili da individuare.

Perché? Poiché la tua funzione di perdita ottimizzata è la tua funzione obiettivo, trovare o meno questa regola può avere un impatto minimo sulla tua perdita. Penso che i principali siano questi due punti, uno è il modello mondiale e l'altro è questa rappresentazione gerarchica.

Yann LeCun parla alla NYU

"Silicon Valley 101":Quali qualità ritieni ti colpiscano particolarmente?

Chen Yubei:Ciò che mi ha colpito particolarmente è stata probabilmente la concentrazione e la purezza con cui facevano le cose.

Una volta ho pranzato con Yann e lui ha detto che ho tutto quello che volevi quando eri giovane, ma non ho più molto tempo, quindi può usare il tempo rimanente solo per fare cose in cui crede veramente. .

Quando lavori con questi scienziati, potresti essere influenzato dal loro temperamento, così che anche prima di raggiungere la posizione in cui si trovano adesso e le cose che hanno, puoi vedere il mondo un po’ dalla loro prospettiva.

Quindi, quando fai delle scelte o fai delle cose, potresti andare oltre la tua posizione attuale e potresti pensare a cosa farò se un giorno avrò tutto come lui.

"Silicon Valley 101":Ha cambiato qualcuna delle tue decisioni?

Chen Yubei:Sì, mi farà riflettere su questo quando farò molte scelte. Ricordo che il primo giorno del mio dottorato di ricerca, il mio supervisore mi disse due cose.

Una cosa è che non ha bisogno che io pubblichi molti articoli, ma spero che il tipo di articoli che posso pubblicare possano viaggiare nel tempo, così che anche se leggessi questo articolo 20 anni dopo, sarà ancora fresco . In realtà questo è molto difficile, perché gran parte del lavoro ha un preciso senso dei tempi, ma alcuni pensieri veramente profondi possono durare ancora centinaia di anni. Questo è un obiettivo molto alto e potresti essere in grado di raggiungerlo quando sarai in giro andare in pensione. Ma solleva una tortura dell’anima, cioè se puoi persistere a fare un lavoro che possa coesistere con il tempo.

La seconda è che spera che uno studioso abbia un atteggiamento tutto suo. Se pensi che una cosa possa essere fatta da a, b, o da te, non dovresti farla. Vale a dire, quando farai questa cosa, scoprirai che non è questo lavoro che ha bisogno di te, ma tu che hai bisogno di questo lavoro. Questa è una mentalità speculativa. Questo è in realtà il temperamento simile che vedo in loro, cioè sperano di non seguire la massa, ma di avere il proprio atteggiamento e trovare una propria voce.

Quindi, quando scelgo una direzione di ricerca, giudicherò di volta in volta se il lavoro che sto svolgendo è speculativo o un vero e proprio pilastro.

Penso che la cosa bella di loro, soprattutto di Yann, sia che puoi attraversare questo momento quasi disperato e inaugurare l'alba. Le persone che non hanno mai sperimentato i periodi di depressione potrebbero non essere in grado di calmarsi abbastanza. Quando attraversi il momento più buio, usa la tua visione e la tua perseveranza per superare questo breve periodo di tempo, e poi dimostrare che è giusto temperamento molto interessante.

"Silicon Valley 101":Ci sono opinioni scientifiche di Yann con cui non sei d'accordo?

Chen Yubei:A volte era schietto. Ad esempio, ha recentemente affermato che se sei un ricercatore, non dovresti studiare modelli linguistici di grandi dimensioni. Questa frase ha molte interpretazioni. Se la prendi alla lettera, molte persone non saranno d'accordo, me compreso. Potrei sentire che ci sono alcune strutture nei grandi modelli linguistici che vale la pena comprendere e studiare.

Naturalmente, ciò che Yann potrebbe davvero voler dire è quello che ho appena menzionato, non fare lavori speculativi come A e B. Spero che i ricercatori abbiano una certa tenacia e trovino contributi più originali. Se fosse detto così, in realtà penso che sarei più d'accordo. Ma essendo una grande V, a volte le sue parole ti scioccheranno e scateneranno molte discussioni. È un posto che trovo molto interessante.

"Silicon Valley 101":Hai lavorato anche a Meta Quale pensi sia il più grande contributo di Yann a Meta?

Chen Yubei:La prima cosa dovrebbe essere aiutare a costruire Meta AI. Quando stava progettando di costruire Meta AI, Mark lo ha trovato per la prima volta. Inoltre, poiché aveva lavorato ai Bell Labs nei suoi primi anni, allora desiderava ardentemente lo stato dei Bell Labs, quindi aveva anche un ideale per replicare un laboratorio del genere. a Meta. Aderendo a questo concetto, ha anche reclutato e formato un gruppo di ottime persone nella Meta AI, dando un grande contributo a questo campo e promuovendo lo sviluppo dell'intero campo.

"Silicon Valley 101":Penso che l'open source debba essere considerato un suo contributo molto importante. Ad esempio, il motivo per cui Meta Llama ha intrapreso la strada dell'open source dovrebbe essere molto coerente con l'idea generale di Yarn.

Chen Yubei:Sì, sì, l'open source è davvero ciò su cui Yann insiste. Ma non so se Meta continuerà ad essere open source in futuro, perché dopo tutto Meta dovrà affrontare anche la concorrenza, ma penso che questo sia un concetto di Yann quanto bene potrà essere implementato alla fine e fino a che punto può andare in realtà dipende dall'intero sviluppo.

"Silicon Valley 101":Pensi che ora l’intera ricerca sui modelli di grandi dimensioni debba essere guidata dagli scienziati? O diventerà lentamente una cosa guidata dall’ingegneria?

Chen Yubei:Sento che è diventato guidato dall'ingegneria. All'inizio era guidato dagli scienziati. Negli ultimi due anni, penso che il progresso principale derivi dall'esecuzione del progetto. La qualità dei dati è migliorata? I dati sono aumentati? La sua distribuzione è diventata più ricca? È possibile parallelizzare i calcoli? Il tutto causato da dettagli molto importanti in campo ingegneristico. Lo sviluppo da 0 a 1 richiede scoperte scientifiche, ma da 1 a 100 richiede rigore ingegneristico e capacità di esecuzione. Per promuoverlo in fasi diverse sono necessarie persone con ruoli diversi.

"Silicon Valley 101":Tutti aspettano con ansia GPT 5 adesso. Pensi che se GPT 5 uscirà, sarà più un problema scientifico o un problema ingegneristico?

Chen Yubei:Penso che ci sia ancora molta strada da fare nel campo dell’ingegneria. Possiamo anche pensare che la legge sullo scaling abbia una lunga strada da percorrere, e non vi sia alcuna fine in vista, compresa la qualità dei dati e l’espansione della potenza di calcolo. Ma allo stesso tempo, penso che anche se il modo più efficace che abbiamo trovato ora è la Legge di Scaling, sicuramente non è sufficiente.

Allora di cos'altro abbiamo bisogno? Penso che ciò che serve sia un'elevata efficienza come quella degli esseri umani. Quindi, come raggiungere tale efficienza? Potrebbe essere innescato dai dati, ma potrebbe anche essere qualcos'altro, quindi penso che se parliamo del processo che porta all'AGI, dovrebbero esserci alcuni cambiamenti relativamente grandi da 0 a 1.

"Silicon Valley 101":Anche se c’è progresso scientifico, c’è ancora molto margine di miglioramento nell’ingegneria.

notizia

Parliamo di come pensare ai grandi modelli con lo scienziato del deep learning Yann LeCun

Introduzione

Le mie informazioni di contatto