Ma Yi dell'Università di Hong Kong: I grandi modelli senza teoria per molto tempo sono come dei ciechi che cercano di afferrare un elefante che si riunisce per parlare del prossimo passo di AI

Ma Yi, Università di Economia e Finanza di Hong Kong: I grandi modelli senza teoria per molto tempo sono come i ciechi che sentono l'elefante che si riunisce per discutere il prossimo passo dell'intelligenza artificiale;

2024-07-24

Il vento dell'ovest proviene dal Tempio Aofei
Qubit |. Account pubblico QbitAI

"Voglio farti una domanda. Che tu sia uno studente dell'Accademia Qiuzhen o della classe Junior di Qiu Chengtong, se non conosci questa domanda, allora non dovresti essere in questa classe!"

Alla conferenza internazionale sulle scienze di base del 2024 "Basic Science and Artificial Intelligence Forum", CTO del gruppo Lenovo e accademico straniero dell'Accademia europea delle scienzeRui YongNon appena sono uscite queste parole, tutto il pubblico è diventato un po’ nervoso.

Ma poi la domanda che fece fu:Quale è più grande, 13.11 o 13.8?

Ehi ragazzi, chiedete a chi non conosce ancora questa battuta.

Questa volta, però, non si tratta di deridere la follia della modella. Diversi esperti di intelligenza artificiale del mondo accademico e dell'industria hanno analizzato una serie di problemi come l'"illusione" del modello e hanno raccolto le loro opinioni su "Qual è il prossimo passo per l’intelligenza artificiale?"l'opinione di.

In sintesi, comprende i seguenti punti:

Il prossimo passo nello sviluppo di modelli di grandi dimensioni è allontanarsi dal paradigma di ricerca di "nessuna capacità astratta, nessun valore soggettivo e nessuna conoscenza emotiva".
Le applicazioni commerciali sono in ritardo rispetto alla crescita su scala del modello stesso e manca un superprodotto che possa realmente riflettere il valore dell’investimento.
Sotto la limitazione dell’illusione, il passo successivo può essere quello di pensare a come espandere la generalizzazione e l’interattività del modello. La multimodalità è un’opzione.
È una questione molto importante per l'agente intelligente conoscere i limiti delle sue capacità.

Preside della School of Data, Università di Hong Kong e Presidente del Dipartimento di Informatica, Università di Hong KongPosso ioDurante la discussione è stato sollevato anche un punto interrogativo sull’“intelligenza artificiale” attualmente utilizzata dal mainstream:

Lo sviluppo della tecnologia dell'intelligenza artificiale ha accumulato molta esperienza, alcune delle quali possiamo spiegare e altre che non possiamo spiegare. Ora è il momento in cui la teoria è fortemente necessaria. In effetti, si può dire che la nostra borsa di studio non ha fatto molti progressi negli ultimi dieci anni circa. È probabile che il rapido sviluppo dell’industria e della tecnologia ingegneristica abbia influenzato il ritmo degli accademici.

Diamo un’occhiata a cosa hanno detto nello specifico i grandi.

Qual è la natura dell'intelligenza?

Sul posto, il preside della School of Data, Università di Hong Kong, e il presidente del Dipartimento di Informatica, Università di Hong KongPosso io, ha tenuto un discorso programmatico dal titolo "Ritorno ai fondamenti della teoria ed esplorazione dell'essenza dell'intelligenza".

Le opinioni espresse coincidono con le questioni discusse nella tavola rotonda.

Il tema del discorso del professor Ma Yi è stato "Ritorno alle basi della teoria ed esplorazione dell'essenza dell'intelligenza". Ha esaminato il processo storico di sviluppo dell'intelligenza artificiale e ha presentato le sue opinioni sullo sviluppo attuale dell'intelligenza artificiale.

Per prima cosa parlò dell'evoluzione della vita e dell'intelligenza.

Nella sua visione personale, la vita è portatrice di intelligenza, e la capacità della vita di produrre ed evolversi è il risultato dell'azione di meccanismi intelligenti. E,Il mondo non è casuale, è prevedibile, nel processo di continua evoluzione, la vita apprende conoscenze più prevedibili sul mondo.

La sopravvivenza del più adatto attraverso la selezione naturale è una sorta di feedback dell’intelligenza, simile all’attuale concetto di apprendimento per rinforzo.

Dalle piante agli animali, dai rettili, agli uccelli e poi agli esseri umani, la vita ha migliorato la sua intelligenza, ma c'è un fenomeno che sembra essere che più la vita è intelligente, più a lungo seguirà i suoi genitori dopo la nascita. Perché?

Il professor Ma Yi ha spiegato inoltre: poiché i geni non sono sufficienti, è necessario apprendere alcune abilità. Più forte è la capacità di apprendimento, più cose devono essere apprese. Questa è una forma di intelligenza più avanzata.

Se impariamo in modo individuale, non è abbastanza veloce o abbastanza buono, quindi le persone hanno inventato il linguaggio e l’intelligenza umana è diventata una forma di intelligenza di gruppo.

È stata prodotta l'intelligenza del gruppo e si è verificato un cambiamento qualitativo.Non solo apprendiamo questi fenomeni prevedibili da osservazioni empiriche;pensiero logico astratto, la chiamiamo intelligenza umana, o più tardi intelligenza artificiale.

Successivamente, ha parlato dell’origine dell’intelligenza artificiale.

A partire dagli anni ’40, gli esseri umani hanno iniziato a provare a lasciare che le macchine simulassero l’intelligenza degli esseri viventi, in particolare degli animali.

Gli esseri umani iniziarono a modellare i neuroni e ad esplorare "come funziona la percezione cerebrale". Successivamente, tutti scoprirono che la simulazione del sistema nervoso animale dovrebbe essere costruita a partire da reti neurali artificiali, e la ricerca divenne sempre più complessa.

La questione non è andata bene. Dopo due inverni freddi, tutti hanno scoperto alcuni limiti delle reti neurali e alcune persone insistono ancora per risolvere queste sfide.

Successivamente si sviluppò la potenza di calcolo dei dati e divenne possibile addestrare reti neurali. Cominciarono a svilupparsi reti sempre più profonde e le loro prestazioni migliorarono sempre di più.

Ma c’è il problema più grande:Queste reti sono progettate empiricamente. È una scatola nera, e la scatola sta diventando sempre più grande.

Cosa c'è che non va in una scatola nera? Da un punto di vista tecnico, è anche possibile la progettazione dell’esperienza e si può continuare per tentativi ed errori. Tuttavia, il costo è elevato, il ciclo è lungo e i risultati sono difficili da controllare. Anche:

Finché ci sarà un fenomeno importante nel mondo che nessuno può spiegare, e molte persone saranno tenute all’oscuro, si creerà il panico. Questo sta accadendo adesso.

Quindi, come aprire la scatola nera? Il professor Ma Yi ha proposto di tornare alla domanda iniziale: perché studiare? Perché la vita può evolversi?

Ha sottolineato in particolare che dobbiamo parlare di cose che possono essere realizzate attraverso il calcolo:

Non parlare di nulla di astratto. Questo è il mio consiglio a tutti. Dovete parlare di come calcolare e come eseguire questa questione.

Quindi cosa imparare?

Il professor Ma Yi ritiene che dovremmo imparare cose che siano prevedibili e regolari.

Ad esempio, se tieni una penna in mano e la lasci andare, tutti sanno cosa accadrà e se ti muovi velocemente puoi prenderla. Questo era noto prima di Newton. Le persone e gli animali sembrano avere buoni modelli del mondo esterno.

E in matematica,Le informazioni prevedibili si riflettono uniformemente nella struttura a bassa dimensionalità dei dati nello spazio ad alta dimensionalità.。

Allora qual è il meccanismo di calcolo unificato? Il professor Ma Yi ha dato la risposta:Cose simili si riuniscono e specie diverse si respingono., l'essenza è così semplice.

Come misurare se qualcosa è fatto bene? Perché la compressione?

Ha fornito un esempio, come mostrato di seguito. Ad esempio, il mondo è casuale, non si sa nulla e tutto può succedere. Se invece vengono utilizzate palline blu, tutte le palline blu possono accadere nel secondo successivo.

Ma se vuoi ricordare che è accaduta una di queste cose, devi codificare l'intero spazio, dargli un codice, e potrà accadere solo l'area con le palline verdi, e le palline blu saranno molto meno.

Quando sappiamo che le aree in cui accadranno le cose diventano sempre più piccole, sappiamo sempre meno del mondo. Questo è ciò che la teoria dell’informazione stava stabilendo negli anni ’40.

Per trovare meglio queste aree verdi, dobbiamo organizzarle meglio nel cervello. Quindi il nostro cervello sta organizzando questo fenomeno e questa struttura a bassa dimensione.

Come è possibile ottenere questo risultato dal punto di vista computazionale?

Il professor Ma Yi ha affermato che in realtà tutte le reti profonde lo stanno facendo. Come ora il Transformer, lo fa segmentando le immagini e classificandole.

In effetti, ogni strato della rete neurale lo èComprimi i dati。

La matematica gioca un ruolo molto importante in questo. Devi misurare rigorosamente ciò che vuoi ottimizzare e come ottimizzarlo. Dopo aver fatto queste due cose, scoprirai che l'operatore che ottieni è lo stesso di quello che hai trovato esperienza attuale Molti degli operatori sono molto simili.
Che si tratti di Transformer, ResNet o CNN, lo fanno tutti in modi diversi. E ciò che sta facendo può essere completamente spiegato statisticamente e geometricamente.

MaLa soluzione ottimale di ottimizzazione stessa potrebbe non essere la soluzione corretta , informazioni importanti potrebbero andare perse durante il processo di compressione. Come dimostrare che le dimensioni delle informazioni esistenti sono buone? Come dimostrare che le allucinazioni non si verificheranno?

Tornando alle basi dell’apprendimento, perché abbiamo bisogno di ricordare queste cose?È essere lìIl cervello simula il mondo fisico,Per performare meglio nello spazio fisicoprevedere。

Successivamente Ma Yi menzionò il concetto di allineamento:

Quindi l’allineamento non riguarda l’allineamento con le persone, l’allineamento è questoIl modello si allinea con ciò che ha imparato.

Imparare un'autocodifica dall'interno non è sufficiente. Come fanno gli animali in natura ad apprendere il modello fisico del mondo esterno?

Usa costantemente le tue osservazioni per prevedere il mondo esterno, purché sia coerente con le osservazionicoerente , questo è tutto. Ciò implica il concetto di circuito chiuso.

Finché esistono creature viventi, finché esistono creature intelligenti, sono tutte a circuito chiuso.

Il professor Ma Yi ha poi sottolineato che siamo ancora lontani dalla vera intelligenza.

Cos'è l'intelligenza? Le persone spesso confondono conoscenza e intelligenza. Un sistema ha intelligenza se ha conoscenza? Un sistema intelligente deve avere le basi per l’auto-miglioramento e l’aumento della propria conoscenza.

Infine, ha concluso il professor Ma Yi.

Guardando indietro alla storia, negli anni Quaranta tutti volevano che le macchine imitassero gli animali, ma negli anni Cinquanta Turing propose una cosa: se le macchine potessero pensare come gli esseri umani. Alla Conferenza di Dartmouth del 1956, un gruppo di persone si sedette insieme con lo scopo di fare qualcosaL’intelligenza unica che distingue l’uomo dagli animali：Abilità astratta, operazioni simboliche, ragionamento logico, analisi causaleAspettare.

Questo è ciò che definirono fare l'intelligenza artificiale nel 1956. Successivamente, queste persone sostanzialmente vinsero il Premio Turing. Quindi, se vuoi vincere il Premio Turing in futuro, se scegli di seguire la massa o di fare qualcosa di unico...

Guardando indietro, cosa abbiamo fatto negli ultimi 10 anni?

L'attuale "intelligenza artificiale" sta effettuando il riconoscimento delle immagini, la generazione di immagini, la generazione di testo, la compressione e la rimozione del rumore e l'apprendimento per rinforzo ritiene che,Fondamentalmente ciò che facciamo è a livello animale., inclusa la previsione del token successivo e dell'immagine del fotogramma successivo.

Non è che non abbiamo avuto persone che ci lavorassero in seguito. Ma non un modello di grandi dimensioni tradizionale.

Ha inoltre spiegato che se si investono abbastanza soldi e si introducono abbastanza dati, le prestazioni di molti modelli continueranno a svilupparsi, ma se non esiste una teoria per molto tempo, sorgeranno problemi, proprio come un cieco che cerca di capire fuori un elefante.

Il professor Ma Yi ha detto che condividere il suo viaggio personale spera di dare ispirazione ai giovani.

Una volta che abbiamo i principi, possiamo progettare con coraggio e non dobbiamo più aspettare che la prossima generazione inventi una rete apparentemente buona e possiamo usarla insieme. Allora dove sono le tue opportunità?

Diamo un’occhiata a come altri esperti di intelligenza artificiale hanno risposto alla domanda “Qual è il prossimo passo per l’intelligenza artificiale?” nel forum della tavola rotonda.

Qual è il prossimo passo per l’intelligenza artificiale?

I modelli di grandi dimensioni richiedono cambiamenti di “paradigma”.

Membro della Royal Academy of Engineering, dell'Accademia europea delle scienze, dell'Accademia delle scienze ingegneristiche di Hong Kong e vicepresidente capo dell'Università della scienza e della tecnologia di Hong KongGuo YikePenso che siamo in un momento molto interessante in questo momento...

Poiché la Legge di Scaling è ampiamente accettata, la Guerra dei Cento Modelli ha gradualmente formato una guerra per le risorse.Sembra che ora dobbiamo fare solo due cose Dopo aver ottenuto il modello Transformer, ciò che deve essere risolto èGrande potenza di calcoloEGrandi datiIl problema.

Tuttavia, secondo lui, non è così.L’attuale sviluppo dell’intelligenza artificiale deve ancora affrontare molti problemi. Uno di questi èPotenza di calcolo limitata e domanda infinitaIl problema.

In questo caso, come dovremmo costruire un modello di grandi dimensioni? L'accademico Guo ha condiviso i suoi pensieri attraverso alcune pratiche.

Innanzitutto, l’accademico Guo ha menzionato l’uso di un MOE più economico con la limitazione della potenza di calcolo.modello esperto mistoPuò anche ottenere ottimi risultati.

Inoltre, anche come migliorare continuamente un modello con nuovi dati dopo l'addestramento in modo che possa ricordare ciò che dovrebbe essere ricordato, dimenticare ciò che dovrebbe essere dimenticato ed essere in grado di ricordare cose che sono state dimenticate quando necessario, è una domanda difficile.

L'accademico Guo non è d'accordo con alcune affermazioni del settore secondo cui "i dati sono stati esauriti". "In effetti, è solo che il modello è stato compresso e i dati compressi possono essere rigenerati in nuovi dati", ovvero utilizzando la generazione generativa. modelli per generare dati.

Successivamente, non è necessario apprendere tutti i modelli da zero. È possibileradicamento della conoscenza nel modello base. Anche in questo ambito c’è molto lavoro da fare.

Oltre alla potenza di calcolo, c’è un altro problema con l’algoritmo:La coltivazione dell’intelligenza artificiale e dell’intelligenza umana stessa ha due polarità。

L'accademico Guo ritiene che quando si addestrano modelli di grandi dimensioni, la questione più importante non è davanti, ma dietro.

Come mostrato nella figura seguente, il percorso evolutivo del modello grande parte da autoapprendimento > conoscenza indiretta > valori > buon senso, mentre il percorso di coltivazione dell’educazione umana è l’opposto.

Per questo motivo, l’accademico Guo ritiene che dovremmo uscire dall’odierno paradigma di ricerca di grandi modelli senza “nessuna capacità astratta, nessun valore soggettivo e nessuna conoscenza emotiva”.

Sappiamo tutti che il linguaggio umano è fantastico. Il linguaggio umano non è solo contenuto, non solo informazione, ma anche natura umana e energia dell'informazione. Quindi, come vengono classificate queste cose nel modello? Questa è una direzione importante per la nostra ricerca futura.

Per riassumere, per quanto riguarda il prossimo passo verso l'intelligenza artificiale, l'accademico Guo ritiene che ci siano tre fasi di sviluppo:

Il primo stadio si basa sull'autenticità; il secondo stadio si basa sul valore. La macchina deve essere in grado di esprimere il proprio punto di vista e formare il proprio valore soggettivo, e questo punto di vista può essere cambiato a seconda del suo ambiente fase Solo quando ha valori può capire cosa sia la novità, e solo con la novità può creare.

Quando si tratta di creare questo modello, la cosiddetta illusione non è un problema, perché l’illusione è un problema solo nel modello paradigmatico. Scrivere un romanzo deve essere un'illusione. Senza illusione, non è possibile scrivere un romanzo. Deve solo mantenere la coerenza e non ha bisogno di autenticità, quindi deve solo riflettere un valore. Quindi, in questo senso, lo sviluppo del grande modello richiede C'è un cambiamento di paradigma.

Nello sviluppo di modelli di grandi dimensioni manca un “super prodotto”

Vicepresidente di JD.com, professore a contratto e supervisore del dottorato presso l'Università di WashingtonLui XiaodongSi ritiene che l’intelligenza artificiale dovrà affrontare tre problemi nella fase successiva.

Innanzitutto ritiene che, in un certo senso, lo sviluppo di modelli di grandi dimensioni sia entrato in un periodo di plateau.

A causa delle limitazioni nei dati e nella potenza di calcolo, se i miglioramenti fossero semplicemente basati sulla scala, il limite potrebbe essere raggiunto e le risorse informatiche diventerebbero un fardello sempre più pesante. Se si seguisse l’ultima guerra dei prezzi (price tag), è molto probabile che i benefici economici generati dai grandi modelli non riescano nemmeno a coprire la bolletta elettrica, quindi è naturalmente insostenibile.

In secondo luogo, il professor He ritiene che l’intera applicazione commerciale sia in ritardo rispetto alla crescita su scala del modello stesso. Nel medio e lungo termine, questo alla fine diventerà un problema:

Soprattutto quando vediamo una scala così ampia, non è più semplicemente un problema scientifico, diventerà anche un problema ingegneristico. Ad esempio, se i parametri raggiungono il livello di trilioni, i dati delle chiamate raggiungono il livello di 10 trilioni di token. Poi bisogna porsi una domanda: il valore sociale che porta.

Da questo, il professor He lo ritiene attualmenteMancanza di una super app e di un super prodotto, possono realmente riflettere il valore dell'investimento.

La terza domanda è una questione relativamente specifica, vale a direillusione del grande modello。

Se vogliamo costruire un’industria dell’intelligenza artificiale su modelli di grandi dimensioni, dobbiamo avere requisiti estremamente elevati per l’illusione di base del modello di grandi dimensioni. Se il tasso di errore del modello base di grandi dimensioni è molto elevato, è difficile immaginare che ad esso possano essere sovrapposte applicazioni più commerciali.
Applicazioni industriali serie devono risolvere l’illusione.

Il professor He ritiene che, sotto la limitazione dell'illusione, il passo successivo possa essere quello di pensare a come espandere la generalizzazione e l'interattività del modello emultimodaleÈ una scelta inevitabile.

I modelli di grandi dimensioni non hanno consapevolezza dei “confini delle capacità”

CTO di Lenovo Group, accademico straniero dell'Accademia Europea delle ScienzeRui YongDal punto di vista industriale, ha espresso il suo punto di vista sul prossimo passo dell’intelligenza artificiale.

Ha affermato che da una prospettiva industriale, ciò che è più importante è il modo in cui il modello viene implementato. In termini di implementazione, il Dr. Rui Yong ha parlato principalmente di due punti:

Non basta avere un grande modello, bisogna svilupparloagente
Non basta avere un modello di misurazione delle nuvole di grandi dimensioni, è necessario avere unquadro ibrido

Nello specifico, il dottor Rui Yong ha innanzitutto elencato alcuni studi e ha sottolineato che i limiti dei modelli di grandi dimensioni stanno diventando sempre più evidenti. Ad esempio, la domanda "Quale è più grande, 13,8 o 13,11" menzionata all'inizio mostra che il modello non capisce realmente il problema.

A suo avviso, gli attuali modelli di grandi dimensioni collegano solo le enormi informazioni frammentate viste nello spazio semantico ad alta dimensione. Non è sufficiente costruire grandi reti con grande potenza di calcolo per creare grandi modelli generativi sviluppo di agenti intelligenti.

Il dottor Rui Yong ha sottolineato in particolare il modello grandeLimite di capacitàdomanda.

I grandi modelli di oggi in realtà non sanno dove siano i confini delle loro capacità.
Perché i modelli di grandi dimensioni hanno allucinazioni e perché dicono seriamente delle sciocchezze? In realtà, non sta cercando di ingannarci, ma non sa cosa sa o cosa non sa. Questa è una questione molto importante, quindi penso che il primo passo sia far conoscere all'agente i confini le sue capacità.

Inoltre, il dottor Rui Yong ha affermato che l’intelligenza da sola non è sufficiente per l’implementazione dell’intelligenza artificiale e che i grandi modelli pubblici sul cloud devono essere privatizzati per le imprese. Basato sui dati e basato sulla conoscenza formano un modello di intelligenza artificiale ibrido e anche i modelli di piccole dimensioni sono molto utili in molte situazioni. Esistono anche modelli orientati all'individuo in grado di conoscere le preferenze personali.

Non sarà un modello di grandi dimensioni basato interamente sui test del cloud, ma un modello di grandi dimensioni che combina end-edge ibrido e cloud.

notizia