Hassabis: Google vuole creare un secondo Transformer, AlphaGo e Gemini uniscono le forze

Hassabis: Google vuole creare un secondo Transformer, una combinazione di AlphaGo e Gemini

2024-08-20

Rapporto sul cuore della macchina

Dipartimento editoriale di Machine Heart

"Mi sento più a mio agio quando il CEO di un'azienda di intelligenza artificiale è più simile a un informatico che a un venditore."

Per DeepMind, il 2023 è un anno pieno di cambiamenti. Nell'aprile di quest'anno, Google ha annunciato che avrebbe unito Google Brain e DeepMind per formare un nuovo dipartimento chiamato Google DeepMind. Il nuovo dipartimento guiderà la ricerca e il progresso innovativi dei prodotti IA, pur mantenendo gli standard etici.

Google Brain e DeepMind: uno ha creato Transformer, l'altro ha creato AlphaGo, AlphaFold... I due dipartimenti hanno unito le forze per creare Gemini alla fine del 2023 per valutare ChatGPT. Oggi Gemini si colloca regolarmente tra i primi tre nella grande classifica dei modelli LMSYS Chatbot Arena. Si può vedere che la fusione dei due ha determinati risultati.

Quindi, dove va Google DeepMind da qui? In una recente conversazione con Hannah Fry, professoressa associata di matematica urbana presso il Center for Advanced Spatial Analysis dell'University College di Londra, Demis Hassabis, CEO e co-fondatore di Google DeepMind, ha rivelato di aver espresso anche le sue opinioni su alcuni dei piani dell'azienda e alcune problematiche attuali in ambito AI.

Testo: https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650930939&idx=2&sn=00d72f97f26fc7acc3b2a2fd39434048&chksm=84e43a85b393b39 3d7a9bd7caeafce2fcd71b6299e195df3e5a716cb840a401c85dc9efff669&token=899618486&lang=zh_CN#rd

Le opinioni principali di Hassabis sono le seguenti:

Nel breve termine, l’intelligenza artificiale è sopravvalutata, ma nel lungo termine è sottovalutata. Per quanto riguarda come distinguere ciò che è una pubblicità e ciò che è realizzabile nel campo dell'intelligenza artificiale, Hassabis ha affermato che oltre a fare ricerca, bisogna anche guardare al background della persona che fa le osservazioni, quanto è informato sulla tecnologia e se hanno appena studiato in altri campi l'anno scorso La direzione va all'intelligenza artificiale. Se la persona che fa il commento segue semplicemente la tendenza, la probabilità che abbia una buona idea è come un'estrazione della lotteria.
La fusione di DeepMind e Google Brain offre molte opportunità di innovazione e il loro obiettivo è inventare la prossima architettura in grado di spingersi oltre le frontiere dell’intelligenza artificiale, proprio come Google Brain ha inventato l’architettura Transformer.
I parametri accademici esistenti sono diventati saturi e incapaci di distinguere sottili differenze tra i modelli di punta. Hassabis ritiene che il campo dell’intelligenza artificiale necessiti di parametri di riferimento migliori, soprattutto in settori quali la comprensione multimodale, la memoria a lungo termine e le capacità di ragionamento.
Molti dei modelli odierni derivano da tecnologie inventate cinque o sei anni fa. Pertanto, a questi modelli mancano ancora molte cose e sono allucinanti, non adatti alla pianificazione a lungo termine e incapaci di completare in modo proattivo compiti complessi. In risposta a questi problemi, Google intende sviluppare sistemi con un comportamento degli agenti più forte combinando la sua esperienza negli agenti di gioco e nei modelli linguistici di grandi dimensioni, ad esempio combinando i vantaggi di AlphaGo nella pianificazione e nel processo decisionale con modelli multimodali come Gemini.
Quando si parla di open source, Hassabis ha affermato di aver reso open source molte tecnologie, come Transformer e AlphaFold. Ma ritiene che i modelli all’avanguardia debbano essere sottoposti a ulteriori revisioni ed essere open source uno o due anni dopo il rilascio, un modello che anche Google sta seguendo. Google renderà i modelli open source, ma saranno circa un anno indietro rispetto ai modelli all'avanguardia. Hassabis ha inoltre affermato che il problema principale dell'open source è che è come attraversare una porta a senso unico. Una volta rilasciato, non può essere ritirato. Quindi devi stare molto attento prima dell'open source.
L’intelligenza artificiale può portare a scoperte rivoluzionarie in problemi matematici complessi, ad esempio aiutando a risolvere famose congetture matematiche o ottenendo buoni risultati in competizioni matematiche internazionali. Tuttavia, gli attuali sistemi di intelligenza artificiale non sono ancora in grado di elaborare da soli nuove ipotesi matematiche o teorie originali. Hassabis ritiene che un test importante dell'AGI sarà la sua capacità di generare autonomamente ipotesi e teorie completamente nuove come la relatività generale.
Per quanto riguarda come garantire che l’AGI possa avvantaggiare tutti, Hassabis ritiene che sia impossibile includere tutte le preferenze in un unico sistema, ma è possibile costruire un’architettura sicura e quindi le persone possono utilizzarla in base alle proprie preferenze, scopi di utilizzo e scopi di implementazione. Decidi per cosa può e non può essere utilizzato il sistema AI.

Dopo aver visto l'intervista, una persona ha commentato che si sentiva a suo agio perché Hassabis sembrava più un informatico che un venditore. Altri affermano che acquisire DeepMind e lasciarli sviluppare liberamente è la migliore decisione che Google abbia mai preso in materia di intelligenza artificiale e sperano che Google consentirà loro di continuare il loro lavoro senza interruzioni il più possibile.

Quello che segue è il contenuto dell'intervista compilato da Machine Heart.

Lo sviluppo dell’intelligenza artificiale è inaspettato

Frye: Ripensandoci, quando abbiamo iniziato a pianificare questo podcast nel 2017, DeepMind era un laboratorio di ricerca sull'intelligenza artificiale relativamente piccolo e mirato che era stato appena acquisito da Google e aveva il potere di condurre la propria ricerca unica da una distanza di sicurezza nella libertà del progetto Londra . Ma le cose sono cambiate radicalmente da allora. Dallo scorso anno, Google ha riorganizzato la sua intera architettura, ponendo i team AI e DeepMind al centro della sua strategia.

Google DeepMind continua la sua ricerca per fornire intelligenza artificiale a livello umano, la cosiddetta intelligenza generale artificiale (AGI). Ha lanciato una serie di nuovi potenti modelli di intelligenza artificiale chiamati Gemini, nonché un agente di intelligenza artificiale chiamato Project Astra in grado di elaborare audio, video, immagini e codice. Il laboratorio sta inoltre facendo passi da gigante nell’applicazione dell’intelligenza artificiale a molteplici campi scientifici, inclusa la previsione della struttura di tutte le molecole del corpo umano, non solo delle proteine. Nel 2021 hanno anche creato una nuova società, Isomorphic Labs, dedicata alla scoperta di nuovi farmaci per la cura delle malattie. Google DeepMind sta inoltre ricercando potenti agenti IA che possano imparare a svolgere compiti da soli attraverso l'apprendimento per rinforzo e continua la leggenda di Alpha Go che sconfigge gli umani nel gioco del Go.

Oggi abbiamo invitato Demis Hassabis, co-fondatore e CEO di DeepMind.

Mi chiedo: il tuo lavoro è diventato più facile o più difficile dopo l'aumento dell'interesse pubblico per l'intelligenza artificiale?

Hassabi: Penso che sia un’arma a doppio taglio. La cosa difficile è che in questo momento c'è così tanto controllo, attenzione e molto rumore in tutto il campo. Preferisco quando ci sono meno persone e possiamo concentrarci maggiormente sulla scienza. Ma il lato positivo è che dimostra che la tecnologia è pronta ad avere un impatto sul mondo reale in molti modi diversi e ad avere un impatto positivo sulla vita quotidiana delle persone, quindi penso che anche questo sia entusiasmante.

Frye: Sei mai stato sorpreso dalla rapidità con cui è stata catturata l'immaginazione del pubblico? Immagino che ti aspettassi che finisse così, vero?

Hassabi: Infatti. Quelli di noi che studiano questo campo da decenni prima o poi si renderanno conto di quanto diventerà importante l’intelligenza artificiale. Ma sembra ancora un po’ surreale vedere tutto realizzarsi e accadere in questo modo. Penso che ciò sia dovuto in realtà all'emergere dei chatbot e allo sviluppo di modelli linguistici, perché tutti usano il linguaggio e tutti possono capirlo, quindi questo è un modo semplice per il pubblico di comprendere e misurare il livello di sviluppo dell'intelligenza artificiale.

Frye: Ti ho sentito descrivere questi chatbot come "straordinariamente efficaci".

Hassabi: Voglio dire, se guardi indietro da 5 a 10 anni fa, le persone potrebbero aver pensato che per raggiungere lo sviluppo dell'intelligenza artificiale, è necessario costruire un'architettura straordinaria ed estenderla sopra, senza dover risolvere specificamente concetti astratti come tali domande specifiche. In molte discussioni di 5-10 anni fa, la gente pensava che fosse necessario un modo speciale per affrontare i concetti astratti perché apparentemente è così che funziona il cervello. Ma se ai sistemi di intelligenza artificiale vengono forniti dati sufficienti, come i dati dell’intera Internet, sembrano essere in grado di imparare da essi e generalizzare modelli, non solo attraverso l’apprendimento meccanico, ma in realtà capiscono in una certa misura ciò che stanno elaborando. contenuto. È un po' "straordinariamente efficace" perché non credo che nessuno avrebbe pensato 5 anni fa che sarebbe stato efficace quanto lo è adesso.

Frye: Quindi è stata una sorpresa...

Hassabi: Sì, abbiamo parlato del concetto e delle basi in precedenza: situare il linguaggio nelle esperienze del mondo reale, forse in simulazioni o nell'intelligenza robotica incarnata. Naturalmente questi sistemi non sono ancora a quel livello, commettono molti errori e non hanno ancora un vero modello del mondo. MaSemplicemente imparando dalla lingua, sono andati più lontano di quanto si aspettassero。

Frye: Penso che dobbiamo spiegare il concetto di radicamento.

Hassabi:Il problema del Grounding è un problema riscontrato nei classici sistemi di intelligenza artificiale costruiti in luoghi come il MIT negli anni '80 e '90. Puoi pensare a questi sistemi come enormi database logici, con parole collegate tra loro. Il problema è che puoi dire "il cane ha le zampe" e sarà nel database, ma quando mostri al sistema l'immagine di un cane, non sa come quel gruppo di pixel si collega a quel simbolo. Questo è il problema fondamentale: ci sono queste rappresentazioni simboliche e astratte, ma cosa significano veramente nel mondo reale, specialmente nel disordinato mondo reale? Hanno provato a risolvere il problema ma non ci sono mai riusciti del tutto.

E i sistemi odierni imparano direttamente dai dati, quindi in un certo senso stanno formando quella connessione dall'inizio, ma la cosa interessante è che se si tratta solo di imparare dal linguaggio, in teoria dovrebbe mancare molto di ciò che ti serve. , ma il risultato è che molte informazioni fondamentali possono in qualche modo essere dedotte.

Frye: Perché dici questo?

Hassabi: In teoria, poiché questi modelli linguistici iniziali di grandi dimensioni non esistevano nel mondo reale, non erano collegati al simulatore, non erano collegati al robot, non erano nemmeno inizialmente multimodali -- non erano esposti per la visione o qualsiasi altra cosa, esistono solo nello spazio del linguaggio. Quindi, vengono appresi nel dominio astratto. Quindi è sorprendente che possano dedurre qualcosa sul mondo reale da quel dominio.

Frye: Ha senso dire che il radicamento viene acquisito attraverso l'interazione delle persone con il sistema...

Hassabi:Veramente. Quindi sicuramente, se commettevano errori nel rispondere a determinate domande, ad esempio, le prime versioni rispondevano in modo errato alle domande quando si trattava dell'abbaiare dei cani nel mondo reale a causa della mancanza di messa a terra. Le persone li correggono attraverso il feedback. Parte di questo feedback deriva dalla nostra conoscenza della realtà. Ecco come sono arrivate alcune basi.

Frye: Ricordo di aver visto un esempio molto vivido della differenza tra "attraversare la Manica" e "attraversare la Manica".

Hassabi: Questo esempio funziona. Se risponde male, gli dici che è sbagliato, e poi deve capire: non puoi attraversare il Canale della Manica.

L’intelligenza artificiale è sopravvalutata o sottostimata?

Frye: Ti chiederò un po' riguardo all'hype, pensi che, in questo momento, l'IA sia sovrastimata o sottostimata o semplicemente pubblicizzata nella direzione sbagliata?

Hassabi: Da un lato, nel breve termine, l’intelligenza artificiale è sopravvalutata. Le persone sostengono che possa fare molte cose, ma in realtà non è possibile, e ci sono molte startup e VC che inseguono alcune idee folli che non sono ancora abbastanza mature.

D’altra parte, penso che l’intelligenza artificiale sia ancora sottovalutata. Forse la gente non capisce bene cosa succede quando arriviamo all'AGI e quanto grande è la responsabilità.

Frye: Lavori in questo spazio da decenni ed è facile vedere quali sono gli obiettivi realistici per ciò che queste startup e VC stanno perseguendo e quali no. Ma come possono gli altri notare la differenza?

Hassabi: Ovviamente devi fare un po' di due diligence tecnica e avere una certa comprensione della tecnologia e delle ultime tendenze.Allo stesso tempo, devi anche guardare al background della persona che ha fatto il commento. Quanto è informato sulla tecnologia? È passato all'intelligenza artificiale da un'altra direzione l'anno scorso? Stavano facendo criptovaluta l’anno scorso? Questi potrebbero essere alcuni indizi che potrebbero saltare sul carro dei vincitori, non significa che avranno delle grandi idee, e anche se lo facessero probabilmente sarà una lotteria.

Penso che questo accada sempre quando un campo riceve improvvisamente molta attenzione, e poi arrivano i finanziamenti e tutti sentono di non poter mancare.

Ciò crea un ambiente che è, per così dire, opportunistico, il che è un po’ contrario a coloro che hanno lavorato sulla tecnologia profonda e sulla scienza profonda per decenni, che penso sia il modo in cui dovremmo continuare a rimanere mentre ci avviciniamo all’AGI.

Gemini: il primo progetto faro dopo la fusione di Google Brain e DeepMind

Frye: Parliamo adesso dei Gemelli. In che modo Gemini differisce dagli altri grandi modelli linguistici rilasciati da altri laboratori?

Hassabi: Fin dall'inizio, volevamo che Gemini fosse in grado di gestire più modalità, in modo che potesse gestire non solo il linguaggio, ma anche varie modalità come audio, video, immagini, codice, ecc. Il motivo per cui vogliamo farlo, prima di tutto, è perché penso che questo sia un modo per questi sistemi di comprendere veramente il mondo che li circonda e costruire modelli migliori del mondo, il che risale al problema fondamentale di prima.

Abbiamo anche la visione di avere un assistente universale. Abbiamo realizzato un prototipo chiamato Astra che non solo capisce cosa stai digitando, ma capisce anche l'ambiente in cui ti trovi. Un assistente così intelligente sarebbe più utile. Quindi abbiamo integrato la multimodalità fin dall'inizio. Questa è un'altra cosa che solo il nostro modello faceva in quel momento, e ora altri modelli stanno recuperando terreno.

Le altre nostre grandi innovazioni nella memoria, come i contesti lunghi, possono effettivamente ricordare circa un milione o due milioni di token. Quindi potresti dargli Guerra e pace o l'intero film e fargli rispondere a domande o trovare cose nel flusso video.

Frye: Al Google I/O, hai usato un esempio di come Astra ti aiuta a ricordare dove metti gli occhiali, giusto? Ma mi chiedo se questa non sia solo una versione avanzata di quei vecchi Google Glasses.

Hassabi: Naturalmente, Google ha una lunga storia nello sviluppo di dispositivi Glass, che in realtà risale al 2012 circa, ovvero molto in anticipo sui tempi. Ma potrebbero semplicemente non avere la tecnologia affinché un agente o un assistente intelligente capisca effettivamente cosa stai dicendo. Siamo quindi molto entusiasti degli assistenti digitali che possono essere sempre con te e comprendere il mondo che ti circonda. Quando lo usi, sembra davvero un caso d'uso naturale.

Frye: Poi voglio tornare un po' indietro sulle origini di Gemini, dopo tutto proviene da due diversi dipartimenti di ricerca di Google.

Hassabi: Sì, l'anno scorso abbiamo unito i due dipartimenti di ricerca di Alphabet, integrando Google Brain e DeepMind in Google DeepMind. La chiamiamo super unità, che riunisce i migliori talenti di tutta l'azienda in un unico dipartimento. Ciò significa che combiniamo le migliori conoscenze acquisite da tutte le ricerche, in particolare nei modelli linguistici.

Pertanto, abbiamo lanciato modelli come Chinchilla e Gopher e creato PaLM, LaMDA e altri primi modelli. Ciascuno di questi modelli ha i suoi vantaggi e svantaggi, quindi li abbiamo integrati in Gemini e siamo diventati il primo progetto Lighthouse lanciato dopo la fusione dei dipartimenti. Poi l'altra cosa importante è riunire tutte le risorse informatiche in modo da poter eseguire cicli di allenamento molto grandi. Penso che questi siano fantastici.

Frye: In molti modi, Google Brain e DeepMind hanno obiettivi leggermente diversi. Posso dirlo?

Hassabi: Le varie divisioni di Google sono chiaramente focalizzate sull'avanguardia dell'intelligenza artificiale, e c'è già molta collaborazione a livello di ricerca individuale, ma è diverso a livello strategico. Con l'incorporazione di Google DeepMind, mi piace descriverlo come la sala macchine di Google, funziona molto bene. Penso che ci siano molte più somiglianze che differenze nel modo in cui lavoriamo e continueremo a mantenere e rafforzare i nostri punti di forza in settori come la ricerca di base.

Per esempio,Da dove verrà la prossima architettura Transformer?Vogliamo inventarlo. I ricercatori di Google Brain hanno inventato l'ormai popolare architettura Transformer. Abbiamo combinato questa architettura con l’apprendimento per rinforzo profondo, di cui siamo stati i pionieri. Penso che sia ancora necessaria maggiore innovazione. Sono favorevole a farlo, proprio come hanno fatto i team di Google Brain e DeepMind negli ultimi 10 anni. È emozionante.

Direzione futura: combinazione di AlphaGo con Gemini

Frye: Voglio parlare di Gemini, come si comporta? Come si confronta con gli altri modelli?

Hassabi: Questa domanda riguarda parametri di riferimento,Penso che l’intero campo abbia bisogno di parametri di riferimento migliori. Esistono alcuni benchmark accademici ben noti là fuori, ma ora sono saturi e non distinguono realmente le sfumature tra i diversi modelli di punta。

Secondo me,Attualmente ci sono tre tipologie di modelli al top e all'avanguardia, i nostri Gemini, GPT di OpenAI e Claude di Anthropic. Inoltre, ci sono molti modelli che funzionano bene, come i modelli della serie Llama e della serie Mistral lanciati da Meta, Mistral, ecc. Sono bravi in diversi compiti. Dipende dal tipo di attività che desideri eseguire, scegli Claude per la codifica, GPT per il ragionamento e Gemini per la memoria, il contesto lungo e la comprensione multimodale.

Naturalmente, le aziende continueranno a migliorare i loro modelli. Il Gemini, ad esempio, è solo un modello che ha meno di un anno. Penso che siamo su una traiettoria davvero buona e spero che la prossima volta che parleremo, i Gemelli saranno in prima linea.

Frye: Sì, i grandi modelli hanno ancora molta strada da fare. Ciò significa anche che questi modelli non sono molto buoni sotto alcuni aspetti.

Hassabi:certamente. In effetti, questo è il dibattito più grande in questo momento. Molti dei modelli odierni derivano da tecnologie inventate cinque o sei anni fa. Quindi, a questi modelli mancano ancora molte cose, sono allucinanti e pessimi nella pianificazione.

Frye: Qual è il piano?

Hassabi: Ad esempio, in alcune pianificazioni a lungo termine, il modello non può risolvere il problema a lungo termine. Gli dai un obiettivo e loro non possono davvero agire per te. COSÌ,Il modello è molto simile a un sistema di risposta passiva alle domande. Fai una domanda e ti danno una sorta di risposta, ma non risolvono il problema per te. Ad esempio, desideri che un assistente digitale ti aiuti a prenotare l'intera vacanza in Italia, oltre a prenotare tutti i ristoranti, i musei e altro ancora. Sfortunatamente, non può fare queste cose.

Penso che questo sia un argomento per la prossima era della ricerca, che chiameremo (in misura maggiore) sistemi basati su agenti o sistemi intelligenti che hanno un comportamento simile ad agenti. Naturalmente, questo è ciò in cui Google è bravo. Google ha creato l'agente di gioco AlphaGo e altri agenti in passato. COSÌ,Molto di ciò che stiamo facendo è combinare progetti famosi con nuovi modelli multimodali su larga scala e diventare sistemi di prossima generazione, come la combinazione di AlphaGo e Gemini.。

Frye: Penso che AlphaGo sia molto bravo nella pianificazione.

Hassabi: Sì, AlphaGo è molto bravo nella pianificazione. Naturalmente, è solo nel regno dei giochi. Pertanto, dobbiamo generalizzarlo ad aree generali come il lavoro quotidiano e la lingua.

Frye: Hai appena detto che Google DeepMind è ormai diventato la sala macchine di Google. È un bel cambiamento. Quindi, Google sta facendo una grande scommessa nell’intelligenza artificiale?

Hassabi: Credo di si. Penso che Google abbia sempre compreso l’importanza dell’intelligenza artificiale. Quando Sundar ha assunto la carica di CEO, ha affermato che Google è un’azienda incentrata sull’intelligenza artificiale. Abbiamo discusso questo problema all'inizio del suo mandato e lui ritiene che l'intelligenza artificiale abbia il potenziale per rappresentare il prossimo grande cambiamento di paradigma dopo Internet mobile e abbia un potenziale maggiore rispetto a prima.

Forse negli ultimi due anni abbiamo davvero iniziato ad avere un assaggio di cosa ciò significhi, non solo dal punto di vista della ricerca, ma anche in termini di prodotti e altri aspetti. È molto emozionante, quindi penso che sia giusto per noi riunire tutti i talenti e fare del nostro meglio per portare avanti l'intelligenza artificiale.

Frye: Sappiamo che Google DeepMind prende molto sul serio la ricerca e la scienza. Ma dal momento che diventa la sala macchine di Google, significa che deve preoccuparsi maggiormente degli interessi commerciali e non più delle cose più pure?

Hassabi: Sì, siamo decisamente più preoccupati per gli interessi commerciali nell'ambito del mandato. Ma in realtà, ecco alcune cose che ho da dire. Innanzitutto, continueremo il nostro lavoro scientifico su AlphaFold, con cui abbiamo rilasciato AlphaFold 3 alcuni mesi fa. Stiamo anche raddoppiando i nostri investimenti in questo ambito. Penso che questo sia il lavoro unico svolto da Google DeepMind.

Sai, anche i nostri concorrenti pensano che questo sarà un prodotto di intelligenza artificiale generale. Abbiamo formato una nuova società, Isomorphic Labs, per condurre lo sviluppo di farmaci. È tutto molto emozionante e tutto sta andando davvero bene. Quindi continueremo a farlo. Allo stesso tempo, abbiamo lavorato molto anche sulla previsione del clima e su altri aspetti.

Abbiamo un team numeroso quindi possiamo svolgere più lavori contemporaneamente. Stiamo costruendo il nostro modello su larga scala Gemini et al. Stiamo creando un team di prodotto per portare tutte queste straordinarie tecnologie in tutte le aree in cui esiste Google. Quindi, in un certo senso, è un vantaggio per noi, poter collegare tutta la nostra tecnologia in qualsiasi momento. È davvero stimolante poter inventare qualcosa che un miliardo di persone possa utilizzare immediatamente.

Un'altra cosa è,Ora abbiamo bisogno di un grado molto maggiore di integrazione tra le tecnologie di intelligenza artificiale sviluppate per i prodotti e il lavoro svolto per puri scopi di ricerca AGI. Cinque anni fa, dovevi creare un'intelligenza artificiale speciale per un prodotto. Ora puoi separare la ricerca principale e, ovviamente, devi ancora svolgere del lavoro specifico sul prodotto, ma probabilmente rappresenta solo il 10% di tutto il lavoro.

Perciò,In effetti, non esiste più una contraddizione tra lo sviluppo di prodotti di intelligenza artificiale e la realizzazione di AGI. Direi che il 90% è lo stesso piano di ricerca. Quindi, se lanci prodotti e li porti nel mondo, imparerai molto da loro. Anche le persone lo usano, quindi impari molto su, ad esempio, che i tuoi parametri interni non corrispondono del tutto a ciò che dicono le persone, e quindi puoi apportare aggiornamenti. Questo è molto utile per la tua ricerca.

Come testare la tecnologia GenAI

Frye: Mi chiedo se ci sia tensione tra le scoperte che applicano l'intelligenza artificiale alla scienza e il momento giusto per rilasciare queste cose al pubblico. All'interno di Google DeepMind, strumenti come i modelli linguistici di grandi dimensioni vengono utilizzati per la ricerca piuttosto che visti come potenziali prodotti commerciali.

Hassabi: Abbiamo preso molto sul serio la responsabilità e la sicurezza fin dall'inizio. Anche prima del 2010, Google aveva incorporato alcuni principi etici di base nelle sue linee guida sull’intelligenza artificiale. Siamo allineati su Google e vogliamo agire in modo responsabile come uno dei leader in questo spazio.

Quindi ora è interessante iniziare a lanciare prodotti reali con funzionalità GenAI. In realtà c'è molto da imparare e stiamo imparando rapidamente, il che è positivo. Il nostro rischio è relativamente basso con le tecnologie attuali, che non sono ancora così potenti. Ma man mano che la tecnologia diventa più potente, dobbiamo stare più attenti.

I team di prodotto e altri team stanno imparando come testare la tecnologia GenAI. Queste tecniche sono diverse dalle tecniche ordinarie in quanto non sempre fanno la stessa cosa. È quasi come provare un gioco open-world, le cose che puoi provare a farci sono quasi illimitate. Quindi è stato interessante capire come farlo in rosso.

Frye: Quindi, il test della squadra rossa qui è che gareggiate l'uno contro l'altro?

Hassabi:SÌ. Il test del team rosso avviene quando si richiama un team dedicato dal team tecnico di sviluppo per sottoporre a stress test la tecnologia e provare a romperla in ogni modo possibile. In realtà è necessario utilizzare strumenti per automatizzare i test e, anche se ci sono migliaia di persone che lo fanno, non è sufficiente rispetto a miliardi di utenti.

Inoltre, penso che dovremmo farlo in più fasi, inclusa una fase sperimentale, una fase di beta chiusa e poi una riedizione, proprio come abbiamo fatto con i giochi in passato. Quindi stai imparando ogni passo del percorso. Penso che ciò che dobbiamo fare di più è utilizzare l'intelligenza artificiale stessa per aiutarci con i test del team rosso internamente e effettivamente trovare automaticamente alcuni bug o eseguire il triplo screening. In questo modo i nostri sviluppatori e tester possono davvero concentrarsi su quelle situazioni difficili.

Frye: C'è qualcosa di molto interessante qui, sei in uno spazio di probabilità più elevate. Quindi, anche se c’è una piccola possibilità che qualcosa accada, se ci provi abbastanza, alla fine andrà storto. Penso che ci siano stati degli errori pubblici.

Hassabi: Come ho già detto, penso che i team di prodotto siano abituati a test di ogni tipo. Sanno di aver testato questa roba, ma è casuale e probabilistica. Infatti, in molti casi, se si tratta semplicemente di un comune pezzo di software, puoi dire di averne testato il 99,999%. Quindi deduci che questo è sufficiente.

Tuttavia, questo non è il caso dei sistemi generativi. Possono fare ogni genere di cose che sono un po' fuori dalla norma, un po' fuori da ciò che hai visto prima. Se qualche persona intelligente o avversario decidesse di testare questi sistemi in qualche modo, come farebbe un hacker.

Questi sistemi possono esistere in combinazioni che includono tutto ciò che hai detto in precedenza al riguardo. Allora è in uno stato speciale, o la memoria è piena di cose speciali, ed è per questo che hanno bisogno di produrre qualcosa. Qui è complicato e non è infinito. Quindi ci sono modi per risolvere questo problema, ma ci sono molte sfumature nell’implementazione della normale tecnologia.

Frye: Ricordo che hai detto, penso che sia stata la prima volta che ti ho intervistato, hai detto che in realtà dobbiamo riconoscere che questo è un modo completamente diverso di elaborare i computer. Bisogna allontanarsi dalle cose deterministiche che comprendiamo appieno e spostarsi verso qualcosa di più confuso, come il probabilistico. Pensi che anche il pubblico debba cambiare un po' la propria prospettiva sui tipi di computer?

Hassabi: Sì, sono d'accordo. Forse questa è un'altra cosa a cui dobbiamo pensare, cosa interessante,Prima di rilasciare un sistema, puoi effettivamente rilasciare un documento sui principi o qualcosa del genere, per dimostrare chiaramente la destinazione d'uso di questo sistema, per cosa è progettato? A cosa serve? Cosa non può fare? Penso che ci sia davvero bisogno di un qualche tipo di consapevolezza qui, ad esempio, se lo usi in questi modi, lo troverai utile, ma non provare a farci altre cose perché semplicemente non funzionerà.

Penso che questo sia qualcosa che dobbiamo fare in alcune aree e anche gli utenti potrebbero aver bisogno di esperienza in quest'area. In realtà è piuttosto interessante, ed è probabilmente il motivo per cui gli stessi chatbot sono in qualche modo sorprendenti, anche per OpenAI, incluso ChatGPT. Abbiamo anche i nostri chatbot e abbiamo notato che questi robot presentano ancora difetti, come allucinazioni e altri problemi.

Ma ciò di cui non ci rendiamo conto è che, nonostante questi difetti, in realtà ci sono molti ottimi casi d’uso per i chatbot. Al giorno d'oggi le persone trovano alcuni usi molto preziosi, come riassumere file e documenti lunghi, scrivere e-mail, compilare moduli, ecc. A causa dell'ampia gamma di scenari di utilizzo, anche se ci sono alcuni piccoli errori, alle persone in realtà non importa. Gli esseri umani possono facilmente correggere questi errori e risparmiare molto tempo. Immagino che la cosa sorprendente sia che le persone scoprano che, quando usati, trovino questi casi d'uso preziosi, anche se questi sistemi sono difettosi in ogni modo che conosciamo.

Informazioni sull'Open Source: una volta pubblicato, non può essere ritirato

Frye: Questo mi porta alla prossima domanda che voglio porre, che riguarda l'open source. Come hai accennato, quando le cose sono nelle mani delle persone, accadono cose davvero straordinarie. Capisco che DeepMind abbia reso open source molti progetti in passato, ma questo sembra essere cambiato nel tempo.

Hassabi: Sì, siamo molto favorevoli all'open source e alla scienza aperta. Come sapete, rendiamo pubblico quasi tutto ciò che facciamo, come Transformer, e le ricerche su AlphaGo e AlphaFold sono pubblicate su Nature e altre riviste, e AlphaFold è anche open source. Condividendo le informazioni, la tecnologia e la scienza possono avanzare rapidamente. Quindi lo facciamo quasi sempre e pensiamo che sia una cosa molto vantaggiosa da fare, ed è il modo in cui funziona la scienza.

L’unica eccezione è che l’IA, l’AGI e l’IA potente hanno entrambi i lati. La domanda è chi lo usa, gli scienziati e i tecnologi che agiscono effettivamente con buone intenzioni e possono dare suggerimenti costruttivi e critici, che è il modo più veloce per far progredire la società. Ma la domanda è: come limitare l’accesso anche a persone con cattive intenzioni che potrebbero usare gli stessi sistemi per scopi cattivi, abusarne, come i sistemi d’arma, ma non possiamo prevederlo in anticipo. Inoltre, il sistema universale stesso può essere riutilizzato in questo modo. Possiamo ancora mantenerlo oggi perché non penso che i sistemi siano ancora così potenti.

Nei prossimi due o quattro anni, soprattutto quando inizieremo a sviluppare sistemi con il comportamento degli agenti, se questi sistemi venissero utilizzati in modo improprio da qualcuno, potrebbero verificarsi gravi danni. Sebbene non disponiamo di soluzioni concrete, come comunità dobbiamo pensare a cosa questo significhi per l’open source.

Forse i modelli all'avanguardia devono essere sottoposti a ulteriori revisioni prima di essere resi open source un anno o due dopo il rilascio. Questo modello è quello che stiamo seguendo perché abbiamo il nostro modello open source chiamato Gemma. Questi modelli sono più piccoli e non all'avanguardia, quindi le loro funzionalità sono comunque molto utili per gli sviluppatori e sono facili da eseguire su un laptop con meno parametri. Queste funzioni sono ora ben comprese. Tuttavia, le prestazioni di questi modelli non sono buone come quelle degli ultimi modelli all'avanguardia, come Gemini 1.5. L’approccio finale che potremmo adottare è,Avremo modelli open source, ma saranno circa un anno indietro rispetto ai modelli all’avanguardia, in modo da poter realmente valutare l'utilizzo di questi modelli da parte degli utenti in pubblico e comprendere le capacità dei modelli all'avanguardia.

Il problema principale dell’open source è che una volta rilasciato non può essere ritirato. A differenza dei modelli proprietari, gli sviluppatori non possono semplicemente chiudere un modello open source se viene utilizzato in modo inappropriato.Una volta open source, è come attraversare una porta a senso unico, quindi devi essere molto cauto prima dell'open source.

Frye: È possibile limitare l’intelligenza generale artificiale (AGI) a un fossato all’interno di un’organizzazione?

Hassabi: Questa è ancora una questione irrisolta. Non sappiamo ancora come farlo, perché è qualcosa a cui dobbiamo pensare quando iniziamo a parlare di IA di alto livello, di tipo umano.

Frye: E lo strato intermedio?

Hassabi: Nel livello intermedio abbiamo alcune idee migliori per affrontare questi problemi. Ad esempio, può essere testato attraverso un ambiente sandbox sicuro. Ciò significa testare il comportamento dell'agente in un ambiente di gioco o in una versione parzialmente connessa di Internet. Si sta già facendo molto lavoro sulla sicurezza in questo ambito, così come in altri campi come il fintech. Potremmo prendere queste idee e costruire sistemi di conseguenza, ed è così che testiamo i primi prototipi dei sistemi. Ma sappiamo anche che queste misure potrebbero non essere sufficienti a limitare l’AGI, un sistema che potrebbe essere più intelligente di noi. Pertanto, dobbiamo comprendere meglio questi sistemi al fine di progettare protocolli per AGI. A quel punto, avremo modi migliori per controllarlo e possibilmente sfruttare i sistemi e gli strumenti di intelligenza artificiale per monitorare la prossima generazione di sistemi di intelligenza artificiale.

Come regolare l'IA

Frye: Sul tema della sicurezza, molte persone sembrano pensare che la parola regolamentazione risolva tutti i problemi. Come pensi che dovrebbe essere strutturata la regolamentazione?

Hassabi: Il governo sta accelerando la comprensione e il coinvolgimento nella tecnologia dell’intelligenza artificiale, il che è un fenomeno positivo.Penso che la cooperazione internazionale sia necessaria, soprattutto in settori quali la regolamentazione, le misure di sicurezza e le specifiche di spiegamento。

Mentre ci avviciniamo all’AGI, dobbiamo riconoscere che, poiché la tecnologia sta avanzando rapidamente,Il nostro approccio normativo deve inoltre essere flessibile e adattarsi rapidamente agli ultimi sviluppi tecnologici. Se avessi regolamentato l’IA cinque anni fa, avresti regolamentato qualcosa di completamente diverso. Ciò che vediamo oggi è un’intelligenza artificiale generativa, ma tra cinque anni potrebbe essere diverso.

Attualmente, i sistemi basati su agenti possono rappresentare il rischio più elevato. Pertanto, consiglio di rafforzare le normative esistenti in ambiti già regolamentati (come la sanità, i trasporti, ecc.) per adattarle all’era dell’IA, proprio come in precedenza sono state aggiornate le normative per la telefonia mobile e Internet.

La prima cosa che farei è rimanere concentrato e assicurarmi di comprendere e testare sistemi all’avanguardia. Man mano che la situazione diventa più chiara e occorre iniziare a sviluppare normative su queste situazioni, potrebbe avere più senso farlo tra qualche anno. Ciò che ci manca in questo momento è il benchmarking, un'adeguata verifica delle competenze, compreso, come l'industria vuole sapere, a che punto le nostre capacità potrebbero rappresentare un rischio significativo. Al momento non esiste una risposta a questa domanda e le funzionalità basate su agenti che ho appena menzionato potrebbero rappresentare la soglia successiva, ma al momento non esiste un metodo di test accettato.

Un possibile test è rilevare se il sistema ha capacità ingannevoli. Se c'è un inganno nel sistema, non ci si può fidare di nient'altro che segnala. Perciò,Testare l’inganno dovrebbe essere una priorità assoluta per le capacità emergenti. Inoltre, ci sono molte altre abilità che vale la pena testare, come la capacità di raggiungere obiettivi specifici, capacità di replica, ecc., e molti lavori correlati sono attualmente in corso. Penso che questi siano fondamentalmente i luoghi in cui le agenzie governative entrano in gioco. Penso che sarebbe fantastico per loro impegnarsi al massimo in questo senso e, naturalmente, i laboratori dovrebbero contribuire con ciò che sanno.

Frye: Dove si inseriscono le istituzioni nel mondo che descrivi? Anche se arrivassimo ad avere un’AGI in grado di supportare tutta la ricerca scientifica, le istituzioni avranno ancora un posto?

Hassabi: Credo di si. Per arrivare all’AGI, penso che ci sarà una collaborazione tra la comunità, il mondo accademico, il governo e i laboratori industriali. Credo davvero che questo sia l'unico modo per arrivare a questa fase finale.

Standard di test del Kazakistan per AGI

Hassabi: Se ti stai chiedendo cosa succede dopo l'AGI, uno dei motivi per cui ho sempre voluto costruire l'AGI è che possiamo usarlo per iniziare a rispondere ad alcune delle domande più grandi e fondamentali sulla natura, la realtà, la fisica e la coscienza . A seconda della forma che assume, potrebbe essere una combinazione di esperti umani e intelligenza artificiale. Penso che questo continuerà ad essere così per un po’ in termini di esplorazione della prossima frontiera.

Attualmente questi sistemi non sono in grado di formulare congetture o ipotesi da soli. Allo stato attuale, possono aiutarti a dimostrare alcuni problemi, vincere medaglie d’oro alle Olimpiadi internazionali della matematica e forse anche a risolvere famose congetture matematiche, ma non sono ancora in grado di formulare ipotesi come l’ipotesi di Riemann o la relatività generale.Questo è stato il mio standard di test per la vera intelligenza artificiale generale- Sarà in grado di farlo e persino di inventare nuove teorie. Non disponiamo ancora di alcun sistema e potremmo non sapere nemmeno come progettare teoricamente un sistema che faccia questo.

Frye: L'informatico Stuart Russell mi ha espresso la sua preoccupazione che una volta raggiunto lo stadio di sviluppo dell'AGI, potremmo finire tutti per goderci una vita di lusso sfrenato senza alcuno scopo nella vita. Sebbene questo tipo di vita sia piena di comodità materiali, manca di significato e scopo profondi.

Hassabi: Questa è davvero una domanda interessante. Questo probabilmente va oltre l’AGI e più simile a ciò che le persone a volte chiamano ASI. A quel punto dovremmo disporre di enormi risorse e, supponendo che possiamo garantire una distribuzione giusta ed equa di tali risorse, saremo in una posizione in cui potremo scegliere liberamente come agire, e il "significato" diventerà una grande questione filosofica. Penso che avremo bisogno che i filosofi, forse anche i teologi e gli scienziati sociali inizino a pensare a questo adesso. Cosa porta significato? Penso ancora che l'autorealizzazione sia importante e non penso che ci immergeremo tutti semplicemente nella meditazione, magari giocheremo ai videogiochi. Ma anche così, è davvero una brutta cosa? Questa è una domanda che vale la pena esplorare.

Anche se l’AGI porterà enormi cambiamenti, come la cura di molte o tutte le malattie e la risoluzione dei problemi energetici e climatici, potrebbe anche farci affrontare una domanda più profonda: qual è il significato della vita? Proprio come le persone che scalano l'Everest o praticano sport estremi, queste attività possono sembrare prive di significato in superficie, ma in realtà sono la ricerca delle persone per mettersi alla prova. Con lo sviluppo dell’AGI, potremmo avere tutto a livello materiale, ma con esso arriva un ripensamento del significato della vita. Questo problema viene sottovalutato sia nelle fasi iniziali che in quelle finali dello sviluppo tecnologico e dobbiamo rivalutare la cosiddetta campagna pubblicitaria e il suo reale impatto sul nostro futuro.

Frye: Torniamo alla domanda sull'AGI. So che la tua grande missione è creare un'intelligenza artificiale a vantaggio di tutti. Ma come assicurarsi che i benefici siano effettivamente tutti? Come tenere conto delle preferenze di tutti e non solo dei designer?

Hassabi: Non penso che sia possibile includere tutte le preferenze in un unico sistema perché le persone non riescono a mettersi d’accordo su molte questioni. Penso che potremmo avere un’architettura sicura su cui costruire un’intelligenza artificiale personalizzata, e poi le persone decideranno per cosa il sistema di intelligenza artificiale può e non può essere utilizzato in base alle proprie preferenze, agli scopi di utilizzo e agli scopi di implementazione. In generale, l'architettura deve garantire la sicurezza e quindi le persone possono apportare alcune variazioni e incrementi in base all'architettura.

Quindi penso che man mano che ci avviciniamo all'AGI, probabilmente dovremo collaborare in modo più ideale a livello internazionale e quindi assicurarci di costruire l'AGI in un ambiente sicuro.

Una volta completata questa attività, ognuno potrà avere la propria API tascabile personalizzata, se lo desidera.

Frye: Ok. Ma ciò che intendo è che l’intelligenza artificiale può mostrare comportamenti scorretti.

Hassabi: Sì, comportamenti e abilità emergenti negativi. L'inganno è un esempio. Dobbiamo comprendere meglio tutte queste questioni.

Ci sono due cose di cui preoccuparsi: gli esseri umani potrebbero abusare dell’intelligenza artificiale e dell’intelligenza artificiale stessa (man mano che si avvicina all’AGI, le sue prestazioni vanno fuori dai binari). Penso che questi due problemi richiedano soluzioni diverse. Sì, questo è ciò con cui dobbiamo confrontarci mentre ci avviciniamo sempre di più alla costruzione dell’AGI.

Tornando al tuo punto sul beneficio di tutti, usando AlphaFold come esempio, penso che possiamo curare la maggior parte delle malattie entro il prossimo anno o due se la progettazione di farmaci basati sull’intelligenza artificiale funziona. Possono poi essere convertiti in medicinali personalizzati per ridurre al minimo gli effetti collaterali per l'individuo, che sono legati, tra le altre cose, alla malattia individuale e al metabolismo individuale. Quindi queste sono cose straordinarie, sai, l'energia pulita, l'energia rinnovabile, la tecnologia porterà enormi benefici, ma dobbiamo anche mitigare i rischi.

Frye: Hai detto che un modo in cui volevi mitigare il rischio era che un giorno avresti realizzato una versione scientifica di "Avengers Assemble"?

Hassabi:certamente.

Frye: Allora, come fai a sapere quando è il momento giusto?

Hassabi: Beh, questa è una grande domanda. Non puoi farlo troppo presto perché non otterrai mai il sostegno di alcuni oppositori. Oggi vedi alcune persone molto famose affermare che l’intelligenza artificiale è priva di rischi. E poi persone come Geoffrey Hinton dicono che i rischi sono molti.

Frye: Voglio parlarti ancora di neuroscienze. Quanto ispira ancora quello che stai facendo? Perché ho notato che qualche giorno fa DeepMind ha presentato un topo virtuale con un cervello artificiale, che aiuta a cambiare la nostra comprensione di come il cervello controlla il movimento. Ricordo che parlavamo molto di prendere ispirazione direttamente dai sistemi biologici, è ancora questo il fulcro del tuo approccio?

Hassabi: No, ora si è evoluto e penso che siamo entrati nella fase ingegneristica, come quella dei sistemi su larga scala, dell'architettura formativa su larga scala. Le neuroscienze hanno un po’ meno influenza su questo. La neuroscienza è una fonte di idee, ma quando la quantità di ingegneria è ampia, la neuroscienza passa in secondo piano. Quindi ora probabilmente si tratta più di applicare l’intelligenza artificiale alle neuroscienze. Penso che man mano che ci avvicineremo all'AGI, comprendere il cervello sarà uno dei casi d'uso più interessanti per l'AGI.

Frye: Mi chiedo se stai anche immaginando che ci saranno cose che vanno oltre la comprensione umana che l'AGI ci aiuterà a scoprire e comprendere?

Hassabi: Penso che sia possibile per i sistemi AGI comprendere livelli di astrazione più elevati meglio di noi. Penso che un sistema di intelligenza artificiale potrebbe effettivamente avere qualsiasi tipo di corteccia prefrontale, quindi potrebbe immaginare livelli più elevati di astrazione e schemi e potrebbe vedere l'universo che non possiamo realmente capire o ricordare immediatamente.

E poi penso che, dal punto di vista dell'interpretabilità, non possiamo ingrandire il nostro cervello all'infinito, ma in teoria, dato abbastanza tempo, SPE e memoria, l'AGI può capire tutto ciò che è computabile.

Frye: Hai detto che DeepMind è un progetto di 20 anni. Quanto sei vicino a entrare in pista?

Hassabi: Siamo sulla buona strada.

Frye: L'AGI sarà disponibile nel 2030?

Hassabi: Non mi sorprenderei se uscisse entro i prossimi dieci anni.

notizia

Hassabis: Google vuole creare un secondo Transformer, una combinazione di AlphaGo e Gemini

Introduzione

Le mie informazioni di contatto