l'ultima conversazione a16z di li feifei: l'intelligenza spaziale non è adatta solo per la generazione del mondo virtuale, ma può anche essere integrata con il mondo reale. i progressi della tecnologia ai porteranno nuovi scenari applicativi inimmaginabili

l'ultima conversazione di li feifei su a16z: l'intelligenza spaziale non è adatta solo per la generazione del mondo virtuale, ma può anche essere integrata nel mondo reale. i progressi della tecnologia ai porteranno nuovi scenari applicativi inimmaginabili

2024-09-23

di recente li feifei ha discusso con il partner di a16z martin casado e il ricercatore justin johnson la storia, la situazione attuale e la direzione futura dello sviluppo del campo dell’intelligenza artificiale. l’argomento ha trattato tutti gli aspetti della tecnologia dell’intelligenza artificiale, in particolare il potenziale futuro dell’intelligenza artificiale generativa e dell’intelligenza spaziale.

li feifei ha sottolineato che l’intelligenza artificiale generativa esisteva già durante i suoi studi universitari, ma la prima tecnologia non era ancora matura. con il balzo in avanti nel deep learning e nella potenza di calcolo, l’intelligenza artificiale generativa ha compiuto notevoli progressi negli ultimi anni ed è diventata una delle scoperte fondamentali nel campo dell’intelligenza artificiale.

ha inoltre presentato l'ultimo progetto imprenditoriale world labs, che si concentra sull'"intelligenza spaziale", ovvero la capacità delle macchine di comprendere e interagire negli spazi 3d e 4d.

ha sottolineato che l'intelligenza spaziale non è adatta solo alla generazione di mondi virtuali, ma può anche integrare il mondo reale ed è ampiamente utilizzata nei campi della realtà aumentata (ar), della realtà virtuale (vr) e della robotica la tecnologia ci offrirà nuovi scenari applicativi inimmaginabili, tra cui la generazione di mondi virtuali, la realtà aumentata e l'interazione con il mondo fisico.

quello che segue è il contenuto principale di questa conversazione, buon divertimento~

martín casado

negli ultimi due anni abbiamo assistito all’emergere di un’ondata di aziende e tecnologie di intelligenza artificiale di livello consumer e il processo è stato pazzesco. e lavori in questo campo da decenni. quindi potremmo parlare dei contributi chiave e degli approfondimenti che hai apportato in questo processo.

fei fei li

è un momento molto emozionante e, guardando indietro, l'intelligenza artificiale sta attraversando un momento emozionante. personalmente sono impegnato in questo campo da più di due decenni. siamo emersi dall’ultimo inverno dell’intelligenza artificiale e abbiamo assistito alla nascita dell’intelligenza artificiale moderna. poi abbiamo assistito alla nascita del deep learning, che ci ha mostrato cosa era possibile fare, come giocare a scacchi.

poi abbiamo iniziato a vedere sviluppi più profondi nella tecnologia e nell’applicazione industriale delle prime possibilità, come i modelli linguistici. in questo momento, penso che siamo nel mezzo di una "esplosione del cambriano".

in un certo senso, ora oltre al testo, stiamo vedendo anche pixel, video, audio, ecc., che iniziano a essere combinati con applicazioni e modelli di intelligenza artificiale, quindi questo è un momento molto emozionante.

martín casado

vi conosco entrambi da molto tempo e molte persone vi conoscono perché siete così importanti in questo campo. ma non tutti sanno come hai iniziato nel campo dell'intelligenza artificiale, quindi forse possiamo presentare brevemente il tuo background per aiutare il pubblico a stabilire una comprensione di base.

giustino johnson

ok, il mio primo contatto con l'intelligenza artificiale è stato verso la fine della mia laurea. ho studiato matematica e informatica al caltech ed è stato un periodo fantastico. durante quel periodo fu pubblicato un articolo molto famoso, il "cat paper" su google brain di home neck lee, andrew ng e altri. questa fu la mia prima esposizione al concetto di deep learning.

questa tecnologia mi ha stupito, ed è stata la prima volta che ho incontrato questa ricetta: quando si combinano potenti algoritmi di apprendimento generici, enormi risorse computazionali e grandi quantità di dati, accade qualcosa di magico. mi è venuta questa idea intorno al 2011 o 2012, e in quel momento ho sentito che sarebbe stato qualcosa che avrei fatto in futuro.

ovviamente per fare questo tipo di lavoro dovevi frequentare una scuola di specializzazione, così scoprii che feifei era a stanford, ed era una delle poche persone al mondo che studiava a fondo questo campo. è stato un ottimo momento per lavorare sul deep learning e sulla visione artificiale, poiché questo era il momento in cui la tecnologia stava passando dalla sua infanzia alla maturità e all'adozione diffusa.

durante quel periodo, abbiamo visto l’inizio della modellazione del linguaggio e anche l’inizio della visione computerizzata discriminativa, in cui si poteva capire qualcosa da un’immagine. durante questo periodo, ci fu anche il primo sviluppo di quella che oggi chiamiamo ai generativa. le parti fondamentali dell'algoritmo, come la generazione di immagini e la generazione di testo, furono risolte anche dalla comunità accademica durante il mio dottorato.

a quel tempo, ogni mattina quando mi svegliavo, aprivo arxiv per controllare gli ultimi risultati della ricerca. era come aprire i regali di natale. c'erano nuove scoperte quasi ogni giorno. negli ultimi due anni, anche il resto del mondo ha iniziato a rendersi conto che ogni giorno si ricevono nuovi “regali di natale” attraverso la tecnologia dell’intelligenza artificiale. ma per noi che lavoriamo in questo campo da più di dieci anni, questa esperienza c'è già stata.

fei fei li

ovviamente sono molto più grande di justin. sono entrato nel campo dell'intelligenza artificiale dalla fisica perché il mio background universitario era in fisica. la fisica è una materia che ti insegna a pensare a questioni audaci, come i misteri irrisolti del mondo. in fisica, questi problemi potrebbero essere legati al mondo atomico, all'universo, ma questa formazione mi ha fatto interessare a un altro problema: l'intelligenza. quindi ho svolto una ricerca di dottorato in intelligenza artificiale e neuroscienze computazionali al caltech. sebbene io e justin non ci sovrapponessimo al caltech, condividevamo la stessa alma mater.

giustino johnson

e lo stesso mentore?

fei fei li

sì, il tuo relatore universitario era anche il mio relatore di dottorato, pietro perona. durante il mio dottorato, agli occhi del pubblico l’intelligenza artificiale era nel bel mezzo di un freddo inverno, ma ai miei occhi non era così. questo è più simile al periodo di ibernazione prima della primavera, in cui l’apprendimento automatico e i modelli generativi stanno acquistando forza. mi considero un "nativo" nel campo del machine learning e la generazione di justin è un "nativo" nel deep learning.

il machine learning è il predecessore del deep learning e all’epoca abbiamo sperimentato vari modelli. ma verso la fine del mio dottorato e durante il mio periodo come assistente professore, i miei studenti e il mio laboratorio si sono resi conto che c’era un elemento trascurato dell’intelligenza artificiale che guidava la generalizzazione a cui il campo non aveva pensato molto in quel momento: i dati. eravamo concentrati su modelli complessi come i modelli bayesiani e abbiamo trascurato l’importanza di lasciare che i dati guidassero il modello.

questo è uno dei motivi per cui scommettiamo su imagenet. a quel tempo, la dimensione dei set di dati in tutti i campi era molto piccola. i set di dati standard per la visione artificiale e l’elaborazione del linguaggio naturale erano migliaia o decine di migliaia di dati, ma ci siamo resi conto che dovevamo espanderci su internet. . fortunatamente, anche l’era di internet stava nascendo e noi cavalcammo quest’onda. fu in quel periodo che arrivai a stanford.

martín casado

queste epoche come quelle di cui parliamo molto, come imagenet, sono ovviamente epoche importanti nel promuovere o almeno rendere la visione artificiale popolare e fattibile nel campo dell’intelligenza artificiale generativa. di solito citiamo due scoperte chiave: una è la carta transformer, che è il "meccanismo di attenzione" (attenzione), e l'altra è la meno parlata "diffusione stabile" (diffusione stabile).

è ragionevole interpretare queste due scoperte algoritmiche del mondo accademico (in particolare di google) in questo modo? o si tratta più di un processo intenzionale? oppure ci sono state altre importanti scoperte che non vengono menzionate spesso e che ci hanno spinto dove siamo oggi?

giustino johnson

sì, penso che la svolta più grande sia la potenza di calcolo. so che la storia dell'intelligenza artificiale è spesso anche la storia della potenza di calcolo, ma anche se viene citata spesso, penso che il suo impatto sia sottovalutato.

la crescita a cui abbiamo assistito nella potenza di calcolo negli ultimi dieci anni è stata sconcertante. il primo articolo considerato un momento di svolta per il deep learning nella visione artificiale è stato alexnet, un articolo del 2012 in cui una rete neurale profonda si è comportata bene nella sfida imagenet, superando di gran lunga gli altri algoritmi dell'epoca.

gli algoritmi a cui potresti essere esposto durante la scuola di specializzazione impallidiscono rispetto ad alexnet. alexnet è una rete neurale profonda con 60 milioni di parametri. è stata addestrata per sei giorni su due schede grafiche gtx 580. la gtx 580 era all'epoca la scheda grafica consumer più potente ed è stata rilasciata nel 2010.

ieri sera stavo cercando alcuni dati e volevo inserirli in un contesto più ampio. l'ultima scheda grafica di nvidia è gb200 riuscite a indovinare il divario di potenza di calcolo tra gtx 580 e gb200?

il numero è nell'ordine delle migliaia, quindi ieri sera ho fatto i conti. ad esempio, durante le due settimane di allenamento, i sei giorni sono stati eseguiti su due gtx 580. se prolungato, probabilmente potrebbe durare meno di cinque minuti su un gb200.

se la pensi in questo modo, c'è davvero una buona argomentazione: l'articolo di alexnet del 2012 sull'imagenet challenge è davvero un modello molto classico, ovvero il modello di rete neurale convoluzionale.

in effetti, questo concetto è apparso già negli anni '80. ricordo ancora il primo articolo che ho studiato da studente laureato. il contenuto era simile, con una struttura di rete a sei o sette livelli. quasi l'unica differenza tra alexnet e il modello di rete neurale convoluzionale è la gpu: l'uso di due gpu e enormi quantità di dati.

quindi quello che stavo per dire è che la maggior parte delle persone ora ha familiarità con quella che viene chiamata la "lezione amara", ovvero, se sviluppi un algoritmo, assicurati solo di poter sfruttare le risorse informatiche esistenti, perché queste risorse diventeranno disponibile nel tempo. quindi hai solo bisogno di un sistema che continui a migliorare.

d’altra parte, sembra esserci un’altra argomentazione altrettanto convincente, ovvero che le nuove fonti di dati effettivamente sbloccano il deep learning. imagenet è un buon esempio. sebbene molte persone pensino che il meccanismo di auto-attenzione sia importante per il modello transformer, diranno anche che è un modo per trarre vantaggio dai dati etichettati dagli esseri umani.

poiché gli esseri umani forniscono le annotazioni per la struttura della frase, se guardi il modello clip, in realtà consente agli umani di taggare le immagini utilizzando i tag alt su internet. quindi questa è davvero una storia sui dati, non sull’informatica. quindi la risposta è entrambe le cose o è più una cosa sola? penso che sia un po' entrambe le cose, ma hai anche sottolineato un altro punto molto critico.

martín casado

penso che in realtà ci siano due epoche distinte nel campo degli algoritmi. l'era imagenet è l'era dell'apprendimento supervisionato. al giorno d'oggi disponiamo di molti dati, ma non sappiamo come allenarci solo con i dati stessi.

l'aspettativa con imagenet e altri set di dati contemporanei era che avremmo avuto molte immagini, ma avremmo avuto bisogno che gli esseri umani annotassero ciascuna immagine. tutti i dati su cui abbiamo effettuato la formazione sono stati visualizzati e annotati uno per uno da annotatori umani.

la grande svolta per gli algoritmi è che ora sappiamo come addestrarsi su dati che non si basano sull’annotazione umana. a una persona media senza esperienza nell'intelligenza artificiale, sembra che se si sta addestrando su dati umani, gli esseri umani hanno effettivamente eseguito l'annotazione, ma l'annotazione non è esplicita.

giustino johnson

sì, dal punto di vista filosofico questa è una questione molto importante, ma è più vera nel regno del linguaggio che in quello delle immagini. sì, ma penso che sia una distinzione importante. clip è infatti annotato dagli esseri umani. penso che il meccanismo dell’autoattenzione sia dovuto al fatto che gli esseri umani hanno compreso le relazioni tra le cose e poi imparano attraverso queste relazioni.

quindi è ancora annotato dagli esseri umani, ma l'annotazione è implicita anziché esplicita. la differenza è che nell’era dell’apprendimento supervisionato, i nostri compiti di apprendimento sono più limitati. dobbiamo ideare un'ontologia dei concetti che vogliamo scoprire.

ad esempio, in imagenet, fei-fei li e i suoi studenti hanno trascorso molto tempo a pensare a quali dovrebbero essere le mille categorie della sfida imagenet. allo stesso tempo in altri set di dati, come il set di dati coco utilizzato per il rilevamento dei bersagli, hanno riflettuto molto sulla decisione di quali 80 categorie inserirvi.

martín casado

parliamo quindi di ia generativa. quando stavo facendo il dottorato, prima che arrivaste voi, ho seguito il corso di apprendimento automatico di andrew ng e il corso bayesiano molto complesso di daphne koller, che è stato molto complesso per me.

all'epoca si trattava in gran parte di modelli predittivi. ricordo che hai sbloccato tutta questa faccenda della visione, ma l'intelligenza artificiale generativa esiste solo negli ultimi quattro anni circa. questo è un campo completamente diverso per me: non identifichi più oggetti, non prevedi qualcosa, stai generando cose nuove.

quindi forse possiamo parlare di quali sono i fattori chiave che rendono possibile l’intelligenza artificiale generativa, in che modo è diversa da prima e se dovremmo guardarla in modo diverso, se si tratta di una parte di sviluppo continuo o di un altro campo completamente nuovo.

fei fei li

è molto interessante che i modelli generativi esistano già dai tempi della mia scuola di specializzazione. all'epoca volevamo fare la generazione, ma nessuno si ricordava che, anche se stavamo facendo la generazione con lettere e numeri, stavamo provando qualcosa. jeff hinton all'epoca aveva alcuni articoli sulla generazione e anche noi stavamo pensando a come generare.

in effetti, se lo guardi dal punto di vista della distribuzione di probabilità, può essere generato matematicamente, ma ciò che fu generato in quel momento non era affatto sorprendente. quindi, sebbene il concetto di generazione esista da un punto di vista matematico, in realtà non esiste alcun effetto di generazione che sia soddisfacente.

poi vorrei menzionare in modo specifico uno studente di dottorato che è venuto nel mio laboratorio con un forte interesse per il deep learning. si può quasi dire che l'intera esperienza di studio di dottorato di questo dottorando sia un microcosmo del percorso di sviluppo di questo campo.

il suo primo progetto riguardava i dati e l'ho costretto a farlo. sebbene non gli piacesse, in seguito ha ammesso di aver imparato molte cose utili. "ora sono felice che tu l'abbia detto." quindi ci siamo rivolti al deep learning e il problema principale era come generare testo dalle immagini. in realtà, ci sono tre fasi chiare in questo processo.

la prima fase è abbinare immagini e testo. abbiamo immagini e testo e poi dobbiamo vedere come sono correlati. il mio primo articolo accademico, che è anche la mia prima tesi di dottorato, ha studiato il recupero di immagini basato su grafici di scene. successivamente, continuiamo a studiare in modo approfondito e a generare testo dai pixel. sia lui che andrej hanno svolto molto lavoro a questo riguardo, ma è ancora un metodo di generazione con molte perdite e le informazioni vengono perse notevolmente quando vengono ottenute dal file. mondo dei pixel.

c'era un'opera molto famosa nella fase centrale. a quel tempo qualcuno realizzò per la prima volta in tempo reale. nel 2015, un articolo intitolato "the art style of neural algorithms" è stato pubblicato sotto la guida di leon gatys. hanno dimostrato la conversione di foto del mondo reale in immagini in stile van gogh.

potremmo darlo per scontato ora, ma era il 2015 e quel documento apparve su arxiv e mi scioccò. mi sento come se un "virus che genera intelligenza artificiale" fosse stato iniettato nel mio cervello. ho pensato tra me e me: "oh mio dio, devo capire questo algoritmo, giocarci e provare a far sembrare le mie foto come van gogh".

quindi, ho trascorso un lungo fine settimana a reimplementare l'algoritmo in modo che potesse funzionare correttamente. in effetti, è un algoritmo molto semplice. la mia implementazione ha solo circa 300 righe di codice. all'epoca era scritto in lua, perché a quel tempo non esisteva pytorch, quindi abbiamo usato lua torch. ma nonostante la semplicità dell’algoritmo, è molto lento. ogni volta che generi un'immagine, devi eseguire un ciclo di ottimizzazione, che richiede molto tempo. le immagini risultanti sono bellissime, ma vorrei solo che fosse un po' più veloce. alla fine, lo abbiamo reso più veloce.

un’altra cosa di cui sono molto orgoglioso è che abbia svolto un lavoro davvero all’avanguardia nell’ultima parte della sua ricerca di dottorato prima che l’intelligenza artificiale generativa venisse davvero diffusa nel mondo. questo progetto genera immagini complete inserendo il linguaggio naturale, che può essere considerato uno dei primi sforzi di intelligenza artificiale generativa. usavamo i gan, ma all’epoca era molto difficile da usare. il problema è che non siamo ancora pronti a descrivere un’immagine completa utilizzando il linguaggio naturale.

quindi, ha utilizzato un metodo di input della struttura del grafico della scena e il contenuto di input era "pecora", "erba", "cielo", ecc. e ha utilizzato questo metodo per generare un'immagine completa.

dalla corrispondenza dei dati al trasferimento dello stile alla generazione di immagini, stiamo gradualmente assistendo a una trasformazione completa. ti chiedi se si tratta di un cambiamento enorme, per persone come noi è un processo in corso, ma per le masse i risultati sembrano improvvisi e di grande impatto.

martín casado

ho letto il tuo libro ed è un libro bellissimo che consiglio vivamente a tutti di leggere. e, fei-fei, quello che voglio dire è che per molto tempo molte delle tue ricerche e direzioni si sono concentrate su aree come l'intelligenza spaziale e l'elaborazione dei pixel. anche i world labs a cui stai lavorando ora sono legati all’intelligenza spaziale. puoi parlare di questo come parte del tuo viaggio a lungo termine? perché hai deciso di farlo adesso? si tratta di una sorta di svolta tecnologica o di ragioni personali? puoi portarci dal contesto della ricerca sull’intelligenza artificiale a world labs?

fei fei li

per me questa è sia una ricerca personale che un viaggio intellettuale. hai menzionato il mio libro, e il mio intero viaggio intellettuale è stato in realtà una ricerca delle "stelle polari" e una forte convinzione che quelle stelle polari siano fondamentali per il progresso del nostro campo.

all'inizio, ricordo che dopo la scuola di specializzazione, pensavo che la mia stella polare fosse "raccontare storie per immagini", perché per me questa è una parte importante dell'intelligenza visiva, quella che chiami parte dell'intelligenza artificiale.

ma quando justin e andrej hanno finito il loro lavoro, ho pensato: "oh mio dio, questo è il sogno di una vita, cosa farò dopo?" stava procedendo molto più velocemente di quanto mi aspettassi, pensavo che ci sarebbe voluto un po' ci vorranno centinaia di anni per raggiungere questo obiettivo.

l’intelligenza visiva è sempre stata una mia passione. credo fermamente che sia fondamentale per ogni essere intelligente, sia esso umano, robot o altra forma di essere, imparare a vedere il mondo, a ragionare e a interagire con il mondo. che si tratti di navigazione, controllo, produzione o anche di costruzione di civiltà, l’intelligenza visiva e spaziale gioca un ruolo fondamentale.

potrebbe essere fondamentale quanto il linguaggio, o anche più antico e fondamentale in qualche modo. pertanto, la stella polare di world labs è quella di sbloccare l'intelligenza spaziale, e ora è il momento giusto.

come ha detto justin, disponiamo già delle risorse di cui abbiamo bisogno: potenza di calcolo e comprensione più approfondita dei dati. siamo diventati più sofisticati nella comprensione dei dati rispetto all’era di imagenet.

disponiamo anche di progressi algoritmici, come il lavoro all’avanguardia su nerf dei nostri cofondatori ben mildenhall e christoph lassner. riteniamo che ora sia il momento giusto per prendere una decisione, concentrarci su quest’area e liberarne il potenziale.

martín casado

per far capire bene a tutti, ora hai fondato questa azienda, la world labs, e il problema che vuoi risolvere è "l'intelligenza spaziale". puoi descrivere brevemente cos’è l’intelligenza spaziale?

fei fei li

l’intelligenza spaziale si riferisce alla capacità delle macchine di comprendere, percepire, ragionare e agire nello spazio e nel tempo 3d. nello specifico, si riferisce alla comprensione di come gli oggetti e gli eventi sono posizionati nello spazio e nel tempo 3d e in che modo le interazioni nel mondo influenzano queste posizioni 3d.

non si tratta solo di lasciare che le macchine rimangano nei data center o negli host, ma di lasciarle entrare nel mondo reale e comprendere questo ricco mondo 3d e 4d.

martín casado

il "mondo" di cui parli si riferisce al mondo fisico reale o a un mondo concettuale astratto?

fei fei li

penso che sia entrambe le cose. ciò rappresenta anche la nostra visione a lungo termine. anche se stai generando un mondo o un contenuto virtuale, ci sono comunque molti vantaggi nell'essere posizionati in 3d. oppure, quando identifichi il mondo reale, essere in grado di applicare la comprensione 3d al mondo reale ne fa parte.

martín casado

il tuo team di co-fondatori è davvero, davvero forte. allora perché pensi che ora sia il momento giusto per farlo?

fei fei li

questo è in realtà un processo evolutivo a lungo termine. dopo aver completato il dottorato, ho iniziato a cercare un percorso per diventare un ricercatore indipendente e pensare a grandi domande nei campi dell'intelligenza artificiale e della visione artificiale. all’epoca conclusi che l’ultimo decennio era stato dedicato alla comprensione dei dati già esistenti e che il decennio successivo avrebbe riguardato la comprensione di nuovi dati.

i dati del passato erano principalmente immagini e video già esistenti su internet, ma i dati del futuro sono completamente nuovi: l'avvento degli smartphone dotati di fotocamere, nuovi sensori e posizionabili nel mondo 3d. non è solo questione di prendere un mucchio di pixel da internet e cercare di capire se si tratta di un gatto o di un cane.

speriamo di trattare queste immagini come sensori universali del mondo fisico, aiutandoci a comprendere la struttura 3d e 4d del mondo, sia nello spazio fisico che in quello generativo.

dopo aver conseguito il dottorato di ricerca, ho fatto un grande cambiamento e sono entrato nel campo della visione artificiale 3d, lavorando con i miei colleghi su come prevedere la forma 3d degli oggetti. successivamente mi sono interessato molto all’idea di apprendere strutture 3d da dati 2d.

quando discutiamo di dati, spesso diciamo che ottenere dati 3d è difficile, ma in realtà le immagini 2d sono proiezioni del mondo 3d e ci sono molte strutture matematiche che possono essere sfruttate. anche se disponi di molti dati 2d, puoi dedurre la struttura del mondo 3d attraverso queste strutture matematiche.

il 2020 è un momento di svolta. il nostro co-fondatore ben mildenhall ha proposto il metodo nerf (neural radiation field). questo è un modo molto semplice e chiaro per dedurre strutture 3d da osservazioni 2d, aprendo l'intero campo della visione artificiale 3d.

allo stesso tempo, iniziò ad emergere anche il llm. gran parte del lavoro di modellazione linguistica è stato in realtà sviluppato da molto tempo nel mondo accademico. anche durante il mio dottorato, nel 2014, ho svolto alcuni lavori di modellazione linguistica con andrej karpathy.

giustino johnson

in realtà questo era qualcosa che appariva prima di transformer, ma nell'era di gpt-2 è difficile per te realizzare tali modelli nel mondo accademico perché richiedono troppe risorse di calcolo. tuttavia, cosa interessante, il metodo nerf proposto da ben richiede solo poche ore di allenamento su una singola gpu.

ciò ha portato molti ricercatori accademici a concentrarsi nuovamente su questi problemi, perché alcuni problemi algoritmici fondamentali possono essere risolti con risorse di calcolo limitate ed è possibile ottenere risultati all’avanguardia su una singola gpu. quindi a quel tempo molti ricercatori accademici pensavano: come possiamo promuovere lo sviluppo di questo campo attraverso algoritmi fondamentali? fei-fei ed io abbiamo parlato molto e ne siamo entrambi molto convinti.

fei fei li

sì, troviamo che le nostre direzioni di ricerca si stanno muovendo verso obiettivi simili in una certa misura. voglio anche raccontare una questione tecnica molto interessante, o una storia tecnica sui pixel.

molte persone impegnate nella ricerca linguistica potrebbero non sapere che prima dell’era dell’intelligenza artificiale generativa, quelli di noi che sono impegnati nel campo della visione artificiale hanno in realtà una lunga storia di ricerca chiamata ricostruzione 3d.

questo risale agli anni '70 e si potevano scattare foto: poiché gli esseri umani hanno due occhi, si potevano usare foto stereo per provare a triangolare e costruire forme 3d. tuttavia, questo è un problema molto difficile che non è stato ancora completamente risolto a causa di complicazioni come i problemi di abbinamento.

c’è stata una lunga storia di progressi in questo campo, ma quando nerf viene combinato con metodi generativi, soprattutto nel contesto dei modelli di diffusione, la ricostruzione 3d e la generazione iniziano improvvisamente a fondersi. nel campo della visione artificiale, abbiamo improvvisamente scoperto che se vediamo qualcosa, o immaginiamo qualcosa, entrambi possono convergere nella direzione di generarla. questo è un momento molto importante, ma molte persone potrebbero non notarlo perché non ne parliamo così ampiamente come parliamo di llm.

giustino johnson

sì, esiste la ricostruzione nello spazio dei pixel, ad esempio ricostruisci una scena reale e se non puoi vedere quella scena, usi tecniche generative; i due sono in realtà molto simili. hai parlato di linguaggio e pixel durante questa conversazione, quindi forse questo sarebbe un buon momento per parlare di intelligenza spaziale e approcci linguistici, del tipo sono complementari o sono completamente diversi?

fei fei li

penso che siano complementari. non so come definire "completamente diverso", ma posso provare a fare un paragone. oggi molti parlano di gpt, di intelligenza artificiale aperta e di modelli multimodali. si ritiene che questi modelli siano in grado di gestire sia i pixel che la lingua. possono quindi raggiungere il ragionamento spaziale che desideriamo? per rispondere a questa domanda, dobbiamo aprire la “scatola nera” di questi sistemi e vedere come funzionano sotto il cofano.

la rappresentazione sottostante dei modelli linguistici e dei modelli linguistici multimodali che vediamo ora è "unidimensionale". parliamo di lunghezza del contesto, trasformatori, sequenze, meccanismi di attenzione, ma in fin dei conti la rappresentazione di questi modelli si basa su token serializzati unidimensionali.

questa rappresentazione è molto naturale quando si ha a che fare con il linguaggio, poiché il testo stesso è costituito da sequenze unidimensionali di lettere distinte. questa rappresentazione unidimensionale è la base del successo del llm, e lo stesso vale per il llm multimodale che vediamo ora, che integra altre modalità (come le immagini) in questa rappresentazione unidimensionale.

nel campo dell'intelligenza spaziale pensiamo esattamente il contrario: crediamo che la tridimensionalità del mondo debba essere il nucleo della rappresentazione. da una prospettiva algoritmica, questo ci apre nuove opportunità per elaborare dati e ottenere diversi tipi di output, aiutandoci a risolvere alcuni problemi molto diversi.

anche a un livello approssimativo si potrebbe dire: "anche gli llm multimodali possono vedere le immagini". in effetti, possono, ma non mettono la natura delle tre dimensioni al centro del loro approccio durante l'elaborazione delle immagini.

giustino johnson

sono completamente d'accordo sul fatto che sia fondamentale discutere la differenza fondamentale tra rappresentazione unidimensionale e tridimensionale. inoltre c'è un punto un po' più filosofico, ma per me non meno importante: il linguaggio è essenzialmente un segnale puramente generato, e non esiste linguaggio al mondo. non vedrai scritte nel cielo quando esci nella natura. non importa quali dati inserisci, il modello linguistico può produrre quasi gli stessi dati con sufficiente generalizzazione. questa è la natura della generazione del linguaggio.

ma il mondo 3d è diverso. segue le leggi della fisica e ha una propria struttura e materiali. essere in grado essenzialmente di estrarre queste informazioni, rappresentarle e generarle è un tipo di problema completamente diverso. anche se prenderemo in prestito alcune idee utili dai modelli linguistici, questa è fondamentalmente una questione filosofica diversa.

martín casado

esatto, quindi il modello linguistico è unidimensionale e probabilmente una scarsa rappresentazione del mondo fisico perché è generato dall'uomo con perdita. un'altra modalità per i modelli generativi sono i pixel, che sono immagini e video 2d. se guardi un video, puoi vedere una scena 3d perché la fotocamera può eseguire la panoramica. allora qual è la differenza tra intelligenza spaziale e video 2d?

fei fei li

ci sono due punti su cui vale la pena riflettere qui. uno è la rappresentazione sottostante e l'altro è la comodità dell'esperienza dell'utente. i due a volte sono confusi. ciò che percepiamo è 2d: la nostra retina è una struttura bidimensionale, ma il nostro cervello la vede come una proiezione del mondo tridimensionale.

potresti voler spostare oggetti, spostare la telecamera e, in linea di principio, potresti fare queste cose con rappresentazioni e modelli 2d, ma non è appropriato per il problema che stai ponendo. una proiezione bidimensionale di un mondo tridimensionale dinamico può essere modellabile, ma porre la rappresentazione tridimensionale al centro del modello si adatta meglio alle esigenze del problema.

il nostro obiettivo è integrare più rappresentazioni 3d nel nucleo del modello per fornire un'esperienza migliore agli utenti. anche questo si lega alla mia “stella polare”. perché sottolineiamo l'"intelligenza spaziale" piuttosto che l'"intelligenza dei pixel piatti"?

a causa della traiettoria dell’intelligenza, se si guarda indietro alla storia dell’evoluzione, il suo obiettivo finale è consentire agli animali e agli esseri umani di muoversi liberamente nel mondo, interagire, creare civiltà e persino preparare un panino. pertanto, tradurre questa essenza 3d in tecnologia è la chiave per sbloccare innumerevoli potenziali applicazioni, anche se alcune possono sembrare progressi superficiali.

martín casado

penso che questo sia un punto molto sottile ma cruciale. forse possiamo approfondire ulteriormente questa discussione parlando di alcuni scenari applicativi. quando parliamo di sviluppare un modello tecnologico che consenta l’intelligenza spaziale, come potrebbe essere nello specifico? quali sono i potenziali scenari applicativi?

fei fei li

il modello di intelligenza spaziale che immaginiamo può fare molte cose, una delle quali mi entusiasma particolarmente è la "generazione del mondo". similmente ai generatori di immagini di testo, ora disponiamo di generatori di testo-video: inserisci un'immagine o un video e il sistema genererà una straordinaria clip di due secondi. ma penso che possiamo portare questa esperienza in un mondo 3d.

possiamo immaginare che l’intelligenza spaziale ci aiuterà in futuro ad aggiornare queste esperienze al 3d, non solo generando un’immagine o un video, ma generando un mondo 3d interattivo completo, simulato e ricco. forse viene utilizzato per i giochi, forse viene utilizzato per la fotografia virtuale, i campi di applicazione sono così ampi che è inimmaginabile.

giustino johnson

penso che la tecnologia migliorerà nel tempo. è molto difficile costruire queste cose, quindi il problema statico può essere relativamente semplice, ma a lungo termine vogliamo che sia completamente dinamico, interattivo, tutto ciò che hai appena descritto.

fei fei li

sì, questa è la definizione stessa di intelligenza spaziale. inizieremo con questioni più statiche, ma tutto ciò che hai menzionato riguarda il futuro dell'intelligenza spaziale.

giustino johnson

ciò si riflette anche nel nome della nostra azienda “world labs”: il nome riguarda la costruzione e la comprensione del mondo. quando diciamo alle persone il nome, all'inizio non sempre lo capiscono, perché nei campi della visione artificiale, della ricostruzione e della generazione, spesso facciamo distinzione tra ciò che possiamo fare. il primo livello consiste nel riconoscere oggetti, come microfoni, sedie e altri oggetti discreti nel mondo. gran parte del lavoro di imagenet è legato al riconoscimento degli oggetti.

ma poi passiamo al livello delle scene: le scene sono composte da oggetti. ad esempio, ora abbiamo uno studio di registrazione con un tavolo, un microfono e persone sedute su sedie, che è una combinazione di oggetti. ma il “mondo” che immaginiamo trascende le scene. la scena potrebbe essere una cosa unica, ma noi vogliamo abbattere quei confini ed uscire, sulla strada, vedere il traffico che passa, vedere le foglie che ondeggiano al vento ed essere in grado di interagire con quelle cose.

fei fei li

un'altra cosa molto interessante riguarda il termine "nuovi media". con questa tecnologia, i confini tra il mondo reale, il mondo virtuale immaginario o il mondo aumentato e previsto diventano confusi. il mondo reale è 3d, quindi nel mondo digitale è necessaria una rappresentazione 3d per fondersi con il mondo reale. non puoi interagire in modo efficace con il mondo 3d reale solo in 2d o addirittura in 1d.

questa funzionalità sblocca scenari applicativi illimitati. proprio come il primo scenario applicativo menzionato da justin, la generazione del mondo virtuale può essere utilizzata per qualsiasi scopo. la seconda potrebbe essere la realtà aumentata. nel periodo in cui fu fondata world labs, apple lanciò vision pro e usò il termine "calcolo spaziale". stiamo quasi parlando della stessa cosa, ciò che sottolineiamo è "l'intelligenza spaziale". non c’è dubbio che il calcolo spaziale richieda l’intelligenza spaziale.

non sappiamo come saranno le future forme di hardware: potrebbero essere occhiali protettivi, occhiali o persino lenti a contatto. ma nell'interfaccia tra il mondo reale e quello virtuale, sia che si tratti di migliorare la tua capacità lavorativa, di aiutarti a riparare la tua auto anche se non sei un meccanico professionista, o semplicemente di fornire un'esperienza di intrattenimento simile a "pokemon go++", questa tecnologia diventerà il sistema operativo per ar/vr.

giustino johnson

in casi estremi, ciò che il dispositivo ar deve fare è accompagnarti continuamente, comprendere il mondo che vedi in tempo reale e aiutarti a completare le attività della vita quotidiana. sono davvero entusiasta di questo, soprattutto della fusione tra virtuale e realtà. quando riesci a comprendere perfettamente l'ambiente circostante in 3d in tempo reale, potrebbe persino sostituire alcune cose nel mondo reale.

ad esempio, ora disponiamo di schermi di varie dimensioni (ipad, monitor di computer, tv, orologi, ecc.) che presentano informazioni in diversi scenari. ma se riusciamo a unire perfettamente i contenuti virtuali con il mondo fisico, questi dispositivi non saranno più necessari. i mondi virtuali possono mostrarti le informazioni di cui hai bisogno al momento giusto e nel modo più appropriato.

un’altra grande applicazione è quella di mescolare il mondo virtuale digitale con il mondo fisico 3d, soprattutto nella robotica. i robot devono agire nel mondo fisico, mentre i loro computer e il loro cervello si trovano nel mondo digitale. il ponte tra apprendimento e comportamento deve essere costruito dall’intelligenza spaziale.

martín casado

hai menzionato i mondi virtuali, la realtà aumentata e ora parli del mondo puramente fisico, ad esempio nella robotica. questo è un campo molto ampio, soprattutto se prevedi di espanderti in queste diverse aree. come vedi la deep technology relativa a questi specifici ambiti applicativi?

fei fei li

ci consideriamo un'azienda tecnologicamente profonda, come un'azienda di piattaforme, che fornisce modelli in grado di servire questi diversi scenari applicativi. per quanto riguarda quale scenario applicativo sia più adatto a ciò su cui ci siamo concentrati all'inizio, penso che l'attrezzatura attuale non sia sufficientemente perfetta.

in realtà ho ricevuto il mio primo visore vr quando ero alla scuola di specializzazione. quando l'ho indossato, ho pensato: "oh mio dio, è pazzesco, sono sicuro che molte persone hanno un'esperienza simile quando usano la realtà virtuale per la prima volta!".

adoro vision pro così tanto che sono rimasto alzato fino a tardi il giorno in cui è stato rilasciato per acquistarne uno, ma in questo momento non è completamente maturo come piattaforma per il mercato di massa. pertanto, come azienda, possiamo scegliere un mercato già più maturo in cui entrare.

a volte c'è semplicità nella versatilità. abbiamo una visione da azienda tecnologica profonda e crediamo che ci siano alcuni problemi fondamentali che devono essere risolti bene e che, se risolti bene, possono essere applicati a molti campi diversi. consideriamo l'obiettivo a lungo termine dell'azienda la costruzione e la realizzazione del sogno dell'intelligenza spaziale.

giustino johnson

in effetti, penso che sia lì l'impatto di ciò che stai facendo. non credo che ci arriveremo mai del tutto, perché è una cosa fondamentale: l'universo è essenzialmente una struttura quadridimensionale in evoluzione, e l'intelligenza spaziale in senso lato riguarda la comprensione dell'intera profondità di quella struttura e la scoperta tutta l'applicazione. quindi, anche se oggi abbiamo una serie specifica di idee, credo che questo viaggio ci porterà in luoghi che semplicemente non possiamo immaginare in questo momento.

fei fei li

la cosa sorprendente della tecnologia è che continua ad aprire sempre più possibilità. man mano che continuiamo ad avanzare, queste possibilità continueranno ad espandersi.

quest’anno gli investimenti di capitale di rischio nelle startup di intelligenza artificiale hanno raggiunto i 64,1 miliardi di dollari, vicino al picco del 2021, ma le entrate globali annuali totali legate all’intelligenza artificiale ammontano solo a decine di miliardi di dollari

notizia

l'ultima conversazione di li feifei su a16z: l'intelligenza spaziale non è adatta solo per la generazione del mondo virtuale, ma può anche essere integrata nel mondo reale. i progressi della tecnologia ai porteranno nuovi scenari applicativi inimmaginabili

introduzione

le mie informazioni di contatto