notizia

"AI Godmother" Li Feifei: Sora è ancora un'immagine bidimensionale e solo l'intelligenza spaziale tridimensionale può raggiungere AGI|Titanium Media

2024-08-03

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


L'app TMTpost ha riferito il 2 agosto che in una riunione a porte chiuse dell'Asian American Scholar Forum tenuta dalla Stanford University,Li Feifei, professoressa dell'Università di Stanford conosciuta come la "madrina dell'intelligenza artificiale", ha dichiarato in esclusiva a TMTpost App che sebbene il modello Sora dell'azienda americana OpenAI possa generare video, in sostanza si tratta pur sempre di un modello bidimensionale piatto e non ha la capacità di comprendere oggetti tridimensionali. Solo "l'intelligenza spaziale" è la direzione futura dell'AGI.

Li Feifei ha dato la risposta di cui sopra discutendo la relazione tra il modello di "intelligenza spaziale" e il grande modello linguistico sollevato dal fondatore di TMTpost Media Zhao Hejuan. Ha inoltre spiegato che la maggior parte dei modelli attuali, come GPT4o e Gemini 1.5, sono ancora modelli linguistici, ovvero lingua di input e lingua di output. Sebbene esistano anche modelli multimodali, sono ancora limitati alla lingua. Anche se è presente il video , si basano su un'immagine piatta bidimensionale. Ma la chiave per realizzare l’AGI in futuro è “l’intelligenza spaziale”, che richiede un modello visivo tridimensionale.

Ha usato come esempio il video AI di "donne giapponesi che camminano per le strade di Tokyo illuminate al neon" mostrato da Sora.


"Se vuoi che l'algoritmo cambi l'angolazione per mostrare il video della donna che cammina per strada, ad esempio mettendo la telecamera dietro la donna, Sora non può farlo. Perché questo modello non ha una comprensione profonda dei tre- mondo dimensionale. Gli esseri umani possono farlo nella loro mente "Immaginate la scena dietro la donna." Li Feifei disse: "Gli esseri umani possono capire come muoversi in ambienti complessi. Sappiamo come afferrare, come controllare, come costruire strumenti, e come costruire le città Fondamentalmente, l'intelligenza spaziale è la geometria. La relazione tra gli oggetti è lo spazio tridimensionale. L'intelligenza spaziale riguarda il rilascio della capacità di generare (mappe visive) e ragionare e pianificare azioni nello spazio tridimensionale ad esempio per AR e VR, per i robot, ed è necessaria anche l’intelligenza spaziale”.

Li Feifei ha sottolineato all’App TMTpost: “L’evoluzione naturale consente agli animali di comprendere il mondo tridimensionale, vivere, prevedere e interagire nello spazio tridimensionale. Questa capacità ha una lunga storia di 540 milioni di anni quando i trilobiti videro per la prima volta la luce nell’acqua , deve "navigare" nel mondo tridimensionale. Se non può "navigare" nel mondo tridimensionale, diventerà rapidamente una festa per gli altri animali Man mano che l'evoluzione procede, l'intelligenza spaziale degli animali aumenta e comprendiamo la forma. Comprendere la profondità.

Li Feifei, 48 anni, è un famoso informatico, accademico dell'Accademia Nazionale di Ingegneria e dell'Accademia Nazionale di Medicina e direttore dell'Istituto di ricerca sull'intelligenza artificiale incentrato sull'uomo presso l'Università di Stanford. Ha guidato lo sviluppo del database di immagini ImageNet e del concorso di riconoscimento visivo nel 2009, annotando e classificando accuratamente immagini di grandi dimensioni, promuovendo il progresso delle capacità di riconoscimento della visione artificiale ed è anche uno dei fattori chiave che promuovono il rapido sviluppo dell'intelligenza artificiale. L'anno scorso, VoxPoser, da lei annunciato, è diventata una direzione tecnologica chiave nello sviluppo dell'intelligenza artificiale incorporata.

Nel luglio di quest'anno, World Labs, una società di intelligenza artificiale fondata da Li Feifei, ha annunciato il completamento di due round di finanziamento. Gli investitori includono a16z (Andreessen Horowitz), ecc.L’ultima valutazione della società ha raggiunto il miliardo di dollari (circa 7,26 miliardi di yuan).

Al Forum degli scienziati asiatici americani a porte chiuse di fine luglio, il discorso di Li Feifei ha anche permesso a più persone di capire cosa sono Word Labs e il suo concetto di sviluppo di “intelligenza spaziale”, cioè rendere l’intelligenza artificiale veramente “dal vedere al farlo”. ”.

Come passare dal "vedere" al "fare"

La cosiddetta "intelligenza spaziale" si riferisce alla capacità di persone o macchine di percepire, comprendere e interagire nello spazio tridimensionale.

Questo concetto è stato proposto per la prima volta dallo psicologo americano Howard Gardner nella teoria delle intelligenze multiple, che consente di formare nel cervello un modello del mondo spaziale esterno e di utilizzarlo e manipolarlo. Infatti, l’intelligenza spaziale consente alle persone di pensare in modo tridimensionale, permettendo loro di percepire immagini esterne ed interne e di riprodurre, trasformare o modificare le immagini, in modo che possano muoversi con calma nello spazio e fare ciò che vogliono la posizione degli oggetti per generare o interpretare informazioni grafiche.

In generale, l’intelligenza spaziale comprende non solo la capacità di percepire l’orientamento spaziale, ma anche la discriminazione visiva e la capacità di pensare per immagini. Per le macchine, l’intelligenza spaziale si riferisce alla loro capacità di elaborare dati visivi nello spazio tridimensionale, di fare previsioni accurate e di intraprendere azioni basate su queste previsioni. Questa capacità consente alle macchine di navigare, operare e prendere decisioni in un mondo tridimensionale complesso come gli esseri umani, trascendendo così i limiti della tradizionale visione bidimensionale.

In un discorso TED tenutosi nell'aprile di quest'anno, Li Feifei ha affermato francamente che l'abilità visiva ha innescato l'esplosione del Cambriano e che l'evoluzione del sistema nervoso ha portato l'intelligenza. “Non vogliamo solo un’intelligenza artificiale in grado di vedere e parlare, vogliamo un’intelligenza artificiale che possa farlo”.

Dal punto di vista di Li Feifei, l'intelligenza spaziale è "l'arma magica chiave per risolvere i problemi tecnici dell'IA".

In questo evento a porte chiuse di fine luglio, Li Feifei ha esaminato per la prima volta le tre principali forze trainanti dell'intelligenza artificiale moderna iniziata 10 anni fa: "reti neurali" composte da algoritmi, ovvero principalmente "deep learning"; Chip GPU NVIDIA e Big Data.

Dal 2009, il campo della visione artificiale ha fatto progressi esplosivi. Le macchine possono riconoscere rapidamente gli oggetti e eguagliare le prestazioni umane. Ma questa è solo la punta dell’iceberg. La visione artificiale non solo può identificare oggetti stazionari e tracciare oggetti in movimento, ma può anche separare gli oggetti in parti diverse e persino comprendere la relazione tra gli oggetti. Pertanto, sulla base dei big data delle immagini, il campo della visione artificiale ha fatto passi da gigante.

Li Feifei ricorda chiaramente che circa 10 anni fa, il suo studente Andrej Karpathy partecipò alla ricerca per stabilire algoritmi per le emoticon. Hanno mostrato al computer un'immagine e poi, attraverso una rete neurale, il computer è riuscito a produrre un linguaggio naturale, come ad esempio: "Questo è un gatto sdraiato sul letto".

"Ricordo di aver detto ad Andrej, invertiamola. Ad esempio, diamo una frase e chiediamo al computer di fornire un'immagine. Abbiamo riso tutti, pensando che forse non sarebbe mai stata realizzata, o che sarebbe stata realizzata in un lontano futuro," Li Feifei ricordato.

La tecnologia dell’intelligenza artificiale generativa si è sviluppata rapidamente negli ultimi due anni. Soprattutto qualche mese fa, OpenAI ha rilasciato l'algoritmo di generazione video Sora. Ha mostrato un prodotto simile sviluppato dai suoi studenti presso Google, che era di eccellente qualità. Questo prodotto esisteva diversi mesi prima del rilascio di Sora e utilizzava una GPU (unità di elaborazione grafica) molto più piccola di Sora. La domanda è: dove andrà l’intelligenza artificiale dopo?

“Da anni dico che ‘vedere’ significa ‘comprendere il mondo’. Ma vorrei portare questo concetto un passo avanti e ‘vedere’ non è solo capire, ma fare Animali dotati di sensibilità, ma tali animali esistono effettivamente da 450 milioni di anni fa, perché questa è una condizione necessaria per l'evoluzione: vedere e fare sono un circuito chiuso", ha detto Li Feifei.

Ha usato il suo gatto preferito come esempio.


Foto di un gatto, un bicchiere di latte e piante su un tavolo. Quando vedi questa foto, nella tua mente appare effettivamente un video tridimensionale. Vedi le forme, vedi la geometria.

In effetti, vedi cosa è successo pochi secondi fa e cosa potrebbe accadere pochi secondi dopo. Vedi questa foto in tre dimensioni. Stai pianificando cosa fare dopo. Il tuo cervello sta correndo, calcolando cosa puoi fare per salvare il tuo tappeto, soprattutto perché il gatto è tuo e il tappeto è tuo.

"Io chiamo tutto questo intelligenza spaziale, che modella il mondo tridimensionale e ragiona su oggetti, luoghi, eventi, ecc. nello spazio e nel tempo tridimensionali. In questo esempio, sto parlando del mondo reale, ma anche Può riferirsi al mondo virtuale. Ma il punto fondamentale dell’intelligenza spaziale è connettere “vedere” e “fare”. Un giorno, l’intelligenza artificiale sarà in grado di farlo”, ha detto Li Feifei.

In secondo luogo, Li Feifei ha mostrato un video 3D ricostruito sulla base di più foto, quindi ha presentato un video 3D basato su una foto. Queste tecnologie possono essere utilizzate nel design.

Li Feifei ha affermato che l'intelligenza artificiale incarnata o i robot umanoidi possono formare un circuito chiuso tra "vedere" e "fare".

Ha detto che i colleghi della Stanford University e il colosso dei chip NVIDIA stanno conducendo congiuntamente uno studio chiamato BEHAVIOR per costruire uno spazio dinamico di riferimento per le attività domestiche per valutare le prestazioni di vari robot nell'ambiente domestico. "Stiamo cercando di collegare modelli linguistici con modelli visivi di grandi dimensioni in modo che il robot possa essere indirizzato a elaborare un piano e avviare un'azione", ha affermato. Ha fornito tre esempi: uno era un robot che apriva un cassetto, un altro era un robot che scollegava il cavo di ricarica di un telefono cellulare e il terzo era un robot che preparava un panino. Tutte le istruzioni vengono fornite attraverso il linguaggio umano naturale.

Infine, ha fatto un esempio, ritenendo che il futuro appartenga al mondo dell'"intelligenza spaziale", dove gli esseri umani possono sedersi lì, indossare un cappello EEG con sensori e, senza aprire la bocca per parlare, possono dire a distanza ai robot con il solo tocco di pensieri: cucinare un pasto in stile giapponese. Dopo che il robot ha ricevuto l'idea, la decodifica e può preparare un pasto completo.

"Quando colleghiamo 'vedere' e 'fare' attraverso l'intelligenza spaziale, possiamo farcela", ha detto.

Li Feifei ha anche affermato di aver assistito all'entusiasmante sviluppo dell'intelligenza artificiale negli ultimi 20 anni. Tuttavia, ritiene che la chiave dell’intelligenza artificiale o dell’AGI sia l’intelligenza spaziale. Attraverso l’intelligenza spaziale possiamo vedere il mondo, percepire il mondo, comprendere il mondo e lasciare che sia il robot a fare le cose, formando così un circolo chiuso virtuoso.

I robot prenderanno il controllo dell’umanità?

Li Feifei ha affermato durante l’incontro che le persone oggi sono troppo esagerate riguardo a ciò che l’intelligenza artificiale potrà fare in futuro. Mette in guardia dal confondere obiettivi ambiziosi e coraggiosi con la realtà, un ritornello che sentiamo troppo spesso.

In effetti, l’intelligenza artificiale ha raggiunto un punto di svolta, soprattutto nei modelli linguistici di grandi dimensioni. "Tuttavia, si tratta ancora di una tecnologia limitata e piena di bug, che richiede ancora un profondo coinvolgimento degli esseri umani e la comprensione dei suoi limiti. Un argomento molto pericoloso ora è il cosiddetto rischio di estinzione umana, vale a dire che l'intelligenza artificiale sta diventando una tecnologia "Penso che questo sia molto pericoloso per la società e ci saranno molte conseguenze indesiderate di questo tipo di retorica. Abbiamo bisogno di una comunicazione e di un'educazione sull'intelligenza artificiale ponderate, equilibrate e imparziali", ha affermato Li Feifei. sottolineato.

Li Feifei ritiene che l’intelligenza artificiale dovrebbe essere radicata negli esseri umani. Gli esseri umani lo hanno creato, gli esseri umani lo stanno sviluppando, gli esseri umani lo stanno usando e anche gli esseri umani dovrebbero gestirlo.

Li Feifei ha affermato che presso l'Istituto "Human-Centered AI" dell'Università di Stanford hanno adottato tre approcci all'IA, inclusi i tre livelli di individuo, comunità e società:

  • A livello individuale, l’intelligenza artificiale deve essere coinvolta e abbracciata. Questa è una tecnologia civilizzata. L’intelligenza artificiale cambia il modo in cui i bambini imparano, il modo in cui i medici utilizzano i metodi diagnostici, il modo in cui gli artisti progettano e il modo in cui insegnano gli insegnanti. Indipendentemente che tu sia un tecnico o meno, puoi svolgere il tuo ruolo e utilizzare l’intelligenza artificiale in modo responsabile.
  • A livello comunitario, l’intelligenza artificiale può dare potere alle comunità e soddisfare le loro esigenze di protezione ambientale o agricola. Alcune comunità agricole utilizzano la tecnologia di apprendimento automatico per monitorare la qualità dell’acqua nella comunità. La comunità degli artisti non si limita a utilizzare l’intelligenza artificiale, ma esprime anche le proprie preoccupazioni e idee su come risolvere i problemi e mitigare i rischi.
  • A livello sociale, i governi, gli istituti di ricerca, le imprese, le agenzie federali e le agenzie internazionali dovrebbero prendere sul serio questa tecnologia. C’è una questione energetica, e ciò ha implicazioni geopolitiche. C'è ancora una grande discussione tra open source e non open source, che colpisce l'economia e l'ecologia. Esistono ancora problemi di gestione, come i rischi e la sicurezza dell’intelligenza artificiale. È necessario adottare un approccio positivo, un approccio multi-stakeholder e un approccio che coinvolga l’intera società. Non si può tornare indietro adesso, ha detto Li Feifei. Ha guidato il progetto AI presso Google dal 2017 al 2018, è stata membro del consiglio di amministrazione di Twitter dal 2020 al 2022 ed è attualmente consulente AI della Casa Bianca.

Per quanto riguarda l’impatto dell’intelligenza artificiale sul lavoro, Li Feifei ha condiviso le sue opinioni.

Li Feifei ha sottolineato che esiste un laboratorio di economia digitale all’interno dell’Institute for Human-Centered AI dell’Università di Stanford, guidato dal professor Erik Brynjolfsson. Ci sono molti livelli in questa questione molto complessa. Ha sottolineato in particolare che "lavoro" e "compito" sono due concetti diversi, perché in realtà il lavoro di ognuno consiste in molteplici compiti.

Ha usato le infermiere americane come esempio. Si stima che durante il turno di otto ore di un infermiere si svolgano centinaia di compiti. Pertanto, quando le persone discutono che l’IA prende il posto o sostituisce i posti di lavoro umani, devono distinguere se si tratta di sostituire compiti o posti di lavoro?

Li Feifei ritiene che l’intelligenza artificiale abbia cambiato molteplici compiti all’interno di un lavoro e quindi cambierà gradualmente la natura del lavoro. Nello scenario del call center, la qualità del lavoro dei principianti è stata migliorata del 30% dall’intelligenza artificiale, ma la qualità del lavoro del personale qualificato non è stata migliorata dall’intelligenza artificiale. I sentimenti di Fei-Fei Li trovano eco in un articolo del Digital Economy Laboratory della Stanford University, intitolato: “L’intelligenza artificiale non sostituirà i posti di lavoro dei manager: i manager che usano l’intelligenza artificiale stanno sostituendo quelli che non lo fanno”.

Li Feifei ha sottolineato che la scienza e la tecnologia porteranno al progresso della produttività, ma il progresso della produttività non si tradurrà automaticamente in prosperità comune per la società. Ha sottolineato che tali incidenti si sono verificati molte volte nella storia.

(Questo articolo è stato pubblicato per la prima volta su Titanium Media App, autore|Chelsea_Sun, editore|Lin Zhijia)