"AI Godmother" Li Feifei: Sora on edelleen kaksiulotteinen kuva, ja vain kolmiulotteinen avaruusäly voi saavuttaa AGI

"AI kummiäiti" Li Feifei: Sora on edelleen kaksiulotteinen kuva, ja vain kolmiulotteinen avaruusäly voi saavuttaa AGI｜Titanium Media

2024-08-03

TMTpost App raportoi 2. elokuuta, että Stanfordin yliopiston pitämässä Asian American Scholar Forumin suljetuissa ovissaStanfordin yliopiston professori Li Feifei, joka tunnetaan "AI:n kummiäidinä", kertoi TMTpost Appille, että vaikka amerikkalaisen OpenAI:n Sora-malli voi luoda videoita, se on periaatteessa silti tasainen kaksiulotteinen malli ja sillä ei ole kykyä ymmärtää kolmiulotteisia objekteja. Vain "tilaäly" on AGI:n tulevaisuuden suunta.

Li Feifei antoi yllä olevan vastauksen keskusteltuaan "tilaälyn" mallin ja TMTpost Median perustajan Zhao Hejuanin esittämän suuren kielimallin välisestä suhteesta. Hän selitti edelleen, että useimmat nykyiset mallit, kuten GPT4o ja Gemini 1.5, ovat edelleen kielimalleja, eli syöttökieliä ja tulostuskieliä, vaikka ne rajoittuvatkin kieleen , ne perustuvat kaksiulotteiseen litteään kuvaan. Mutta avain AGI:n toteuttamiseen tulevaisuudessa on "tilaäly", joka vaatii kolmiulotteisen visuaalisen mallin.

Hän käytti esimerkkinä Soran näyttämää tekoälyvideota "Japanilaisista naisista kävelemässä neonvalaistuilla Tokion kaduilla".

"Jos haluat algoritmin vaihtavan kulmaa näyttääkseen videon kadulla kävelevästä naisesta, esimerkiksi laittamalla kameran naisen taakse, Sora ei voi tehdä sitä. Koska tällä mallilla ei todellakaan ole syvällistä ymmärrystä kolmesta Ihmiset voivat tehdä sen mielessään "Kuvittele kohtaus naisen takana." ja kuinka rakentaa kaupunkeja Pohjimmiltaan spatiaalinen älykkyys on kolmiulotteisen tilan suhde leveä, kuten AR ja VR, robotit, ja sovellussuunnittelua tarvitaan myös.

Li Feifei korosti TMTpost Appille: "Luonnollinen evoluutio antaa eläimet ymmärtää kolmiulotteisen maailman, elää, ennustaa ja olla vuorovaikutuksessa kolmiulotteisessa avaruudessa. Tällä kyvyllä on pitkä historia, 540 miljoonaa vuotta , sen täytyy "navigoida" kolmiulotteisessa maailmassa, jos se ei voi "navigoida" kolmiulotteisessa maailmassa, siitä tulee nopeasti juhla muille eläimille ja ymmärrämme syvyyden.

Li Feifei, 48, on kuuluisa tietojenkäsittelytieteilijä, National Academy of Engineering -akatemian ja National Academy of Medicine -akatemikko sekä Stanfordin yliopiston ihmiskeskeisen tekoälytutkimuslaitoksen johtaja. Hän johti ImageNet-kuvatietokannan kehittämistä ja visuaalisen tunnistuskilpailun kehitystä vuonna 2009, merkitsi ja luokittelee tarkasti massiivisia kuvia, edistäen tietokoneen näöntunnistuskyvyn kehittymistä ja on myös yksi avaintekijöistä, jotka edistävät tekoälyn nopeaa kehitystä. Viime vuonna VoxPoserista, jonka hän ilmoitti, on tullut keskeinen teknologiasuunta Embodied AI -kehityksessä.

Tämän vuoden heinäkuussa World Labs, Li Feifein perustama tekoälyyritys, ilmoitti saaneensa päätökseen kaksi rahoituskierrosta, joihin kuuluu muun muassa a16z (Andreessen Horowitz).Yhtiön viimeisin arvio on saavuttanut 1 miljardin Yhdysvaltain dollarin (noin 7,26 miljardia juania).

Heinäkuun lopulla pidetyssä suljetuissa Aasian-Amerikan tutkijoiden foorumissa Li Feifein puhe antoi myös mahdollisuuden ymmärtää, mitä Word Labs ja hänen "tilaälyn" kehityskonsepti ovat, eli tehdä tekoäly todella "näkemisestä tehdä se. ”.

Kuinka siirtyä "näkemisestä" "tekemiseen"

Ns. "tilaäly" viittaa ihmisten tai koneiden kykyyn havaita, ymmärtää ja olla vuorovaikutuksessa kolmiulotteisessa tilassa.

Tämän käsitteen ehdotti ensimmäisenä amerikkalainen psykologi Howard Gardner useiden älykkyyden teoriassa, joka mahdollistaa ulkoisen spatiaalisen maailman mallin muodostamisen aivoissa ja sen käytön ja manipuloinnin. Itse asiassa tilaäly antaa ihmisille mahdollisuuden ajatella kolmiulotteisesti, jolloin ihmiset voivat havaita ulkoisia ja sisäisiä kuvia sekä toistaa, muuttaa tai muokata kuvia, jotta he voivat liikkua avaruudessa rauhallisesti ja tehdä mitä haluavat kohteiden sijainti graafisen tiedon luomiseksi tai tulkitsemiseksi.

Laajasti ottaen tilaäly ei sisällä ainoastaan kykyä havaita tilasuuntautuneisuutta, vaan myös visuaalista erottelua ja mielikuva-ajattelukykyjä. Koneille tilaälyllä tarkoitetaan niiden kykyä käsitellä visuaalista dataa kolmiulotteisessa avaruudessa, tehdä ennusteita tarkasti ja toimia näiden ennusteiden perusteella. Tämän kyvyn ansiosta koneet voivat navigoida, toimia ja tehdä päätöksiä monimutkaisessa kolmiulotteisessa maailmassa, kuten ihmiset, ylittäen siten perinteisen kaksiulotteisen näön rajoitukset.

Tämän vuoden huhtikuussa pidetyssä TED-puheessa Li Feifei sanoi suoraan, että visuaalinen kyky laukaisi kambrian räjähdyksen ja hermoston evoluutio toi älykkyyttä. "Emme vain halua tekoälyä, joka voi nähdä ja puhua, vaan tekoälyä, joka pystyy siihen."

Li Feifein mielestä spatiaalinen älykkyys on "avain taika-ase tekoälyn teknisten ongelmien ratkaisemiseen".

Tässä suljettujen ovien tapahtumassa heinäkuun lopulla Li Feifei tarkasteli ensimmäisen kerran 10 vuotta sitten alkaneen modernin tekoälyn kolmea päävoimaa: "hermoverkot", jotka koostuvat algoritmeista, eli "syväoppimisesta" pääasiassa NVIDIA GPU-sirut ja Big Data.

Vuodesta 2009 lähtien tietokonenäköala on edistynyt räjähdysmäisesti. Koneet tunnistavat nopeasti esineitä ja vastaavat ihmisen suorituskykyä. Mutta tämä on vain jäävuoren huippu. Tietokonenäkö ei pysty ainoastaan tunnistamaan paikallaan olevia esineitä ja seuraamaan liikkuvia kohteita, vaan se voi myös erottaa esineitä eri osiin ja jopa ymmärtää esineiden välistä suhdetta. Siksi kuvasuurten tietojen perusteella tietokonenäkökenttä on edennyt harppauksin.

Li Feifei muistaa selvästi, että noin 10 vuotta sitten hänen oppilaansa Andrej Karpathy osallistui hymiöalgoritmien perustamistutkimukseen. He näyttivät tietokoneelle kuvan, ja sitten neuroverkon kautta tietokone pystyi tuottamaan luonnollista kieltä, kuten: "Tämä on kissa makaa sängyllä."

"Muistan sanoneeni Andrejille, käännetään se toisinpäin. Anna esimerkiksi lause ja pyydä tietokonetta antamaan kuva. Me kaikki nauroimme ja ajattelimme, että se ei ehkä koskaan toteutuisi tai se toteutuisi kaukaisessa tulevaisuudessa", Li Feifei muistutti.

Generatiivinen tekoälyteknologia on kehittynyt nopeasti viimeisen kahden vuoden aikana. Varsinkin muutama kuukausi sitten OpenAI julkaisi videoiden luontialgoritmin Sora. Hän esitteli opiskelijoidensa Googlessa kehittämää samanlaista tuotetta, joka oli erinomainen laatu. Tämä tuote oli olemassa useita kuukausia ennen Soran julkaisua, ja se käytti paljon pienempää GPU:ta (grafiikkakäsittelyyksikköä) kuin Sora. Kysymys kuuluu, mihin tekoäly menee seuraavaksi?

"Olen vuosia sanonut, että "näkeminen" tarkoittaa "maailman ymmärtämistä". Haluaisin kuitenkin viedä tämän käsitteen pidemmälle, ja "näkeminen" ei ole vain ymmärtämistä, vaan myös tekemistä Eläimet, joilla on aistia, mutta sellaisia eläimiä on itse asiassa ollut olemassa 450 miljoonaa vuotta sitten, koska tämä on evoluution välttämätön edellytys: näkeminen ja tekeminen ovat suljettu silmukka", Li Feifei sanoi.

Hän käytti esimerkkinä suosikkikissaansa.

Kuva kissasta, lasista maitoa ja kasveja pöydällä. Kun näet tämän valokuvan, mieleesi ilmestyy itse asiassa kolmiulotteinen video. Näet muotoja, näet geometrian.

Itse asiassa näet, mitä tapahtui muutama sekunti sitten ja mitä voi tapahtua muutaman sekunnin kuluttua. Näet tämän kuvan kolmiulotteisena. Suunnittelet mitä teet seuraavaksi. Aivosi kilpailevat ja laskevat, mitä voit tehdä mattosi pelastamiseksi, varsinkin kun kissa on sinun ja matto sinun.

"Minä kutsun kaikkea tätä tilaälyksi, joka mallintaa kolmiulotteista maailmaa ja päättelee esineitä, paikkoja, tapahtumia jne. kolmiulotteisessa tilassa ja ajassa. Tässä esimerkissä puhun todellisesta maailmasta, mutta myös Se voi viitata virtuaaliseen maailmaan, mutta avaruusälyn ydin on yhdistää "näkeminen" ja "tekeminen" jonain päivänä tekoäly pystyy tekemään tämän, Li Feifei.

Toiseksi Li Feifei näytti 3D-videon, joka oli rekonstruoitu useiden kuvien perusteella, ja sitten hän antoi 3D-videon yhden valokuvan perusteella. Näitä tekniikoita voidaan käyttää suunnittelussa.

Li Feifei sanoi, että ruumiillistuneet älykkäät tekoäly- tai humanoidirobotit voivat muodostaa suljetun silmukan "näkemisen" ja "tekemisen" välille.

Hän kertoi, että kollegat Stanfordin yliopistosta ja sirujätti NVIDIA tekevät yhdessä BEHAVIOR-nimisen tutkimuksen rakentaakseen dynaamisen tilan kotitoimintoihin arvioidakseen eri robottien suorituskykyä kotiympäristössä. "Katsomme kuinka yhdistää kielimalleja suuriin visuaalisiin malleihin, jotta robotti voidaan ohjata suunnittelemaan ja aloittamaan toimia", hän sanoi. Hän antoi kolme esimerkkiä, joista yksi oli laatikkoa avaava robotti, toinen robotti, joka irrotti matkapuhelimen latauskaapelin, ja kolmas oli robotti, joka teki voileipää. Kaikki ohjeet annetaan luonnollisella ihmiskielellä.

Lopuksi hän antoi esimerkin uskoen, että tulevaisuus kuuluu "tilaälyn" maailmaan, jossa ihmiset voivat istua siellä, käyttää antureilla varustettua EEG-hattua ja avata suutaan puhumaan, he voivat kertoa roboteille etäyhteyden avulla. ajatuksia: valmista japanilaistyylinen ateria. Kun robotti on vastaanottanut idean, se purkaa idean salauksen ja voi valmistaa täydellisen aterian.

"Kun yhdistämme "näkemisen" ja "tekemisen" tilaälyn avulla, voimme tehdä sen", hän sanoi.

Li Feifei sanoi myös, että hän on todistanut tekoälyn jännittävää kehitystä viimeisen 20 vuoden aikana. Hän uskoo kuitenkin, että tekoälyn tai AGI:n avain on tilaäly. Tilaälyn avulla voimme nähdä maailman, havaita maailman, ymmärtää maailmaa ja antaa robotin tehdä asioita muodostaen näin hyveellisen suljetun silmukan.

Ottavatko robotit vallan ihmiskunnan?

Li Feifei sanoi kokouksessa, että ihmiset ovat nykyään liian liioiteltuja siitä, mitä tekoäly voi tehdä tulevaisuudessa. Hän varoittaa sekoittamasta kunnianhimoisia, rohkeita tavoitteita todellisuuteen, jota kuulemme liian usein.

Itse asiassa tekoäly on saavuttanut käännepisteen, etenkin suuret kielimallit. "Se on kuitenkin edelleen vikojen aiheuttama, rajoitettu tekniikka, joka vaatii edelleen ihmisten osallistumista siihen syvällisesti ja sen rajoitusten ymmärtämistä. Nyt erittäin vaarallinen argumentti on niin sanottu ihmisen sukupuuttoon kuolemisen riski, eli tekoälystä on tulossa "Mielestäni tämä on erittäin vaarallista yhteiskunnalle, ja tällaisella retoriikalla on paljon tahattomia seurauksia. Tarvitsemme harkittua, tasapainoista ja puolueetonta viestintää ja koulutusta tekoälystä", Li Feifei sanoi. korosti.

Li Feifei uskoo, että tekoälyn pitäisi juurtua ihmisiin. Ihmiset loivat sen, ihmiset kehittävät sitä, ihmiset käyttävät sitä, ja ihmisten pitäisi myös hallita sitä.

Li Feifei sanoi, että Stanfordin yliopiston "ihmiskeskeisessä tekoäly" -instituutissa he ovat omaksuneet kolme lähestymistapaa tekoälyyn, mukaan lukien kolme yksilön, yhteisön ja yhteiskunnan tasoa:

Yksilötasolla tekoälyn on oltava sitoutunut ja omaksuttava. Tämä on sivistynyttä tekniikkaa. Tekoäly muuttaa tapaa, jolla lapset oppivat, kuinka lääkärit käyttävät diagnostisia menetelmiä, miten taiteilijat suunnittelevat ja miten opettajat opettavat. Riippumatta siitä, oletko teknikko vai et, voit hoitaa roolisi ja käyttää tekoälyä vastuullisesti.
Yhteisötasolla tekoäly voi vahvistaa yhteisöjä ja vastata niiden ympäristönsuojelu- tai maataloustarpeisiin. Jotkut maatalousyhteisöt käyttävät koneoppimistekniikkaa yhteisön vedenlaadun seuraamiseen. Taiteilijayhteisö ei vain käytä tekoälyä, vaan myös ilmaisee huolensa ja ajatuksensa ongelmien ratkaisemisesta ja riskien vähentämisestä.
Yhteiskunnallisella tasolla hallitusten, tutkimuslaitosten, yritysten, liittovaltion virastojen ja kansainvälisten virastojen tulisi ottaa tämä tekniikka vakavasti. On olemassa energiakysymys, ja sillä on geopoliittisia vaikutuksia. Avoimen lähdekoodin ja ei-avoimen lähdekoodin välillä käydään edelleen laajaa keskustelua, mikä vaikuttaa talouteen ja ekologiaan. Hallintoongelmia, kuten tekoälyn riskit ja turvallisuus, on edelleen. On omaksuttava myönteinen lähestymistapa, monen sidosryhmän lähestymistapa ja koko yhteiskunnan lähestymistapa. Nyt ei ole paluuta takaisin, Li Feifei sanoi. Hän johti Googlen tekoälyprojektia vuosina 2017–2018, toimi Twitterin hallituksen jäsenenä vuosina 2020–2022 ja on tällä hetkellä tekoälyn neuvonantaja Valkoisessa talossa.

Tekoälyn vaikutuksesta työhön Li Feifei jakoi näkemyksensä.

Li Feifei huomautti, että Stanfordin yliopiston Human-Centered AI -instituutissa on digitaalisen talouden laboratorio, jota johtaa professori Erik Brynjolfsson. Tässä hyvin monimutkaisessa asiassa on monia kerroksia. Hän korosti erityisesti, että "työ" ja "tehtävä" ovat kaksi eri käsitettä, koska todellisuudessa jokaisen työ koostuu useista tehtävistä.

Hän käytti esimerkkinä amerikkalaisia sairaanhoitajia. Sairaanhoitajan kahdeksan tunnin työvuoron aikana on arvioitu olevan satoja tehtäviä. Siksi, kun ihmiset keskustelevat tekoälyn ottamisesta haltuun tai korvaamaan ihmisten työpaikkoja, heidän on erotettava, korvaako se tehtäviä vai työpaikkoja?

Li Feifei uskoo, että tekoäly on muuttanut useita tehtäviä työn sisällä, ja siksi se muuttaa vähitellen työn luonnetta. Call center -skenaariossa aloittelijoiden työn laatua tekoäly paransi 30 %, mutta osaavan henkilöstön työn laatua tekoäly ei parantanut. Fei-Fei Lin tunteet toistuvat Stanfordin yliopiston Digital Economy Laboratoryn artikkelissa, jonka otsikko on: "Tekoäly ei korvaa johtajien työpaikkoja: tekoälyä käyttävät johtajat korvaavat ne, jotka eivät sitä tee."

Li Feifei korosti, että tiede ja teknologia tuovat edistystä tuottavuudessa, mutta tuottavuuden edistyminen ei automaattisesti muutu yhteiskunnan yhteiseksi hyvinvoinniksi. Hän huomautti, että tällaisia tapauksia on tapahtunut monta kertaa historiassa.

(Tämä artikkeli julkaistiin ensimmäisen kerran Titanium Media Appissa, kirjoittaja｜Chelsea_Sun, toimittaja｜Lin Zhijia)

uutiset

"AI kummiäiti" Li Feifei: Sora on edelleen kaksiulotteinen kuva, ja vain kolmiulotteinen avaruusäly voi saavuttaa AGI｜Titanium Media

Johdanto

yhteystietoni