li feifein viimeisin keskustelu: ai-teknologian kehitys tuo käsittämättömiä uusia sovelluksia skenaariot

li feifein viimeisin keskustelu: ai-teknologian kehitys tuo käsittämättömiä uusia sovellusskenaarioita

2024-09-23

äskettäin li feifeijaa16z kumppanimartin casadosamoin kuintutkija justin johnsonlaajentaakeskusteltuaialan historia, nykytilanne ja tuleva kehityssuunta, aiheetkattaa kaikki tekoälytekniikan osa-alueet, erityisesti generatiivisen tekoälyn ja tilaälyn tulevaisuuden mahdollisuudet.

li feifei korosti, että generatiivinen tekoäly oli olemassa jo hänen jatko-opintojensa aikana, mutta varhainen teknologia ei ollut vielä kypsä. syväoppimisen ja laskentatehon kehittymisen myötä generatiivinen tekoäly on edistynyt merkittävästi viime vuosina ja siitä on tullut yksi keskeisistä läpimurroista tekoälyn alalla.

hän esitteli myös viimeisimmän yrittäjyysprojektin world labs, joka keskittyy "tilaälyyn" eli koneiden kykyyn ymmärtää ja olla vuorovaikutuksessa 3d- ja 4d-tiloissa.

hän huomautti, että tilaäly ei sovellu vain virtuaalimaailmojen luomiseen, vaan voi myös integroida todellista maailmaa ja sitä käytetään laajasti lisätyn todellisuuden (ar), virtuaalitodellisuuden (vr) ja robotiikan aloilla.ai teknologian kehitys tuo meille käsittämättömiä uusia sovellusskenaarioita, mukaan lukien virtuaalimaailman luominen, lisätty todellisuus ja vuorovaikutus fyysisen maailman kanssa.

seuraava on tämän keskustelun pääsisältö, nauti~

martin casado

viimeisten kahden vuoden aikana olemme nähneet kuluttajille tarkoitettujen tekoälyyritysten ja -teknologioiden aallon syntyvän, ja prosessi on ollut hullu. ja olet työskennellyt tällä alalla vuosikymmeniä. joten voimme puhua tärkeimmistä panoksista ja oivalluksista, joita teit tässä prosessissa.

feifei li

tämä on erittäin jännittävää aikaa, ja taaksepäin katsottuna tekoäly on jännittävässä ajassa. olen henkilökohtaisesti toiminut tällä alalla yli kaksi vuosikymmentä. olemme nousseet viimeisestä tekoälytalvesta ja todistaneet modernin tekoälyn syntyä. sitten näimme syvän oppimisen nousun, joka osoitti meille, mikä oli mahdollista, kuten shakin pelaaminen.

sitten aloimme nähdä syvempää kehitystä varhaisten mahdollisuuksien, kuten kielimallien, teknologiassa ja teollisessa soveltamisessa. tällä hetkellä luulen, että olemme keskellä "kambrian räjähdystä".

tavallaan näemme nyt tekstin lisäksi myös pikseleitä, videota, ääntä jne., joita aletaan yhdistää tekoälysovelluksiin ja -malleihin, joten tämä on erittäin jännittävää aikaa.

martin casado

olen tuntenut teidät molemmat pitkään, ja monet ihmiset tuntevat teidät, koska olette niin huomattava tällä alalla. mutta kaikki eivät tiedä, kuinka aloitit tekoälykentällä, joten voimme ehkä esitellä lyhyesti taustasi, jotta yleisö saa perusymmärryksen.

justin johnson

okei, ensimmäinen kosketukseni tekoälyyn oli perustutkintoni loppupuolella. opiskelin matematiikkaa ja tietojenkäsittelytiedettä caltechissa ja se oli hienoa aikaa. tuona aikana julkaistiin hyvin kuuluisa artikkeli, joka oli home neck leen, andrew ngin ja muiden "kissapaperi" google brainissa. tämä oli ensimmäinen tapaukseni syvän oppimisen käsitteeseen.

tämä tekniikka hämmästytti minut, ja tämä oli ensimmäinen kerta, kun törmäsin tähän reseptiin: kun tehokkaat yleiskäyttöiset oppimisalgoritmit, valtavat laskentaresurssit ja suuret tietomäärät yhdistetään, tapahtuu jotain taianomaista. törmäsin tähän ajatukseen noin vuonna 2011 tai 2012, ja silloin tuntui, että tämä olisi jotain, mitä teen tulevaisuudessa.

ilmeisesti sinun piti mennä tutkijakouluun tehdäksesi tätä työtä, joten huomasin, että feifei oli stanfordissa, ja hän oli yksi harvoista ihmisistä maailmassa, joka opiskeli tätä alaa syvällisesti. se oli hienoa aikaa työskennellä syvän oppimisen ja tietokonenäön parissa, sillä tämä oli hetki, jolloin tekniikka oli siirtymässä lapsenkengistä kypsyyteen ja laajamittaiseen käyttöön.

tuona aikana näimme kielen mallinnuksen alun ja näimme myös erottelevan tietokonenäön alun – saattoi ymmärtää, mitä kuvassa tapahtuu. tänä aikana kehitettiin myös sitä, mitä nykyään kutsumme generatiiviseksi tekoälyksi. algoritmin ydinosat, kuten kuvien ja tekstin luominen, ratkaisivat myös akateeminen yhteisö tohtorintutkintoni aikana.

tuolloin joka aamu kun heräsin, avasin arxivin nähdäkseni viimeisimmät tutkimustulokset. se oli kuin joululahjojen avaaminen. viimeisten kahden vuoden aikana myös muu maailma on alkanut ymmärtää, että uusia "joululahjoja" vastaanotetaan tekoälytekniikan avulla joka päivä. mutta niille meistä, jotka ovat olleet tällä alalla yli kymmenen vuotta, tämä kokemus on jo olemassa.

feifei li

ilmeisesti olen paljon vanhempi kuin justin. tulin tekoälyn alalle fysiikasta, koska perustutkintotaustani oli fysiikka. fysiikka on oppiaine, joka opettaa ajattelemaan rohkeita kysymyksiä, kuten maailman ratkaisemattomia mysteereitä. fysiikassa nämä ongelmat saattavat liittyä atomimaailmaan, universumiin, mutta tämä koulutus sai minut kiinnostumaan toisesta ongelmasta - älykkyydestä. joten tein tohtorintutkinnon tekoälystä ja laskennallisesta neurotieteestä caltechissa. vaikka justin ja minä emme olleet päällekkäisiä caltechissa, meillä oli sama alma mater.

justin johnson

ja sama mentori?

feifei li

kyllä, perustutkinto-ohjaajanasi oli myös phd-neuvojani pietro perona. kun opiskelin tohtoriksi, tekoäly oli keskellä kylmää talvea julkisuudessa, mutta se ei ollut minun silmissäni. tämä on enemmän kuin kevättä edeltävä lepotila, jolloin koneoppiminen ja generatiiviset mallit keräävät voimia. pidän itseäni "alkuperäisenä" koneoppimisen alalla, ja justinin sukupolvi on syväoppimisen "syntyperäinen".

koneoppiminen on syväoppimisen edeltäjä, ja kokeilimme tuolloin erilaisia malleja. mutta tohtorintutkintoni loppupuolella ja apulaisprofessorina toimiessani opiskelijani ja laboratorioni huomasivat, että tekoälyn yleistyksessä oli huomiotta jäänyt elementti, jota alalla ei tuolloin ollut paljon ajateltu: data. keskityimme monimutkaisiin malleihin, kuten bayesialaisiin malleihin, ja unohdimme, kuinka tärkeää on antaa tietojen ohjata mallia.

tämä on yksi syistä, miksi panostamme imagenetiin. tuolloin tietojoukkojen koko kaikilla aloilla oli hyvin pieni tietokonenäön ja luonnollisen kielen käsittelyyn tarvittavat tietojoukot olivat tuhansia tai kymmeniä tuhansia dataa, mutta tajusimme, että meidän piti skaalata internetiin. . onneksi myös internetin aikakausi oli nousussa, ja ratsastimme tällä aallolla. juuri tähän aikaan tulin stanfordiin.

martin casado

nämä aikakaudet, kuten ne, joista puhumme paljon, kuten imagenet, ovat luonnollisesti tärkeitä aikakausia tietokonenäön edistämisessä tai ainakin tekemisessä suosituksi ja toteuttamiskelpoiseksi generatiivisen tekoälyn alalla. mainitsemme yleensä kaksi keskeistä läpimurtoa: toinen on transformer-paperi, joka on "huomiomekanismi", ja toinen on vähemmän puhuttu "stabiili diffuusio".

onko järkevää ymmärtää nämä kaksi akateemisen (erityisesti googlen) algoritmista läpimurtoa tällä tavalla? vai onko tämä enemmänkin tahallista prosessia? vai oliko muita suuria läpimurtoja, joita ei usein mainita ja jotka myös työnsivät meidät siihen, missä olemme tänään?

justin johnson

kyllä, mielestäni suurin läpimurto on laskentateho. tiedän, että tekoälyn tarina on usein myös laskentatehon tarina, mutta vaikka se usein mainitaan, sen vaikutus mielestäni on aliarvioitu.

tietojenkäsittelytehon kasvu viimeisen vuosikymmenen aikana on ollut huikeaa. ensimmäinen paperi, jota pidettiin läpimurtohetkenä tietokonenäön syvän oppimisen kannalta, oli alexnet, vuoden 2012 paperi, jossa syvä hermoverkko suoriutui hyvin imagenet-haasteessa, ylittäen huomattavasti muut tuolloin algoritmit.

algoritmit, joille saatat altistua tutkinnon aikana, haalistuvat alexnetiin verrattuna. alexnet on syvä neuroverkko, jossa on 60 miljoonaa parametria. sitä koulutettiin kuuden päivän ajan kahdella gtx 580 -näytönohjaimella. gtx 580 oli tuolloin tehokkain kuluttajanäytönohjain, ja se julkaistiin vuonna 2010.

etsin tietoja eilen illalla ja halusin laittaa tämän laajempaan kontekstiin. nvidian uusin näytönohjain on gb200 voitko arvata gtx 580:n ja gb200:n välisen laskentatehon eron?

luku on tuhansissa, joten tein laskelman eilen illalla. esimerkiksi kahden viikon harjoittelun aikana kuusi päivää ajettiin kahdella gtx 580:lla, jos se pidennettäisiin, se voisi todennäköisesti toimia alle viidessä minuutissa gb200:lla.

jos ajattelee asiaa tällä tavalla, on todella hyvä argumentti - vuoden 2012 alexnet-paperi imagenet challengesta on todella klassinen malli, eli konvoluutiohermoverkkomalli.

itse asiassa tämä käsite on ilmestynyt jo 1980-luvulla. muistan edelleen ensimmäisen jatko-opiskelijana opiskelmani paperin. sisältö oli samanlainen, kuusi tai seitsemän kerrosta. melkein ainoa ero alexnetin ja konvoluutiohermoverkkomallin välillä on gpu – kahden gpu:n ja valtavien tietomäärien käyttö.

aioin siis sanoa, että useimmat ihmiset tuntevat nyt niin sanotun "katkeran oppitunnin", joka tarkoittaa, että jos kehität algoritmin, varmista vain, että voit hyödyntää olemassa olevia laskentaresurssejasi, koska näistä resursseista tulee saatavilla ajan myötä. tarvitset siis vain järjestelmän, joka paranee jatkuvasti.

toisaalta näyttää olevan toinen yhtä vakuuttava argumentti, joka on se, että uudet tietolähteet todella vapauttavat syvän oppimisen. imagenet on hyvä esimerkki. vaikka monet ihmiset ajattelevat, että itsehuomiomekanismi on tärkeä transformer-mallille, he sanovat myös, että se on tapa hyödyntää ihmisen merkitsemää dataa.

koska ihmiset antavat merkinnät lauserakenteelle, jos katsot clip-mallia, sen avulla ihmiset voivat merkitä kuvia käyttämällä alt-tageja internetissä. joten tämä on todella tarina tiedoista, ei tietojenkäsittelystä. onko vastaus siis molemmat, vai onko se enemmänkin yksi puoli? luulen, että se on vähän molempia, mutta esitit myös toisen erittäin kriittisen asian.

martin casado

mielestäni algoritmien alalla on itse asiassa kaksi eri aikakautta. imagenet-aikakausi on ohjatun oppimisen aikakautta. nykyään meillä on paljon dataa, mutta emme tiedä kuinka harjoitella pelkän datan avulla.

imagenetin ja muiden samanaikaisten tietojoukkojen odotus oli, että meillä olisi paljon kuvia, mutta tarvitsisimme ihmisiä kommentoimaan jokaista kuvaa. ihmisen annotaattorit tarkastelivat ja merkitsivät yksitellen kaikki tiedot, joita harjoittelimme.

suuri läpimurto algoritmeissa on se, että tiedämme nyt, kuinka harjoitella dataa, joka ei ole riippuvainen ihmisen merkinnöistä. keskivertohenkilöltä, jolla ei ole tekoälytaustaa, näyttää siltä, että jos harjoittelet ihmisdataa, ihmiset ovat itse asiassa tehneet huomautuksen, mutta huomautus ei ole selkeä.

justin johnson

kyllä, filosofisesti tämä on erittäin tärkeä kysymys, mutta se on enemmän totta kielen kuin kuvien alueella. kyllä, mutta mielestäni se on tärkeä ero. clip on todellakin ihmisten kirjoittama. luulen, että itsehuomiomekanismi on se, että ihmiset ovat ymmärtäneet asioiden väliset suhteet, ja sitten opit näiden suhteiden kautta.

joten se on edelleen ihmisten kirjoittama, mutta merkintä on pikemminkin implisiittinen kuin eksplisiittinen. erona on, että ohjatun oppimisen aikakaudella oppimistehtävämme ovat rajoitetumpia. meidän on laadittava ontologia käsitteistä, jotka haluamme löytää.

esimerkiksi imagenetissä fei-fei li ja hänen opiskelijansa viettivät paljon aikaa miettien, mitä imagenet-haasteen tuhannen kategorian pitäisi olla. samaan aikaan muissa tietosarjoissa, kuten kohteen havaitsemiseen käytetyssä coco-tietojoukossa, he myös miettivät paljon, mitkä 80 luokkaa siihen sisällytetään.

martin casado

joten puhutaan generatiivisesta tekoälystä. kun tein tohtorintutkintaa, ennen kuin te tulitte mukaan, kävin andrew ngin koneoppimiskurssin ja daphne kollerin erittäin monimutkaisen bayesin kurssin, joka oli minulle erittäin monimutkainen.

suuri osa siitä oli silloin ennakoivaa mallintamista. muistan, että avasit koko tämän visiojutun, mutta generatiivinen tekoäly on ollut olemassa vasta noin neljän viime vuoden aikana. tämä on minulle täysin eri kenttä - et enää tunnista esineitä, et ennusta jotain, vaan luot uusia asioita.

joten ehkä voimme puhua siitä, mitkä ovat avaintekijät, jotka tekevät generatiivisen tekoälyn mahdolliseksi, miten se eroaa entisestä ja pitäisikö meidän katsoa sitä eri tavalla, onko kyseessä jatkuva kehitysosa vai jokin kokonaan uusi ala?

feifei li

on erittäin mielenkiintoista, että generatiiviset mallit ovat olleet olemassa jo ylioppilaspäivistäni asti. halusimme tehdä sukupolven tuolloin, mutta kukaan ei muistanut, että vaikka teimme sukupolven kirjaimilla ja numeroilla, yritimme jotain. jeff hintonilla oli tuolloin joitain papereita sukupolvesta, ja mietimme myös, kuinka luoda.

itse asiassa, jos sitä tarkastellaan todennäköisyysjakauman näkökulmasta, se voidaan generoida matemaattisesti, mutta tuolloin luotu ei ollut ollenkaan ihmeellistä. joten vaikka sukupolven käsite on olemassa matemaattisesta näkökulmasta, ei todellisuudessa ole olemassa tyydyttävää sukupolven vaikutusta.

sitten haluaisin mainita erityisesti tohtoriopiskelijan, joka tuli laboratoriooni syvään oppimiseen vahvasti kiinnostuneena. tämän jatko-opiskelijan koko jatko-opiskelukokemus voidaan melkein sanoa olevan mikrokosmos tämän alan kehityspolusta.

hänen ensimmäinen projektinsa oli data, ja pakotin hänet tekemään sen. vaikka hän ei pitänyt siitä, hän myönsi myöhemmin oppineensa paljon hyödyllisiä asioita. "nyt olen iloinen, että sanoit sen." joten siirryimme syvään oppimiseen, ja ydinongelma oli tekstin luominen kuvista. itse asiassa tässä prosessissa on kolme selkeää vaihetta.

ensimmäinen vaihe on kuvien ja tekstin yhdistäminen. meillä on kuvia ja tekstiä, ja seuraavaksi meidän on katsottava, miten ne liittyvät toisiinsa. ensimmäinen akateeminen työni, myös ensimmäinen väitöskirjani, opiskeli kohtauskaavioihin perustuvaa kuvanhakua. seuraavaksi jatkamme syvällistä opiskelua ja tekstin luomista pikseleistä. sekä hän että andrej ovat tehneet paljon työtä tämän suhteen, mutta se on silti erittäin häviöllinen luontimenetelmä, ja tiedot menetetään suuresti, kun se saadaan pikseleistä. pikselimaailma.

keskivaiheessa oli hyvin kuuluisa teos tuolloin joku tajusi reaaliajassa ensimmäistä kertaa. vuonna 2015 leon gatysin johdolla julkaistiin paperi "the art style of neural algorithms". he osoittivat todellisten valokuvien muuntamista van goghin tyylisiksi kuviksi.

saatamme pitää sen nyt itsestäänselvyytenä, mutta se oli vuonna 2015, ja tuo paperi ilmestyi arxiviin ja järkytti minua. minusta tuntuu, että "ai-generating virus" on ruiskutettu aivoihini. ajattelin itsekseni: "voi luoja, minun täytyy ymmärtää tämä algoritmi, leikkiä sen kanssa ja yrittää saada kuvistani van goghin näköisiä."

joten vietin pitkän viikonlopun algoritmin uudelleen käyttöönotossa, jotta se voisi toimia kunnolla. itse asiassa se on hyvin yksinkertainen algoritmi, jossa on vain noin 300 koodiriviä. se kirjoitettiin tuolloin lua-kielellä, koska silloin ei ollut pytorchia, joten käytimme lua torchia. mutta algoritmin yksinkertaisuudesta huolimatta se on hyvin hidas. joka kerta kun luot kuvan, sinun on suoritettava optimointisilmukka, joka vie paljon aikaa. tuloksena olevat kuvat ovat kauniita, mutta toivon vain, että se olisi hieman nopeampi. lopulta onnistuimme nopeammin.

toinen asia, josta olen erittäin ylpeä, on se, että hän teki erittäin huippuluokan työtä tohtoritutkimuksensa viimeisessä osassa ennen kuin generatiivinen tekoäly todella lähti maailmalle. tämä projekti tuottaa täydellisiä kuvia syöttämällä luonnollista kieltä, jonka voidaan sanoa olevan yksi varhaisimmista luovista tekoälyistä. käytimme ganeja, mutta siihen aikaan sen käyttö oli erittäin vaikeaa. ongelmana on, ettemme ole vielä valmiita kuvaamaan täydellistä kuvaa luonnollisella kielellä.

joten hän käytti kohtauskaavion rakenteen syöttömenetelmää, ja syötetty sisältö oli "lammas", "ruoho", "taivas" jne. ja käytti tätä menetelmää täydellisen kuvan luomiseen.

tietojen täsmäämisestä tyylin siirtoon kuvan luomiseen näemme vähitellen täydellisen muutoksen. kysyt, onko tämä valtava muutos, kaltaisillemme ihmisille se on jatkuva prosessi, mutta massoille tulokset näyttävät äkillisiltä ja vaikuttavilta.

martin casado

luin kirjasi ja se on loistava kirja, jonka lukemista suosittelen lämpimästi kaikille. ja, fei-fei, haluan sanoa, että monet tutkimuksestasi ja ohjeistasi ovat jo pitkään keskittyneet sellaisiin alueisiin kuin spatiaalinen älykkyys ja pikselien käsittely. world labs, jonka parissa työskentelet nyt, liittyy myös spatiaaliseen älykkyyteen. voitko puhua siitä, että tämä on osa pitkän aikavälin matkaasi? miksi päätit tehdä tämän nyt? onko tämä jonkinlainen tekninen läpimurto vai henkilökohtaisista syistä? voitko viedä meidät tekoälytutkimuksen kontekstista world labsiin?

fei-fei li

minulle tämä on sekä henkilökohtainen harrastus että älyllinen matka. mainitsit kirjani, ja koko älyllinen matkani on todellakin ollut "pohjoisten tähtien" etsimistä ja vahvaa uskoa, että nuo pohjantähdet ovat kriittisiä alamme kehitykselle.

alussa, muistan valmistumisen jälkeen, ajattelin, että pohjantähteni "kertoi tarinoita kuville", koska minulle se on iso osa visuaalista älykkyyttä, jota kutsut tekoälyksi.

mutta kun justin ja andrej lopettivat työnsä, ajattelin: "voi luoja, tämä on elämäni unelmani, mitä aion tehdä seuraavaksi?" se eteni paljon nopeammin kuin odotin - luulin, että se kestää hetken kestää satoja vuosia saavuttaa tämä.

visuaalinen älykkyys on aina ollut intohimoni. uskon vakaasti, että jokaiselle älykkäälle olennolle, olipa se ihminen, robotti tai muu olemusmuoto, on ratkaisevan tärkeää oppia näkemään maailma, miten järkeillä ja miten vuorovaikutuksessa maailman kanssa. olipa kyse navigoinnista, ohjauksesta, valmistuksesta tai jopa sivilisaation rakentamisesta, visuaalisella ja tilaälyllä on keskeinen rooli.

se voi olla yhtä perustavanlaatuinen kuin kieli, ja jollain tapaa jopa ikivanhampi ja perustavanlaatuisempi. siksi world labsin north star on avattava avaruusäly, ja nyt on oikea aika.

kuten justin sanoi, meillä on jo tarvitsemamme resurssit - laskentateho ja syvempi ymmärrys tiedoista. tietojen ymmärtämisestä on tullut kehittyneempiä kuin imagenet-aikakaudella.

meillä on myös algoritmisia edistysaskeleita, kuten perustajien ben mildenhallin ja christoph lassnerin huippuluokan työ nerfissä. mielestämme nyt on oikea aika tehdä päätös, keskittyä tähän alueeseen ja vapauttaa sen potentiaali.

martin casado

jotta kaikki ymmärtäisivät selvästi, olet nyt perustanut tämän yrityksen - world labsin, ja ongelma, jonka haluat ratkaista, on "tilaäly". voitko kuvailla lyhyesti mitä spatiaalinen älykkyys on?

fei-fei li

tilaäly tarkoittaa koneiden kykyä ymmärtää, havaita, järkeillä ja toimia 3d-tilassa ja ajassa. tarkemmin sanottuna se viittaa ymmärrykseen siitä, kuinka esineet ja tapahtumat sijoittuvat 3d-avaruudessa ja ajassa ja kuinka vuorovaikutus maailmassa vaikuttaa näihin 3d-asentoihin.

tässä ei ole kyse vain koneiden antamisesta palvelinkeskuksiin tai isänteihin, vaan niiden päästämisestä todelliseen maailmaan ja ymmärtää tätä rikasta 3d- ja 4d-maailmaa.

martin casado

viittaako "maailma", josta puhut, todellista fyysistä maailmaa vai abstraktia käsitteellistä maailmaa?

fei-fei li

minusta se on molempia. tämä edustaa myös pitkän aikavälin visiotamme. vaikka luot virtuaalimaailmaa tai sisältöä, 3d:ssä sijoittumisesta on silti monia etuja. tai kun tunnistat todellista maailmaa, kyky soveltaa 3d-ymmärrystä todelliseen maailmaan on osa sitä.

martin casado

perustajatiimisi on todella, todella vahva. joten miksi luulet nyt olevan oikea aika tehdä tämä?

fei-fei li

tämä on itse asiassa pitkäaikainen evoluutioprosessi. tohtorintutkintoni valmistumisen jälkeen aloin etsiä tietä itsenäiseksi tutkijaksi ja pohtia suuria kysymyksiä tekoälyn ja tietokonenäön alalla. päätin tuolloin, että viime vuosikymmen oli ollut jo olemassa olevan datan ymmärtämistä ja seuraava vuosikymmen oli uuden tiedon ymmärtämistä.

menneisyyden data oli pääosin internetissä jo olemassa olevia kuvia ja videoita, mutta tulevaisuuden data on täysin uutta - älypuhelimien ilmaantumista, joissa on kamerat, uudet anturit ja jotka voidaan sijoittaa 3d-maailmaan. kyse ei ole vain siitä, että otat joukon pikseleitä internetistä ja yrität kertoa, onko se kissa vai koira.

toivomme voivamme käsitellä näitä kuvia yleismaailmallisina antureina fyysiseen maailmaan, mikä auttaa meitä ymmärtämään maailman 3d- ja 4d-rakennetta sekä fyysisessä että generatiivisessa avaruudessa.

valmistuttuani tohtorintutkinnostani tein suuren muutoksen ja astuin 3d-tietokonenäön alalle ja työskentelin kollegoideni kanssa objektien 3d-muodon ennustamisessa. myöhemmin kiinnostuin suuresti ajatuksesta oppia 3d-rakenteita 2d-tiedoista.

kun puhumme tiedoista, mainitsemme usein, että 3d-datan saaminen on vaikeaa, mutta itse asiassa 2d-kuvat ovat projektioita 3d-maailmasta, ja monia matemaattisia rakenteita voidaan hyödyntää. vaikka sinulla olisi paljon 2d-dataa, voit päätellä 3d-maailman rakenteen näiden matemaattisten rakenteiden avulla.

vuosi 2020 on läpimurto. toinen perustajamme ben mildenhall ehdotti nerf (neural radiation field) -menetelmää. tämä on erittäin yksinkertainen ja selkeä tapa päätellä 3d-rakenteita 2d-havainnoista, mikä sytyttää koko 3d-tietokonenäkökentän.

samaan aikaan myös llm alkoi ilmaantua. akateemisessa maailmassa on itse asiassa kehitetty paljon kielen mallintamista jo pitkään. jo tohtorintutkinnon aikana tein kielimallinnusta andrej karpathyn kanssa vuonna 2014.

justin johnson

tämä oli itse asiassa jotain, joka ilmestyi ennen transformeria, mutta gpt-2:n aikakaudella sinun on vaikea tehdä tällaisia malleja korkeakouluissa, koska ne vaativat liikaa laskentaresursseja. mielenkiintoista kuitenkin, että benin ehdottama nerf-menetelmä vaatii vain muutaman tunnin harjoittelua yhdellä grafiikkasuorittimella.

tämä on saanut monet akateemiset tutkijat keskittymään uudelleen näihin ongelmiin, koska jotkin algoritmiset ydinongelmat voidaan ratkaista rajallisilla laskentaresursseilla ja voit saada huippuluokan tuloksia yhdellä gpu:lla. joten tuolloin monet akateemiset tutkijat ajattelivat: kuinka voimme edistää tämän alan kehitystä ydinalgoritmien avulla? fei-fei ja minä olemme puhuneet paljon ja olemme molemmat hyvin vakuuttuneita tästä.

fei-fei li

kyllä, havaitsemme, että tutkimussuunnamme ovat jossain määrin siirtymässä kohti samanlaisia tavoitteita. haluan myös kertoa erittäin mielenkiintoisen teknisen ongelman tai teknisen tarinan pikseleistä.

monet kielentutkimukseen osallistuvat ihmiset eivät ehkä tiedä, että ennen generatiivisen tekoälyn aikakautta meillä, joka on mukana tietokonenäön alalla, on itse asiassa pitkä historia 3d-rekonstruktiosta.

tämä juontaa juurensa 1970-luvulle, ja voit ottaa valokuvia - koska ihmisillä on kaksi silmää, voit käyttää stereokuvia kolmioiden muodostamiseen ja 3d-muotojen rakentamiseen. tämä on kuitenkin erittäin vaikea ongelma, jota ei ole vielä täysin ratkaistu komplikaatioiden, kuten yhteensopivuusongelmien vuoksi.

tällä alalla on edistytty pitkään, mutta kun nerf yhdistetään generatiivisiin menetelmiin, erityisesti diffuusiomallien yhteydessä, 3d-rekonstruktio ja generointi alkavat yhtäkkiä sulautua yhteen. tietokonenäön alalla havaitsimme yhtäkkiä, että jos näemme jotain tai kuvittelemme jotain, molemmat voivat lähentyä sen luomisen suuntaan. tämä on erittäin tärkeä hetki, mutta monet ihmiset eivät ehkä huomaa sitä, koska emme puhu siitä niin laajasti kuin puhumme llm:stä.

justin johnson

kyllä, on olemassa rekonstruktiota pikseliavaruudessa, esimerkiksi rekonstruoidaan todellinen kohtaus ja jos et näe kohtausta, käytät generatiivisia tekniikoita. nämä kaksi ovat itse asiassa hyvin samanlaisia. olet puhunut kielestä ja pikseleistä koko tämän keskustelun ajan, joten ehkä tämä olisi hyvä aika puhua tilaälystä ja kielen lähestymistavoista, kuten ovatko ne toisiaan täydentäviä vai ovatko ne täysin erilaisia?

fei-fei li

mielestäni ne täydentävät toisiaan. en ole varma, miten määritellään "täysin erilainen", mutta voin yrittää tehdä vertailun. nykyään monet puhuvat gpt:stä, avoimesta tekoälystä ja multimodaalisista malleista. tuntuu, että nämä mallit pystyvät käsittelemään sekä pikseleitä että kieltä. joten voivatko he saavuttaa haluamamme spatiaalisen päättelyn? vastataksemme tähän kysymykseen meidän on avattava näiden järjestelmien "musta laatikko" ja katsottava, kuinka ne toimivat konepellin alla.

kielimallien ja multimodaalisten kielimallien taustalla oleva esitys, jota nyt näemme, on "yksiulotteinen". puhumme kontekstin pituudesta, muuntajista, sekvensseistä, huomiomekanismeista, mutta loppujen lopuksi näiden mallien esitys perustuu yksiulotteisiin serialisoituihin tokeneihin.

tämä esitys on hyvin luonnollista kielen käsittelyssä, koska teksti itsessään koostuu yksiulotteisista erillisten kirjainten sarjoista. tämä yksiulotteinen esitys on perusta llm:n menestykselle, ja sama pätee nyt näkemäänmme multimodaaliseen llm:ään, joka "kovaydin" muut modaliteetit (kuten kuvat) yhdistävät tähän yksiulotteiseen esitykseen.

tilaälyn alalla ajattelemme juuri päinvastoin - uskomme, että maailman kolmiulotteisen luonteen tulisi olla esityksen ydin. algoritmisen näkökulmasta tämä avaa meille uusia mahdollisuuksia käsitellä tietoja ja saada erilaisia tulosteita, mikä auttaa ratkaisemaan hyvin erilaisia ongelmia.

jopa karkealla tasolla saatat sanoa: "multimodaaliset llm:t voivat myös nähdä kuvia."

justin johnson

olen täysin samaa mieltä siitä, että on erittäin keskeistä keskustella peruseroista yksiulotteisen ja kolmiulotteisen esityksen välillä. lisäksi on hieman filosofisempi, mutta minulle yhtä tärkeä seikka: kieli on pohjimmiltaan puhtaasti generoitu signaali, eikä maailmassa ole kieltä. et näe kirjoitusta taivaalla, kun menet ulos luontoon. riippumatta siitä, mitä tietoja syötät, kielimalli voi sylkeä ulos lähes samat tiedot riittävällä yleistyksellä. tämä on kielen luomisen luonne.

mutta 3d-maailma on erilainen. se noudattaa fysiikan lakeja ja sillä on oma rakenne ja materiaali. mahdollisuus poimia tämä tieto, edustaa sitä ja tuottaa se on täysin erilainen ongelma. vaikka lainaammekin hyödyllisiä ideoita kielimalleista, tämä on pohjimmiltaan erilainen filosofinen kysymys.

martin casado

totta, kielimalli on yksiulotteinen ja luultavasti huono esitys fyysisestä maailmasta, koska se on ihmisen luoma häviöllä. toinen generatiivisten mallien modaliteetti on pikselit, jotka ovat 2d-kuvia ja videoita. jos katsot videota, voit nähdä 3d-kohtauksen, koska kamera voi panoroida. joten mitä eroa on spatiaalisen älykkyyden ja 2d-videon välillä?

fei-fei li

tässä on kaksi pohdinnan arvoista asiaa. toinen on taustalla oleva esitys, ja toinen on käyttökokemuksen mukavuus. nämä kaksi ovat joskus sekaisin. se, mitä havaitsemme, on 2d - verkkokalvomme on kaksiulotteinen rakenne, mutta aivomme näkevät sen kolmiulotteisen maailman projektiona.

haluat ehkä siirtää esineitä, siirtää kameraa, ja periaatteessa voisit tehdä nämä asiat 2d-esitysten ja -mallien avulla, mutta se ei sovellu kysymääsi ongelmaan. dynaamisen kolmiulotteisen maailman kaksiulotteinen projektio voi olla mallinnettavissa, mutta kolmiulotteisen esityksen asettaminen mallin ytimeen sopii paremmin ongelman tarpeisiin.

tavoitteenamme on integroida enemmän 3d-esitystä mallin ytimeen tarjotaksemme käyttäjille paremman käyttökokemuksen. tämä liittyy myös minun "pohjantähteeni". miksi korostamme "tilaälyä" "litteän pikselin älykkyyden" sijaan?

älykkyyden liikeradan vuoksi, jos katsot taaksepäin evoluution historiaa, sen perimmäisenä tavoitteena on antaa eläinten ja ihmisten liikkua vapaasti maailmassa, olla vuorovaikutuksessa, luoda sivilisaatiota ja jopa tehdä voileipä. siksi tämän 3d-olemuksen muuntaminen teknologiaksi on avain lukuisten mahdollisten sovellusten avaamiseen, vaikka jotkut saattavat tuntua pinnallisilta edistysaskelilta.

martin casado

mielestäni tämä on hyvin hienovarainen, mutta ratkaiseva kohta. ehkä voimme syventää tätä keskustelua puhumalla joistakin sovellusskenaarioista. kun puhumme tilaälyn mahdollistavan teknologiamallin kehittämisestä, miltä se konkreettisesti voisi näyttää? mitkä ovat mahdolliset sovellusskenaariot?

fei-fei li

kuvittelemamme tilaälymalli voi tehdä monia asioita, joista olen erityisen innoissani "maailmansukupolvi". teksti-kuvageneraattoreiden tapaan meillä on nyt teksti-videogeneraattoreita - syötä kuva tai video, niin järjestelmä luo upean kahden sekunnin leikkeen. mutta uskon, että voimme viedä tämän kokemuksen 3d-maailmaan.

voimme kuvitella, että tilaäly auttaa meitä päivittämään nämä kokemukset 3d:ksi tulevaisuudessa, ei pelkästään kuvan tai videon luomisen, vaan täydellisen, simuloidun ja rikkaan interaktiivisen 3d-maailman luomisen. ehkä sitä käytetään peleihin, ehkä sitä käytetään virtuaaliseen valokuvaukseen, sovelluskentät ovat niin laajat, että sitä ei voi kuvitella.

justin johnson

uskon, että tekniikka kehittyy ajan myötä. näiden asioiden rakentaminen on erittäin vaikeaa, joten staattinen ongelma voi olla suhteellisen yksinkertainen, mutta pitkällä aikavälillä haluamme sen olevan täysin dynaamista, interaktiivista, kaikkea mitä juuri kuvailit.

fei-fei li

kyllä, tämä on spatiaalisen älykkyyden määritelmä. aloitamme staattisemmista ongelmista, mutta kaikki mainitsemasi koskee tilaälyn tulevaisuutta.

justin johnson

tämä näkyy myös yrityksemme nimessä ”world labs” – nimi kertoo maailman rakentamisesta ja ymmärtämisestä. kun kerromme ihmisille nimen, he eivät aina ymmärrä sitä aluksi, koska tietokonenäön, rekonstruoinnin ja sukupolven aloilla teemme usein eron sen välillä, mitä voimme tehdä. ensimmäinen taso on tunnistaa esineitä, kuten mikrofoneja, tuoleja ja muita erillisiä esineitä maailmassa. suuri osa imagenetin työstä liittyy objektien tunnistamiseen.

mutta sitten siirrymme kohtausten tasolle - kohtaukset koostuvat esineistä. esimerkiksi nyt meillä on äänitysstudio, jossa on pöytä, mikrofoni ja ihmiset istuvat tuoleissa, mikä on esineiden yhdistelmä. mutta kuvittelemamme "maailma" ylittää kohtaukset. kohtaus saattaa olla yksittäinen asia, mutta haluamme rikkoa nuo rajat ja astua ulos, kadulle, nähdä ohikulkevaa liikennettä, nähdä lehdet huojuvan tuulessa ja olla vuorovaikutuksessa näiden asioiden kanssa.

fei-fei li

toinen erittäin jännittävä asia liittyy termiin "uusi media". tämän tekniikan avulla rajat todellisen maailman, virtuaalisen kuvitellun maailman tai lisätyn ja ennustetun maailman välillä hämärtyvät. todellinen maailma on 3d, joten digitaalisessa maailmassa 3d-esitys on välttämätön sulautuakseen todelliseen maailmaan. et voi olla tehokkaasti vuorovaikutuksessa todellisen 3d-maailman kanssa vain 2d- tai edes 1d-muodossa.

tämä ominaisuus avaa rajattomat sovellusskenaariot. aivan kuten justinin mainitsemassa ensimmäisessä sovellusskenaariossa, virtuaalimaailman luomista voidaan käyttää mihin tahansa tarkoitukseen. toinen voi ollalisätty todellisuus. world labsin perustamisen aikoihin apple julkaisi vision pron, ja he käyttivät termiä "spatial computing". puhumme melkein samasta asiasta, painotamme "tilaälyä". ei ole epäilystäkään siitä, että spatiaalinen laskenta vaatii spatiaalista älykkyyttä.

emme tiedä, miltä tulevaisuuden laitteistot näyttävät – ne voivat olla suojalasit, silmälasit tai jopa piilolinssit. mutta todellisen ja virtuaalisen maailman rajapinnassa, olipa kyseessä työkykysi parantaminen, auton korjaaminen, vaikka et olisikaan ammattimekaanikko, tai vain "pokemon go++" -elämyksen tarjoaminen viihdekäyttöön. tulee ar/vr:n käyttöjärjestelmäksi.

justin johnson

äärimmäisessä tapauksessa ar-laitteen tulee olla aina mukanasi, ymmärtää maailmaa, jonka näet reaaliajassa, ja auttaa sinua suorittamaan tehtäviä jokapäiväisessä elämässä. olen todella innoissani tästä, varsinkin virtuaalisen ja todellisuuden fuusiosta. kun ymmärrät ympäristöäsi täydellisesti 3d:ssä reaaliajassa, se saattaa jopa korvata joitain asioita todellisessa maailmassa.

meillä on esimerkiksi nyt erikokoisia näyttöjä – ipadeja, tietokonenäyttöjä, televisioita, kelloja jne. –, jotka näyttävät tietoa eri skenaarioissa. mutta jos voimme yhdistää saumattomasti virtuaalisen sisällön fyysiseen maailmaan, näitä laitteita ei enää tarvita. virtuaalimaailmat voivat näyttää sinulle tarvitsemasi tiedot oikealla hetkellä ja sopivimmalla tavalla.

toinen valtava sovellus on digitaalisen virtuaalimaailman sekoittaminen 3d-fyysiseen maailmaan, erityisesti robotiikassa. robottien on toimittava fyysisessä maailmassa, kun taas heidän tietojenkäsittelynsä ja aivonsa ovat digitaalisessa maailmassa. silta oppimisen ja käyttäytymisen välille on rakennettava tilaälyn avulla.

martin casado

mainitsit virtuaalimaailmat, lisätyn todellisuuden, ja nyt puhut puhtaasti fyysisestä maailmasta, esimerkiksi robotiikassa. tämä on erittäin laaja ala, varsinkin jos aiot haarautua näille eri aloille. millaisena näet näihin erityisiin sovellusalueisiin liittyvän syväteknologian?

fei-fei li

pidämme itseämme syväteknologiayrityksenä, alustayhtiönä, joka tarjoaa malleja, jotka voivat palvella näitä erilaisia sovellusskenaarioita. mitä tulee siihen, mikä sovellusskenaario sopii paremmin siihen, mihin alussa keskityimme, mielestäni nykyinen laitteisto ei ole tarpeeksi täydellinen.

itse asiassa sain ensimmäisen vr-kuulokkeeni valmistuessani. kun laitoin sen päälle, ajattelin itsekseni: "voi luoja, tämä on hullua, olen varma, että monilla ihmisillä on samanlainen kokemus, kun käytät vr:ää ensimmäistä kertaa."

rakastan vision prota niin paljon, että valvoin myöhään sen julkaisupäivänä saadakseni sellaisen, mutta tällä hetkellä se ei ole täysin kypsä massamarkkinoiden alustaksi. siksi me yrityksenä voimme valita jo kypsemmille markkinoille.

joskus monipuolisuudessa piilee yksinkertaisuus. meillä on visio syväteknologiayrityksenä ja uskomme, että on olemassa perusongelmia, jotka on ratkaistava hyvin, ja jos ne ratkaistaan hyvin, voidaan soveltaa monille eri aloille. pidämme yrityksen pitkän tähtäimen tavoitteena tilaälyn unelman rakentamista ja toteuttamista.

justin johnson

itse asiassa luulen, että tekemäsi vaikutus on siellä. en usko, että pääsemme koskaan aivan perille, koska se on niin perustavanlaatuinen asia - universumi on pohjimmiltaan kehittyvä neliulotteinen rakenne, ja tilaäly laajassa merkityksessä on rakenteen koko syvyyden ymmärtämistä ja löytämistä. kaikki sovellus. joten vaikka meillä on tänään tiettyjä ideoita, uskon, että tämä matka vie meidät paikkoihin, joita emme yksinkertaisesti voi kuvitella juuri nyt.

fei-fei li

hämmästyttävä asia tekniikassa on, että se avaa jatkuvasti lisää mahdollisuuksia. edistyessämme nämä mahdollisuudet laajenevat edelleen.

uutiset

li feifein viimeisin keskustelu: ai-teknologian kehitys tuo käsittämättömiä uusia sovellusskenaarioita

johdanto

yhteystietoni