voiko tekoäly "generoida" kaiken?

2024-08-29

puoli vuotta soran syntymän jälkeen sen "haastajat" tulivat yksi toisensa jälkeen, ja jopa nvidia, joka "ei malttanut odottaa" ja "ei saanut kiinni", päätyi henkilökohtaisesti.

toistaiseksi sora on julkaissut vain demoja, eikä se ole ollut avoinna käytettäväksi, kun taas kuaishou keling, zhipu qingying ja vidu ovat ottaneet johtoaseman kokemuksen oven avaamisessa ja yleisön tavoittamisessa.

vaikka ensimmäinen kokemus "yhden napsautuksen sukupolvesta" ei ole täydellinen, se on herättänyt lähdevettä sisältöteollisuudessa. monet lyhyet draamat, mainokset ja animaatiot ympärillämme ovat alkaneet käyttää tekoälyä "tehokkuuskumppanina". tekoälyn sukupolven teknologia, ei kauan sitten otettuja vincentiläisiä kuvia nykypäivän vincenti-videoihin, tusheng-videoihin ja videoiden luomiin videoihin, "aigc-universumi" jatkaa laajentumistaan.

onko tekoäly "ma liangin taikakynä" kiinalaisessa mytologiassa? kuinka paljon mielikuvitusta ja luovuutta se voi herättää eloon ja liikkua?

"wensheng video", kuinka "elää"

"wensheng video on menestys."

lyhyesti sanottuna videon luominen käyttää generatiivista tekoälyteknologiaa muuntamaan multimodaaliset syötteet, kuten tekstin ja kuvat, videosignaaleiksi.

tällä hetkellä videoiden luomiseen on kaksi pääasiallista teknistä reittiä. toinen on diffuusiomalli, joka on jaettu kahteen luokkaan. toinen on konvoluutiohermoverkkoon perustuva diffuusiomalli, kuten metan emuvideo, tencentin käynnistämä videocrafter jne., toinen on transformer-arkkitehtuuriin perustuva diffuusiomalli. kuten openai:n sora, kuaishoun keling ai, shengshu technologyn vidu jne. toinen on autoregressiivinen reitti, kuten googlen videopoet, pheneki jne.

kiinalainen teknologiayritys zhipu ai julkaisi 26. heinäkuuta 2024 itse kehittämän tekoälyn luoman videomallin qingying (ying) maailmanlaajuisille käyttäjille. kuvassa näkyy käyttöliittymä

tällä hetkellä transformer-arkkitehtuuriin perustuva diffuusiomalli on valtavirran valinta videon sukupolven malleille, joka tunnetaan myös nimellä "dit" (di on lyhenne sanoista diffusion, t on lyhenne sanoista transformer).

teksti "diffuse" videona? "diffuusio viittaa tässä mallinnusmenetelmään."

kun michelangelo kaiversi kuuluisaa daavidin patsasta, hän sanoi näin: veistos oli alun perin kivessä, poistin vain tarpeettomat osat. "tämä lause kuvaa elävästi 'diffusion' mallinnusprosessia. alkuperäinen puhdas kohinavideo on kuin kaivertamaton kivi. kuinka lyödä tämä iso kivi ja lyödä pois ylimääräinen osa, kunnes se iskee ääriviivaksi kirkas 'david', tämä tapa on "diffuusio", yuan li sanoi.

yuan li selitti edelleen: "transformer on hermoverkko, joka noudattaa 'mittakaava-sääntöä' ja suorittaa kivien rikkomisen. se pystyy käsittelemään syötettyä tila-ajallista tietoa, ymmärtämään todellista maailmaa ymmärtämällä sen sisäisiä monimutkaisia suhteita ja mahdollistaa mallilla on päättelykykyä, sillä se ei vain pysty kaappaamaan hienovaraisia yhteyksiä videokehysten välillä, vaan myös takaa visuaalisen yhtenäisyyden ja ajallisen tasaisuuden.

"tehokkuuskumppani", kuinka nopeasti

naiivi jääkarhu herätti herätyskellon, pakkasi matkatavaransa, otti helikopterin, siirrettiin pikajunaan, siirrettiin taksiin, nousi laivaan, ylitti vuoria, jokia, järviä ja meriä, kulki monien läpi vaikeuksia ja esteitä, ja lopulta saavutti etelämantereen ja tapasi pingviinit...

tämä puolitoista minuuttia kestävä animoitu lyhytelokuva nimeltä "all the way south" valmistui videosukupolven mallin vidun toimesta. alun perin kuukauden työtaakka, kun tekoäly lisättiin "tehokkuuskumppaniksi", erinomaisten teosten tuottaminen kesti vain viikon - tehokkuus oli neljä kertaa aiempaa.

tämä sai chen liufangin, pekingin elokuvajuhlien aigc-lyhytelokuvaosion parhaan elokuvan voittajan ja ainimate lab ai:n johtajan, huokaisemaan: videoiden sukupolviteknologian ansiosta korkean tason animaatio ei ole enää "rahaa polttava peli", joka suuret studiot uskaltavat pelata.

tekoälyanimaatio "all the way south" luovaan tiimiin kuuluu vain kolme henkilöä: ohjaaja, kuvakäsikirjoittaja ja aigc-teknologiasovellusasiantuntija. sen tekemiseen perinteisin prosessein tarvitaan 20 henkilöä. laskennan jälkeen pelkkä tuotantokustannus pienenee yli 90 %.

kuten kuaishoun visual generation and interaction centerin johtaja wan pengfei sanoi, videoiden luomisen ydin on ottaa näyte ja laskea pikselit kohdejakaumasta. tällä menetelmällä voidaan saavuttaa suurempi sisältövapaus pienemmillä kustannuksilla.

tultuaan vidun videon sukupolven sivulle kirjoittaja koki myös "yhden napsautuksen sukupolven" vapauden. lataa valokuva ja aseta se "aloituskehykseksi" tai "viitehahmoksi", kirjoita tekstikuvaus siitä kohtauksesta, jonka haluat luoda valintaikkunaan, napsauta "luo", niin älykäs ja jännittävä lyhyt video automaattisesti luotu. sivulle siirtymisestä latauksen loppuun saattamiseen kuluu alle 1 minuutti.

lähetä kuva kotimaiselle videomallille vidulle, niin animoitu video luodaan automaattisesti. kuvassa on kuvakaappaus videosta

"kaikista tulee suunnittelijoita" ja "joista tulee ohjaajia" aikakausi, aivan kuten "kaikilla on mikrofoni" aiemmin", sanoi zhipu ai:n toimitusjohtaja zhang peng.

"world simulator", onko draamaa?

kaauttaako videoiden luominen vain sisältöteollisuutta? tämä ei tietenkään ole openai:n alkuperäinen tarkoitus. "videon luominen" on vain "alkupala".

ennen soran syntymää openai ei sijoittanut sitä aigc-toteutustyökaluksi, vaan "säiliöksi" fyysisen maailman replikoimiseksi - maailman simulaattoriksi. tässä säiliössä todellisen maailman fyysiset lait, ympäristökäyttäytymiset ja vuorovaikutuslogiikka kulkevat, aivan kuten matrixissa kuvattu virtuaalimaailma, vaikuttaen mielikuvitukseemme ja aisteihimme.

fyysinen maailma on kuitenkin kolmiulotteinen, ja nykyiset mallit, kuten sora, perustuvat vain kaksiulotteisiin operaatioihin eivätkä ole todellisia fysiikan moottoreita, joten fyysisestä maailmasta ei ole syvällistä simulaatiota.

"olen vuosia sanonut, että "maailman näkeminen" on maailman "ymmärtämistä". mutta nyt olen valmis ottamaan tämän käsitteen askeleen pidemmälle ja "näkeminen" ei ole vain "ymmärtämistä" vaan "tekemistä". li feifei, stanfordin yliopiston professori totesi julkisesti, että tilaälyn ydin on yhdistää "näkeminen" ja "tekeminen" eräänä päivänä tekoäly tekee tämän.

kun "näkeminen" ei ole sama kuin "tekeminen", tekoälyn luominen ei voi pysähtyä. viime aikoina on ilmaantunut uusia teknisiä reittejä. jahtaatte toisianne eri reiteillä ja kuljette yhdessä eteenpäin edistääksenne tätä vektoreista ja malleista rakennettua älykästä maailmaa.

tuleva "maailmankuva" on edelleen mysteeri, jota ei ole vielä paljastettu. kuten amerikkalainen fyysikko feynman sanoi: "en voi luoda maailmaa, jota en ymmärrä, mutta tämä ei tarkoita, että jos ymmärrät maailman, pystyt varmasti luomaan maailman."

tällä hetkellä se on edelleen kumouksen aatto. siksi kun kysymme teknologian tutkijoilta kysymyksiä tulevaisuudesta, saamme hurjan erilaisia vastauksia. ehkä "epävarmuus" on tämän aikakauden siunaus.

raportti/palaute

uutiset

voiko tekoäly "generoida" kaiken?

johdanto

yhteystietoni