Suuret yritykset käynnistävät "kilpa-asetelman" videoiden luomisessa. Voiko tekoäly todella kukistaa Hollywoodin?

2024-07-15

Koneen sydänraportti

Machine Heart -toimitusosasto

Tekoälyvideopiiri tappaa sinut kuoliaaksi.

Etujalalla Kuaishou vapautti Kelingin korkealla profiililla. Takajalalla Luma lanseerasi uusimman videomallin Dream Machinen. Sitten Runway astui sisään ja laukaisi suuren tappajan.

Hienovaraisen FOMO-ilmapiirin ohjaamana yhä useammat pelaajat noudattavat tarkoitusta "väsyttää itsensä kuoliaaksi, rullata itsensä kuoliaaksi" ja sukeltaa tälle radalle—-

Alibaba DAMO Academy panostaa "Xunguang Video Creation Platformiin", ByteDance AI tutkii "generatiivisia elokuvadraamoja", Meitu MOKI keskittyy tekoälyn lyhytelokuvien luomiseen, Haiper AI keskittyy luovaan ilmaisuun...

Shanghai 5. heinäkuuta oli erittäin kuuma, aivan kuten ahdistus tekoälyvideopiirissä.

Tänä päivänä kokoushuoneen toiminta.

Foorumi kokoaa yhteen monia tekoälyvideon alan tähtiyrityksiä ja asiantuntijoita keskustelemaan videontuotantoteknologian viimeisimmistä edistysaskeleista ja sen innovatiivisista käytännöistä teollisissa sovelluksissa.

Syvällinen jakaminen: sisäpiirin sydämelliset sanat

ChatGPT:n syntymisen jälkeen Soran räjähtämä videontuotantoteknologia on ehdottomasti teknologiateollisuuden "kuumin kana".

Vaikka tämä ala on vielä lapsenkengissään, videontuotantoteknologia laajentaa jatkuvasti digitaalisen sisällön luomisen rajoja hämmästyttävällä kehitysnopeudellaan ja mahdollisilla sovellusmahdollisuuksilla.

Alibaba Damo Academyn videoiden luomisen johtaja Chen Weihua, Shanghai Jiao Tong -yliopiston elektroniikan laitoksen professori Ni Bingbing, Meitu Corporationin varatoimitusjohtaja Chen Jianyi ja Haiper AI:n perustaja Miao Yishu osallistuivat foorumille ja piti pääpuheenvuorot.

Chen Weihua, Alibaba Damo Academyn videoiden luomisen johtaja, sanoi, että Soran julkaisu vuoden alussa ei ainoastaan osoitti tekoälyvideoiden luomisen valtavaa potentiaalia teräväpiirton, korkean tarkkuuden ja korkean laadun suhteen, vaan myös inspiroi. ihmisten rajaton mielikuvitus tästä tekniikasta.

Vaikka Sora on erittäin siisti, generointiprosessia on edelleen vaikea hallita, päähenkilön yhtenäisyyttä on vaikea varmistaa ja vaatii paljon manuaalista jälkieditointia parhaiden tulosten saavuttamiseksi.

"Videosisällön hallinta on luomisen suurin kysyntä, ja se on myös algoritmimme suurin haaste tänään."

Alibaba DAMO Academyn julkaiseman uusimman AIGC-tuotteen – Xunguang Video Creation Platformin tavoitteena on parantaa videotuotannon tehokkuutta ja ratkaista videon jälkieditointiongelmia Yksinkertaisen otoksen organisoinnin ja monipuolisten videoeditointiominaisuuksien avulla käyttäjät voivat hallita videosisältöä. ohjaa tarkasti ja ylläpitää hahmojen ja kohtausten johdonmukaisuutta useissa videoissa.

Xunguang tarjoaa yhden luukun työkalualustan tekoälyvideon laajalle levittämiselle. Tekoäly ei korvaa luojan työtä, vaan optimoi videoiden luomisen työnkulun ja siitä tulee uusi luovuuden vetämä moottori.

Shanghai Jiao Tong -yliopiston elektroniikan laitoksen professori Ni Bingbing jakoi mediasisällön generointiteknologian vektorointia varten.

Heti puheen alkaessa hän kaatoi kylmää vettä sen päälle.

"Nykyiset sukupolven algoritmit kohtaavat rakenteellisia ja yksityiskohtaisia ongelmia. Esimerkiksi luodussa sisällössä voi olla enemmän tai vähemmän elementtejä tai se voi olla käsin lävistettyä jne. Niille jalostetuille videoille, joiden on noudatettava fyysisiä sääntöjä, tällä hetkellä The Generation Technology "Ni Bingbing sanoi, että syynä on se, että kaikki luova älykkyys on pohjimmiltaan näytteenottoprosessia ja video on korkeaulotteinen tila. Vaikka sisällön laatua voidaan parantaa lisäämällä koulutustietoja ja vähentämällä näytteenottotarkkuutta. äärimmäisen suuriulotteiseen tilaan on edelleen vaikea saavuttaa täydellisyyttä nykyisessä teknisessä kehyksessä.

Lisäksi laskentatehon rajoitus on myös tärkeä tekijä. Tällä hetkellä laskentatehon indikaattorit, mukaan lukien suuret kielimallit sekä kuvan ja videon tuotantomallit, ovat saavuttaneet kymmenien teratavujen, satojen teratavujen tai jopa tuhansien teratavujen tason. Tulevaisuudessa generatiivisen älykkyyden kehitystrendi vajoaa ehdottomasti päätypuolelle, eikä loppupuolella ole mahdollista käyttää rajattomasti suurta laskentatehon näytteenottoa ongelmien ratkaisemiseen.

Tässä suhteessa Ni Bingbing ehdotti vektoriesityskehyksen käyttöä videosisällön instantoimiseksi verkkoparametreiksi, mikä saavuttaa luodun sisällön tarkan hallinnan ja paremmin fyysisen maailman sääntöjen noudattamisen.

Hän uskoo, että generatiivisen tekoälyn nykyvaiheen menestys on laskentatehon ja datan liiallisen kulutuksen kustannuksella. Jatkossa meidän tulee keskittyä uusiin mediasisällön esityksiin ja generatiivisen laskennan uusiin paradigmoihin sekä luoda aktiivisesti uusia medialaatuja. korkeammalla laadulla ja tehokkuudella.

Meitu Groupin varatoimitusjohtaja Chen Jianyi analysoi tekoälyvideoiden luomisen sovellusskenaarioita ja haasteita tuotepäällikön näkökulmasta.

Käyttäjätutkimuksen aikana hän löysi kaksi mielenkiintoista ilmiötä.

Ensinnäkin sisäpiiriläiset hämmästyvät, koska video on tekoälyn luoma, mutta tavallisille käyttäjille he eivät välitä siitä, onko video tekoälyllä, vaan keskittyvät siihen, onko sisältö houkuttelevaa.

"Tämä tarkoittaa, että riippumatta siitä, minkä visuaalisen kokemuksen tekoälyvideon luontitekniikka saavuttaa, meidän on palattava itse sisältöön ja keskityttävä arvoihin ja tarinoihin, joita video haluaa välittää."

Toiseksi useimmat tavalliset käyttäjät eivät tunne ammattitermejä, kuten "Vincent Pictures" ja "Vicent Videos", eivätkä tiedä niiden erityisiä käyttötarkoituksia. Esimerkkinä "Wen Sheng Tu" Tämä termi on aivan kuten PhotoShopin "nesteyttämis" -toiminto, jota on vaikea ymmärtää. käyttäjät voivat ymmärtää sen intuitiivisemmin. Sama koskee "Vincent-videota".

Samalla hän sanoi, että tekoälyvideon generointitekniikka tekee sisällön ilmaisusta konkreettisemmaksi ja rikastaa visuaalista luovuutta ja kokemusta, mutta sen on silti ratkaistava avainkysymykset, kuten visuaalisen asetuksen hallittavuus, dynaaminen ohjattavuus ja äänen ohjattavuus.

Meitu Discoveryn tekoälylyhytelokuvien luontialusta MOKI on voittanut nämä suuret vaikeudet.

Raporttien mukaan MOKI on rakentanut kattavan lyhytelokuvatyönkulun, jonka ytimenä on tekoälyvideon generointitekniikka. Alkuvaiheessa tekijät voivat kirjoittaa käsikirjoituksia, suunnitella visuaalisia tyylejä ja asettaa hahmoja ja käyttää sitten tekoälytekniikkaa videomateriaalien luomiseen. Lopuksi tekoälyn jälkituotannon ansiosta kaikki materiaalit yhdistetään yhtenäiseksi lyhytelokuvaksi.

Julkkisstartupin Haiper AI:n perustajana Miao Yishu keskusteli syvästi videontuotantoteknologian merkityksestä ja arvosta.

Miao Yishu sanoi: "Kuulemme usein tällaisia näkemyksiä, kuten "Kieli on älyä" tai "Suuret kielimallit ovat yleistä tekoälyä (AGI)". Mutta voiko kielten oppiminen johtaa meidät suoraan AGI:hen Tärkeitä tapoja hankkia tietoa, mutta se ei ole ainoa tapa, jolla ihmiset oppivat useiden oppimismenetelmien, kuten näön, kuulon, lukemisen ja kinesteetin, avulla . älykäs."

GPT-3.5:n julkaisun jälkeen monet ihmiset ovat esittäneet näkemyksen, että "luonnollista kielenkäsittelyä (NLP) ei enää ole", koska suuret kielimallit ratkaisevat periaatteessa kielijärjestelmän oppimisen ja semantiikan autoregressiivisten generatiivisten mallien avulla (ennakoimalla seuraavan sanan joka kerta). johtopäätösongelmia, emme enää tarvitse edes erottavia malleja tiettyjen päättelyongelmien hienosäätämiseen.

Samoin videon sukupolven mallit rakentavat myös generatiivisia malleja autoregression avulla (ennakoimalla seuraavan videokehyksen joka kerta), joten malli oppii implisiittisesti tärkeitä tehtäviä tietokonenäön alalla, kuten syvyysennuste, semanttinen huomautus ja semanttinen segmentointi. Siksi vuonna 2024 kuulemme huomautuksia, kuten "Computer Vision (CV) ei ole enää olemassa", koska videon generointimalli on vähitellen hallinnut havainnointikyvyt ja fyysiset lait oppiessaan luomaan videosisältöä.

"Onko meidän ymmärrettävä Newtonin ensimmäinen laki perhosia jahtaamaan kadulla. Pitääkö meidän tietää kaikki fysiikan lait kuin 5-vuotiaan kävellä ja pyöräillä? Vastaus on ei? Tämä tapahtuu jatkuvan vuorovaikutuksen ja havainnoinnin kautta, eri mallinnusten avulla. Itse asiassa videon sukupolvimalli on rakentanut maailmanmallin oppimalla luomaan monipuolista videosisältöä, ja voimme helposti olla vuorovaikutuksessa maailmanmallin kanssa. haluamamme videosisällön, eikä tämä kaikki vaadi meitä nimenomaisesti rakentamaan simulaattoria niin kutsuttujen fyysisten lakien simuloimiseksi."

Miao Yishu korosti: "Videoiden luominen on muutakin kuin videoiden luominen." Hänen näkemyksensä mukaan videon generointimalli ei voi pelkästään tuottaa videosisältöä, vaan se on myös tärkeä askel perushavainnointikykyjen oppimisessa multimodaalisuuden kautta, ja se on myös ainoa keino tekoälylle siirtyä kohti AGI:tä.

Pyöreän pöydän keskustelu: Miten edetä videoiden luomisessa?

Neljän asiantuntijan ja tutkijan teemanjaon lisäksi foorumi kutsui vieraita korkeakouluista, yrityksistä, startup-yrityksistä ja tunnetuista sijoitusinstituutioista käymään syvällisiä pyöreän pöydän keskusteluja videoiden tuottamiseen tähtäävistä huipputeknologioista ja innovatiivisista sovelluskäytännöistä. kohtauksen laskeutumisteollisuudessa.

Ensimmäisessä pyöreän pöydän keskustelussa Jingying Technologyn perustaja ja toimitusjohtaja Zhu Jiang, Singaporen Nanyangin teknillisen yliopiston apulaisprofessori Liu Ziwei, Shengqu Game Technology Centerin tekoälyjohtaja Li Feng, Yitian Capitalin yhteistyökumppani Le Yuan ja muita vieraita. keskusteltiin "suurten mallien vetämänä, Mihin videontuotantoteknologian kehityspolku menee?" Tätä aihetta käsiteltiin syvällisesti ja keskusteltiin videontuotantoteknologian käyttöönoton näkymistä alalla.

Zhu Jiang, Jingying Technologyn perustaja ja toimitusjohtaja, vertaa videontuotantoteknologiaa kambrian elämän räjähdysmäiseen elämään ja uskoo, että se on tällä hetkellä nopean teknologian ja sovellusten kehitysvaiheessa. Hän korosti, että sovellustason yritysten on säilytettävä ymmärryksensä ja johtajuutensa teknologiasta samalla kun kiinnitetään huomiota käyttäjien tarpeisiin erottuakseen kilpailijoista. Hän sanoi, että lopulta sekä malliyritykset että sovellusyritykset selviävät, mutta malliyritykset voivat olla geneerisempiä, kun taas sovellusyritysten on kiinnitettävä enemmän huomiota käyttäjien ja yritysten ymmärrykseen.

Singaporen Nanyangin teknologisen yliopiston apulaisprofessori Liu Ziwei uskoo, että videontuotantoteknologia on tällä hetkellä GPT-3-aikakaudella ja vielä noin puolen vuoden päässä kypsyydestä. Hän analysoi Diffusionin, Transformerin ja kielimallin kolmen teknisen polun etuja ja haittoja ja uskoi, että niitä voidaan integroida ja kehittää tulevaisuudessa. Hän korosti myös tarvetta tutkia videontuotantoteknologian "Newtonin ensimmäistä lakia", toisin sanoen kuinka saada ennakoitavia parannuksia investoimalla laskentatehoon ja dataan.

Peliteollisuuden näkökulmasta Shengqu Game Technology Centerin tekoälypäällikkö Li Feng uskoo, että videon sukupolviteknologia voi parantaa pelien kehittämisen tehokkuutta ja luovuutta. Hän toivoo saavansa yhteistyötä malliyritysten kanssa soveltaakseen videon generointiteknologiaa pelien kehitysprosessiin, esimerkiksi viittaamalla ajatukseen erotettavasta renderöinnistä tasosuunnittelua ja ulkoasun esikatselua varten, viestintämenetelmien visuaalista kohdistamista T&K-yhteistyön aikana sekä visuaalista linjaamista muiden kanssa. dynaamisia resurssikuvia.

Yitian Capitalin yhteistyökumppani Le Yuan analysoi videontuotantoteknologian kaupallisen toteutuksen haasteita pääoman näkökulmasta. Hän uskoo, että videon tuotantoteknologia on edistynyt paljon yli odotusten viimeisen kahden tai kolmen vuoden aikana, mikä on kuitenkin yllättävää, että nykypäivän tekninen taso ei vieläkään riitä tukemaan laajamittaista kielimalleihin perustuvien sovellusten kehitystä Käytetään Metodologia ja kohdatut haasteet soveltuvat myös videoon liittyviin sovellusaloihin.

Foorumin toinen pyöreän pöydän keskustelu keskittyi aiheeseen "Innovaatiot ja mahdollisuudet videontuotantosovelluksissa dekonstruoidun generatiivisen tekoälyn aallon alla". Vieraat Wuyuan Capitalista, FancyTechistä, Morph AI:sta ja Stanfordin yliopistosta puhuivat investoinneista, sovelluksista, teknologiasta ja taiteesta. Videontuotantoteknologian kehityssuuntaa ja sovellusskenaarioita tutkitaan useista eri näkökulmista.

Kong Jie, FancyTechin perustaja ja toimitusjohtaja, uskoo, että videontuotantoteknologia tuo mukanaan tarjontapuolen uudistuksia, jolloin useammat ihmiset voivat osallistua sisällön luomiseen. Hän esitteli FancyTechin To B -videontuotantoalustan, joka auttaa kauppiaita vähentämään sisällön luomiskustannuksia palauttamalla todellisia esineitä virtuaalisiin kohtauksiin.

Shi Yunfeng, Wuyuan Capitalin varapuheenjohtaja, mainitsi, että nykyinen videosukupolvi on vielä kehitysvaiheessa, samanlainen kuin tutkimustila, jolloin GPT2 julkaistiin ensimmäisen kerran. PMF:n löytäminen on suuri haaste, kun teknologian perusta ei ole vielä vankka. Hän uskoo, että vaikka tekniikka kehittyy edelleen, tekijät ovat erittäin innostuneita ja levittävät tietynlaista levitystä, mutta sisällöllä ei ole laajaa kulutusta. Se vaatii lahjakkaita tuotepäälliköitä räätälöimään tuotetta ja luomaan uusia sisältömuotoja, jotka eivät ole yhteensopivia olemassa olevan tietovirran kanssa.

Morph AI:n perustaja ja toimitusjohtaja Xu Huaizhe uskoo, että videon tuotantoteknologia ja sovellukset ovat yhtä tärkeitä Teknisen taustan omaavana tiiminä on tärkeämpää koordinoida mallikerroksen ja sovelluskerroksen kehitystä. Hän esitteli Morph Studion, all-in-one AI-videotuotantotyökalun, joka perustuu Morphin johtavaan AI-videomalliin. Sitä testataan parhaillaan maailmanlaajuisesti ja se on saanut positiivista palautetta. Jatkossa Morph jatkaa tuotetoimintojen ja käyttökokemuksen optimointia käyttäjäpalautteen avulla, jotta sen AI-videotekniikka voidaan ottaa käyttöön nopeammin tuotteiden kautta ja auttaa tekijöitä paremmin.

Taiteen ja teknologian yhdistämisen näkökulmasta Stanfordin yliopiston tutkijatohtori Rao Anyi uskoo, että videon generointiteknologia voi inspiroida interaktiivisempia luomismenetelmiä. Hän korosti, että koneet tai ihmiset eivät voi olla 100 % oikein, joten luovaan prosessiin on otettava käyttöön interaktiivinen parannusmekanismi, jotta koneet ja ihmiset voivat tehdä yhteistyötä luomisen loppuunsaattamiseksi.

Kaiken kaikkiaan pyöreän pöydän keskustelun vieraat ovat täynnä odotuksia videontuotantoteknologian sovellusmahdollisuuksista, mutta he tietävät myös, että nykyinen tekniikka on vielä alkuvaiheessa ja uusia liiketoimintamalleja ja sovellusskenaarioita on tutkittava suuremman arvon saavuttamiseksi. .

Tämän foorumin onnistunut järjestäminen ei ainoastaan tarjoa alustan kommunikaatiolle ja oppimiselle tekoälyvideon alan ammattilaisille, vaan tarjoaa myös lisää yhteistyömahdollisuuksia kaikille siihen liittyvän toimialaketjun lenkeille. Tulevaisuuteen katsottuna tekoälyvideotekniikka tuo laajemman kehitystilan ja monipuolisemmat sovellusskenaariot luoden paremman visuaalisen kokemuksen ihmisille.

uutiset

Suuret yritykset käynnistävät "kilpa-asetelman" videoiden luomisessa. Voiko tekoäly todella kukistaa Hollywoodin?

Johdanto

yhteystietoni