Puoli vuotta on kulunut, minne tekoälyvideo on kadonnut?

2024-07-23

Kiinteä tarkennus (dingjiaoone) alkuperäinen

Kirjailija |. Wang Lu

Toimittaja |. Wei Jia

Siitä lähtien, kun Sora ilmestyi tämän vuoden alussa, ihmiset kotimaassa ja ulkomailla ovat halunneet käyttää tekoälyä Hollywoodin kaatamiseen. Viimeaikaiset AI-videopiirit ovat olleet erittäin vilkkaita Sora.

Kaksi ulkomaista AI-videoyritystä on johtamassa San Franciscon tekoälyteknologian yritystä, joka lanseerasi Dream Machine -videomallin ja julkaisi myös elokuvatason mainosvideon Tekoälyvideon alalla tunnettu startup-yritys Runway ilmoitti myös avaavansa Gen-3 Alpha -mallin testauksen joillekin käyttäjille sanoen, että se pystyy tuottamaan yksityiskohtia, kuten valoa ja varjoa.

Kiinassa Kuaishou julkaisi Keling Web -asiakkaan, jonka avulla käyttäjät voivat luoda jopa 10 sekuntia pitkää videosisältöä ja jossa on myös ensimmäisen ja viimeisen ruudun ohjaus sekä kameran linssin ohjaustoiminnot. Sen alkuperäinen AI-fantasia-lyhytdraama "The Strange Mirror of Mountains and Seas: Chopping Waves" lähetetään myös Kuaishoussa, ja kaikki kuvat ovat tekoälyn luomia. Äskettäin lähetettiin myös AI-scifi-lyhytdraama "Sanxingdui: Future Apocalypse", joka tuotettiin Byten tekoälyvideotuotteelle Jimeng.

Tekoälyvideoiden nopea päivitysnopeus on saanut monet nettimiehet sanomaan: "Hollywoodissa saattaa olla toinen yleinen lakko."

Nykyään AI-videoradalla on kotimaisia ja ulkomaisia teknologia- ja Internet-jättiläisiä, kuten Google, Microsoft, Meta, Alibaba, Byte ja Meitu, sekä epätäydellisten tilastojen mukaan nousevia yrityksiä, kuten Runway ja Aishi Technology "Fix Focusista", vain kotimainen, noin 20 yritystä on lanseerannut itse kehittämiä tekoälyvideotuotteita/malleja.

Toubao Research Instituten tiedot osoittavat, että Kiinan tekoälyvideon tuotantoteollisuuden markkinakoko vuonna 2021 on 8 miljoonaa yuania, ja tämän markkinakoon odotetaan nousevan 9,279 miljardiin yuania vuonna 2026. Monet alan ihmiset uskovat, että luotu videoraita tuo keskimatkan hetken vuonna 2024.

Mihin kehitysvaiheeseen Sorat ovat saavuttaneet ympäri maailmaa? Kuka on vahvin? Voiko tekoäly tuhota Hollywoodin?

Soran piiritys: Vaikka tuotteita on monia, niitä voidaan käyttää vain vähän

Tekoälyvideoraidalla on lanseerattu monia tuotteita/malleja, mutta ne, jotka todella voivat olla yleisön käytössä, ovat hyvin rajallisia. , erinomainen edustaja ulkomailla on Sora, joka on vielä puoli vuotta myöhemmin sisäisessä testauksessa ja on avoin vain turvallisuustiimeille ja joillekin kuvataiteilijoille, suunnittelijoille ja elokuvatuottajille. Kotimainen tilanne on samanlainen kuin Alibaba Damo Academyn AI-videotuote "Xunguang" ja Baidun AI-videomalli UniVG. Mitä tällä hetkellä suositulle Kuaishou Kelingille tulee, käyttäjien on asetettava jonoon, jos he haluavat käyttää sitä. Tästä on keskusteltu, olen ostanut suurimman osan tuotteista.

Muissa saatavilla olevista tekoälyvideotuotteista joissakin on asetettu käyttörajat, ja käyttäjien on maksettava tai osattava tiettyjä tekniikoita.Jos et esimerkiksi tunne vähän koodituntemusta Luchen Technologyn Open-Sorasta, käyttäjät eivät voi aloittaa.

"Fix Focus" selvitti kotimaassa ja ulkomailla julkaistut AI-videotuotteet ja havaitsi, että kunkin toimintatavat ja toiminnot ovat samanlaisia. Käyttäjä käyttää ensin tekstiä ohjeiden luomiseen ja samalla valitsee kehyksen koon, kuvan selkeys, sukupolvi tyyli, sukupolvi sekunnit ja muut toiminnot, ja lopuksi napsauttaa Luo yhdellä napsautuksella.

Näiden ominaisuuksien taustalla olevat tekniset vaikeudet vaihtelevat. Vaikein on,Luodun videon resoluutio ja sekunnit, tämä on myös yritysten välisen kilpailun painopiste AI-videoraidalla promootion aikana.Se liittyy läheisesti materiaalien laatuun ja koulutusprosessissa käytetyn laskentatehon määrään.

Tekoälytutkija Cyrus kertoi "Fixed Focusille", että tällä hetkellä useimmat AI-videot kotimaassa ja ulkomailla tukevat 480p/720p-laatujen luomista, ja muutama tukee 1080p-teräväpiirtovideoita.

Hän esitteli, että mitä enemmän laadukkaita materiaaleja ja suurempi laskentateho, sitä opetettu malli pystyy tuottamaan laadukkaampia videoita, mutta se ei tarkoita, että laadukkaat materiaalit ja laskentateho voisivat tuottaa korkealaatuisia materiaaleja. Kuitenkin, jos malli, joka on koulutettu matalaresoluutioisilla materiaaleilla, pakotetaan luomaan korkearesoluutioinen video, se romahtaa tai toistaa itseään, esimerkiksi sillä on useita käsiä ja jalkoja. Tällainen ongelma voidaan ratkaista suurentamalla, korjaamalla ja piirtämällä uudelleen, mutta efekti ja yksityiskohdat ovat keskinkertaisia.

Monet yritykset pitävät myös pitkien sekuntien tuottamista myyntivalttina.

Useimmat kotimaiset tekoälyvideot tukevat 2-3 sekuntia, jota pidetään suhteellisen vahvana tuotteena, jos se voi saavuttaa 5-10 sekuntia. Jotkut tuotteet ovat myös erittäin pitkiä, kuten Jimeng, joka voi kestää jopa 12 sekuntia, mutta ei yhtään. Niistä on yhtä hyviä kuin Sora. Se on sanonut, että pisin 60 sekunnin video luodaan, mutta koska se ei ole vielä avattu käyttöön, tarkkaa suorituskykyä ei voida varmistaa.

Kevyen kelan pituus ei riitä, vaan myös luotavan videosisällön on oltava kohtuullinen. Pomegranate AI:n päätutkija Zhang Heng kertoi "Dingjiaolle": Teknisesti tekoälyä voidaan vaatia tuottamaan koko ajan. Ei ole liioittelua sanoa, että vaikka se luo videon tunnin ajan, se ei ole ongelma, mutta Useimmiten emme halua valvontaa. Video ei ole silmukka-animaatio, vaan lyhytelokuva kauniilla kuvilla ja tarinoilla.

"Fixed Focus" testasi viittä suosittua ilmaista Wensheng-video-AI-tuotetta Kiinassa, nimittäin Byten Jimeng, Morph AI:n Morph Studio, Aishi Technologyn PixVerse, MewXAI:n Yiying AI ja Right Brain Technologyn Vega AI, ja antoi heille samat tekstiohjeet. : "Pikkutyttö punaisessa mekossa ruokki pientä valkoista kanin porkkanaa puistossa."

Useiden tuotteiden syntynopeus on samanlainen, vie vain 2-3 minuuttia, mutta selkeys ja kesto ovat melko erilaisia, ja tarkkuus on vielä "kaoottisempaa tanssia".

Yiying AI

Vega AI

unelma

Morph

Pix Verse

Jokaisen edut ja haitat ovat ilmeisiä. Vaikka peli oli kestoltaan lyhyt, pelin laatu ei ollut korkea. Myös Vega AI:n muoto muuttui suoraan myöhemmissä vaiheissa. PixVersen kuvanlaatu on suhteellisen huono.

Vertailun vuoksi Morphin luoma sisältö on tarkkaa, mutta vain lyhyen 2 sekunnin ajan. Yiyingin kuvanlaatu on myös hyvä, mutta se ei ymmärrä tekstiä hyvin ja menettää suoraan kanin avainelementin, eikä luotu video ole riittävän realistinen ja on enemmän sarjakuvaa.

Lyhyesti sanottuna mikään tuote ei voi tarjota videota, joka täyttää vaatimukset.

AI-videohaasteet: tarkkuus, johdonmukaisuus, rikkaus

Kokemus "kiinteästä tarkennuksesta" on hyvin erilainen kuin eri yritysten julkaisemat mainosvideot. Jos tekoälyvideo haluaa todella kaupallistaa, on vielä matkaa.

Zhang Heng kertoi "Fixed Focusille", että teknisestä näkökulmasta he tarkastelevat pääasiassa eri AI-videomallien tasoja kolmesta ulottuvuudesta:Tarkkuus, johdonmukaisuus, rikkaus.

Kuinka ymmärtää nämä kolme ulottuvuutta, Zhang Heng antoi esimerkin.

Luo esimerkiksi video "kaksi tyttöä katsomassa koripallopeliä leikkikentällä".

Tarkkuus näkyy ensinnäkin sisältörakenteen tarkassa ymmärtämisessä, esimerkiksi jos videossa esiintyy kaksi tyttöä, toiseksi prosessin ohjauksen tarkkuus, esimerkiksi laukauksen jälkeen koripallon pitäisi laskea vähitellen verkosta, staattinen datamallinnus on tarkka. Esimerkiksi kun linssissä on este, koripallo ei voi muuttua jalkapalloksi.

Johdonmukaisuus viittaa tekoälyn mallinnuskykyyn tilassa ja ajassa, joka sisältää myös aiheen huomion ja pitkän aikavälin huomion.

Päähuomio voidaan ymmärtää niin, että koripallo-ottelun katselun aikana kahden pienen tytön on aina pysyttävä kuvassa, eivätkä he saa juosta satunnaisesti pitkäkestoinen huomio tarkoittaa, että harjoituksen aikana videon eri elementit Ei myöskään saa olla poikkeavuuksia, kuten muodonmuutoksia.

Richness tarkoittaa, että tekoälyllä on myös oma logiikkansa ja se pystyy tuottamaan joitain järkeviä yksityiskohtia jopa ilman tekstikehotteita.

Periaatteessa mikään markkinoilla olevista AI-videotyökaluista ei pysty täysin saavuttamaan yllä olevia ulottuvuuksia, ja jokainen yritys ehdottaa jatkuvasti ratkaisuja.

Esimerkiksi hahmon johdonmukaisuuden kannalta, mikä on erittäin tärkeää videossa, Meng ja Keling ajattelivat käyttää Tusheng Video korvaa Vincent Videon. Eli käyttäjä käyttää ensin tekstiä kuvien luomiseen ja sitten kuvien avulla videoiden luomiseen tai antaa suoraan yhden tai kaksi kuvaa, ja tekoäly yhdistää ne liikkuvaksi videoksi.

"Mutta tämä ei ole uusi teknologinen läpimurto, ja Tusheng-videot ovat vähemmän vaikeita kuin Vincent-videot", Zhang Heng kertoi "Dingzhongille" Vincent-videoiden periaate on, että tekoäly analysoi ensin käyttäjän syöttämän tekstin ja purkaa sen komponentiksi. peilikuvaus, muunna kuvaus tekstiksi ja sitten kuviksi, niin saat videon väliavainkehykset yhdistämällä nämä kuvat, saat jatkuvan videon toimintaan. Tusheng Video vastaa tekoälylle tietyn kuvan antamista, jota voidaan jäljitellä, ja luotu video jatkaa kuvan kasvojen piirteitä päähenkilön yhtenäisyyden saavuttamiseksi.

Hän sanoi myös, että todellisissa skenaarioissa Tusheng-videoiden vaikutus vastaa paremmin käyttäjien odotuksia, koska kuvien käyttäminen viitteenä auttaa luomaan videoita, mutta se ei ole vielä kaupallisesti saatavilla. Intuitiivisesti katsottuna 5 sekuntia on Tusheng-videon yläraja. Jos se on pidempi kuin 10 sekuntia, se ei välttämättä merkitse paljon.

Tällä hetkellä monet lyhytelokuva- ja televisioelokuvat, jotka väittävät käyttävänsä tekoälyä koko tuotantoprosessissa, käyttävät enimmäkseen Tusheng-videota tai videosta videoon.

Jimengin viimeinen kehystoiminto käyttää myös Tusheng-videota, ja "kiinteää tarkennusta" kokeiltiin erityisesti.

Yhdistelmäprosessissa hahmot näyttävät epämuodostuneilta ja vääristyneiltä.

Cyrus sanoi myös, että videoiden tulisi olla johdonmukaisia. Monet AI-videotyökalut, jotka tukevat kuvasta videoksi muuntamista, ennustavat myös myöhempiä toimia yhden ruudun kuvien avulla.

Se ymmärretäänKun on kyse Vincent Videon päähenkilöiden johdonmukaisuudesta, jokainen yritys ei luota pelkästään tiedon tuottamiseen.Zhang Heng sanoi, että useimmat mallit perustuvat alkuperäiseen taustalla olevaan suureen DIT-malliin, jonka päälle on lisätty erilaisia teknologioita, kuten ControlVideo (Harbin Institute of Technologyn ja Huawei Cloudin ehdottama ohjattava teksti-videon luontimenetelmä), mikä syventää tekoälyn ymmärrystä päähenkilöstä. Kasvojen piirteiden muisti estää kasvoja muuttumasta paljon liikkeen aikana.

Se on kuitenkin vielä kokeiluvaiheessa Jopa teknisellä superpositiolla, hahmon johdonmukaisuuden ongelmaa ei ole täysin ratkaistu.

AI-video, miksi se kehittyy hitaasti?

Tekoälyympyrässä Yhdysvallat ja Kiina ovat tällä hetkellä suosituimpia.

Asiaankuuluvasta "Maailman vaikutusvaltaisimpien tekoälytutkijoiden vuonna 2023" -raportista (jota kutsutaan "AI 2000 Scholars" -luetteloksi) voidaan nähdä, että niiden 1 071 laitoksen joukossa, jotka on sisällytetty maailmanlaajuiseen "AI 2000 -instituutioihin" neljänä vuotena 2020–2023 Yhdysvalloissa on 443, jota seuraa Kiina 137:llä. Vuoden 2023 "AI 2000 Scholars" -jakauman perusteella päätellen eniten valittuja ihmisiä on Yhdysvalloissa, 1 079 henkilöä. 54,0 % maailman kokonaismäärästä, ja seuraavaksi Kiina 280 henkilön kanssa.

Viimeisen kahden vuoden aikana sen lisäksi, että tekoäly on edistynyt suuresti Vincentiläisissä kuvissa ja Vincentiläisessä musiikissa, myös tekoälyvideot, joista on vaikeimmin murtautua, ovat tehneet läpimurtoja.

Äskettäin pidetyssä maailman tekoälykonferenssissa Le Yuan, Etian Capitalin kumppani, totesi julkisesti, että videontuotantoteknologia on edistynyt paljon odotuksia enemmän viimeisen kahden tai kolmen vuoden aikana. Singaporen Nanyangin teknologisen yliopiston apulaisprofessori Liu Ziwei uskoo, että videontuotantoteknologia on tällä hetkellä GPT-3-aikakaudella ja vielä noin puolen vuoden päässä kypsyydestä.

Leyuan kuitenkin korosti myös sitäSen tekninen taso on edelleen riittämätön tukemaan laajamittaista kaupallistamista, kielimalleihin perustuvien sovellusten kehittämisessä käytetyt metodologiat ja haasteet soveltuvat myös videoihin liittyvillä sovellusaloilla.

Soran ilmestyminen vuoden alussa järkytti maailmaa Sen uusi muuntajaarkkitehtuuriin perustuva diffuusiomalli DiT tekee teknologisia läpimurtoja diffuusiossa ja luomisessa, mikä parantaa kuvan luomisen laatua ja realistisuutta, mikä tekee tekoälyvideosta suuren läpimurron. Cyrus sanoi, että tällä hetkellä useimmat Vincent-videot kotimaassa ja ulkomailla käyttävät samanlaista tekniikkaa.

Kuvan lähde / Soran virallinen verkkosivusto

Tällä hetkellä kaikki ovat pohjimmiltaan samanlaisia taustalla olevan teknologian suhteen. Vaikka jokainen yritys hakee myös teknologisia läpimurtoja tämän pohjalta, on enemmän dataa koulutusta tuotetoimintojen rikastamiseksi.

Käyttäessään Byten Jimengia ja Morph AI:n Morph Studiota, käyttäjät voivat valita, miten videota siirretään. Sen taustalla on, että tietojoukot ovat erilaisia.

"Aiemmin eri yritysten koulutuksessa käyttämät kuvat olivat suhteellisen yksinkertaisia. Niissä enimmäkseen merkittiin, mitä elementtejä kuvassa oli, mutta ei selitetty, millä objektiivilla tätä elementtiä kuvattiin. Tämä sai myös monet yritykset huomaamaan tämän aukon, joten he käyttivät 3D:tä. Renderöidyn videon tietojoukko täydentää objektiivin ominaisuuksia." Zhang Heng sanoi, että nykyiset tiedot ovat peräisin elokuva- ja televisioteollisuuden sekä peliyhtiöiden renderöinneistä.

"Kiinteä tarkennus" kokeili myös tätä toimintoa, mutta objektiivin vaihto ei ollut kovin ilmeinen.

Syy siihen, miksi Sora on kehittynyt hitaammin kuin GPT ja Midjourney, johtuu siitä, että sillä on toinen aikajana ja videomallien harjoittelu on vaikeampaa kuin teksti ja kuvat. "Kaikki videoharjoitustiedot, joita voidaan nyt käyttää, on käytetty loppuun, ja mietimme myös uusia tapoja luoda datasarja, jota voidaan käyttää harjoitteluun."

Ja jokaisella tekoälyvideomallilla on oma tyylinsä, jossa se on hyvä Esimerkiksi Kuaishou Kelingin syömis- ja lähetysvideot ovat parempia, koska niiden takana on suuri määrä tällaista datatukea.

Shen Renkui, Pomegranate AI:n perustaja, uskoo, että tekoälyvideoteknologiat sisältävät tekstistä videoon (teksti videoon), kuva videoon (kuvasta videoon), videosta videoon (videosta videoon) ja Avatar videoon (digitaalinen ihminen). joita voidaan räätälöidä Digitaalisia ihmisiä, joilla on kuva ja ääni, on käytetty markkinointikentällä ja ne ovat saavuttaneet kaupallisen käytön tason, kun taas Vincent Videon tarkkuus- ja hallittavuusongelmat on vielä ratkaistava.

Tällä hetkellä, olipa kyseessä Douyinin ja Bonan yhteistuottama tekoälyscifi-lyhytdraama "Sanxingdui: Future Apocalypse" tai tekoälyfantasialyhytdraama "Mountains and Seas Strange Mirror: Cutting Waves", jonka alun perin on luonut. Kuaishou, yhä useammat suuret malliyritykset etsivät aktiivisesti elokuva- ja tv-tuotantotiimejä Yhteistyötä varten on tarvetta edistää omia teknologiatuotteita, eivätkä työt ole alalta pois.

Lyhyiden videoiden alalla tekoälyllä on vielä pitkä matka kuljettavana, ja on jopa ennenaikaista sanoa, että se tappaa Hollywoodin.

* Otsikkokuva tulee Pexelsiltä.

uutiset