uutiset

"Jimeng AI" on hyllyillä. Voiko Byte saavuttaa Kuaishoun suurissa videomalleissa?

2024-08-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Toimittaja: Yang Xinyi Toimittaja: Wei Guanhong

"Paine kohdistuu Douyiniin, kun tämän vuoden kesäkuussa ilmestyi ilmiömäisiä AI-tuotteita, joita edustaa Kuaishoun itse kehittämä suuri videosukupolvimalli, ulkomaailma odotti innolla Byten jatkoa.

Äskettäin mobiiliversio "Jimeng AI:stä", joka on ByteDancen editointitiimin kehittämä yhden luukun tekoälyn luomisalusta, julkaistiin virallisesti Apple App Storessa.

"Daily Economic News" -toimittaja sai tietää, että sovelluksessa on tällä hetkellä toimintoja, kuten tekstipohjaisia ​​kuvia ja teksti-/kuvapohjaisia ​​videoita. Lisäksi Jimeng on käynnistänyt jäsenjärjestelmän ja käynnistänyt useita tilausmenetelmiä.

Vertaamalla Ji Mengin, Ke Lingin ja Soran todellisia sovelluksia "Daily Economic News" -lehden toimittajat havaitsivat, että kolme suurta videosukupolven mallia ovat tarkempia ja täydellisempiä kehotteiden vangitsemisessa ja ymmärtämisessä, mutta Ji Meng Capabilitiesin hahmot, kuten muotoilu, sisällön rikkaus ja videon sujuvuus ovat suhteellisen puutteellisia. Luodun sisällön keston suhteen Jimeng tukee jopa 12 sekunnin videoiden luomista.

"Sujuvan videon luomiseen kuluva sekuntimäärä on avaintekijä arvioitaessa videon kykyä luoda suuri malli." "Sileä" on mitattava useista ulottuvuuksista. Katso esimerkiksi, onko luodussa sisällössä faktavirheitä, kuinka hyvä muisti on ja onko tilantaju oikea.


"Jimeng AI" -mobiiliversio on hyllyillä Kuvan lähde: Sovelluksen kuvakaappaukset


"Jimeng AI" on hyllyillä, voiko vaikutus saada Lingin kiinni?

Tämän vuoden alussa Soran ilmaantuminen aloitti "ChatGPT-videon aikakauden". Myöhemmin Kuaishoun lanseeraama "tumma hevonen" nosti ihmisten odotuksia suurten kotimaisten AI-videomallien suorituskyvystä. ByteDance, Douyinin emoyhtiö, joka on myös lyhyt videojätti, pidetään yhtenä pelaajista, joilla on eniten mahdollisuuksia päästä kiinni radalla.


Kuvan lähde Keling AI -verkkosivulta: Virallisen verkkosivuston kuvakaappaus

Maaliskuun lopussa Byten huipputiimin kehittämä tekoälyn luomisalusta "Jimeng AI" avattiin sisäiseen testaukseen 9. toukokuuta, sovellus julkaistiin verkkoversiossa Tärkeimmät toiminnot: kuvan luominen, älykangas ja videoiden luonti Tällä hetkellä uusi tarinanluontitoiminto julkaistiin 6. elokuuta. -pohjaiset kuvat ja teksti/kuvapohjaiset videot.


Jimeng AI -verkkosivun kuvan lähde: Virallisen verkkosivuston kuvakaappaus

Mitä tulee Jimengin todelliseen vaikutukseen, tämän vuoden heinäkuun alussa maan ensimmäinen AIGC:n generatiivinen jatkuva kerronnallinen scifi-lyhytsarja "Sanxingdui: Future Apocalypse" julkaistiin Douyinilla. Tässä lyhyessä sarjassa, jossa on yhteensä 13 jaksoa, Jimeng käytti tekoälyteknologian päätukijana 10 tekoälyteknologiaa, mukaan lukien AIGC-käsikirjoituksen luonti, konsepti- ja kuvakäsikirjoituksen suunnittelu, kuvan muuntaminen videoksi, videoeditointi ja mediasisällön parantaminen.

Tiedotusvälineiden mukaan Jimeng AI teki yhteistyötä Bona Picturesin kanssa Sanxingdui: Future Apocalypsen käynnistämiseksi ja paransi "videon sukupolvi" -toimintoa, mukaan lukien tuki 24 fps, 30 fps, 60 fps kehyksen täyttöä ja kykyä kaksinkertaistaa superpisteet. , lisätty linssin vaakasuora liike, ylös ja alas liike, tuki linssin liikkeen suunnan ja amplitudin ohjaamiseen jne.


Kuvan lähde: Kuvakaappaus Jianying WeChatin julkisesta tilistä

Jimeng-sovelluksen julkaisun jälkeen "Daily Economic News" -lehden toimittaja valitsi joukon OpenAI:n virallisesti julkaisemia Sora-videokehotteita suorittaakseen vertailevan testin Jimengillä, Kelingillä ja Soralla.

Toimittajan testituloksista päätellen kolme suurta videosukupolvimallia ovat suhteellisen tarkkoja ja täydellisiä kehotteiden kaappaamisessa ja ymmärtämisessä, ja myös luodun videosisällön näytön suorituskyky on yhtenäinen ja tasainen.

Hahmokuvauksen tarkkuudessa Soralla on kuitenkin tiettyjä etuja Ji Mengiin ja Ke Lingiin nähden liikkeiden luonnollisuuden suhteen, Ji Meng on hieman huonompi kuin kolme testituotetta. Esimerkiksi "The Lady on the Streets of Tokyo ""-aiheisessa videomateriaalissa näkyy, että unen synnyttämän hahmon pää ja kaula ovat hieman vääristyneet päätä käännettäessä, ja myös käsien liikkeet laukkua kantaessa ovat epämuodostuneet.


Kuvan lähde: Toimittajan luoma videokuva

Tuotantosisällön elementtirikkaudella Sora pärjää myös paremmin kolmen joukossa. Esimerkiksi luodussa videosisällössä, jonka teema on "Astronaut", Sora antoi useita assosiaatioita, jotka liittyivät kiireisiin sanoihin, kuten avaruusaluksiin ja ajoneuvon ulkopuolisiin kohtauksiin, kun taas Ji Meng ja Ke Ling esittivät vain avaruuspukua käyttävän mieshahmon.


Kuvan lähde: Toimittajan luoma videokuva

Analysys Analysis Research Partner Chen Chen sanoi haastattelussa "Daily Economic News" -lehden toimittajan kanssa, että sukupolvivaikutelman suhteen Dreamin tekoälykuvien yleinen laatu on parempi, kun taas tekoälyvideot ovat parempia keston, elementtien rikkauden ja toiminnan suhteen. johdonmukaisuus jne. Yksityiskohdat puuttuvat edelleen.

"(Elementtisisältö ei ole tarpeeksi rikas) Kyse on enemmän mallin kohdistamisesta, mutta jos kyky assosioitua "astronautista" "avaruusalukseen" puuttuu, se on ongelma perusmallin ominaisuuksissa." Suuri malliinsinööri kertoi "Daily Economics" Newsille" toimittaja huomautti, että sekuntien määrä, joka kuluu sujuvan videon luomiseen, on avaintekijä arvioitaessa videon kykyä luoda suuria malleja. ""Smooth" on katsottava useista ulottuvuuksista, kuten onko luodussa sisällössä faktavirheitä, kuinka hyvä muisti on ja tilantaju ei ole sama."

"Daily Economic News" -toimittajat havaitsivat kokeiden kautta, että kun samoja kehotteita syötetään, mitä pidempään videota vaaditaan, videon pääkuvan ja liikkeiden tarkkuus ja sujuvuus todennäköisesti vaurioituu vastaavasti.

Tällä hetkellä Jimeng tukee 3 sekunnin, 6 sekunnin, 9 sekunnin ja 12 sekunnin videosisällön luomista, mikä vastaa eri pisteiden kulutusta. Sora on pystynyt syntetisoimaan 1 minuutin pituisia videoita jo 21. kesäkuuta ilmestyessään. write Toiminto voi saada videon kestämään noin 5 sekuntia ja pisin video voidaan luoda noin 3 minuutiksi.


Onko tekoälyvideo suurten mallien kultakaivos?

Soran ilmaantuminen on epäilemättä avannut uuden pelikentän suurille malleille - Alibaba Damo Academy julkaisi tämän vuoden heinäkuussa yhden luukun tekoälyvideonluontialustan "Xunguang" ja SenseTime lanseerasi ensimmäisen ohjattavan AI-videonluontialustan C- loppukäyttäjät Vimi, suuri malli hahmovideoiden luomiseen, ja Zhipu ilmoittivat myös, että tekoälyn luoma videomalli Qingying (Ying) julkaistaan ​​virallisesti Zhipu Qingyan⋯⋯ -sivustolla.

Kun johtavat tekoälypelaajat yhdessä hyökkäävät kiivaasti videolla luotuja suuria malleja vastaan, edessämme on väistämätön kysymys: Voivatko tekoälyvideot saada suuret malliyritykset tienaamaan?

Otetaan esimerkkinä alan tähtiyritys OpenAI. Tämän vuoden heinäkuussa lanseerattuaan useita suuria, johtavia ominaisuuksia sisältäviä malleja, jotkut tiedotusvälineet lainasivat asiaan perehtyneitä henkilöitä ja julkistamatonta sisäistä taloustietoanalyysiä. sanoen, että OpenAI voi kohdata jopa 5 miljardia tänä vuonna. Yrityksen koko vuoden liikevaihdon arvioidaan olevan 3,5 miljardia dollaria ja 4,5 miljardia dollaria, mikä on paljon alhaisempi kuin toimintakustannukset.

Samaan aikaan kotimaiset suuret videomallit näyttävät myös hieman "levottomalta" kaupallistamisen suhteen. Keling lanseerasi 30. heinäkuuta globaalin jäsenjärjestelmän, joka on samanlainen kuin kotimaan markkinoille tuoma jäsenjärjestelmä. Esimerkiksi kuukausikortti on jaettu kolmeen tasoon: 10 dollaria, 37 dollaria ja 92 dollaria. voi luoda noin 66, 300 ja 800 5 sekunnin videoita.

"Daily Economic News" -toimittaja huomasi, että Jimeng on käynnistänyt jäsenjärjestelmän, jossa on erilaisia ​​liittymismenetelmiä perusjäsenyydelle 79 yuania yhdelle kuukaudelle, 69 yuania jatkuvalle kuukausitilaukselle ja 659 yuania vuositilaukselle. Tarkemmin sanottuna perusjäsenet voivat käyttää 505 pistettä kuukaudessa noin 2 020 kuvan tai 168 tekoälyvideon luomiseen. Lisäksi lanseerataan pian normaalijäsenyyspalvelut 2 020 pisteellä kuukaudessa ja edistyneet jäsenpalvelut 6 555 pisteellä kuukaudessa.

"Suurten tekoälymallien korkeiden mallikoulutuksen ja päättelykustannusten sekä C-lopun käyttäjien AI-työkalujen suhteellisen hajanaisen kysynnän ja heidän maksuhaluttomuutensa vuoksi suurten videomallien kaupallistaminen C-pään markkinoilla edessä on vielä pitkä viljelyjakso." Chen Chen uskoo, että C-pään markkinoilla suurten videomallien kaupallistamiseen on vielä pitkä matka.

B-puolen markkinoilta lähtien Chen Chen kertoi "Daily Economic News" -lehden toimittajalle: "B-puolella tekoälyteknologian vallankumous muokkaa alkuperäistä työnkulkua, pakkaa ylimääräisiä linkkejä ja laukaisee uusia tarpeita luoville työkaluille. Tässä prosessissa tekoälyvideon suuret mallit voidaan asteittain integroida olemassa olevaan elokuva- ja televisiotuotantoon, mainonnan luovuuteen ja mediasisällön suunnitteluun auttamaan monimutkaisten prosessien automatisoitua käsittelyä ja älykästä sisällöntuotantoa ja voidaanko mallin ominaisuudet upottaa tehokkaasti Varsinaiset työnkulut tuovat sisältöä seksuaalisen tehokkuuden parantamiseen ja kustannusten vähentämiseen.

"Kimin kaupallistamista aletaan vähitellen tutkia, mutta se ei ole nykyinen painopiste. Nykyinen painopiste on rakentaa seuraavan sukupolven malli vahvemmilla ominaisuuksilla. Tämän vuoden elokuussa kuun toimittaja haastatteli Dark Side of the Moonin "Daily Economic News" Shi Zeng sanoi, että tässä vaiheessa ei ole aika keskittyä kaupallistamiseen.

Ehkä sama pätee "aloittavaan" unelmaan, jolla on vielä yksi virstanpylväs toisensa jälkeen saavutettava ja ylitettävä. "Jimengin nykyiset tuotetoiminnot ja liiketoimintamallit keskittyvät UGC:n (käyttäjien luoman sisällön) palvelemiseen, ja ekologinen integraatio Douyinin kanssa on myös tulevan kehityksen painopiste. Chen Chen sanoi: "Ehkä mitä tulee kestoon, kuvataajuuteen ja kuvan yksityiskohtiin." ja muut tekniikat Suoraan parametrien vertailuun ei Jimengin tarvitse kiinnittää eniten huomiota tässä vaiheessa, avain on sovellusten toteutuksessa ja ekologisessa integraatiokyvyssä.