uutiset

"Jimeng AI" on hyllyillä, saako Byte kiinni Kuaishoun?

2024-08-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Toimittaja: Yang Xinyi Toimittaja: Wei Guanhong

"Paine kohdistuu Douyiniin, kun tämän vuoden kesäkuussa ilmestyi ilmiömäisiä AI-tuotteita, joita edustaa Kuaishoun itse kehittämä suuri videosukupolvimalli, ulkomaailma odotti innolla Byten jatkoa.

Äskettäin mobiiliversio "Jimeng AI:stä", joka on ByteDancen editointitiimin kehittämä yhden luukun tekoälyn luomisalusta, julkaistiin virallisesti Apple App Storessa.

"Daily Economic News" -toimittaja sai tietää, että sovelluksessa on tällä hetkellä toimintoja, kuten tekstipohjaisia ​​kuvia ja teksti-/kuvapohjaisia ​​videoita. Lisäksi Jimeng on käynnistänyt jäsenjärjestelmän ja käynnistänyt useita tilausmenetelmiä.

Vertaamalla Ji Mengin, Ke Lingin ja Soran todellisia sovelluksia "Daily Economic News" -lehden toimittajat havaitsivat, että kolme suurta videosukupolven mallia ovat tarkempia ja täydellisempiä kehotteiden vangitsemisessa ja ymmärtämisessä, mutta Ji Meng Capabilitiesin hahmot, kuten muotoilu, sisällön rikkaus ja videon sujuvuus ovat suhteellisen puutteellisia. Luodun sisällön keston suhteen Jimeng tukee jopa 12 sekunnin videoiden luomista.

"Sujuvan videon luomiseen kuluva sekuntimäärä on avaintekijä arvioitaessa videon kykyä luoda suuri malli." "Sileä" on mitattava useista ulottuvuuksista. Katso esimerkiksi, onko luodussa sisällössä faktavirheitä, kuinka hyvä muistisi on ja onko tilantaju oikea.


"Jimeng AI" -mobiiliversio on hyllyillä Kuvan lähde: Sovelluksen kuvakaappaukset


"Jimeng AI" on hyllyillä, voiko vaikutus saada Lingin kiinni?

Tämän vuoden alussa Soran ilmaantuminen aloitti "ChatGPT-videon aikakauden". Myöhemmin Kuaishoun lanseeraama "tumma hevonen" nosti ihmisten odotuksia suurten kotimaisten AI-videomallien suorituskyvystä. ByteDance, Douyinin emoyhtiö, joka on myös lyhyt videojätti, pidetään yhtenä pelaajista, joilla on eniten mahdollisuuksia päästä kiinni radalla.


Kuvan lähde Keling AI -verkkosivulta: Virallisen verkkosivuston kuvakaappaus

Maaliskuun lopussa Byten huipputiimin kehittämä tekoälyn luomisalusta "Jimeng AI" avattiin sisäiseen testaukseen 9. toukokuuta, sovellus julkaistiin verkkoversiossa Tärkeimmät toiminnot: kuvien luonti, älykangas ja videoiden luominen. Tällä hetkellä uusi tarinanluontitoiminto julkaistiin 6. elokuuta. pohjaisia ​​kuvia ja teksti-/kuvapohjaisia ​​videoita.


Jimeng AI -verkkosivun kuvan lähde: Virallisen verkkosivuston kuvakaappaus

Mitä tulee Jimengin todelliseen vaikutukseen, tämän vuoden heinäkuun alussa maan ensimmäinen AIGC:n generatiivinen jatkuva kerronnallinen scifi-lyhytsarja "Sanxingdui: Future Apocalypse" julkaistiin Douyinilla. Tässä lyhyessä sarjassa, jossa on yhteensä 13 jaksoa, Jimeng käytti tekoälyteknologian päätukijana 10 tekoälyteknologiaa, mukaan lukien AIGC-käsikirjoituksen luonti, konsepti- ja kuvakäsikirjoituksen suunnittelu, kuvan muuntaminen videoksi, videoeditointi ja mediasisällön parantaminen.

Tiedotusvälineiden mukaan Jimeng AI teki yhteistyötä Bona Picturesin kanssa Sanxingdui: Future Apocalypsen käynnistämiseksi ja paransi "videon sukupolvi" -toimintoa, mukaan lukien tuki 24 fps, 30 fps, 60 fps kehyksen täyttöä ja kykyä kaksinkertaistaa superpisteet. , lisätty linssin vaakasuora liike, ylös ja alas liike, tuki linssin liikkeen suunnan ja amplitudin ohjaamiseen jne.


Kuvan lähde: Kuvakaappaus Jianying WeChatin julkisesta tilistä

Jimeng-sovelluksen julkaisun jälkeen "Daily Economic News" -lehden toimittaja valitsi joukon OpenAI:n virallisesti julkaisemia Sora-videokehotteita suorittaakseen vertailevan testin Jimengillä, Kelingillä ja Soralla.

Toimittajan testituloksista päätellen kolme suurta videosukupolvimallia ovat suhteellisen tarkkoja ja täydellisiä kehotteiden kaappaamisessa ja ymmärtämisessä, ja myös luodun videosisällön näytön suorituskyky on yhtenäinen ja tasainen.

Hahmokuvauksen tarkkuudessa Soralla on kuitenkin tiettyjä etuja Ji Mengiin ja Ke Lingiin nähden liikkeiden luonnollisuuden suhteen, Ji Meng on hieman huonompi kuin kolme testituotetta. Esimerkiksi "The Lady on the Streets of Tokyo ""-aiheisessa videomateriaalissa näkyy, että unen synnyttämän hahmon pää ja kaula ovat hieman vääristyneet päätä käännettäessä, ja myös käsien liikkeet laukkua kantaessa ovat epämuodostuneet.


Kuvan lähde: Toimittajan luoma videokuva

Tuotantosisällön elementtirikkaudella Sora pärjää myös paremmin kolmen joukossa. Esimerkiksi luodussa videosisällössä, jonka teema on "Astronaut", Sora antoi monia assosiaatioita, jotka liittyvät pikasanoihin, kuten avaruusaluksiin ja ajoneuvon ulkopuolisiin kohtauksiin, kun taas Ji Meng ja Ke Ling esittelivät vain avaruuspukua käyttävän mieshahmon.


Kuvan lähde: Toimittajan luoma videokuva

Analysys Analysis Research Partner Chen Chen sanoi haastattelussa "Daily Economic News" -lehden toimittajan kanssa, että sukupolvivaikutelman suhteen Dreamin tekoälykuvien yleinen laatu on parempi, kun taas tekoälyvideot ovat parempia keston, elementtien rikkauden ja toiminnan suhteen. johdonmukaisuus jne. Yksityiskohdat puuttuvat edelleen.

"(Elementtisisältö ei ole tarpeeksi rikas) Kyse on enemmän mallin kohdistamisesta, mutta jos kyky assosioitua "astronautista" "avaruusalukseen" puuttuu, se on ongelma perusmallin ominaisuuksissa." Suuri malliinsinööri kertoi "Daily Economics" Newsille" toimittaja huomautti, että sekuntien määrä, joka kuluu sujuvan videon luomiseen, on avaintekijä arvioitaessa videon kykyä luoda suuria malleja. ""Smooth" on katsottava useista ulottuvuuksista, kuten onko luodussa sisällössä faktavirheitä, kuinka hyvä muisti on ja tilantaju ei ole sama."

"Daily Economic News" -toimittajat havaitsivat kokeiden kautta, että kun samoja kehotteita syötetään, mitä pidempään videota vaaditaan, videon pääkuvan ja liikkeiden tarkkuus ja sujuvuus todennäköisesti vaurioituu vastaavasti.

Tällä hetkellä Jimeng tukee 3 sekunnin, 6 sekunnin, 9 sekunnin ja 12 sekunnin videosisällön luomista, mikä vastaa eri pisteiden kulutusta. Sora on pystynyt syntetisoimaan 1 minuutin pituisia videoita jo 21. kesäkuuta ilmestyessään. write Toiminto voi saada videon kestämään noin 5 sekuntia ja pisin video voidaan tuottaa noin 3 minuuttia.


Onko tekoälyvideo suurten mallien kultakaivos?

Soran ilmaantuminen on epäilemättä avannut uuden pelikentän suurille malleille - Alibaba Damo Academy julkaisi tämän vuoden heinäkuussa yhden luukun tekoälyvideonluontialustan "Xunguang" ja SenseTime lanseerasi ensimmäisen ohjattavan AI-videonluontialustan C- loppukäyttäjät Vimi, suuri malli hahmovideoiden luomiseen, ja Zhipu ilmoittivat myös, että tekoälyn luoma videomalli Qingying (Ying) julkaistaan ​​virallisesti Zhipu Qingyan⋯⋯ -sivustolla.

Kun johtavat tekoälypelaajat yhdessä hyökkäävät kiivaasti videolla luotuja suuria malleja vastaan, edessämme on väistämätön kysymys: Voivatko tekoälyvideot saada suuret malliyritykset tienaamaan?

Otetaan esimerkkinä alan tähtiyritys OpenAI. Tämän vuoden heinäkuussa lanseerattuaan useita suuria, johtavia ominaisuuksia sisältäviä malleja, jotkut tiedotusvälineet lainasivat asiaan perehtyneitä henkilöitä ja julkistamatonta sisäistä taloustietoanalyysiä. sanoen, että OpenAI voi kohdata jopa 5 miljardia tänä vuonna. Yrityksen koko vuoden liikevaihdon arvioidaan olevan 3,5 miljardia dollaria ja 4,5 miljardia dollaria, mikä on paljon alhaisempi kuin toimintakustannukset.

Samaan aikaan myös kotimaiset suuret videomallit näyttävät olevan hieman "levottomuus" kaupallistamisen suhteen. Keling lanseerasi 30. heinäkuuta globaalin jäsenjärjestelmän, joka on samanlainen kuin sen kotimaan markkinoille lanseerattu jäsenjärjestelmä. Esimerkiksi kuukausikortti on jaettu kolmeen tasoon: 10 US dollaria, 37 US dollaria ja 92 US dollaria. tuottaa noin 66, 300 ja 800 5 sekunnin videoita.

"Daily Economic News" -toimittaja huomasi, että Jimeng on käynnistänyt jäsenjärjestelmän, jossa on erilaisia ​​liittymismenetelmiä perusjäsenyydelle 79 yuania yhdelle kuukaudelle, 69 yuania jatkuvalle kuukausitilaukselle ja 659 yuania vuositilaukselle. Tarkemmin sanottuna perusjäsenet voivat käyttää 505 pistettä kuukaudessa noin 2 020 kuvan tai 168 tekoälyvideon luomiseen. Lisäksi tarjolla on tavallisia jäsenpalveluita 2020 pisteellä kuukaudessa ja edistyneet jäsenpalvelut 6555 pisteellä kuukaudessa, jotka julkaistaan ​​pian.

"Suurten tekoälymallien korkeiden mallikoulutuksen ja päättelykustannusten sekä C-lopun käyttäjien AI-työkalujen suhteellisen hajanaisen kysynnän ja heidän maksuhaluttomuutensa vuoksi suurten videomallien kaupallistaminen C-pään markkinoilla edessä on vielä pitkä viljelyjakso." Chen Chen uskoo, että C-pään markkinoilla suurten videomallien kaupallistamiseen on vielä pitkä matka.

B-puolen markkinoilta lähtien Chen Chen kertoi "Daily Economic News" -lehden toimittajalle: "B-puolella tekoälyteknologian vallankumous muokkaa alkuperäistä työnkulkua, pakkaa ylimääräisiä linkkejä ja laukaisee uutta kysyntää luoville työkaluille. Tässä prosessissa tekoälyvideon suuret mallit voidaan asteittain integroida olemassa olevaan elokuva- ja televisiotuotantoon, mainonnan luovuuteen ja mediasisällön suunnitteluun, mikä auttaa automatisoimaan monimutkaisia ​​prosesseja ja älykästä sisällöntuotantoa ja voidaanko mallin ominaisuudet integroida tehokkaasti Varsinaiset työnkulut tuovat sisältöä seksuaalisen tehokkuuden parantamiseen ja kustannusten vähentämiseen.

"Kimin kaupallistamista aletaan vähitellen tutkia, mutta se ei ole nykyinen painopiste. Tällä hetkellä tavoitteena on rakentaa seuraavan sukupolven malli vahvemmilla ominaisuuksilla Tämän vuoden elokuussa Kuun Dark Sidea haastatteli a toimittaja "Daily Economic News" Shi Zeng sanoi, että tässä vaiheessa ei ole aika keskittyä kaupallistamiseen.

Ehkä sama pätee "aloittavaan" unelmaan, jolla on vielä yksi virstanpylväs toisensa jälkeen saavuttaa ja ylitettävä. "Jimengin nykyiset tuotetoiminnot ja liiketoimintamallit keskittyvät UGC:n (käyttäjien luoman sisällön) palvelemiseen, ja ekologinen integraatio Douyinin kanssa tulee olemaan myös tulevan kehityksen painopiste. Chen Chen sanoi: "Ehkä keston, kehysnopeuden ja kuvan suhteen." yksityiskohdat ja muut tekniikat Suoraan parametrien benchmarkingiin ei Jimengin tarvitse kiinnittää eniten huomiota tässä vaiheessa, avain on sovellusten toteutuksessa ja ekologisessa integraatiokyvyssä.