Luo videoita 30 sekunnissa, ilmaisia ja rajoittamattomia kertoja, tänään julkaistun "Wisdom Spectrum Qingyingin" kiinalainen OpenAI-versio on toistettu crazy

Luo videoita 30 sekunnissa, ilmaiseksi ja rajattomasti. OpenAI:n "Wisdom Spectrum Qingying" -pelin tänään julkaistua kiinalaista versiota on toistettu hulluna

2024-07-26

Viimeisen puolen vuoden aikana kotimaiset ja ulkomaiset videosukupolven mallit ovat käynnistäneet uuden teknologian räjähdyksen, ja ne ovat aina olleet suosittuja sosiaalisissa verkostoissa.

Toisin kuin kielten sukupolven mallien "jälkijääminen", viimeaikaiset trendit osoittavat, että kotimainen edistys videon sukupolven mallien alalla on ylittänyt huomattavasti kansainvälisen tason. Monet ulkomaiset nettimiehet sanoivat, että "Kiinan Keling AI Video" räjäyttää Internetiä, kun taas OpenAI:n Sora nukkuu.

Tänään Zhipu AI, johtava kotimainen mallivalmistaja, julkaisi myös tekoälyvideon sukupolvituotteensa "Qingying".

Tietenkin kotimaassa ja ulkomailla on monia tekoälyvideomalleja, ja niissä kaikissa on paljon puutteita, mutta verrattuna "tulevaisuuteen" Soraan nämä tekoälyvideotuotteet ovat sekä näkyviä että konkreettisia, ja ne voivat vaatia enintään muutaman yrityksen lisää. . Video takuusopimuksen "piirtämisestä".

Ja tämä tutkimus itsessään on osa teknologista kehitystä.

Aivan kuten GPT-3:ta kyseenalaistettiin ja kritisoitiin sen syntymän alussa ja lopulta käytettiin aikaa osoittaakseen arvonsa menneisyyden viemisessä eteenpäin ja tulevaisuuden avaamisessa, samoin, jos annamme näille tekoälyvideon luontityökaluille jonkin aikaa, ne saattavat muuttuvat leluista työkaluiksi muutamassa päivässä.

Qingyingin PC-käyttölinkki:
https://chatglm.cn/video?fr=opt_homepage_PC
Qingyingin mobiilikäyttölinkki:
https://chatglm.cn/video?&fr=opt_888_qy3

Luo 6s video puolessa minuutissa, "Zhipu Qingying" on virallisesti julkaistu

Verrattuna tänään julkaistuun Zhipu Qingyingiin, monet ihmiset saattavat tuntea Zhipu Qingyanin paremmin, mutta sen sijaan, että katselisit mainosta nähdäksesi tehon, voit yhtä hyvin katsoa ensin "Qingyingin" luomaa demoa.

Vehreässä metsässä auringonvaloa paistaa lehtien rakojen läpi, jolloin syntyy Tyndall-efekti ja valo muotoutuu.

Kun tsunami pauhasi kuin raivoava hirviö, meri nielaisi heti koko kylän, aivan kuin tuomiopäivän elokuvan klassikkokohtaus.

Kaupungin yökuvassa vilkkuvilla neonvaloilla pikku apina täynnä mekaanista kauneutta pitelee kädessään huipputeknisiä työkaluja ja korjaa samoja vilkkuvia, ultrafuturistisia elektroniikkalaitteita.

Vaihtaessaan maalaustyyliä uudelleen kissanpentu avasi suunsa leveäksi ja osoitti humanisoitua hämmennystä ja kysymysmerkkejä oli kirjoitettu sen kasvoille.

Ei ole palatsi taistelevat draamaa, ei juonitteluja, Zhen Huan Meizhuangin näytön rajat syleillä ajassa ja tilassa, vain vilpitön sisarusrakkaus.

Lisäksi CogVideon, Zhipu-suuren mallitiimin itsenäisesti kehittämän ja tehokkaasti rakentaman suuren videon sukupolven mallin ansiosta Qingying tukee nyt useita sukupolvimenetelmiä, mukaan lukien tekstin luontivideot, kuvan generointivideot, ja sitä voidaan käyttää jopa mainostuotannossa. ja elokuvien editointi, lyhytvideotuotanto ja muut alat.

Qingyingillä on vahva komentoseurantakyky ja se ymmärtää ja suorittaa täysin käyttäjien antamia ohjeita.

Raporttien mukaan Zhipu AI on itse kehittänyt päästä päähän videon ymmärtämismallin luodakseen yksityiskohtaisia ja sisältöystävällisiä kuvauksia massiiviselle videodatalle, mikä parantaa mallin tekstin ymmärtämistä ja ohjeiden seuraamiskykyä sekä tuottaa käyttäjien tarpeita vastaavaa sisältöä. .

Sisällön johdonmukaisuuden kannalta Zhipu AI kehitti itse tehokkaan kolmiulotteisen variaatioautoenkooderin rakenteen (3D VAE), joka pakkaa alkuperäisen videotilan 2 %:iin sen koosta kehysten kaappaamiseen aikaulottuvuuden välillä. Niiden välinen suhde muodostaa pitkän kantaman riippuvuuden videossa.

Kuinka monta askelta kestää esimerkiksi perunoiden muuttaminen ranskalaisiksi? Ei tarvitse "sytyttää", vain yksinkertainen nopea sana, perunat muuttuvat kultaisiksi ja houkutteleviksi ranskalaisiksi. Viranomaiset sanovat, että vaikka ideasi on kuinka villi, se voi muuttaa sen todeksi yksi kerrallaan.

Lisäksi CogVideoX, joka on suunniteltu viitaten Sora-algoritmiin, on myös DiT-arkkitehtuuri, joka pystyy integroimaan tekstin, ajan ja tilan kolme ulottuvuutta Teknisen optimoinnin jälkeen CogVideoX on lisännyt päättelynopeuttaan kuusi kertaa edelliseen sukupolveen verrattuna (CogVideo). Teoriassa kestää vain 30 sekuntia, ennen kuin mallipuoli tuottaa 6 sekunnin videon.

Vertailun vuoksi todettakoon, että Keling AI, joka on tällä hetkellä ensimmäisellä tasolla, kestää yleensä 2–5 minuuttia yhden 5 sekunnin videon luomiseen.

Tämänpäiväisessä lehdistötilaisuudessa Zhipu AI:n toimitusjohtaja Zhang Peng pyysi Qingyingiä luomaan videon gepardista, joka nukkuu maassa hieman aaltoilevana. Staattisen ruusun "kukkiminen" vaati kuitenkin enemmän aikaa.

Lisäksi Qingyingin luoman videon resoluutio voi olla 1440x960 (3:2) ja kuvanopeus on 16 fps.

Qingying tarjoaa myös harkiten ääniraitatoiminnon, ja voit lisätä musiikkia luotuun videoon ja julkaista sen suoraan.

Luulin, että staattinen kuva kitaraa soittavista astronauteista oli tarpeeksi mielikuvituksellista, mutta kun se liikkui ja siihen liittyi leppoisa melodia, vaikutti siltä, että astronautit pitivät konserttia avaruudessa.

Toisin kuin "Futures" Sora, "Qingying" ei harjoita nälkämarkkinointia. Se on täysin auki heti, kun se menee verkkoon myöhemmissä versioissa videoiden luonti nopeammalla ja pidemmällä aikavälillä.

Zhang Peng sanoi myös Zhipu Open Dayssa: "Kaikki käyttäjät voivat kokea tekoälyn teksti- ja kuvapohjaiset videoominaisuudet Yingin kautta."

Nyt Qingying on alkutestausvaiheessa ja kaikki käyttäjät voivat käyttää sitä ilmaiseksi. Jos tavoittelet sujuvampaa kokemusta, voit avata yhden päivän (24 tunnin) nopeat käyttöoikeudet 5 yuanilla. Jos olet valmis maksamaan 199 yuania, voit avata yhden vuoden maksulliset nopeat käyttöoikeudet.

Lisäksi Ying API lanseerataan samanaikaisesti suurella avoimella alustalla bigmodel.cn Yritykset ja kehittäjät voivat kokea ja käyttää Wensheng Videon ja Tusheng Videon malliominaisuuksia soittamalla API:lle.

Aloittamisen kynnys on alhainen, mutta "kortteja nostelemalla" ei tarvitse enää huolehtia huonojen ohjeiden kirjoittamisesta.

APPSO koki myös Qingyingin ensimmäistä kertaa Testattuamme joitain skenaarioita, teimme myös yhteenvedon kokemuksista Qingyingin käytöstä:

Videon sukupolvi on kuin "alkemiaa", ja ulostulo on epävakaa. On suositeltavaa kokeilla sitä useita kertoja.
Tehosteen yläraja riippuu kehotesanasta, ja kehotussanan rakenteen tulee olla mahdollisimman selkeä
Objektiivin paras vaikutus on lähikuva, ja muut kuvat eivät ole kovin vakaita.
Entiteettityypin toteutuslajittelu: eläimet>kasvit>esineet>rakennukset>ihmiset

Tiedemies, joka ei ymmärrä taidetta, ei ole hyvä tiedemies. Einstein soitti kitaraa kuin kala vedessä pudistaen päätään omaan rytmiinsä, eikä näyttänyt näyttelevän.

Jättipanda soittaa myös kitaraa tyylikkäästi ja monipuolisesti.

Tang Seng, joka on yleensä stoinen, heilutti sinua ja heilui rytmiin.

Tietysti yllä olevat ovat vielä suhteellisen hyviä videoita. Videoiden luomisen aikana kertyi myös paljon turhia videoita.

Esimerkiksi pyysin sängyllä makaavaa keisaria syömään kanan koivet oikealla kädellä, ja ylimääräinen käsi ilmestyi tyhjästä Videon viimeisellä sekunnilla tunsin, että keisari oli paljastamassa naarastaan meikki ja hiukset.

Tai ehkä sillä hetkellä, kun Leslie Cheung katsoi minua, hänen sydämensä veljestä oli tullut "se mies".

Monimutkaisissa kohtauksissa hahmojen liikkeiden siirtyminen on luonnotonta, monimutkaisten kohtausten fyysisiä ominaisuuksia ei voida simuloida tarkasti, luodun sisällön tarkkuus on riittämätön jne. Nämä puutteet eivät ole Qingyingin "patentti", vaan videon sukupolven nykyiset rajoitukset. malli.

Käytännön sovelluksissa, vaikka käyttäjät voivat parantaa videon laatua optimoimalla kehotussanoja, "kierrätys" on onneksi myös yleistä.

Huolehdiksemme joistakin aloittelevista pelaajista olemme myös erityisesti laatineet joitain vinkkejä pikasanoihin:

Yksinkertainen kaava: [Kameran liike] + [Rakenna kohtaus] + [Lisätietoja]
Monimutkainen kaava: [Linssin kieli] + [Valo ja varjo] + [Aihe (aiheen kuvaus)] + [Aiheen liike] + [Kohtaus (kohtauksen kuvaus)] + [Mieliala/ilmapiiri]

Kamera panoroi (objektiivin liike) paljastaa pienen pojan, joka istuu puiston penkillä (aiheen kuvaus), kädessään höyryävä kahvikuppi (kohdetoiminta). Hänellä on yllään sininen paita ja hän näyttää onnelliselta (aiheen yksityiskohdat), ja taustalla on puiden reunustama puisto, jossa auringonvalo paistaa pojan lehtien läpi (ympäristön kuvaus).

Jos sinulla ei vieläkään ole aavistustakaan, suosittelen käyttämään Zhipu Qingyanin tarjoamaa älykästä agenttia videokehotteen kirjoittamiseen. Vaikka syötät elämän yleisiä kohtauksia, voit saada kolme korkealaatuista kehotussanaa.

Jos esimerkiksi sanot vain "Corgi ottaa aurinkoa rannalla", saat seuraavat luonnonmaisemakuvaustyylikehotteet kiinaksi ja englanniksi, ja valittavissasi on myös akvarellimaalaustyyli, 3D-animaatiotyyli ja muita tyylikehotteita. alkaen:

Suomi: Aurinkoisella rannalla corgi makaa laiskasti rantapyyhkeellä nauttien lämpimästä auringonpaisteesta. Kamera on kuvattu matalasta kuvakulmasta. Taustalla on laaja sininen valtameri ja valkoinen hiekkaranta. Suomi: Aurinkoisella rannalla Corgi makaa laiskasti rantapyyhkeellä ja paistattelee lämpimässä auringonpaisteessa. Kamera tallentaa kohtauksen matalasta kulmasta ja esittelee taustalla laajaa sinistä valtamerta ja koskematonta valkoista hiekkaa. rannalla Ilmapiiri on rauhallinen, 4K-ultrateräväpiirtona.

Nähdessään niin tyydyttävän kehotuksen, kyllä, sen halusin todella kirjoittaa tuolloin.

Ohessa Qingying-kehotteen sanaagentin osoite (Wensheng-video): https://chatglm.cn/main/gdetail/669911fe0bef38883947d3c6

Sama koskee videoiden luomista kuvista. Syötä kuvan aihe, valitse kuvan tyyli ja anna Zhipu Qingyanin auttaa sinua kirjoittamaan vastaavat kehotteet. Evoluutio ilmaisista sanoista "laita lasit päähän" ja "Tang Monk ojentaa kätensä ja laittaa lasit päähän", vaikutus on myös hyvin erilainen.

Liitteenä on Qingying-kehote sanaagentin osoite (Tusheng-video): https://chatglm.cn/main/gdetail/669fb16ffdf0683c86f7d903

Jos haluat tehdä työsi hyvin, sinun on ensin teroitettava työkalujasi ja avattava mallia hieman enemmän. Voit myös kokea enemmän sisällönluontityökaluja Zhipu Qingyanissa.

Alkuperäisestä aihemateriaalien kokoelmasta käsikirjoitusprosessiin, kuvien ja videoiden luontiprosessiin ja sitten mainostekstikirjoituksiin, se voi melkein avata koko videon luovuuden ketjun. Ei läheskään ole selkeästi sanottu, että sinä vain Ajattele luovuutta, ja loput jätetään sinulle.

Huomasimme, että äskettäin julkaistut tekoälyvideotuotteet, mukaan lukien Keling, parantavat ohjattavuutta ensimmäisen ja viimeisen ruudun ohjauksella.

Tekoälyn luoja Chen Kun kertoi kerran APPSO:lle, että melkein kaikki kaupallisesti toimitettavat tekoälyvideot ovat Tusheng-videoita, koska Wensheng-videot eivät vielä pysty tähän, ja kyse on itse asiassa hallittavuudesta.

Zhipu AI:n tänään julkaisema Qingying parantaa edelleen tekstimuotoisten videoiden hallittavuutta APPSO:n haastattelussa Zhipu AI sanoi, että tekstillä luodut videot heijastavat yleisempää ohjattavuutta.

Suurin osa tekoälyn luomista videoista on edelleen ihmisten hallinnassa kielen avulla. Siksi tekstin tai yksinkertaisten kielten ohjeiden tunnistaminen on korkeampi valvontataso.

Tekoälyvideot siirtyvät leluista sisällöntuottajien työkaluihin

Jos viime vuosi oli ensimmäinen suurten mallien räjähdysmäinen vuosi, tämä vuosi on tärkeä solmu tekoälyvideon soveltamisessa.

Vaikka Sora, joka laukaisi kaiken tämän, ei ole vielä ollut verkossa, se on tuonut inspiraatiota tekoälyvideoihin.

Sora ratkaisee yksityiskohtien hyppyjen ongelman kehysten välillä järkevällä yksityiskohtasuunnittelulla. Samalla luodaan suoraan korkearesoluutioisia (1080p) videokuvia, jotka voivat tuottaa semanttisesti rikkaita jopa 60 sekunnin pituisia videoita, mikä osoittaa, että sen takana oleva harjoitusjakso on myös suhteellisen pitkä.

Pelkästään viimeisen kahden kuukauden aikana peräti 10 yritystä on tuonut markkinoille uusia tekoälyvideotuotteita tai merkittäviä päivityksiä.

Vain muutama päivä ennen Zhipu Qingyingin julkaisua Kuaishoun Keling AI avattiin sisäiseen testaukseen ympäri maailmaa, ja toinen PixVerse, jota kutsutaan Soraksi, julkaisi V2-versionsa, joka tukee 1-5 jatkuvan videosisällön luomista yhdellä napsautuksella.

Ei kauan sitten Runway Gen 3 Alpha julkaisi myös julkisen betatestauksen maksullisille käyttäjille, ja yksityiskohtien hienostuneisuutta ja sujuvuutta on parannettu huomattavasti. Viime kuussa julkaistu elokuvatason videosukupolvimalli Dream Machine on myös äskettäin päivitetty ensimmäisellä ja viimeisellä kehystoiminnolla.

Vain muutamassa kuukaudessa tekoälyvideon sukupolvi on parantunut huomattavasti fyysisen simuloinnin, liikkeen sujuvuuden ja kehotteiden ymmärtämisen suhteen. Tekoälyn fantasiadraaman ohjaaja Chen Kun on herkempi tälle Hän uskoo, että tekoälyvideon sukupolviteknologia voi olla nopeampaa kuin kuvitellaan.

Tekoälyvideot vuonna 2023 ovat enemmän kuin dynaamisia PPT:itä, joissa hahmot esiintyvät hidastettuna ja luottavat pisteiden kiinnittämiseen montaasieditointiin. Mutta nyt tekoälyvideoiden "PPT-maku" on haalistunut paljon.

Ohjaaja Chen Kunin ensimmäinen kotimainen AIGC-spektaakkeli "Mountains and Seas: Mirrors of Mountains and Seas: Cutting the Waves" on juuri julkaistu , samanlaisten fantasiateemien tekemiseen tarvittiin vähintään 100 ihmistä, ja hän Tiimissä on vain yli 10 henkilöä, mikä lyhentää huomattavasti tuotantosykliä ja kustannuksia.

Viimeisen kuuden kuukauden aikana olemme nähneet, että ammattimaiset elokuva- ja tv-tekijät ovat alkaneet kokeilla tekoälyvideoita. Kotimainen Kuaishou Douyin on julkaissut tekoälyn lyhytdraamoja, ja ensimmäinen pitkäkestoinen tekoälyelokuva "Our T2 Remake", 50 AIGC:n tekijän yhteistyö, sai ensi-iltansa Los Angelesissa.

Vaikka tekoälyvideoiden luomisessa on edelleen rajoituksia hahmojen ja kohtausten johdonmukaisuuden, hahmojen suorituskyvyn, toiminnan vuorovaikutuksen jne. suhteen, ei ole kiistämätöntä, että tekoälyvideo on hitaasti muuttumassa viime vuonna kokeilusta lelusta tekijöiden työkaluksi.

Tämä voi olla myös tärkeä syy siihen, miksi tuotteet, kuten Zhipu Qingying, Kuaishou Keling, Luma Dream Machine ja muut tuotteet, ovat alkaneet tuoda markkinoille jäsenjärjestelmiä. Sinun täytyy tietää, että suurin osa kotimaisista suurista C-pään mallituotteista on ilmaisia Kotimaisten tilausmaksutottumusten ja -prioriteettien mukaisesti käyttäjien kasvustrategioiden tavoittelussa uteliaiden käyttäjien lisäksi tekoälyvideoiden maksamista on tuettava entistä kestävämmin.

Tekoälyvideon luominen on tietysti vielä suhteellisen varhaisessa vaiheessa. Niin sanottu "elokuvan luominen yhdellä lauseella" on vain harhaanjohtava otsikko fyysistä maailmaa.

Zhipu mainitsi myös tämänpäiväisessä lehdistötilaisuudessa, että multimodaalisten mallien kartoitus on vielä hyvin alkuvaiheessa.

Luotujen videoiden vaikutuksesta päätellen on paljon parantamisen varaa fyysisen maailman lakien, korkean resoluution, kameran liikkeiden jatkuvuuden ja keston suhteen. Itse mallin näkökulmasta tarvitaan uusi malliarkkitehtuuri, jossa on läpimurto-innovaatioita. Sen pitäisi pakata videoinformaatiota tehokkaammin, integroida täysin teksti- ja videosisältö ja tehdä luodusta sisällöstä realistisempi samalla, kun se noudattaa käyttäjän ohjeita.

"Tutkimme aktiivisesti tehokkaampia skaalausmenetelmiä mallitasolla. Zhang Peng on kuitenkin luottavainen myös multimodaalisten mallien kehittämiseen." Uskon, että skaalauslaki jatkaa toimintaansa. sen voimakas voima."

Tekoälyn luoja Chen Kun uskoo, että on vain ajan kysymys, milloin tekoälyn luomat otokset sopivat 100 %:sti valkokankaalle. Se, kuinka kauan tämä aika kestää, ei ole kaikkein huolestuttavinta, mutta osallistuminen tähän prosessiin on tärkeämpää, kuten Zhipu AI:n toimitusjohtaja Zhang Peng mainitsi edellisessä APPSO:n haastattelussa:

Monia asioita on tutkittava peräkkäin, ja tämä prosessi on erittäin tärkeä. Älä näe vain lopputuloksia, vaan ennen kaikkea ryhdymme toimiin, joihin kaikkien pitäisi tällä hetkellä kiinnittää enemmän huomiota.

Kirjailija: Li Chaofan, Mo Chongyu

uutiset

Luo videoita 30 sekunnissa, ilmaiseksi ja rajattomasti. OpenAI:n "Wisdom Spectrum Qingying" -pelin tänään julkaistua kiinalaista versiota on toistettu hulluna

Johdanto

yhteystietoni