Zhipu AI aloittaa videoiden sukupolven: "Qingying" on verkossa, 6 sekuntia pitkä, ilmainen ja rajoittamaton

2024-07-26

Koneen sydänraportti

Machine Heart -toimitusosasto

Zhipu-suurmallitiimi on itse kehitetty ja rakennettu.

Sen jälkeen kun Kuaishou Keling AI on tullut suosituksi kotimaassa ja ulkomailla, kotimainen videoiden luominen on tulossa yhä suositummaksi, kuten iso tekstimalli vuonna 2023.

Juuri nyt toinen suuri videosukupolven mallituote on virallisesti lanseerattu: Zhipu AI julkaisi virallisesti "Qingyingin". Niin kauan kuin sinulla on hyviä ideoita (muutamasta sanasta muutamaan sataan sanaan) ja vähän kärsivällisyyttä (30 sekuntia), "Qingying" voi tuottaa erittäin tarkkoja videoita 1440x960 resoluutiolla.

Linkki videoon: https://mp.weixin.qq.com/s/fNsMxyuutjVkEtX_xRnsMA

Tästä lähtien Qingying käynnistää Qingyan-sovelluksen, ja kaikki käyttäjät voivat kokea täysin dialogin, kuvien, videoiden, koodien ja agenttien sukupolven toiminnot. Sen lisäksi, että voit kattaa Zhipu Qingyanin verkon ja sovelluksen, voit myös käyttää "AI Dynamic Photo Mini -ohjelmaa" saadaksesi nopeasti dynaamisia tehosteita puhelimesi valokuviin.

Zhipu "Qingyingin" luoma video on 6 sekuntia pitkä ja sen resoluutio on 1440×960. Kaikki käyttäjät voivat käyttää sitä ilmaiseksi.

PC-käyttölinkki: https://chatglm.cn/
Mobiilikäyttölinkki: https://chatglm.cn/download?fr=web_home

Zhipu AI totesi, että teknologian jatkuvan kehityksen myötä "Qingyingin" sukupolviominaisuudet otetaan pian käyttöön lyhyiden videoiden tuotannossa, mainonnan luomisessa ja jopa elokuvien editoinnissa.

Generatiivisten AI-videomallien kehittämisessä skaalauslakilla on edelleen rooli sekä algoritmeissa että datassa. "Tutkimme aktiivisesti tehokkaampia skaalausmenetelmiä mallitasolla." Zhipu AI:n toimitusjohtaja Zhang Peng sanoi: "Algoritmien ja tietojen jatkuvan iteroinnin myötä skaalauslaki toimii edelleen." vahva rooli."

Valitse erilaisia tyylejä

Joistakin nykyisistä demoista ja yksinkertaisista kokeiluista päätellen Zhipu AI:n "Qingying" sisältää seuraavat ominaisuudet:

Suorituskyky on parempi luotaessa videosisältöä maisemista, eläimistä, tieteiskirjallisuudesta, humanistisista tieteistä ja historiasta jne.;
Videotyylejä, joita olemme hyviä luomaan, ovat sarjakuvatyyli, todellinen valokuvaustyyli, kaksiulotteinen animaatiotyyli jne.;
Entiteettityyppisen esitysefektin kannalta eläimet > kasvit > esineet > rakennukset > ihmiset.

Se voi luoda videoita tekstillä tai kuvilla, ja luotu tyyli kattaa fantasiaanimaatiotyylin.

Vincent video

Kehotussanat: Työnnä ylöspäin matalassa kulmassa, nosta hitaasti päätäsi, niin lohikäärme ilmestyy yhtäkkiä jäävuorelle. Sitten lohikäärme huomaa sinut ja ryntää sinua kohti. Hollywood-elokuvatyyli.

Kehotussana: Maagi loitsua aalloissa jalokivi kerää meriveden ja avaa taikaportaalin.

Kehotussana: Sieni muuttuu karhuksi.

Varsinaiseen kohtaukseen:

Kehotussana: Metsässä ihmisen näkökulmasta jyrkät puut peittävät auringon, ja hieman auringonvaloa paistaa lehtien rakojen läpi, Tyndall-ilmiö.

Kehottava sana: Kapybara seisoo kuin ihminen, pitää jäätelöä kädessään ja syö sitä iloisena.

tusheng video

Tekstimuotoisten videoiden lisäksi voit pelata Qingyingissä myös kuvavideoilla. Tusheng Video tuo lisää uusia tapoja pelata, mukaan lukien hymiöt, mainostuotanto, juonen luominen, lyhyiden videoiden luominen jne. Samanaikaisesti lanseerataan myös Qingyingiin perustuva "Old Photos Animated" -sovelma. Vanhat valokuvat tarvitsee ladata vain yhdessä vaiheessa, ja tekoäly voi animoida vanhaan aikaan tiivistetyt kuvat.

Kehotussana: Vapaasti liikkuva värikäs kala.

Kehotussana: Kuvan mies seisoo, tuuli puhaltaa hänen hiuksiaan.

Kehotussana: Pieni keltainen ankkalelu kelluu uima-altaan pinnalla, lähikuva.

Ja sitten moderniin taiteeseen:

Vihjesana: Kamera pyörii vintage-televisioiden ympärillä, jotka näyttävät erilaisia ohjelmia – 1950-luvun scifi-elokuvia, kauhuelokuvia, uutisia, still-kuvia, 70-luvun sitcomeja jne. New Yorkin museossa suuressa galleriassa.

Vinkki: Ota iPhone esiin ja ota valokuva.

Ei kiireellisiä sanoja.

Yleisesti käyttämäsi hymiöt, Zhipu AI voi laajentaa ne "sarjoiksi".

Kehottava sana: Neljä mestaria ja oppipoikaa ojensi kätensä ja nosti toisiaan hämmentyneet ilmeet kasvoillaan.

Linkki videoon: https://mp.weixin.qq.com/s/fNsMxyuutjVkEtX_xRnsMA

Kehotussanat: Kissanpentu avasi suunsa leveäksi, hämmentynyt ilme ja monia kysymysmerkkejä kasvoissaan.

Linkki videoon: https://mp.weixin.qq.com/s/fNsMxyuutjVkEtX_xRnsMA

Voidaan nähdä, että Qingying pystyy käsittelemään erilaisia tyylejä, ja on enemmän tapoja pelata odottamassa ihmisten löytämistä. Napsauta vain Zhipu Qingyan PC/APP:n "Qingying Intelligent" -toimintoa, ja jokainen ideasi voidaan muuttaa todeksi hetkessä.

Kaikki itse kehitetty tekniikka

Kaiken kaikkiaan Wisdom AI on ottanut käyttöön multimodaalisia generatiivisia tekoälymalleja jo pitkään. Vuodesta 2021 lähtien Zhipu AI on julkaissut monia tutkimuksia, kuten CogView (NeurIPS'21), CogView2 (NeurIPS'22), CogVideo (ICLR'23), Relay Diffusion (ICLR'24), CogView3 (2024) jne.

Raporttien mukaan "Qingying" luottaa CogVideoX:iin, uuden sukupolven suuren videon sukupolven malliin, jonka Zhipu AI -suurmallitiimi on kehittänyt itsenäisesti.

Viime vuoden marraskuussa hänen tiiminsä loi tekstistä videoksi -sukupolvimallin CogVideo, joka perustuu Vincentin graafimalliin CogView2, ja teki siitä myöhemmin avoimen lähdekoodin.

CogVideolla on 9,4 miljardia parametria. Se luo sarjan alkukehyksiä CogView2:n kautta ja toteuttaa videon luomisen interpoloimalla kuvia kaksisuuntaisen huomion mallin perusteella. Lisäksi CogVideo luo 3D-ympäristön tekstikuvausten perusteella ja voi hyödyntää suoraan valmiita malleja kalliin koulutuksen välttämiseksi.

Qingying Basen videon sukupolvimalli on tällä kertaa CogVideoX, joka voi integroida tekstin, ajan ja tilan. Se on myös DiT-arkkitehtuuri. Optimoinnin ansiosta CogVideoX on parempi. CogVideo) päättelynopeus kasvoi 6 kertaa.

OpenAI:n Soran ilmestyminen on mahdollistanut tekoälyn edistymisen merkittävästi videoiden luomisessa, mutta useimmilla malleilla on edelleen vaikeuksia tuottaa videosisältöä johdonmukaisella ja johdonmukaisella tavalla.

Näiden ongelmien ratkaisemiseksi Zhipu AI on kehittänyt tehokkaan kolmiulotteisen variaatioautoenkooderin rakenteen (3D VAE), joka voi pakata alkuperäisen videotilan 2 %:iin, mikä vähentää huomattavasti mallikoulutuksen kustannuksia ja vähentää huomattavasti harjoittelun vaikeutta.

Mallin rakenne käyttää kausaalista 3D-konvoluutiota päämallin komponenttina ja poistaa autoenkoodereissa yleisesti käytetyn huomiomoduulin, jotta malli voidaan siirtää eri resoluutioihin.

Samaan aikaan kausaalinen konvoluutio ajallisessa ulottuvuudessa mahdollistaa mallin videokoodauksen ja -dekoodauksen etu-to-back-sekvenssiriippuvuuden, mikä auttaa laajentamaan mallia korkeampiin kuvanopeuksiin ja pidempiin kohtauksiin hienosäädön avulla.

Lisäksi videoiden luominen kohtaa myös ongelman, että suurimmasta osasta videodataa puuttuu kuvaava teksti tai kuvauksen laatu on alhainen sisältöön sopivat kuvaukset ja rakentaa sitten suuri määrä korkealaatuisia video-teksti-pareja, jolloin koulutettu malli on erittäin ohjeiden mukainen.

Lopuksi on syytä mainita, että Zhipu AI on itse kehittänyt muuntaja-arkkitehtuurin, joka yhdistää tekstin, ajan ja tilan vuorovaikutuksessa näiden kahden tavan välillä.

Tekstin ja videon ominaisuustiloissa on kuitenkin suuria eroja.

Zhipu AI totesi, että optimointitekniikan ansiosta Zhipu AI:n generatiivisen videomallin päättelynopeus on kasvanut 6-kertaiseksi. Tällä hetkellä mallin teoreettinen aika 6s videon luomiseen on 30 sekuntia.

Nyt "Qingyingin" julkaisun myötä Zhipu AI, merkittävä toimija videoiden sukupolven kappaleessa, on jälleen ilmestynyt.

Sovellusten lisäksi, joita kaikki voivat kokeilla, Qingying API lanseerataan samanaikaisesti myös suurella avoimella alustalla bigmodel.cn Yritykset ja kehittäjät voivat kokea ja käyttää Wensheng Videon ja Tusheng Videon malliominaisuuksia kutsumalla API.

Kun useat yritykset jatkavat tekoälyvideon generointitoimintojen lanseerausta, tämän vuoden generatiivinen AI-kilpailu on siirtynyt kuumaan vaiheeseen. Useimmille käyttäjille on enemmän valinnanvaraa: nyt sekä ihmiset, joilla ei ole videotuotantotaustaa, että ammattimaiset sisällöntuottajat voivat tehdä videoita suurten malliominaisuuksien avulla.

uutiset

Zhipu AI aloittaa videoiden sukupolven: "Qingying" on verkossa, 6 sekuntia pitkä, ilmainen ja rajoittamaton

Johdanto

yhteystietoni