Zhipu AI julkaisee suuren videon sukupolven mallin, Bilibili osallistuu tutkimukseen ja kehitykseen ja Yizhuang tarjoaa laskentatehoa Jiazi Guangnian

Zhipu AI julkaisee suuren videon sukupolven mallin, Bilibili osallistuu tutkimukseen ja kehitykseen ja Yizhuang tarjoaa laskentatehoa |

2024-07-26

Suuret videomallit osallistuvat satojen mallien taisteluun.

Kirjailija｜ Zhao Jian‍‍‍

Tämä vuosi on ensimmäinen suuren mittakaavan "videosukupolven" mallien räjähdysmäinen vuosi. Viimeisen kahden kuukauden aikana olemme nähneet Kuaishou Kelingin, SenseTime Vimin, Luma AI:n, Aishi Technology Pixversen, Runway Gen-3:n ja muiden suurten videomallien jahtaavan toisiaan.

Vuoden ensimmäisellä puoliskolla suuret videontuotantomalliyritykset keskittyivät kuitenkin vain videon tuottamiseen.

Vuoden toisella puoliskolla suuret kielimalliyritykset seuraavat vähitellen OpenAI:n jalanjälkiä ja tulevat suurten videomallien markkinoille yhdistämään kielimalleja ja videomalleja.

Korkean profiilin "Six Big Modelsin" joukossa nopeimmin liikkuva on Zhipu AI.

Tänä aamuna tämä Tsinghuassa toimiva suuri yksisarvinen lanseerasi videosukupolven suuren mallituotteen "Qingying", joka on suoraan avoin kaikille käyttäjille ja tukee Wensheng Videota ja Tusheng Videota.

Kun käyttäjät ovat syöttäneet tekstin tai kuvan (eli kehotteen) Zhipu Qingyan -tietokoneeseen tai -sovellukseen, he voivat valita tyylin, jonka he haluavat luoda, mukaan lukien sarjakuvan 3D, mustavalkoisen, öljymaalauksen, elokuvatyylin jne. Qingyingin oman tyylin mukana. musiikkia, joka tuottaa tekoälyn mielikuvitusta täynnä olevia videoleikkeitä. Lisäksi "AI Dynamic Photo Mini -ohjelma" tukee Tusheng-videoita.

Mitä tulee nykytilanteeseen suurten videomallien alalla, Zhang Peng uskoo, että se tulee todennäköisesti tilanteeseen, jossa sata ajatuskoulua kilpailee, aivan kuten suuret kielimallit.

Kaupallistamisstrategian osalta Qingyingin nykyinen maksusuunnitelma on: Alkuvaiheen aikana kaikki käyttäjät voivat käyttää sitä ilmaiseksi 5 yuania avatakseen nopean kanavan oikeudet yhdeksi päiväksi (24 tunnin maksu); maksullinen nopea pääsy vuodeksi kanavaoikeudet. Zhipu AI:n toimitusjohtaja Zhang Peng sanoi: "Nykyinen kaupallistaminen on vielä hyvin varhaisessa vaiheessa, ja kustannukset ovat itse asiassa erittäin korkeat. Toistamme asteittain markkinoiden palautteen perusteella."

Qingying API lanseerataan samanaikaisesti myös suurelle avoimelle Zhipu-alustalle Yritykset ja kehittäjät voivat kokea ja käyttää Wensheng Videon ja Tusheng Videon malliominaisuuksia soittamalla API:lle.

Qingyingin tutkimus- ja kehitystyö on saanut vahvaa tukea Pekingistä. Haidianin piiri sijaitsee Zhipu AI:n pääkonttorissa. Se tarjoaa kattavaa tukea, kuten teollisuuden investointeja, laskentatehoa, sovellusskenaarioiden esittelyjä ja kykyjä toteuttaa Zhipu AI:n laajamittaista mallitutkimusta ja -kehitystä korkean suorituskyvyn laskentaklusteri Pekingissä Yizhuangin laskentatehoklusterin syntyä sovelletaan tulevaisuudessa myös valtavaan korkean tarkkuuden teollisuusklusteriin Yizhuangissa, Pekingissä, mikä muodostaa uuden liiketoimintamuodon, jossa suuret mallit vahvistavat reaalitaloutta.

Ekologisen yhteistyön osalta bilibili on osallistunut myös Qingyingin teknologian tutkimus- ja kehitysprosessiin kumppanina ja on sitoutunut kartoittamaan mahdollisia tulevaisuuden sovellusskenaarioita. Samanaikaisesti kumppani Huace Film and Television osallistui myös mallin yhteisrakentamiseen.

Luo video mistä tahansa tekstistä 1,30 sekunnissa

Mikä on Qingyingin erityinen vaikutus? Katsotaanpa ensin muutamaa virallisesti julkaistua videokoteloa (kaikki musiikin mukana).

Vincent video:

Kehotussanat: Työnnä ylöspäin matalassa kulmassa, nosta hitaasti päätäsi, niin lohikäärme ilmestyy yhtäkkiä jäävuorelle. Sitten lohikäärme huomaa sinut ja ryntää sinua kohti.Hollywood-elokuvatyyli

Kehottava sana: Kyberpunk-tyylisessä kaupunkimaisemassa vilkkuvilla neonvaloilla kädessä pidettävä kamera zoomaa hitaasti sisään, ja mekaaninen apina korjaa sitä huipputeknisten työkalujen avulla, jota ympäröivät vilkkuvat elektroniset laitteet ja futuristiset sisustusmateriaalit. Cyberpunk-tyyli, salaperäinen tunnelma, 4K-teräväpiirto.

Kehotussana: Mainoksen kuvausperspektiivi, keltainen tausta, valkoinen pöytä, peruna heitetään alas ja siitä tulee osa ranskalaisia perunoita.

tusheng video

Pikasana: Klassinen kauneus

Pikasana: Lohikäärme ampuu tulta suustaan ja polttaa pienen kylän.

Kehotussana: Capybara juo laiskasti koksia oljen läpi kääntäen päänsä kameraa kohti

Qingyingin videon luontiaika on noin 6 sekuntia ja odotusaika kehotussanan syöttämisen jälkeen on noin 30 sekuntia. Zhang Peng sanoi, että tämän sukupolven nopeus on jo erittäin nopea alalla.

Zhang Peng uskoo, että multimodaalisten mallien tutkiminen on vielä hyvin alkuvaiheessa. Luotujen videoiden vaikutuksesta päätellen on paljon parantamisen varaa fyysisen maailman lakien, korkean resoluution, kameran liikkeiden jatkuvuuden ja keston suhteen. Itse mallin näkökulmasta tarvitaan uusi malliarkkitehtuuri, jossa on läpimurto-innovaatioita. Sen pitäisi pakata videoinformaatiota tehokkaammin, integroida täysin teksti- ja videosisältö ja tehdä luodusta sisällöstä realistisempi samalla, kun se noudattaa käyttäjän ohjeita.

2. Itse kehitetty DiT-arkkitehtuuri

Qingying Basen videon sukupolvimalli on CogVideoX, joka yhdistää tekstin, ajan ja tilan kolme ulottuvuutta ja viittaa Soran algoritmisuunnitteluun. CogVideoX on myös DiT-arkkitehtuuri. Optimoinnin ansiosta CogVideoX:n päättelynopeus kasvaa kuusi kertaa edelliseen sukupolveen (CogVideo).

Zhipu jakoi pääasiassa kolme CogVideoX:n teknistä ominaisuutta: sisällön johdonmukaisuus, ohjattavuus ja mallirakenne.

Ensinnäkin sisällön johdonmukaisuuden ongelman ratkaisemiseksiZhipu on itse kehittänyt tehokkaan kolmiulotteisen variaatioautoenkooderin rakenteen (3D VAE), joka pakkaa alkuperäisen videotilan 2 %:iin, mikä vähentää videon diffuusiogenerointimallin koulutuskustannuksia ja koulutusvaikeutta.

Mallin rakenteen suhteen Wisdom Spectrum käyttää kausaalista 3D-konvoluutiota päämallin komponenttina ja poistaa autoenkoodereissa yleisesti käytetyn huomiomoduulin, jolloin malli pystyy siirtymään ja käyttämään eri resoluutioilla.

Samalla aikaulottuvuuden kausaalikonvoluution muoto mahdollistaa myös sen, että mallilla on edestä taaksepäin järjestysriippumattomuus videon koodauksessa ja dekoodauksessa, mikä helpottaa yleistämistä korkeampiin kuvanopeuksiin ja pidempiin aikoihin hienosäädön avulla.

Suunnittelun käyttöönoton näkökulmasta Zhipu hienosäätää ja ottaa käyttöön variaatioautokooderia, joka perustuu Temporal Sequential Parallel -periaatteeseen aikaulottuvuuden suhteen, jotta se voi tukea erittäin korkean kuvanopeuden videoiden koodausta pienemmällä grafiikkamuistilla .

Toinen kohta on hallittavuus.Suurimmasta osasta nykyisestä videodatasta puuttuu vastaavaa kuvaavaa tekstiä tai kuvauksen laatu on heikko Tästä syystä Zhipu on kehittänyt kattavan videon ymmärtämismallin luodakseen yksityiskohtaisia ja sisältöystävällisiä kuvauksia massiiviselle videodatalle. mallin tekstin ymmärtäminen ja ohjeiden seuraaminen, mikä tekee luodusta videosta johdonmukaisemman käyttäjän syötteen kanssa ja pystyy ymmärtämään erittäin pitkiä ja monimutkaisia ohjeita.

Tämä on myös Soran käyttämä menetelmä. OpenAI koulutti erittäin kuvaavan tekstitysgeneraattorimallin käyttämällä DALL·E 3:n "uudelleentekstitystekniikkaa" ja käytti sitä sitten tekstitekstien luomiseen harjoitustietojoukon videoille. Lisäksi OpenAI hyödyntää GPT:tä muuntaakseen lyhyet käyttäjäkehotteet pidemmiksi yksityiskohtaisiksi tekstityksiksi, jotka lähetetään sitten videomalliin.

Lopuksi on Zhipun kehittämä muuntaja-arkkitehtuuri, joka yhdistää tekstin, ajan ja tilan kolme ulottuvuutta.Se hylkää perinteisen ristiin huomioivan moduulin, mutta yhdistää tekstin upotuksen ja videon upotuksen syöttövaiheeseen, jotta ne ovat täydellisemmin vuorovaikutuksessa näiden kahden modaliteetin kanssa.

Näiden kahden modaliteetin ominaisuustilat ovat kuitenkin hyvin erilaisia mahdollistaa mallin tehokkaan hyödyntämisen parametrien kohdistamiseksi paremmin visuaaliseen informaatioon semanttisen tiedon kanssa.

Huomiomoduuli ottaa käyttöön 3D-täyden huomion. Aiemmat tutkimukset käyttävät yleensä erotettua spatiotemporaalista huomiota ei voi mukautua olemassa oleviin tehokkaisiin koulutuskehikkoihin.

Sijainnin koodausmoduuli suunnittelee 3D RoPE:n, joka on suotuisampi vangita kehysten välinen suhde aikaulottuvuudessa ja luoda pitkän kantaman riippuvuuksia videossa.

3. Skaalauslaki on edelleen voimassa

Suuren mallin AI-reitin alussa Zhipu alkoi laatia siihen liittyviä asetteluja multimodaalikentällä. Tekstistä kuviin ja videoihin suurten mallien ymmärrys maailmasta muuttuu yhä monimutkaisemmaksi ja moniulotteisemmaksi. Erilaisten modaliteettien oppimisen kautta syntyy suuria malleja, jotka kykenevät ymmärtämään, tuntemaan ja hoitamaan erilaisia tehtäviä.

Zhipun tutkimus multimodaalisista suurista malleista voidaan jäljittää vuoteen 2021 asti. Vuodesta 2021 lähtien Zhipu on kehittänyt CogView (NeurIPS'21), CogView2 (NeurIPS'22), CogVideo (ICLR'23), Relay Diffusion (ICLR'24) ja CogView3 (2024).

CogView'n pohjalta tiimi kehitti CogVideon, laajaan malliin perustuvan tekstistä videoksi sukupolven mallin. Se otti käyttöön usean ruutunopeuden hierarkkisen koulutusstrategian korkealaatuisten videoleikkeiden luomiseksi ja ehdotti rekursiiviseen interpolointiin perustuvaa menetelmää. Luo asteittain kutakin alakuvausta vastaava teksti ja interpoloi nämä videoleikkeet kerros kerrokselta saadaksesi lopulliset videoleikkeet. Tämä työ on herättänyt laajaa huomiota Facebookilta, Googlelta ja Microsoftilta, ja se on lainattu myöhemmissä videoiden sukupolven mallitöissä, kuten Facebookin Make-A-Video, Googlen Pheneki ja MAGVIT, Microsoftin DragNUWA ja NVIDIA:n Video LDM.

Toukokuussa 2024 GLM:n suurten mallien tekninen tiimi käsitteli kattavasti kolmea pääasiallista GLM:n suurten mallien teknistä suuntausta AGI:lle ICLR 2024:n pääpuheessa, jossa natiivit multimodaaliset suuret mallit ovat tärkeässä roolissa: GLM:n suuri mallitiimi uskoo, että teksti on rakennettu Suurien mallien avainperusta, seuraava vaihe on tekstin, kuvien, videon, äänen ja muiden modaliteettien yhdistäminen koulutukseen, jolla rakennetaan todella natiivi multimodaalinen malli.

Zhipulla on kattava ulkoasu suurista mallisarjoista, ja multimodaalimalleilla on aina tärkeä rooli. Zhipu on varmistanut skaalauslain tehokkuuden videoiden luonnissa. Jatkamme data- ja malliskaalan kasvattamista, tutkimme uusia malliarkkitehtuureja, joissa on läpimurto innovaatioita, pakkaamme videotietoja tehokkaammin ja yhdistämme tekstiä täydellisemmin. ja videosisältöä.

Zhang Peng uskoo, että yksi tulevaisuuden teknologisista läpimurroista suurille malleille on natiivit multimodaaliset suuret mallit, ja skaalauslaki tulee jatkossakin näyttelemään roolia sekä algoritmeissa että datassa.

"Emme ole vielä nähneet merkkejä teknologiakäyrän hidastumisesta", Zhang Peng sanoi.

(Kansikuva ja kuvien oheisteksti lähde: Zhipu)

uutiset

Zhipu AI julkaisee suuren videon sukupolven mallin, Bilibili osallistuu tutkimukseen ja kehitykseen ja Yizhuang tarjoaa laskentatehoa |

Johdanto

yhteystietoni