uutiset

Soran tekoälyversio on avoimen lähdekoodin!Ensimmäinen kaupallisesti saatavilla oleva GitHub keräsi 3,7 000 tähteä viidessä tunnissa

2024-08-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Jin Lei tulee Aofein temppelistä

Qubits |. Julkinen tili QbitAI

Soran kotimainen versio on todella hullu.

Juuri nyt,Viisausspektrin AIsuoraankirkas varjoSuuri malli videoiden sukupolven takana antaaAvoin lähdekoodi

Ja onEnsimmäinen kaupallisesti saatavilla olevaSellainen juttu!

Tämän mallin nimi onCogVideoX, julkaistu vain GitHubissa5 tuntia, joten hän otti sen villisti3,7 000 tähteä️。

Katsotaanpa suoraan vaikutusta.

Kehotus 1,Lähikuva ihmisistä

Sodan runteleman kaupungin kummittelevassa taustassa, jossa rauniot ja murentuneet seinät kertovat tarinan tuhosta, koskettava lähikuva kehystää nuoren tytön. Hänen kasvonsa tahraavat tuhkaa, mikä on hiljainen todistus häntä ympäröivästä kaaoksesta. Hänen silmänsä kimaltelevat sekoituksesta surua ja joustavuutta, vangiten raakoja tunteita maailmassa, joka on menettänyt syyttömyytensä konfliktien tuholle.

Voidaan nähdä, että yksityiskohdat, kuten hahmojen silmät, eivät ole erittäin teräviä, vaan jatkuvuus ennen ja jälkeen räpyttelyn myös säilyy.

Palaa kehotteeseen 2,Yksi laukaus loppuun

Kamera seuraa valkoisen vintage-maastoauton takana mustalla kattotelineellä, kun se kiihdyttää jyrkkää hiekkatietä mäntyjen ympäröimänä jyrkällä vuorenrinteellä, sen renkaista nousee pölyä, auringonvalo paistaa maastoautoon, kun se kiihdyttää likaa pitkin tie loi lämpimän hehkun kohtauksen yli. Hiekkatie kaartaa loivasti kaukaisuuteen, eikä muita autoja tai ajoneuvoja ole näkyvissä. Tien kummallakin puolella olevat puut ovat punapuita, joiden viheralueita on hajallaan. Autoa nähdään takaapäin helposti mutkassa, mikä saa sen näyttämään siltä kuin se olisi ajettavassa karussa maastossa. Itse hiekkatietä ympäröivät jyrkät kukkulat ja vuoret, ja yläpuolella on kirkas sininen taivas ja ohuita pilviä.

Valo ja varjot, kaukaiset näkymät, lähikuvat ja ajoneuvon ajoprosessi tallentuvat.

Ja nämä tehosteet eivät ole vain virallisia julkaisutoimintoja, niitä voivat pelata verkossa kaikki~

Yksi kortti A100, voidaan luoda 90 sekunnissa

On syytä mainita, että Zhipu AI:n CogVideoX sisältää useita eri kokoja ja avoimen lähdekoodin tällä kertaa CogVideoX-2B.

Sen olennaiset perustiedot ovat seuraavat:

Se vaatii vain 18 Gt videomuistia johtopäätösten tekemiseen FP-16-tarkkuudella ja vain 40 Gt videomuistia hienosäätöön. Tämä tarkoittaa, että yksi 4090-näytönohjain voi suorittaa päättelyn ja yksi A6000-näytönohjain suorittaa hienosäädön.

Ymmärretään, että tämä malli tukee jo käyttöönottoa HuggingFacen diffuusorikirjastossa, ja toiminta on hyvin yksinkertainen, vain 2 vaihetta:

1. Asenna vastaavat riippuvuudet

pip Asentaa --päivitä opencv-python-muuntajat pip Asentaa git+https://github.com/huggingface/diffusers.git@878f609aa5ce4a78fea0f048726889debde1d7e8#muna=hajottimet # Vielä PR:ssa

2. Suorita koodi

tuo taskulamppu diffuusereista import CogVideoXPipeline osoitteesta diffusers.utils import export_to_video prompt = "Panda, joka on pukeutunut pieneen, punaiseen takkiin ja pikkuhattuun, istuu puisella jakkaralla rauhallisessa bambumetsässä. Pandan pörröiset tassut tököttävät miniakustista kitaraa tuottaen pehmeitä, melodisia sävelmiä. Lähistöllä kokoontuu muutama muu panda. , katselee uteliaana ja jonkin verran taputusta rytmissä , mikä parantaa tämän ainutlaatuisen musiikkiesityksen rauhallista ja maagista tunnelmaa." pipe = CogVideoXPipeline.from_pretrained("THUDM/CogVideoX-2b", torch_dtype=torch.float16 ).to("cuda") prompt_embeds, _ = pipe.encode_prompt( prompt=prompt, do_classifier_free_guidance=True, num_videos_per_prompt=1, max_sequence_length=226, device="cuda", dtype=torch.float16, ) video = pipe( num_inference_steps=50, guidance_scale=6, prompt_embeds=prompt_embeds, ).frames[0] export_to_video(video, "output.mp4", fps=8)

Ja yhden kortin A100:ssa videon luomiseen kuluu vain 90 sekuntia, seuraamalla äskeisiä ohjeita.

HuggingFacessa myös Zhipu AI on tehnyt senPelattavissa verkossademo,Henkilökohtainen testivaikutusseuraavasti:

Kuten näet, luotuja tuloksia ei voi ladata vain .mp4-muodossa, vaan myös GIF-muodossa.

Joten seuraava kysymys on, kuinka Zhipu AI tekee sen?

Lehti on myös julkistettu

Zhipu AI ei ainoastaan ​​tällä kertaa käyttänyt avoimen lähdekoodin videon sukupolven mallia, vaan myös julkaisi sen takana olevan teknisen raportin.

Raportissa on kolme suurta teknistä kohokohtaa, joista kannattaa puhua.

Ensinnäkin tiimi kehitti tehokkaanKolmiulotteinen variaatioautoenkooderin rakenne(3D VAE), pakkaa alkuperäisen videotilan 2 prosenttiin koosta, mikä vähentää huomattavasti videon diffuusion generointimallin koulutuskustannuksia ja koulutusvaikeutta.

Mallirakenne sisältää kooderin, dekooderin ja latentin tilanreguloijan, ja pakkaus saadaan aikaan neljällä ala- ja ylösnäytteistysvaiheella. Ajallinen kausaalikonvoluutio varmistaa tiedon kausaalisuuden ja vähentää viestintäkustannuksia. Tiimi käyttää kontekstuaalista rinnakkaisuutta sopeutuakseen laajamittaiseen videonkäsittelyyn.

Kokeissa tiimi havaitsi, että suuren resoluution koodaus on helppo yleistää, kun taas kehysten määrän lisääminen on haastavampaa.

Siksi tiimi koulutti mallia kahdessa vaiheessa: ensin pienemmillä kuvanopeuksilla ja pienillä erillä ja sitten hienosäädetty korkeammilla kuvanopeuksilla kontekstuaalisen rinnakkaisuuden avulla. Harjoitteluhäviötoiminto yhdistää L2-häviön, LPIPS-havaintohäviön ja 3D-diskriminaattorin GAN-häviön.

jonka jälkeenExpertTransformer

Tiimi käytti VAE:n kooderia pakatakseen videon piilevään tilaan, jakoi sitten piilevän tilan paloiksi ja laajensi sen pitkän sekvenssin upotuksiksi z_vision.

Samanaikaisesti he käyttävät T5:tä tekstinsyötön koodaamiseen tekstiin upottamalla z_text ja yhdistävät sitten z_text ja z_vision sekvenssiulottuvuutta pitkin. Jatkotut upotukset syötetään pinoon asiantuntevia muuntajalohkoja käsittelyä varten.

Lopuksi tiimi ompeloi upotukset takaisin alkuperäisen piilevän tilan muodon palauttamiseksi ja käytti VAE:tä dekoodaukseen rekonstruoidakseen videon.

Viimeinen kohokohta on setiedot.

Tiimi kehitti negatiivisia tunnisteita tunnistaakseen ja sulkeakseen pois huonolaatuiset videot, kuten ylimuokatut, katkonaiset, huonolaatuiset, luentotyyliset, tekstivaltaiset ja näytön kohinaa aiheuttavat videot.

Video-laamalle koulutettujen suodattimien avulla he huomauttivat ja suodattivat 20 000 videodatapistettä. Samalla lasketaan optinen virtaus ja esteettiset pisteet, ja kynnystä säädetään dynaamisesti luodun videon laadun varmistamiseksi.

Videotiedoissa ei yleensä ole tekstikuvauksia, ja ne on muutettava tekstikuvauksiksi tekstistä videoksi -mallin harjoittelua varten. Olemassa olevissa videotekstitystietosarjoissa on lyhyt tekstitys, eivätkä ne pysty kuvaamaan videon sisältöä täysin.

Tätä varten tiimi ehdotti myös putkistoa videotekstityksen luomiseksi kuvien tekstityksistä ja hienosääti päästä päähän -videotekstitysmallia tiheämpien tekstitysten saamiseksi.

Tämä menetelmä luo lyhyet tekstitykset Panda70M-mallin kautta, tiheät tekstitykset käyttämällä CogView3-mallia ja tekee sitten yhteenvedon GPT-4-mallin avulla lopullisen lyhyen videon luomiseksi.

He myös hienosäädivät CogVLM2-Caption-mallia, joka perustui CogVLM2-Videoon ja Llama 3:een, ja koulutettiin käyttämällä tiheää tekstitysdataa videon tekstitysprosessin nopeuttamiseksi.

Yllä oleva on CogVideoX:n tekninen vahvuus.

Yksi asia vielä

Videoiden luomisen alalla Runway'sGen-3On myös uusia toimia --

Gen-3 Alphan Vincent Video tukee nyt "syötekuvaa", jota voidaan käyttää paitsi videon ensimmäisenä, myös videon viimeisenä kehyksenä.

Tuntuu, että tekoäly kääntää aikaa taaksepäin.

Katsotaanpa vaikutusta:

Lopuksi, mitä tulee Zhipu AI:n suureen avoimen lähdekoodin videontuotantomalliin, asiaankuuluvat linkit on liitetty alla~

Koodivarasto:
https://github.com/THUDM/CogVideo

Mallin lataus:
https://huggingface.co/THUDM/CogVideoX-2b

Tekniset raportit:
https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

online-kokemus:
https://huggingface.co/spaces/THUDM/CogVideoX