2024-07-26
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Jin Lei tulee Aofein temppelistä
Qubits |. Julkinen tili QbitAI
Juuri nyt,Viisauden spektrin AISorasta syntyi versio, nimeltäänkirkas varjo。
Katsotaanpa ilman pitkiä puheita Qingyingin luomia kuvialyhytelokuva。
Videon osoite: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ
olla olemassaVincent videoJos esimerkiksi annat Qingyingille kehotteen, voitHaasta sen mielikuvitus:
Kyberpunk-tyylisessä kaupungin yökuvassa vilkkuvilla neonvaloilla kädessä pidettävä kamera zoomaa hitaasti sisään ja näyttää mekaanisen pikku apinan, joka käyttää korkean teknologian työkaluja korjauksiin, välkkyvien elektronisten laitteiden ja futurististen sisustusmateriaalien ympäröimänä. Cyberpunk-tyyli, salaperäinen tunnelma, 4K-teräväpiirto.
Videon osoite: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ
Se on täynnä kyberpunkia ja futuristista makua, ja se on lähempänä mielessämme kuvittelemaa kuvaa.
Ja paitsiVincent videoLisäksi Qingying tällä kertaatusheng videoMyös kyvyt vapautettiin yhdessä.
Verrataan nyt mielikuvitustasi ja Qingyingin luovuutta nähdäksemme kumpi on parempi.
Katsokaa ensimmäistä kuvaa ---luola sivilisaatio:
Sitten seuraava video on Qingyingin luoma ja pisteytetty versio AI Powerilla:
Videon osoite: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ
Videon lopussa Qingying itse asiassa oppi ravistelemaan kameraa keskeisissä kehyksissä, mikä teki videosta salaperäisemmän.
Siirrytään seuraavaksi kierrokseen 2 ja katsotaan silti ensin kuvia yhdessä...Fire Dragon Breath:
Qingyingin tämän kuvan perusteella luoma video avataan näin:
Videon osoite: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ
Voisin kuvitella, että lohikäärme valmistautui hengittämään tulta, mutta en odottanut, että se polttaisi kylän maahan, mutta se oli myös järkevää.
Mutta kun tarkastellaan koko Zhipu AI:n julkaisutapahtumaa, teräväpiirto- ja kuvan yhtenäisyystehosteet ovat vain osa kohokohdistahyvinvoinnin arvoSe on täynnä!
Ilmainen kaikille, ei tarvitse jonottaa, rajattomasti!
Lisäksi vaikutus on luoda suoraan suuri malli omista videoistasi.CogVideoKykyTäysi voima, älä harjoita nälkämarkkinointia.
Zhipu AI:n mukaan 6s 1440x960 -videon luominen kestää vain 30 sekuntia, mikä lisää mallipäätelmän nopeutta jopa 6-kertaiseksi.
Ei vain sitä, nyt Zhipu QingyanissaPC-versiojaSOVELLUSVerkkosivustolla on avattu Wensheng Video/Tusheng Video -toiminnot;SovelmatToisaalta se tukee tällä hetkellä vain Tusheng-videoita.
On myös hyviä uutisia kehittäjille Tällä kertaa video tuottaa suuria malleja.APISe on myös täysin avattu, kylläKotimainen ensinvai niin!
Minun on sanottava, että mukavuuden ja tehokkuuden suhteen Zhipu AI on myös tällä kertaa onnistunut.
Joten seuraavaksi on aika käyttää Zhipu AI:n videoiden luontitoimintoa tehdäksesi varsinaista testausta.
Tehdään ensin testiVincent videoVaikutus.
Avaa Zhipu Qingyan APP tai PC-versio, ja sisäänkäynti Vincent Videoon on päävuoropuhelussa.
Esimerkkinä APP:n käyttöliittymä on seuraava:
Sitten kaikki on valmis, syötä vain kehote.
Mutta on huomattava, että tämä on avain videoiden luomisen onnistumiseen tai epäonnistumiseen.
Yksi tärkeimmistä periaatteista on: Solmu! Rakenne! seksiä!Kaava on seuraava:
Kuinka paljon huonompi vaikutus sitten on?
Esimerkiksi jos kirjoitat vain:pieni poika juo kahvia, luotu tulos on tällainen:
Se on melko tyydyttävä, mutta se tuntuu yhdellä silmäyksellä tekoälyltä.
Mutta jos kehotussanat rikastetaan kaavan mukaan, avausmenetelmä on täysin erilainen:
Kamera panoroi ja paljastaa pienen pojan, joka istuu puiston penkillä, kädessään höyryävä kahvikuppi. Hän näytti iloiselta sinisessä paidassa, jonka taustalla oli puiden reunustama puisto ja auringonvalo suodattui lehtien läpi.
Videon osoite: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ
Ei, elokuvan tunne tuli yhtäkkiä.
Mutta juuri nyt esitetyn kaavan lisäksi on useita tärkeitä periaatteita, joihin voit myös viitata.
ensimmäinen,Toistaminen on voimaa。
Avainsanojen toistaminen tai vahvistaminen kehotteen eri osissa voi auttaa parantamaan tulosteen johdonmukaisuutta. Esimerkiksi kamera lentää kohtauksen läpi erittäin suurella nopeudella (sanat "super high speed" ja "fast" ovat toistuvia sanoja).
Toiseksi, yritä keskittää kehotteet siihen, mitä kohtauksessa pitäisi näkyä. Sinun tulisi esimerkiksi osoittaa selkeää taivasta pilvettömän taivaan sijaan.
Kun nämä kaavat ja periaatteet ovat käytössä, voimme kokeilla sitä.
Pikku prinssi ja kettu katsoivat tähtiä yhdessä kuussa. Kettu katseli pientä prinssiä silloin tällöin.
Videon osoite: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ
Realistinen kuvaus lähietäisyydeltä gepardista, joka nukkuu maassa, sen vartalo nousee ja laskee hieman.
Videon osoite: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ
Lisäksi Zhipu AI: n käyttöönoton mukaan, jos yrität sitä muutaman kerran, odottamattomia vaikutuksia voi esiintyä (se on joka tapauksessa ilmainen).
Vincentin videon jälkeen testaamme sitä uudelleentusheng video。
Tässä on myös kaksi keskeistä tekniikkaa.
Ensinnäkin ladattavien kuvien tulee olla mahdollisimman selkeitä, mieluiten kuvasuhteella 3:2 ja jpg- tai png-muodossa.
Toinen on edelleen nopea,Aihetta täytyy olla, ja sitten kehote voidaan kirjoittaa kaavan "[Subject]+[Subject Movement]+[Background]+[Background Movement] mukaan.
Tietysti se on mahdollista ilman kehotusta, mutta tekoäly luo videoita omien ideoidensa perusteella.
Esimerkiksi "syötämme" kuvan Tang Monkista:
Sitten juuri annetun kaavatekniikan mukaan kehote on seuraava:
Tang Seng ojensi kätensä ja laittoi aurinkolasinsa päähänsä.
Videon osoite: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ
Tästä on monia tapoja pelata (tehdä asioita).
Antaa esimerkiksi Zhen Huanin ja Shen Meizhuangin "murtaa muurin" ja syleillä toisiaan:
Zhen Huan Meizhuang halaa näytön poikki.
Videon osoite: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ
Vanhoja valokuvia on helppo herättää henkiin:
Hu Shi kääntyi ympäri ja lähti.
Videon osoite: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ
Eri tehosteista päätellen Zhipu AI:n Qingying on eräänlainen Sora, jota voidaan käyttää suoraan.
Joten seuraava kysymys on:
Videon tuottamisessa lähtösisällön yhtenäisyys ja koherenssi ovat avaintekijöitä, jotka määräävät lopullisen vaikutuksen.
Tätä varten Zhipu AI: n mukaan tiimi kehitti tehokkaanKolmiulotteinen variaatioautoenkooderin rakenne(3D VAE), pakkaa alkuperäisen videotilan 2 prosenttiin koosta, mikä vähentää huomattavasti videon diffuusion generointimallin koulutuskustannuksia ja koulutusvaikeutta.
Mallirakenteen suhteen Zhipu-tiimi ottaa käyttöönkausaalinen kolmiulotteinen konvoluutio(Cusal 3D Convolution) on mallin pääkomponentti, ja autoenkoodereissa yleisesti käytetty huomiomoduuli on poistettu, mikä antaa mallille mahdollisuuden siirtyä erilaisiin resoluutioihin.
Samanaikaisesti kausaalikonvoluution muoto aikaulottuvuu- dessa mahdollistaa myös sen, että mallilla on edestä taakse-sekvenssiriippumattomuus videon koodauksessa ja dekoodauksessa. Tämän tarkoituksena on helpottaa yleistämistä korkeampiin kehysnopeuksiin ja pitempiin aikoihin - viritys.
Suunnittelun käyttöönoton näkökulmasta Zhipu AI perustuu aikaulottuvuuteen.sekvenssin rinnakkaisuus(Temporal Sequential Parallel) hienosäätää ja ottaa käyttöön variaatioautomaattisen kooderin, jotta se voi tukea erittäin korkean kuvanopeuden videoiden koodausta ja dekoodausta pienemmällä grafiikkamuistitilalla.
Mutta sisällön johdonmukaisuuden ja johdonmukaisuuden lisäksi videoiden luomisessa on toinenkin ongelma - suurimmasta osasta nykyisestä videodatasta puuttuu vastaavaa kuvaavaa tekstiä tai kuvauksen laatu on heikko.
Tätä tarkoitusta varten Zhipu AI on kehittänyt päästä päähän videon ymmärtämismallin luodakseen yksityiskohtaisia ja sisältöystävällisiä kuvauksia massiiviselle videodatalle.
Tällä tavoin mallin tekstin ymmärtämistä ja ohjeiden seuraamisominaisuuksia voidaan parantaa, mikä tekee luodusta videosta johdonmukaisemman käyttäjän syötteen kanssa ja pystyy ymmärtämään erittäin pitkiä ja monimutkaisia ohjeita.
Lopuksi Zhipu AI kehitti myös Transformer-arkkitehtuurin, joka yhdistää tekstin, ajan ja tilan kolme ulottuvuutta.
Se hylkää perinteisen ristiin huomioivan moduulin, mutta yhdistää tekstin upotuksen ja videon upotuksen syöttövaiheeseen, jotta ne ovat täydellisemmin vuorovaikutuksessa näiden kahden modaliteetin kanssa.
Kahden modaliteetin ominaisuustilat ovat kuitenkin hyvin erilaisia. Tiimi käytti asiantuntijan mukautuvaa tasonormia tekstin ja videon modaliteettien kompensoimiseksi. tekeminen Malli voi tehokkaasti hyödyntää parametreja kohdistaakseen visuaalisen tiedon paremmin semanttiseen informaatioon.
Huomiomoduuli ottaa käyttöön 3D-täyden huomion. Aiemmat tutkimukset käyttävät yleensä erotettua spatiotemporaalista huomiota ei voi mukautua olemassa oleviin tehokkaisiin koulutuskehikkoihin.
Sijainnin koodausmoduuli suunnittelee 3D RoPE:n, joka on suotuisampi vangita kehysten välinen suhde aikaulottuvuudessa ja luoda pitkän kantaman riippuvuuksia videossa.
Yllä oleva on tärkein tekninen vahvuus, jonka takana Zhipusta tuli Qingying.
Tämän ilmaisen version lisäksi Zhipu AI on julkaissut myös maksullisen version, jonka hinta on seuraava:
Muunna vuosimaksu, eliVain 5 senttiä päivässä。
No, se itse asiassa tuoksuu vähän.
Kokemuslinkki on alla Kiinnostuneet ystävät voivat kokeilla sitä
https://chatglm.cn/video