minimax liittyy videosukupolven lähitaistoon, onko isoilla malleilla videoiden tekeminen maailmanloppu?

minimax liittyy videosukupolven lähitaisteluun, onko isoilla malleilla videoiden tekeminen maailmanloppu?

2024-09-01

toinen kotimainen yksisarvinen liittyy videosukupolven mallien lähitaistoon.

31. elokuuta minimax, yksi aina hillittyistä "six little dragons of ai", esiintyi virallisesti ensimmäisen kerran julkisesti ja piti "minimax link partner day" -tapahtuman shanghaissa. minimaxin perustaja yan junjie ilmoitti kokouksessa videosukupolven mallien ja musiikkimallien lanseerauksesta. lisäksi hän ennusti, että lähiviikkoina julkaistaan uusi versio suuresta mallista abab7, joka pystyy kilpailemaan gpt-4o:n kanssa nopeudeltaan ja vaikutukseltaan.

tämän videosukupolven mallin ulkoinen nimi on video-1, eikä minimax kerro paljoakaan erityisistä parametreista. yan junjie mainitsi, että verrattuna markkinoilla oleviin videomalleihin, video-1:llä on korkea pakkaussuhde, hyvä tekstivaste ja erilaiset tyylit, ja se voi tuottaa alkuperäisiä korkearesoluutioisia ja korkean kuvanopeuden videoita. tällä hetkellä video-1 tarjoaa vain wensheng-videoita. tulevaisuudessa tuote toistuu tusheng-videoilla, muokattavuudella, ohjattavilla ja muilla toiminnoilla.

tällä hetkellä kaikki käyttäjät voivat kirjautua sisään conch ai:n viralliselle verkkosivustolle nähdäkseen video-1:n videon luontitoiminnon. reportteri koki sen paikan päällä syötettyään yksinkertaisen kehotussanan ja odottanut noin 1-2 minuuttia. toinen video voidaan luoda. tulosteesta päätellen kuva kattaa periaatteessa kehotussanoissa mainitut kohdat. teräväpiirto ja värisävyt ovat esteettisesti hyväksyttäviä.

konferenssin keskustelutilaisuudessa yan junjie mainitsi, että suuren mittakaavan mallit ovat kenttä, joka näyttää olevan erittäin kuuma, mutta on myös monia ei-konsensusalueita ”haluammeko tehdä 2b:tä tai 2c:tä tee se kotimaassa tai ulkomailla, voiko skaalauslaki jatkaa..." ja niin edelleen.

huolimatta monista erimielisyyksistä, videoiden luominen saattaa olla suurimpien mallivalmistajien yksimielisyys tänä vuonna.

sen jälkeen, kun openai julkaisi suuren videomallin sora, alalla on julkaistu useita nimiä. huhtikuussa kuaishou julkaisi suuren ai-videomallin a viikkoa myöhemmin, vincent videomalli dream machine, runway ilmoitti heinäkuun alussa, että vincent-videomalli gen-3 alpha on avoinna kaikille käyttäjille maailman tekoälykonferenssin aikana heinäkuun lopussa aishi technology julkaisi pixverse v2:n ja myöhemmin zhipu julkaisi virallisesti qingying-videon, ja elokuun alussa bytedream ai julkaistiin sovelluskaupassa...

vuosi sitten markkinoilla oli hyvin vähän julkisia vincent-videomalleja. vain muutamassa kuukaudessa olemme nähneet kymmenien videosukupolvien mallien ilmestymisen. alan sisäpiiriläinen valitti, että kulunut vuosi on ollut ennennäkemätöntä aikaa ai-videoiden luominen historiallinen hetki.

haastattelussa china business newsin toimittaja kysyi minimax layout -videoiden luomisen välttämättömyydestä, että olennainen syy on se, että ihmisyhteiskunnan informaatio heijastuu enemmän monimuotoiseen sisältöön jokainen päivä on se, että se ei ole tekstiä, vaan dynaamista sisältöä, kun avaat xiaohongshun, kun avaat douyinin, se on kaikki videot, ja jopa kun avaat pinduoduon, se on suurimman osan ajasta. tekstin vuorovaikutus on vain hyvin yleistä. pienempi osa on enemmän puhe- ja videovuorovaikutusta.

siksi suurena mallivalmistajana erittäin korkean kattavuuden ja korkeamman käyttösyvyyden saavuttamiseksi ainoa tapa on pystyä tulostamaan multimodaalista sisältöä pelkän tekstipohjaisen sisällön tulostamisen sijaan, yan junjie selitti. ydintuomio.

"teimme vain ensin tekstiä, sitten ääntä ja kuvia. nyt kun tekniikka on vahvistunut, voimme myös tehdä videoita. tämä reitti on johdonmukainen, ja meidän on kyettävä tekemään yanin monitila." junjie sanoi.

videoiden sukupolven raita on kuitenkin vaikea. pelkästään openai:n soran julkaisua vuoden alussa ei ole julkaistu virallisesti ulkomaailmalle, ja voimme myös saada vilauksen alan haasteisiin.

toisaalta nykyiset videon sukupolven tulokset ovat kaukana käyttäjien odotuksista. malli ei ymmärrä fyysisiä sääntöjä ja tuotantoprosessia on vaikea hallita. video-, kuva- ja kolmiulotteiset generointialgoritmit kohtaavat monia rakenteellisia ja yksityiskohtaisia ongelmia. esimerkiksi yksi asia kasvaa enemmän tai yksi asia puuttuu, tai käsi tunkeutuu muottiin jalostettuihin videoihin kanssa fyysisten sääntöjen videoita on tällä hetkellä vaikea luoda.

haastattelussa yan junjie sanoi myös, että "tämä asia on melko vaikea", muuten niin monet yritykset, jotka väittävät tekevänsä tämän, olisivat jo tehneet sen. videon työn monimutkaisuus on vaikeampaa kuin tekstin, koska videon kontekstuaalinen teksti on luonnollisesti hyvin pitkä. esimerkiksi videossa on kymmeniä miljoonia tuloja ja lähtöjä, mikä on luonnollisesti vaikea prosessi. toiseksi, videon määrä on erittäin suuri. viiden sekunnin video voi olla useita megatavuja, mutta noin 100 sanan video ei välttämättä ole edes 1 kt:n tallennustila.

"haasteena tässä on se, miten taustalla olevaa infrastruktuuria käytetään tietojen käsittelyyn, kuinka tiedot puhdistetaan ja miten ne merkitään, ei sovellu videoille." toinen asia on kärsivällisyyttä. jos teet sen avoimen lähdekoodin pohjalta, niin videoita ei ole niin paljon sisältö on tehty, huomaat, että se on tehtävä uudelleen, mikä vaatii enemmän kärsivällisyyttä.

alan ammattilaiset kertoivat aiemmin toimittajille, että nykyinen videosukupolvi on vähän kuin kuvan luominen vuoden 2022 aattona, kun stable diffusionista tuli avoimen lähdekoodin elokuussa 2022, aigc-kuvan sukupolvi alkoi kasvaa räjähdysmäisesti, mutta tällä hetkellä ei ole olemassa erityisen tehokasta "avoin lähdekoodia". "videon sukupolven alalla. sora" julkaistaan, jokaisen on vielä tutkittava tietä.

qiming venture partners julkaisi "ten prospects for generative ai in 2024" heinäkuussa. yksi niistä on se, että videoiden tuotanto kasvaa räjähdysmäisesti kolmen vuoden kuluttua. animaatiot ja lyhytelokuvat tuotantomalli tuo muutoksia. tulevien kuvien ja videoiden piilevän avaruuden esitysten pakkaussuhde kasvaa yli viisinkertaiseksi, mikä johtaa yli viisi kertaa nopeampaan tuotantoon.

(tämä artikkeli on peräisin china business newsista)

raportti/palaute

uutiset

minimax liittyy videosukupolven lähitaisteluun, onko isoilla malleilla videoiden tekeminen maailmanloppu?

johdanto

yhteystietoni