sora katkeaa räjähdyksen jälkeen, kotimainen videomalli ottaa vallan ja laskee threshold

sora epäonnistui räjähdyksen jälkeen, ja kotimainen videomalli otti vallan ja alensi kynnystä

2024-09-11

eilen näyttää siltä, että openai:n vincent-videomallin soran lanseerauksen aiheuttama teollisuuden räjähdys ei ole vielä ollut virallisesti avoinna yleisölle. sen sijaan suuria kotimaisia videomalleja julkaistaan intensiivisesti vuonna 2024. vaikka tekniikkaa päivitetään jatkuvasti, suurin osa valmiista tuotteista vaatii vielä myöhemmässä vaiheessa manuaalista editointia ja synteesiä, mikä vaikuttaa teknologian käyttöönoton nopeuteen sovelluspuolella. .

tämän perusteella shengshu technology julkisti 11. syyskuuta toiminnallisen päivityksen, maailman ensimmäisen "subject consistency" -toiminnon, joka mahdollistaa minkä tahansa aiheen johdonmukaisen luomisen, mikä tekee videoiden luonnista vakaampaa ja hallittavampaa. niin sanotun "aiheviittauksen" avulla käyttäjät voivat ladata kuvan mistä tahansa aiheesta. tekoäly voi lukita kohteen kuvan, vaihtaa kohtauksia kuvaajien kautta ja lähettää videon samasta aiheesta.

shengshu technologyn toimitusjohtajan tang jiayun mukaan lyhyet videot, animaatiot, mainokset ja muut elokuva- ja televisioteokset edellyttävät, että kerrontajärjestelmässä on "johdonmukaiset aiheet, johdonmukaiset kohtaukset ja johdonmukaiset tyylit". videomallin täytyy olla narratiivin eheys on välttämätöntä saavuttaa kattava valvonta näiden ydinelementtien suhteen.

luo 32 sekunnin video yhdellä napsautuksella

edellisen kerran shengshu technology antoi julkisen lausunnon tämän vuoden huhtikuussa, tsinghuan yliopiston tekoälyn instituutin apulaisdekaani, yksi shengshu technologyn perustajista ja päätutkija, julkaisi pitkäaikaisen, erittäin johdonmukaisen ja erittäin dynaaminen videomalli nimeltä vidu, voit luoda jopa 16 sekunnin pituisia videoita yhdellä napsautuksella. tämän teknisen päivityksen avulla vidu-videoita voidaan luoda jopa 32 sekuntia pitkiä.

vuonna 2024 koko isomallirata rauhoittuu pikkuhiljaa edellisen vuoden hulluuden jälkeen ja videosuuria malleja pidetään ainoana tapana siirtyä kohti multimodaalisia suurmalleja eli agi:ta. lyhytvideoyritykset, joita edustavat kuaishou ja byte's douyin, suuret internet-yritykset, joita edustavat alibaba ja tencent, sekä startupit, joita edustavat shengshu technology, zhipu ai, aishi technology jne., ovat kaikki julkaisseet peräkkäin suuria videomalleja.

debon securitiesin tilastojen mukaan soran julkaisun jälkeen yli tusina yritystä kotimaassa ja ulkomailla on julkaissut tai päivittäneet videoiden sukupolven malleja. objektiivisesti katsottuna kuilu kotimaisten ja ulkomaisten maiden välillä kavenee. perustoiminnot, kuten videon kesto ja resoluutio, ovat jatkossa toistettavissa. subjektiivisesta näkökulmasta debon securities uskoo, että suurten mallien tuottamien videoiden laatu on parantunut merkittävästi, mutta se on edelleen kaukana fyysisen maailman simulaattorista. vincent-videokentän videokuvat ovat yleensä selkeitä, mutta liikealueella ja fyysisessä restauroinnissa on suuria eroja. tämä on myös yksi tämän toimintopäivityksen näkökohdista.

tang jiayu sanoi, että nykyinen 32 sekunnin vidu-sukupolviaika luodaan päästä päähän yhdellä napsautuksella, eikä sitä synny liittämällä ja lisäämällä kehyksiä. erona on, että mallilla on vahvempi kyky pakata pidemmän aikavälin tietoa, mukaan lukien tiedon esitys, joka itse asiassa liittyy läheisemmin fyysisen maailman ymmärtämiseen ja semanttisen syötteen väliseen suhteeseen. siksi keston parantaminen edellyttää mallin abstraktin ymmärryksen, pakkaamisen ja maailman ymmärtämisen parantamista, mukaan lukien sen generointiominaisuudet.

aigc-taiteilija shi yuxiang, joka loi animoidun lyhytelokuvan "summer gift", uskoo, että teollisuus on tällä hetkellä suhteellisen suvaitsevainen tekoälyvideoiden suhteen, ja yksityiskohtia, joita voidaan parantaa, ovat monimutkaisten linssien käsittely, monihahmoisten linssien käsittely ja jotkut kohtauksia, joissa käsitellään kohtauksen mis-en-scène jne. peruskuvaa tuottavaan videotoimintoon verrattuna "aiheviittaus"-toiminto päästää eroon staattisten kuvien rajoituksista, parantaa luomisen koherenssia ja säästää lähes 70 % kuvan tuottamisesta.

li ning, light chi matrixin perustaja ja nuori ohjaaja, loi vidun avulla valmiiksi videoleikkeen elokuvan miespäähenkilöstä, jossa kaikki hahmokohtaukset luotiin vain kolmesta viimeisestä meikkikuvasta miespäähenkilöstä. -ylös, keskipitkä ja kaukolaukaus. li ning sanoi, että edellinen ai-elokuvan luontiprosessi käytti enimmäkseen perinteistä tekstipohjaista piirtämistä ja piirustuspohjaista videoprosessia. oli vaikeaa hallita hahmojen yleistä muotoa vaati paljon energiaa kuvien virheenkorjaus alkuvaiheessa. samaan aikaan kuva on myös altis monille ongelmille, kuten hallinnan ulkopuolella olevalle objektiiville, kuvan epätarkkuudelle ja jopa muodonmuutokselle jos videon määrä kasvaa, nämä ongelmat korostuvat entisestään. vidun "subject reference" -toiminto parantaa merkittävästi hahmojen yleistä johdonmukaisuutta. se ei enää edellytä suuren määrän kuvien luomista varhaisessa vaiheessa.

pohjimmiltaan "subject reference" -toiminnon päivityksen tarkoituksena on parantaa suurten videomallien sukupolven laatua, tehostaa teknologian yhdistämistä tiettyjen toimialojen kanssa ja nopeuttaa tekoälyn käyttöönottoa tietyissä sovelluksissa. tällä hetkellä shengshu technology on käynnistänyt kumppaniohjelman ja kutsuu mukaan mainontaa, elokuvia ja televisiota, animaatiota, pelejä ja muita alan organisaatioita.

shengshu technologyn videomallin nykyinen liiketoimintamalli on jaettu saas-tilausmalliin ja api-rajapintaan. tämä on myös kaupallinen testausmenetelmä, jota käytetään yleisesti suurten mallien alalla. mitä tulee b-pään ja c-pään väliseen jakautumissuhteeseen, tang jiayu sanoi, että tulon näkökulmasta b-pään markkinoilta saadut tulot ovat suuremmat. kuukausi c-pään tuotteiden lanseerauksen jälkeen kasvukäyrä on ollut erittäin korkea. kattavan harkinnan jälkeen b-puoli on suhteellisen selkeä ja suora ja sisältää suhteellisen vakaata kysyntää, joten b-puoli tulee olemaan yhtiön pitkän aikavälin painopiste. c-pään tuotteet ovat kuitenkin edelleen jatkuvassa etsinnässä.

kun zhipu toimitusjohtaja zhang peng julkaisi aiemmin zhipu qingyingin (ying), hän puhui alan kaupallistamisen kartoittamisesta, hän sanoi, että tässä vaiheessa, olipa kyseessä toc tai tob, on vielä suhteellisen aikaista siirtyä puhtaasti kohti laajamittaista. kaupallistaminen. ns. latausstrategia on enemmänkin varhainen yritys. tarkkailemme myös markkinoilta ja käyttäjiltä tulevaa palautetta ja teemme oikea-aikaisia muutoksia.

mitä seuraavaksi videomalleille?

tietyn toiminnallisen tason päivitysten ja päivitysten lisäksi alalla vallitsee tällä hetkellä yleinen yksimielisyys siitä, että multimodaalisuus on yleinen trendi, kun taas suuret videomallit ovat vaiheittaista tilaa.

tältä osin zhang peng sanoi, että videon sukupolvi ei ole olemassa erikseen, vaan se on sijoitettu koko teknologian ja tuotekehityksen reittiin zhipu uskoo, että se on linkki multimodaaliseen tai agi-multimodaaliseen polkuun. tuotteen näkökulmasta videoiden generoinnista tulee myös itsenäinen tuote kaupallistamisen ja arvon tuottamiseksi. tang jiayu kertoi myös, että shengshun pohjakerros on yleinen suuri malli, ja videon sukupolvi on vain välivaihe.

aiheuttaako useiden videomallien intensiivinen julkaisu multimodaalisuuteen siirtyessä homogeenisuusongelmia? tässä suhteessa tang jiayu kertoi, että teknisellä tiellä opiskelijoiden määrä on nyt lähentymistilassa, mutta homogeenisuus ei tarkoita, että kaikki edistys ja kyvyt ovat samat. esimerkiksi kaikki nykyiset kielimallit sisältävät transformer-arkkitehtuuria, mutta todellisuudessa openai on edelleen selvästi edellä. koska arkkitehtuuriin perustuen, välissä on edelleen monia linkkejä, kuten kuinka tehokkaasti skaalata, kuinka tehokkaasti pakata videoita jne., ja siellä on monia taitoja ja käytännön kokemuksia. algoritmitaidot ja algoritmien vaikeudet, mukaan lukien algoritmien suunnitteluvaikeudet, ovat kaikki tekijöitä, jotka johtavat eroihin nykyisissä suurissa videomalleissa.

kaupallistamisen osalta tang jiayu uskoo, että toimiala on suhteellisen samankaltainen liiketoiminnallisissa valinnoissaan jopa soran ja runwayn kaltaiset yritykset omaksuvat aktiivisesti hollywoodia tai tekevät mainosyhteistyötä, koska näillä aloilla teknologia on luonnollisesti helppo toteuttaa. koko teollisuus hyödyntää omia ominaisuuksiaan eteenpäin. tekoälyn tuottama videokenttä on vielä alkuvaiheessa, ja johtavat kansainväliset toimijat etenevät yhdessä laajentaakseen markkinoita.

mitä tulee videomallien intensiiviseen julkaisutilanteeseen, zhang peng uskoo, että ohjattavuus on asia, jonka saavuttamiseksi alan on ponnisteltava paljon. toisaalta teknisellä tasolla itse videon ohjattavuus on erittäin suuri vaatimus. toiseksi turvallisuusnäkökulmasta katsottuna, koska videosignaali sisältää enemmän sisältöä ja yksityiskohtia, on lopuksi varmistettava, että luotu sisältö täyttää vaatimukset, jotta luotu sisältö olisi kaupallisesti sovellettavissa, myös ohjattavuus on välttämätön ehto - sekä it on välttämätöntä ilmaista tarkasti luojan tarkoitus ja antaa kaikkien maksaa siitä.

perusehtojen täyttymisen jälkeen alan tämänhetkiset odotukset suurille videomalleille ovat keskittyneet enemmän tekoälyn korvaamiseen pitkiä videokuvausmenetelmiä soran julkaisusta lähtien. zhang peng uskoo, että teknologisen kehityksen näkökulmasta tämä on tärkeä suunta ja sillä on myönteinen merkitys elokuva- ja televisioteollisuuden muutoksille. mutta tällä hetkellä suuret videomallit eivät riitä suoraan käytettäviksi yleisön tuotantoprosessissa, vaan niitä voidaan käyttää aputöihin, jopa pienimuotoiseen luomukseen, ja vielä on matkaa ennen todella muuttuvia korkeita vaatimuksia. kuten elokuvatuotanto.

mitä tulee soraan, joka huipentui debytoiessaan ja jota ei ole vielä avattu yleisölle, ala pitää sitä edelleen kuromiskohteena. teknisten yksityiskohtien läpinäkymättömyyden vuoksi yritysten on kuitenkin tutkittava monia näkökohtia itse . mitä tulee soran "katoamiseen", tang jiayu kertoi, että syyt voivat olla useista näkökohdista: video ei ole openai:n nykyinen päälinja, joitain tietojen tekijänoikeusongelmia ei ole ratkaistu, jotka vaativat tietyn määrän aikaa ja kustannuksia ei ole johdonmukaista yrityksen prioriteettien kanssa.

zhang peng ja zhipu ovat aina objektiivisesti kohdanneet eron maailman huipputasoon. samalla hän uskoo, että tämä tie on kuljettava itse. monissa tapauksissa myös kiinalaiset yritykset ovat kuromassa kiinni omalla tavallaan laskea videon laskentatehoa ja lisätä vastenopeutta, jotta kaikki voivat käyttää sitä. "samalla kun tavoittelemme teknologisia korkeuksia, pyrimme samalla myös teknologian popularisoimiseen", zhang peng sanoi.

(tämä artikkeli on peräisin china business newsista)

raportti/palaute

uutiset

sora epäonnistui räjähdyksen jälkeen, ja kotimainen videomalli otti vallan ja alensi kynnystä

johdanto

yhteystietoni