Video Generation War 2.0! Dachang hulluna taustalla olevaan model

Video Generation War 2.0!Dachang rullaa hullusti pohjamallia

2024-07-24

Älykkäät asiat (julkinen tili:zhidxcom）
kirjoittajavanilja
muokataLi Shuiqing

Jotta voit puhua suurten mallien suosituimmista kappaleista vuonna 2024, videoiden sukupolven on oltava luettelossa.

Sen jälkeen kun Sora avasi uuden aikakauden tekoälyvideoiden sukupolvelle helmikuussa, tämän vuoden kesäkuussa julkaistu intensiivinen mallin julkaisu nosti videoiden sukupolven sodan uuteen huipentumaan.

"Seuraava sukupolvi tekoälyelokuvia ja televisiota on täällä", "Se on niin voimakas, on kuin laulaisit ja sitten me ilmestymme", "On vihdoin toivoa päästä eroon PPT-aikakaudesta", "Näyttää siltä, että tekoälyä tullaan käyttämään tuottaa pian MV:tä.

Soran julkaisun jälkeen, super8KotiKotimaiset ja ulkomaiset tekoälyyritykset tuovat markkinoille uusia tuotteita tai malleja peräkkäin ja tuottavat uusia tuotteita joka käänteessä.yli 10 sekuntiaVideot ovat julkisesti saatavilla, ja joidenkin sanotaan olleen toteutettu yhtä kauan2 minuuttiaErittäin pitkä videosukupolvi, tekoälyvideon sukupolviraita on käynnistänyt kuuman 2.0-sodan.

Tällä tavalla,tavuJulkaise ensimmäisenä AI-videosukupolven tuote Jimeng, joka pidentää videon luomisaikaa tavallisesta 3-4 sekunnista 12 sekuntiin;nopea työntekijäKe Lingin iso malli julkaistiin yllättäen, ja hämmästyttävä vaikutus herätti kiivasta keskustelua Internetissä. Jonossa oli lähes miljoona.

▲Kuaishou Kelingin jonossa odottavien hakijoiden määrä

Siellä startupitLuma AI"Hylkää 3D-videoprojektio" ja vapauta Dream Machine päästäksesi peliin korkean profiilin kanssaKiitotieSe lanseerasi uuden sukupolven Gen-3-malleja, mikä nosti sen fyysiset simulointiominaisuudet uusiin korkeuksiin.

▲Gen-3 videon luontitehoste

Rahoituksen taistelukentällä sota on yhtä kovaa. kotimainen,Aishi Technology, Shengshu TechnologyMaaliskuusta lähtien se on saanut miljarditason rahoitusta ulkomailta.PikaKesäkuussa se sai 80 miljoonaa dollaria rahoitusta, mikä kaksinkertaisti arvonsa 500 miljoonaan dollariin.KiitotiePaljastui, että se valmistelee jopa 450 miljoonan Yhdysvaltain dollarin rahoitusta.

Sora on kuin menestys, joka järkytti AI-videoiden sukupolven maailmaa. Nyt, viiden kuukauden intensiivisen etsinnän jälkeen, mikä on AI-videoiden sukupolven tuotteiden edistyminen kotimaassa ja ulkomailla? Voivatko he kilpailla Soran kanssa? Mitä haasteita se kohtaa? Horisontaalisen kokemuksen kautta saatavilla olevista tuotteista ja keskusteluista toimijoiden ja tekijöiden kanssa Zhidongxi tarjoaa syvällisen analyysin näistä ongelmista.

Varsinaisessa mittauksessa voin selvästi tuntea, että videon luomisen nopeus on nopeutunut, "kierrätys"-ilmiö on vähentynyt huomattavasti ja yksinkertainen "PPT-tyylinen" panorointi on kehittynyt kulmaliikkeiksi ja liikkeiden vaihteluiksi. Kokonaiskokemuksen perusteella ilmaisista tuotteista parhaat tulokset ovat Jimeng ja Keling, jotka ovat johtavia keston, vakauden ja fyysisen simulaation suhteen.

Rahoituksen osalta, verrattuna ennen Soran julkaisua, tekoälyvideon tuotantoon liittyvän rahoituksen tiheys ja määrä ovat kasvaneet merkittävästi, ja se on houkutellut yli 4,4 miljardia viidessä kuukaudessa. Pääoma suosii videon tuotantoprosessia, kuten tekoälyeditointia, AI Lightingia jne. Lisäksi peliin on tulossa monia uusia pelaajia, ja jotkut ovat keränneet satoja miljoonia varoja ennen tuotteiden tai teknologioiden julkaisua.

1. Tekninen taistelu: rullan kesto, rullan teräväpiirto, rullan fysiikan simulaatio

Helmikuun 16. päivänä OpenAI julkaisi Soran, joka kumosi AI-videon sukupolven kappaleen yhdessä yössä. Viisi kuukautta myöhemmin Sora on kuitenkin edelleen futuurituote, ja näyttää olevan kaukana, milloin se tulee suuren yleisön saataville.

Tänä aikana suuret kotimaiset ja ulkomaiset valmistajat ja start-upit ovat ryntäneet julkaisemaan uusia tuotteita tai mallipäivityksiä, ja useimmat niistä ovat olleet avoimia kaikille käyttäjille sukupolvi uudelleen. Loppujen lopuksi, riippumatta siitä, kuinka hyvä Sora on, mitä arvoa on, jos et voi käyttää sitä?

Zhidongxin epätäydellisten tilastojen mukaan Soran julkaisun jälkeen niitä on ollut ainakin8 kotiaYhtiö julkaisi uusia tuotteita tai malleja, joista kaikki paitsi Shengshu Technologyn ViduJulkisesti saatavilla。

▲AI-videon sukupolven tuotejulkaisu/mallipäivitys (älykäs itä-länsi-taulukko)

21. helmikuutaVakaus AI Tekoälyvideon sukupolven Stable Video -tuotteen verkkoversio on julkaistu virallisesti ja on avoin kaikille käyttäjille. Vaikka sen taustalla oleva malli, Stable Video Diffusion, julkaistiin avoimena lähdekoodina viime vuoden marraskuussa, sillä on edelleen tietyt käyttöönotto- ja käyttökynnykset mallina, kun se on pakattu ja julkaistu verkkoversiona.

27. huhtikuutaShengshun tekniikkaYhdessä Tsinghuan yliopiston kanssa Vidu julkaisi suuren pitkäkestoisen, erittäin johdonmukaisen ja erittäin dynaamisen videomallin, jonka sanotaan pystyvän luomaan jopa 16 sekuntia pitkiä videoita, joiden resoluutio on 1080P ja joka voi jäljitellä todellista fyysistä maailmaa. .

Julkaistusta demosta päätellen Vidu on todellakin saavuttanut hyviä tuloksia selkeyden, liikealueen, fyysisen simulaation jne. suhteen. Valitettavasti Vidua, kuten Soraa, ei ole kuitenkaan vielä avattu. Zhidongxi kysyi Shengshu Technologylta ja sai tietää, että tuotteen sisäinen testaus alkaa lähitulevaisuudessa.

▲Shengshu Technology Vidu Video Demo

9. toukokuutatavuDreamina, Jiuyingin omistama tekoälyn luomisalusta, on nimetty uudelleen "Jimengiksi", ja se lanseerasi tekoälyn piirustus- ja tekoälyvideon luontitoiminnot, jotka tukevat jopa 12 sekunnin pituisten videoiden luomista.

6. kesäkuutanopea työntekijä Tekoälyvideon suuri malli Keling julkaistaan ja lanseerataan Kuaiying-sovelluksessa. Käyttäjien tarvitsee vain täyttää kyselylomake. Keling Large Model keskittyy korkean intensiteetin simulointiin fyysisen maailman ominaisuuksista, kuten "nuudelien syöminen" -ongelmasta, joka häiritsee monia tekoälyjä, mikä näkyy sen tarjoamissa videokoteloissa.

Tällä hetkellä Keling tukee kiinteän 5 sekunnin ja 10 sekunnin pituisten videoiden luomista. Virallisen verkkosivustonsa mukaan malli voi tuottaa jopa 2 minuuttia videota 30 fps:n kuvanopeudella ja 1080P:n resoluutiolla. Toiminnot, kuten videon jatko, julkaistaan tulevaisuudessa.

13. kesäkuuta startup, joka aiemmin keskittyi pääasiassa tekoälyn luomaan 3D:henLuma AIIlmoitti videoiden luontityökalun julkaisemisesta Dream Machine, joka tukee 5 sekunnin videoiden luomista tekstistä ja kuvista. Se tarjoaa myös videolaajennustoiminnon, joka voi pidentää luotua videota 5 sekunnilla kerrallaan.

17. kesäkuutaKiitotie Uuden sukupolven mallin Gen-3 Alpha -versio julkaistaan ja on kaikkien maksullisten käyttäjien saatavilla 2. heinäkuuta, ja sen vähimmäistilausmaksu on 15 dollaria kuukaudessa. Gen-3 tukee tällä hetkellä 5 sekunnin ja 10 sekunnin videoiden luomista tekstiin perustuen. Video ja muut ohjattavat työkalut eivät ole vielä saatavilla.

▲Gen-3 Alpha luo videotehosteita

6. heinäkuutaÄlykäs tulevaisuus(HiDream) julkaisi Intelligent Image Model 2.0:n WAIC:lle, joka tarjoaa kolme videon luomisen kestoa 5, 10 ja 15 sekuntia ja lisäsi ominaisuuksia, kuten tekstin upotuksen luomisen, skriptin moniotoksen videon luomisen ja IP-yhteensopivuuden.

17. heinäkuuta brittiläinen tekoälystartup, joka keskittyi aiemmin tekoälyn 3D-rekonstruointiinHaiper AI, ilmoitti, että sen tekoälyvideon sukupolven tuote Haiper on päivitetty versioon 1.5, jonka kesto on pidennetty 8 sekuntiin ja joka tarjoaa toimintoja, kuten videolaajennuksen ja kuvanlaadun parantamisen.

Seuraavassa taulukossa on esitetty näiden mallien sukupolviaika, resoluutio, kuvanopeus ja muut parametrit sekä lisäominaisuudet perussukupolven lisäksi.

▲ Päivitetyt tekoälyvideon sukupolven tuoteparametrit (älykäs itä-länsi-taulukko)

Parametrien näkökulmasta nämä AI-videon sukupolven tuotteet ovat ensin saavuttaneet merkittävää kehitystä generointiajassa. Perussukupolven aika on pidennetty aiemmasta 2-4 sekunnista 5 sekuntiin, ja yli puolet niistä tukee yli 10:n kestoa. sekuntia ja joitakin Tuote tarjoaa laajennustoiminnon. Tällä hetkellä ilmaiseksi saatavilla olevista tuotteista pisin Jimengin luoma video on 12 sekuntia.

Visuaalisten tehosteiden suhteen resoluutio ja kuvanopeus ovat parantuneet huomattavasti. On olemassa enemmän tuotteita, jotka tukevat 720P:tä ja sitä suurempia, ja myös kuvataajuus lähestyy 24/30 fps:n luokkaa *576, ja kuvanopeus oli noin 1024*576. Nopeus on enimmäkseen 8-12 fps.

2. Tuotesota:Käytännön testi6 ilmaista "spottia", "Dikkuai" johtaa tietä

Kun Sora julkaistiin ensimmäisen kerran, Zhixixillä oli syvällinen kokemus Kiinassa saatavilla olevista kahdeksasta AI-videon luontityökalusta. Tuolloin ero oli vielä suhteellisen ilmeinen, ja siellä oli monia "kiertymiä". (Ensimmäinen "Soran kiinalainen versio" koko verkossa tarkistettiin! Kilpaili 15 yritystä, Byte johtaa tietä)

Kuinka nämä pelaajat, jotka ovat lähettäneet uusia vastauksia, menestyvät useiden kuukausien iteratiivisten päivitysten jälkeen? Zhidongxi on kokenut äskettäin julkaistut tai päivitetyt tekoälyvideon sukupolven tuotteet. Oikeudenmukaisuuden vuoksi kokeilimme vain ilmaisia ominaisuuksia ja valitsimme luodut videot ensimmäistä kertaa.

On huomattava, että videon luomisessa itsessään on "korttien piirtämiseen" liittyvä onnenelementti, ja se liittyy myös läheisesti sanojen kirjoittamiseen. Siksi pieni määrä tapauksia ei edusta täysin mallin kykyä.

Valitsin ensimmäisen tasonasetelmakohtaus, kehotussana on:Lähikuva tulppaaneista, jotka kylpevät auringonlaskun lämpimässä valossa。

Stable Video näyttää korkean vakauden tässä kehotteessa, ja samalla kuvan selkeys ja värien rikkaus ovat liikkeen kannalta pääpainossa.

▲Stable Video luo videoita

Dream Machinen kuvan selkeys on selvästi alaspäin, mutta pikasanojen suorituskyky on edelleen suhteellisen tarkka, ja liike perustuu myös pääosin linssin käännökseen.

▲Dream Machine luo videoita

Haiperin luomassa videossa on hyvät visuaaliset tehosteet, mutta liikealue on hieman pienempi.

▲ Haiper luo videoita

Zhixiangin suuren mallin suorituskyky on myös hyvä, ja kuvassa on voimakas syväterävyysvaikutus. Jos kuitenkin katsot terälehtiä tarkasti, huomaat, että niissä on puutteita ja epävakautta.

▲Zhixiangin suuren mallin sukupolven video

Ji Meng loi kiinteän linssin kuvan, jossa liikettä hallitsi pääasiassa tulppaanien tärinä, ja kokonaisvaikutus oli suhteellisen vakaa.

Kelingin luomassa videossa näkyy sana "lähikuva" äärimmäisyyksiin. Samalla kuva on teräväpiirtoinen ja kuvaa terälehtien tekstuuria. Mutta sen sanottuaan "tulppaanien lähikuvan" ymmärtäminen ei ole kysymys, johon on kiinteä vastaus, joten on mahdotonta sanoa, kuka on oikeassa ja kuka väärässä.

//oss.zhidx.com/uploads/2024/07/6696499b734af_6696499b690e6_6696499b690bc_Tulip-Keling.mp4

▲Keling luo videoita

Kaiken kaikkiaan eri soittimien suorituskyky asetelmakohtauksissa on erittäin vakaa, ja luotujen videoiden käytettävyys on erittäin korkea.

Valitsin toisen tasoneläinkohtaus, ja lisätyt elementit tyylityksestä ja dynaamisesta toiminnasta.Sarjakuva kengurutanssia disco . Tämä on itse asiassa yksi Soran tarjoamista tapauksista. Katsotaanpa ensin Soran tarkistusta.

//oss.zhidx.com/uploads/2024/07/6696464125de3_6696464116ab1_6696464116a7c_Dancing-kengaroo.mp4

▲Sora luo videotapauksen

Vakaa video "tuli kadulle" tällä tasolla. Kuvan ensimmäinen kehys on täydellinen - tämä voi liittyä Stable Videon videon luomisen yhteydessä valitsemaan polkuun. Luontiprosessin aikana se luo ensin 4 kuvaa, jotka käyttäjä voi valita, ja luo sitten videon sen perusteella käyttäjän valitsema kuva - ja sitten kenguru Hänen koko kehonsa alkoi vääntyä ja muotoutua.

Mielenkiintoisempaa on se, että kuvan taustalla olevilla hahmoilla ja antropomorfisilla eläimillä ei ole suuria ongelmia, ihmettelen, onko se "diskotanssi" -toiminto, joka järkytti Stable Videon.

▲Stable Video luo videotehosteita

Dream Machinen tuottaman videon yleinen vakaus on hyvä, mutta yksityiskohdista, kuten kengurun jaloista ja käsistä, puuttuu vakaus. Liikealueen osalta kengurun itsensä liikkeen lisäksi se käy läpi myös linssin siirtymisen lähikuvasta panoraamakuvaan.

Kokeilin Dream Machinen videolaajennustoimintoa uudelleen, ja videon jälkeiset 5 sekuntia ovat laajennuksen luomaa sisältöä. Voidaan nähdä, että se ei rajoitu yhteen kuvaan, vaan vaihtuu kokovartalosta lähikuvaan ylävartalosta. Jatketussa videossa, vaikka taustalla olevat hahmot ovat vakaampia, kenguru on vielä epävakaampi.

//oss.zhidx.com/uploads/2024/07/6695ec3b230c2_6695ec3b1f3da_6695ec3b1f39d_A-cartoon-kengaroo-disco-dances.-a318b1.mp4

▲Dream Machine luo videotehosteita

Haiperin luoma kenguru on jossain määrin vääristynyt eikä kuvasta avainsanaa "disko".

▲ Haiper luo videoita

Zhixiangin iso malli kaatui vakavasti tällä tasolla, kuten Stable Video, kuvan pääosa oli vääristynyt suuresti, eikä se heijastanut "disko"-efektiä.

▲ Älykäs norsumalli luo videotehosteita

Jimengin tuottaman videon visuaalinen kokonaisvaikutelma on suhteellisen hyvä, erittäin selkeä ja täyteläiset värit. Vakauden suhteen se oli suhteellisen normaali ensimmäisten sekuntien aikana, mutta ilmeistä vääristymistä tapahtui noin 3 viimeisen sekunnin aikana, ja vääristymän aste oli samanlainen kuin Dream Machinessa.

Semanttisen ymmärryksen kannalta kuvassa näkyy tiettyjä "tanssivia" liikkeitä, mutta sillä ei ole juurikaan tekemistä "diskon" kanssa. Lisäksi kuvan taustalla oleva teksti näyttää "haamupiirustussymboleilta".

//oss.zhidx.com/uploads/2024/07/6695ec2b3d230_6695ec2b38b00_6695ec2b38adc_IMENG.mp4

▲ Unelmien luomat videotehosteet

Kelingin tuottamat videot ovat yleisesti ottaen suhteellisen vakaita ja pääongelmat keskittyvät käsiin ja silmämuniin. Mutta semanttisen ymmärtämisen kannalta avainsana "disko" ei heijastu.

//oss.zhidx.com/uploads/2024/07/669649d2e096d_669649d2dbda7_669649d2dbd80_kangaroo-keling.mp4

▲Voidaan käyttää videotehosteiden luomiseen

Kaiken kaikkiaan Dream Machine, Ji Meng ja Ke Ling suoriutuivat paremmin tällä tasolla, mutta kukaan heistä ei päässyt Soran tasolle. Lisäksi tämä kehotussana näyttää myös kunkin mallin esteettiset erot, mukaan lukien väritaipumuksen, tyylin valinnan, linssin vaihdon jne.

Kolmas taso on asetettuHahmo lähikuva, käytetyt kehotussanat ovat:Lähikuva astronautista, joka kelluu avaruusaseman ulkopuolella maa ja kuu taustalla ja tähdet heijastuvat kypärän visiirissä。

Stable Video suoriutui hyvin tällä tasolla ja kuvasi tarkasti avainsanoja, kuten "astronautti", "maa", "kuu" ja "tähtien heijastus", ja sen vakaus oli myös erittäin korkea. Liikkeen kannalta kyseessä ei ole yksinkertainen linssikäännös, vaan kuvan kohteen liike suhteessa taustaan.

▲Stable Video luo videoita

Dream Machine kaatui, unohtaen kokonaan "astronautin" ja maalasi kosmisen kohtauksen.

▲Dream Machine luo videoita

Haiper suoriutui hyvin tällä tasolla Vaikka "kuu" jäi huomaamatta, muut avainsanat heijastuivat ja heijastus kypärässä oli myös hyvin luonnollista.

▲ Haiper luo videoita

Zhixiangin suuri malli kieltäytyi aluksi luomasta kehotussanaa, mikä osoitti, että siellä oli arkaluontoista sisältöä. Monien leikkausten jälkeen loin lopulta videon, jossa on "lähikuva avaruusaseman ulkopuolella kelluvasta miehestä".

Kuvan kokonaisvaikutelma on suhteellisen realistinen. Vaikka viimeinen kehotussana sisältää vain sisältöä kuvaavan avainsanan "avaruusasema", se kuvaa silti elementtejä, kuten maata ja avaruuspuvut. Päähenkilö ei kuitenkaan käytä avaruuskypärää, eikä osaa hengittää tai edes puhua (doge).

▲ Älykäs norsumalli luo videotehosteita

Ji Meng kuvaa hahmojen yksityiskohdat paremmin. Kasvot ja puvut ovat erittäin herkkiä, mutta kuvan taustalla näyttää olevan toinen "Maa". enemmän "lähikuva" kuin "lähikuva".

//oss.zhidx.com/uploads/2024/07/66964f26a7c3e_66964f26a3673_66964f26a3651_Astronaut-Jimeng.mp4

▲ Välitön unelmien sukupolven video

Kelingin luomassa videossa ei aluksi ollut hahmoja, ja sitten astronautti astui hitaasti kuvaan, mutta tausta oli tyyni, mikä vaikutti olevan huumoria. Itse kuvan tarkkuus ja vakaus ovat kuitenkin edelleen erittäin korkeat, mikä heijastaa jokaista avainsanaa ja kuvaa myös "avaruusasemaa", jota jotkut pelaajat eivät ottaneet huomioon.

//oss.zhidx.com/uploads/2024/07/66965077c3056_66965077be925_66965077be8fa_Astronaut-Keling.mp4

▲Keling luo videoita

Vaikka hahmotason yleinen suorituskyky ei ole yhtä vakaa kuin asetelmakohtaus, se on paljon parempi kuin edellinen taso Tämä saattaa liittyä runsaisiin harjoitustietoihin ja pieneen liikerataan. Tällä tasolla paremmin menestyvät Stable Video, Haiper, Ji Meng ja Ke Ling.

Kaiken kaikkiaan Zhidongxin tällä kertaa kokemien kuuden tekoälyvideon sukupolven tuotteen joukossaUnelma, henki Sukupolven vaikutuksen etu on suhteellisen ilmeinen, ja sillä on hyvät ominaisuudet keston ja vakauden suhteen. Lisäksi kotimaiset tuotteet, kuten Morph Studio ja NeverEnds, ovat myös erittäin tehokkaita, mutta koska niillä ei ole ollut uusia tuotteita tai mallipäivityksiä Soran julkaisun jälkeen, ne eivät kuulu tämän kokemuksen piiriin.

3. Taistelu pääomasta:5Kuukauden voitto44miljardia, uusia pelaajia syntyy

Kun Sora julkaistiin, se käynnisti jälleen generatiivisen tekoälyhulluuden alkuperäisen GPT-4:n tavoin, mikä laukaisi Vincent Video -konseptiosakkeiden kollektiivisen päivittäisen rajan.

Ensimarkkinoilla on myös alkamassa uusi karnevaaliaalto.Zhidongxin epätäydellisten tilastojen mukaan Soran julkaisun jälkeen ainakin viiden kuukauden aikana5Tekoälyvideon sukupolven startup voittiYli 100 miljoonaa yuaniaRahoituksen kokonaismäärä on noin 1,2 miljardia juania. Lisäksi Runwayn paljastui neuvottelevan 450 miljoonan dollarin (noin 3,268 miljardin RMB) arvosta uutta rahoitusta.

▲ Tekoälyvideon luomiseen liittyvät suuret investoinnit ja rahoitus (Smart East-West Tabulation)

kotimainen,Aishi tekniikkaSe keräsi kaksi miljardia dollaria varoja maaliskuussa ja huhtikuussa, ja sitä suosivat tunnetut sijoittajat, kuten Ant. Aiemmin se sai kymmenien miljoonien yuanin arvoisen enkelirahoituksen vasta viime vuoden elokuussa.

Tämän vuoden tammikuussa Aishi Technology lanseerasi ulkomaisen version AI-videosukupolvituotteestaan PixVerse. Tuolloin siitä tuli voimakas tumma hevonen, joka kilpailee Pikan ja Runwayn kanssa. Sen jälkeen kun Sora vapautettiin, sen perustaja Wang Changhu sanoi kerran, että se saavuttaisi 3-6 kuukauden kuluessa.

Viisi kuukautta on kulunut, eikä Aishi Technology ole vielä julkaissut iteratiivista päivitystä taustalla olevasta mallista, mutta se on julkaissut peräkkäin uusia ominaisuuksia, kuten hahmojen johdonmukaisuutta ja liikesiveltimiä. Zhidongxi kysyi tuotteensa edistymisestä ja sai tietää, että sen uuden sukupolven malli ja uudet toiminnot "Vincentin videopeli” julkaistaan tällä viikolla ja voi tuottaaKesto 8 sekuntiavideoita ja voiLuo 3-5 jatkuvaa äänivideota kerralla。

▲PixVerse käynnistää liikeharjatoiminnon (Lähde: Aishi Technology)

Shengshun tekniikka Se sai myös kaksi peräkkäistä rahoituskierrosta satojen miljoonien juanien arvosta vain kolmessa kuukaudessa, ja Baidu Venture Capital jatkoi sijoittamista vanhana osakkeenomistajana. Aiemmin Shengshu Technology sai 2 rahoituskierrosta, joiden kumulatiivinen kokonaissumma oli yli 100 miljoonaa yuania.

Hiekka AI Se on startup, joka on juuri tullut julkisuuteen äskettäin ja jolla ei ole vielä tuotejulkaisuja. Heinäkuun 10. päivänä Sand AI paljastettiin saaneen kymmeniä miljoonia dollareita Capital Todayn johtamassa A-sarjan rahoituksessa toukokuussa.

Sand AI perustettiin lokakuussa 2023 ja se kehittää pääasiassa Soran kaltaista videontuotantotekniikkaa.On syytä huomata, että sen perustajaCao YueJooYksi Light Years Beyondin perustajista, toimi Pekingin Zhiyuan AI Research Instituten Visual Model Research Centerin johtajana ja Microsoft Research Asian johtavana tutkijana.

Julkiset tiedot osoittavat, että Cao Yue valmistui Tsinghuan yliopistosta sekä perustutkinto- että tohtorintutkinnolla. Hän on voittanut Marr-palkinnon parhaasta paperista ICCV:ssä, huippuluokan tietokonenäkökonferenssissa, ja hänet on lainattu yli 40 000 kertaa Google Scholarissa.

▲Cao Yue (kuvan lähde hänen henkilökohtaiselta kotisivultaan)

Haiper AI Se on myös startup, joka on uusi videoiden tuotantoteollisuudessa. Yritys perustettiin vuonna 2022 ja sijaitsee Lontoossa, Englannissa. Se keskittyi aiemmin tekoälyyn perustuvaan 3D-rekonstruointiin.

Ulkomaisten tiedotusvälineiden maaliskuussa raportoimien mukaan Haiper AI sai 13,8 miljoonaa dollaria (noin 100 miljoonaa RMB) siemenrahoitusta, kun se on kerännyt aiemmin 5,4 miljoonaa dollaria huhtikuussa 2022.

Haiper AI:n perustajatiimi koostuu kahdesta kiinalaisesta ihmisestä, Yishu Miao palveli aikoinaan TikTokin maailmanlaajuisessa luottamus- ja turvallisuustiimissä, ja Ziyu Wang työskenteli tutkijana DeepMindissä. Viime vuoden lopulla Haiper AI -tiimi päätti keskittyä videoiden luomiseen ja julkaisi joulukuussa beta-version ensimmäisestä samannimisestä videosukupolvituotteestaan.

▲ Haiper julkaisee samannimisen tuotteestaan beta-version

Pika Kesäkuussa se ilmoitti saaneensa uuden noin 80 miljoonan Yhdysvaltain dollarin (noin 581 miljoonan RMB) rahoituksen, ja sen arvo kaksinkertaistui lähes 500 miljoonaan dollariin. Viime vuoden marraskuussa Pika ilmoitti saaneensa päätökseen yhteensä 55 miljoonan dollarin rahoituksen, jonka arvo on 200-300 miljoonaa dollaria.

2. heinäkuuta AI-videon sukupolven kappaleen "vanha soitin".KiitotiePaljastui, että se neuvottelee 450 miljoonan dollarin (noin 3,268 miljardin RMB) arvosta uutta rahoitusta, jonka arvo on 4 miljardia dollaria.

Runwayn viimeinen rahoitus saatiin päätökseen viime vuoden kesäkuussa. Sijoittajia ovat muun muassa Google, NVIDIA ja 1,5 miljardia dollaria 141 miljoonalla dollarilla, mikä nosti kokonaisrahoituksen 237 miljoonaan dollariin. Jos tämä rahoituskierros toteutuu, niin rahoituksen määrä kuin arvostus yli kaksinkertaistuu.

Yleisesti ottaen viime kuukausina Soran julkaisun jälkeen uusia AI-videosukupolvirahoitusta on ilmaantunut ensisijaisesti, mutta myös yksittäisten rahoituksen määrä on lisääntynyt on ylittänyt edellisen kokonaisrahoituksen. Vaikka joillain startup-yrityksillä ei olisikaan tuotejulkaisuja tai mallipäivityksiä, tämä ei estä sijoittajien innostusta.

4. 150 päivää tekoälyvideosotaa "PPT:stä" oikeaan "videoon"

Soran "näkymättömyyden" 150 päivän aikana monien suurten valmistajien ja startup-yritysten "piirityksen" aikana ero valtavirran tekoälyvideon sukupolven tuotteiden ja Soran välillä on kaventunut huomattavasti, ja siinä on yksi ratkaiseva seikka -Valmis käytettäväksi, ja jopa monet ominaisuudet ovat edelleen ilmaisia.

Tällä hetkellä head AI -videosukupolven tuote on saavuttanut hyvän keston ja vakauden, ja seuraavan iteraation painopiste on fyysinen simulointi. Virallisesti näytetyistä demoista päätellen Gen-3, Keling, Jimeng ja Vidu simuloivat todellista maailmaa korkealla tasolla, ja seulotut kotelot ovat lähes samat kuin Soran julkaisemat.

Millainen on tämänhetkinen tuotekokemus sisällöntuottajan näkökulmasta?

äskettäin,Ohjaaja ja tekoälyn elokuva- ja tv-luoja Chen Kun(Xianren Yikun) teki remake-version tekoälylyhytdraamansa "Mountains and Seas" trailerista ja vertasi sitä alkuperäiseen versioon.

Lyhytnäytelmän ensi-illassa hän kertoi Zhixixille ja muille medioille, että tekoälyn edistyminen puolessa vuodessa on edelleen hyvin ilmeistä, varsinkinfysiikan simulaatioNäiltä osin se on hänen mielestään saavutettu "sukupolvien välinen"Iteraatio. Erityisesti tässä vaiheessa Kelingin kaltaiset videosukupolven mallit ovat saavuttaneet alkuperäisen teräväpiirtotarkkuuden, eivätkä ne enää ohjaa viipaloitua kuvasisältöä. Kohteen liike on kohtuullinen, liikealue ei ole vain suuri, vaan myös tasainen , ja se reagoi positiivisesti kehotteisiin sanoihin. Mutta samaan aikaan tekoälyvideon luontitekniikka kohtaa edelleen useita suuria kipukohtia: hahmojen johdonmukaisuus, kohtauksen johdonmukaisuus, hahmojen suorituskyky, toiminnan vuorovaikutus ja liike.

▲ Vertailu "Mountains and Seas" -trailerin uusimman version ja alkuperäisen trailerin välillä

Sovelluksen näkökulmasta tekoäly on edelleen kuromassa kiinni perinteisiä elokuvia ja televisiota sellaisissa skenaarioissa kuin elokuva- ja televisiotuotannossa.

Täydellisessä tuotantoprosessissa tekoäly on edelleen apuväline eikä päätyökalu, kuten käsikirjoitukset, jälkiäänitys, editointi, jälkituotanto jne. Tällä hetkellä ei ole olemassa tuotetta, joka voisi saavuttaa tuottavuustason.

Tekoälyyn perustuvia prosesseja on kuitenkin kustannuksiltaan, mukaan lukien ihmisen tehokkuussuhde, tiivistetty huomattavasti, ja ne ovat saavuttaneet perinteisten tuotantoprosessien tason.Alle 1/4。

▲Chen Kunia haastateltiin näytöksessä

WAIC 2024:ssaXie Xuzhang, yksi Aishi Technologyn perustajistaTan sanoi, että se, mitä me kutsumme "videon sukupolveksi", on itse asiassa vain videomateriaalin luomista, mikä on vain pieni osa koko videon tuotantoprosessista. Ei ole ääntä, editointia, siirtymiä, käsikirjoituksia jne teknisestä tai liiketoiminnallisesta näkökulmasta, se on. Matkaa on hyvin pitkä.

Tämä on myös toinen tärkeä suunta tekoälyvideon kehitykselle sen lisäksi, että jatketaan taustalla olevan mallin iterointia videoiden luomisen olemassa olevien kipupisteiden voittamiseksi.

Markkinoilla on myös monia erilaisia videotuotantoprosesseja kokeilevia yrityksiä, jotka ovat myös ensimarkkinoiden suosimia.Pelkästään viimeisen viikon aikana on ollut tekoälyllä varustettuja videoeditointityökalujaKuvatekstit, AI virtuaaliympäristö tarjoaa valaistus- ja kompositiotyökalujaBeebleSai 60 miljoonaa dollaria ja 4,75 miljoonaa dollaria rahoitusta.

Johtopäätös:AIVideon sukupolvi, odottaa yhtäGPT-4 hetki

Soran julkaisu on herättänyt innostuksen kotimaisissa ja ulkomaisissa tiimeissä ja yrittäjissä. Se on kuitenkin vielä alkuvaiheessa, tekninen reitti ei ole vielä päässyt yksimielisyyteen ja syntyneet vaikutukset ovat vielä kaukana kaupallisista standardeista. Mitä tulee tiettyyn vaiheeseen, monet alan ihmiset vertaavat sitä kieli- ja kuvamallien alkuvaiheisiin, kuten "GPT-3-aikakauteen", "vuoden 2022 aattoon kuvien luomiseksi" jne.

Mutta varmaa on, että tekoälyvideon sukupolviteknologia kehittyy räjähdysmäisesti ja uusia tuotteita ja teknologioita tulee jatkuvasti markkinoille. Vaikka joitakin teknisiä kipukohtia ja haasteita on, teknologian iteroinnin ja markkinoiden edistämisen myötä tällä alalla odotetaan saavuttavan enemmän läpimurtoja ja sovelluksia.

Tekoälyvideon sukupolven sota ei ole vain tekniikan kilpailu, vaan myös pääomakilpailu. Odotamme ja katsomme, kuka nauraa viimeisenä tässä rahanteon myrskyssä.

uutiset

Video Generation War 2.0!Dachang rullaa hullusti pohjamallia

Johdanto

yhteystietoni