vuoropuhelu shengshu technologyn toimitusjohtajan tang jiayun kanssa: ai-video on saavuttanut "popularisointipisteen", ja keston parantaminen ei ole productization

vuoropuhelu shengshu technologyn toimitusjohtajan tang jiayun kanssa: ai-video on saavuttanut "popularisointipisteen", ja keston parantaminen ei ole tuotteistamisen painopiste

2024-09-13

shengshu technology piti 11. syyskuuta median avoimien ovien päivän tapahtuman ja julkaisi "subject consistency" -toiminnon, jonka tarkoituksena on ratkaista "yhdenmukaisuus" -ongelma aiheiden luomisessa videomalleista.

tilaisuudessa shengshu technologyn toinen perustaja ja toimitusjohtaja tang jiayu sanoi vastauksena "daily economic news" -lehden toimittajan kysymykseen liiketoimintamallista, että tällä hetkellä on olemassa kahdenlaisia saas (software as a service) -tilauksia ja alan maas (model as a service) sen jälkeen, kun vidu tuli verkkoon 30. heinäkuuta, se on vastaanottanut kymmeniä tuhansia api-käyttösovelluksia maailmanlaajuisesti.

mitä tulee taustalla olevaan arkkitehtuuriin, tang jiayu sanoi, että hänen tuotteensa "vidu" käyttämä "u-vit-arkkitehtuuri" on melkein identtinen soran käyttämän "dit-arkkitehtuurin" kanssa. erona on, että u-vit on tehnyt toteutussuuntautuneemmaksi mallit. teknisellä tiekartalla kaikki ovat nyt taustalla olevan arkkitehtuurin lähentymisen tilassa, mutta homogeenisuus ei tarkoita, että kaikilla olisi sama edistys ja kyvyt, tang jiayu antoi esimerkin: "esimerkiksi nykyisessä kielimallissa (vaikka ) kaikki käyttävät transformer-arkkitehtuuria, mutta tästä lähtien openai on realistisesti edelleen selvästi edellä."

tällä hetkellä ai-videon pääkäyttäjät ovat edelleen ammattikäyttäjiä, kuten elokuvatyöntekijöitä, mutta tang jiayu uskoo, että tekoälyvideo on saavuttanut "popularisoitumisen" pisteen.

lisäksi nykyisestä liikevaihdosta päätellen shengshu technology on saanut enemmän tuloja b-puolen markkinoilta, kun taas c-puolen kasvukäyrä on ollut erittäin "jyrkkä" vidu-tuotteen lanseerauksen jälkeen.

"perimmäisenä tavoitteena on tehdä universaali suuri malli."

tang jiayu on tsinghuan yliopiston luonnollisen kielen käsittelylaboratorion mestari. hän toimi aiemmin ruilai intelligencen varapuheenjohtajana ja tencent youtu laboratoryn vanhempana tuotepäällikkönä. shengshu technology, jossa tang jiayu tällä hetkellä työskentelee, perustettiin maaliskuussa 2023 ja ilmoitti uuden rahoituskierroksen valmistumisesta tämän vuoden maaliskuun alussa. tämän vuoden huhtikuun lopussa vidu, yrityksen ja tsinghuan yliopiston yhdessä kehittämä suurikokoinen videomalli, julkaistiin virallisesti heinäkuun lopussa ja on täysin auki.

vidua kutsuttiin "soran kiinalaiseksi versioksi", kun se ilmestyi. toisaalta tämä nimi johtuu siitä, että ulkomaailma on täynnä odotuksia kiinan suurelle videomallille. toisaalta teknisestä arkkitehtuurin näkökulmasta näillä kahdella on myös samanlaiset lähestymistavat ja lähestymistavat.

raporttien mukaan vidun pohjakerros perustuu itse kehitettyyn u-vit-arkkitehtuuriin, kun taas sora perustuu dit-arkkitehtuuriin. u-vit- ja dit-arkkitehtuurien eroista tang jiayu sanoi: "pähkinänkuoressa ne ovat melkein samat, ja jopa jotkin taustalla olevista teknisistä yksityiskohdista ovat samat." erona on, että u-vit-arkkitehtuuri on "tekenyt enemmän toteutukseen suuntautuneita optimointimalleja."

kokonaisteknisen reitin näkökulmasta useat suuret kotimaiset videomallit seuraavat tällä hetkellä "soran kaltaista reittiä".

tässä suhteessa tang jiayu sanoi, että tällä hetkellä kaikki ovat taustalla olevan arkkitehtuurin lähentymisen tilassa, "mutta homogeenisuus ei tarkoita, että kaikilla on sama edistys ja kyvyt." kielimallin esimerkkinä hän analysoi, että kaikki tulevat käyttämään transformer-arkkitehtuuria, mutta käytännön näkökulmasta openai on edelleen selvästi edellä kokemus auttaa ratkaisemaan vaikeuksia. tämä johtaa eroihin eri kielimallien välillä.

tällä hetkellä alalla tutkitaan myös uusia arkkitehtonisia reittejä, kuten multimodaalisen sukupolven ja multimodaalisen ymmärryksen yhdistämistä, mutta erityisen hyvää ratkaisua ei vielä ole.

"perimmäisenä tavoitteemme on rakentaa universaali suuri malli. videosukupolvi on vaihe suurten mallien multimodaalisen sukupolven keskellä."

hän sanoi myös: "tämä ei tarkoita, että teemme vain tämän yhden asian (viittaen suureen videomalliin). videon lisäksi meillä on myös kyky luoda muita modaliteettia."

"tällä hetkellä b-puolen markkinoilla on enemmän tuloja"

teknologian taustalla olevan logiikan lähentyminen on johtanut enemmän tai vähemmän vastaaviin markkinakehitysideoihin.

"kaikkien liiketoimintavalinnat ovat suhteellisen samanlaisia. jopa soran ja runwayn kaltaiset yritykset tekevät aktiivisesti hollywoodia tai mainontayhteistyötä, tang jiayu uskoo, että tekoälyn luomien videoiden kenttä on yleensä vielä kehitysvaiheessa, ja kansainväliset johtajat ovat kaikki toimijat." yhdessä eteenpäin tai "yhteisesti markkinoiden laajentamista".

shengshu technologyn esimerkkinä tang jiayu jakaa liiketoimintamallin kahteen suuntaan: yksi on saas-tilausmalli vidulla on joka kuukausi ilmaista kiintiötä, mutta jos tarpeita on enemmän tai haluat käyttää kehittyneempiä ominaisuuksia, sinun on maksettava. tilausmaksu, ja vidu jatkaa tuotetoimintojen rikastamista käyttäjien luovien tarpeiden mukaisesti pelin aikana nämä asiakkaat toivovat soittavansa malliin suoraan.

liikevaihdon näkökulmasta b-pään markkinat ovat saaneet enemmän tuloja tässä vaiheessa. kuitenkin kuukausi vidun lanseerauksen jälkeen c-puolen kasvukäyrä on myös erittäin "jyrkkä". "nykyisen arviomme perusteella b-puoli (kysyntä) on suhteellisen selkeä, suora ja vakaa, joten b-puoli on meille pitkäaikainen ja keskeinen suunta. tutkimme myös jatkuvasti c-puolta", tang jiayu sanoi.

tällä hetkellä kotimaiset videosukupolven mallit ja työkalut ovat muodostaneet "aallon" ja menestyneet hyvin, mutta tang jiayu uskoo: "ei voida sanoa, että kiina olisi ottanut täysin johtoaseman. kotimaiset ja ulkomaiset johtavat pelaajat kuuluvat ensimmäiseen joukkoon."

"ai-video on saavuttanut solmun"

suurien videomallien yleisöryhmistä elokuva-, televisio- ja animaatioalan ammattilaiset ovat enimmäkseen, ja heitä pidetään enimmäkseen "ammattiyleisöinä". milloin "tavallisille ihmisille" ai-videosta tulee työkalu, jota he voivat hallita?

tang jiayu otti valokuvauksen esimerkkinä filmikameroiden aikakaudesta matkapuhelinvalokuvauksen popularisointiin. "tekoälyvideo on nyt saavuttanut pisteen." tang jiayu sanoi, että shengshu technologyn 11. syyskuuta julkaisema "subject reference" -toiminto on yritys alentaa tekijöiden kynnystä tai nopeuttaa luovaa prosessia.

"teknologia on edelleen keskeinen tekijä. nykyinen videosukupolvi noudattaa vain aluksi fysiikan lakeja, ja edelleen on korkeat rajat, jotka on ylitettävä, kuten vahvemmat malliominaisuudet ja yhteistyömuotojen lisääminen." esitteli, että " "aiheviittaus" -ominaisuus on todellakin parantunut huomattavasti johdonmukaisuuden luomisen kannalta, mutta edelleen on monia alueita, jotka kaipaavat lisäparannuksia. "jos esimerkiksi haluat muuttaa suuren mallin tuotteesta käsityöksi, ja tässä käsityössä on monimutkaisia kuvioita ja onttoja osia, nykyisen sukupolven onnistumisprosentti ei ole vieläkään korkea näin monimutkaisen rakenteen edessä. kohtausten luomiseen liittyy toivon, että monet komponentit, kuten urheilujalkineet, toimivat paremmin monimutkaisemmissa ja dynaamisemmissa kohtauksissa, jotka vaativat jatkuvaa mallin ominaisuuksien parantamista."

tässä prosessissa teknologian omaperäisyyden ja läpimurron täytyy kulkea käsi kädessä hyvän kaupallistamisen kanssa, sillä kaupalliset yritykset eivät ole tieteellisiä tutkimuslaitoksia.

esimerkkinä videon generoinnin keston ottaminen, sukupolven keston pidentäminen vaatii parantamaan mallin kykyä abstraktisti ymmärtää maailmaa ja sen kaksisuuntaisia tiedonpakkaus- ja vahvistusominaisuuksia. tällä hetkellä vidu voi tuottaa jopa 32 sekunnin pituisia videoita, ja shengshu technology aikoo laajentaa sen pidempään. kesto ei kuitenkaan ole se osa shengshu technologya, joka tällä hetkellä keskittyy tuotteistamiseen.

"varsinaisessa luomisessa karkeasti sanottuna yli 90% klipeistä on muutaman sekunnin pituisia. siksi emme ole pitäneet kestoa julkaisun prioriteettina, vaan sen näkökulmasta." mallin ominaisuudet angle, yhtiö itse asiassa parantaa edelleen.

toimittaja |li shaoting ke yang

muokata|duan lianwenduo du hengfeng

oikoluku|wang yuelong

｜päivittäiset talousuutiset nbdnews alkuperäinen artikkeli｜

uudelleentulostus, otteiden poistaminen, kopioiminen ja peilaus ilman lupaa on kielletty.

päivittäisiä talousuutisia

raportti/palaute

uutiset

vuoropuhelu shengshu technologyn toimitusjohtajan tang jiayun kanssa: ai-video on saavuttanut "popularisointipisteen", ja keston parantaminen ei ole tuotteistamisen painopiste

johdanto

yhteystietoni