"king of beanbao": bytedance julkaisee kaksi suurta videosukupolven mallia yhdessä day

"king of beanbao": bytedance julkaisee kaksi suurta videosukupolven mallia yhdessä päivässä

2024-09-24

bytedance ilmoitti virallisesti aloittavansa tekoälyvideoiden sukupolven. syyskuun 24. päivänä bytedancen tytäryhtiö volcano engine piti tekoälyn innovaatiokiertueen shenzhenissä ja julkaisi kaksi suurta mallia dou bao video generation-pixeldance- ja dou bao video generation-seaweed -malleja sekä käynnisti kutsutestin yritysmarkkinoille.

tilaisuudessa esitetty videosukupolvi oli upea. doubao-videosukupolven suuret mallit ovat saavuttaneet alan edistyneen tason, olipa kyseessä semanttinen ymmärrys, monimutkaiset interaktiiviset kuvat useista kohteiden liikkeistä tai sisällön johdonmukaisuus useiden linssien vaihdossa. volcano enginen toimitusjohtaja tan dai sanoi: "videon luomisessa on monia vaikeuksia, jotka on voitettava. doubaon kaksi mallia kehittyvät edelleen, tutkivat uusia mahdollisuuksia keskeisten ongelmien ratkaisemiseksi ja nopeuttavat luovan tilan laajentamista. ja tekoälyvideoiden soveltaminen."

kuva: volcano enginen presidentti tan dai julkaisi säkkipussin videosukupolven mallin

innovatiivinen teknologia monen agentin vuorovaikutuksen ja johdonmukaisuuden ongelman ratkaisemiseksi

suurin osa aiemmista videosukupolven malleista pystyi suorittamaan vain yksinkertaisia ohjeita, kun taas doubao-videosukupolvimallilla voidaan saavuttaa luonnollisia ja yhtenäisiä usean otoksen toimintoja ja monimutkaisia useiden aiheiden välisiä vuorovaikutuksia. kun jotkut sisällöntuottajat kokivat doubao-videon sukupolven mallin etukäteen, he huomasivat, että sen tuottamat videot eivät vain pystyneet noudattamaan monimutkaisia ohjeita ja mahdollistamaan eri hahmojen suorittamaan useiden toimintaohjeiden vuorovaikutuksen, vaan myös hahmojen ulkonäön, vaatteiden yksityiskohdat ja jopa päähineet. pysyi muuttumattomana eri liikkeiden alla johdonmukaisesti ja lähellä todellista ammuntaefektiä.

volcano enginen mukaan doubao-videon sukupolvimalli perustuu dit-arkkitehtuuriin tehokkaan dit-fuusiolaskentayksikön ansiosta videota voidaan vaihtaa vapaasti suuren dynamiikan ja liikkuvien linssien välillä, ja siinä on usean linssin kieliominaisuudet, kuten zoom, surround. , panoroida, zoomata ja kohdistaa seuraamiseen. äskettäin suunniteltu diffuusiomallin koulutusmenetelmä on voittanut usean kuvan vaihtamisen johdonmukaisuusongelman ja voi säilyttää kohteen, tyylin ja tunnelman johdonmukaisuuden samanaikaisesti otoksia vaihdettaessa. tämä on myös doubao-videon ainutlaatuinen teknologinen innovaatio sukupolven malli.

liiketoimintaskenaarioiden, kuten cutting ja dream ai, kiillotuksen ja jatkuvan iteroinnin jälkeen doubao-videosukupolven mallissa on ammattitason valon ja varjon asettelu ja värikoordinaatio, ja visuaalinen ulkoasu on erittäin kaunis ja realistinen. syvästi optimoitu transformer-rakenne parantaa huomattavasti doubao-videon sukupolven yleistyskykyä, tukee 3d-animaatiota, 2d-animaatiota, kiinalaista maalausta, mustavalkoista, paksua maalia ja muita tyylejä ja sopii elokuviin, televisioon, tietokoneisiin, matkapuhelimiin ja muihin laitteisiin. proportion ei sovellu vain yritysskenaarioihin, kuten verkkokauppamarkkinointiin, animaatiokoulutukseen, kaupunkikulttuurimatkailuun ja mikrokäsikirjoituksiin, vaan se voi myös tarjota luovaa apua ammattimaisille tekijöille ja taiteilijoille.

tällä hetkellä uutta papuvideosukupolven mallia testataan pienessä mittakaavassa jimeng ai:n sisäisessä beta-versiossa, ja se avataan asteittain kaikille käyttäjille tulevaisuudessa. jianyingin ja jimeng ai:n markkinajohtaja chen xinran uskoo, että tekoäly voi olla syvässä vuorovaikutuksessa tekijöiden kanssa ja luoda yhdessä, tuoden mukanaan monia yllätyksiä ja inspiraatioita. jimeng ai toivoo olevansa käyttäjien lähin ja viisain luova kumppani.

doubao big model tuo markkinoille alan huippukorkean samanaikaisen liikenteen standardin

tässä tapahtumassa doubao big model ei vain lisännyt uuden videosukupolven mallia, vaan julkaisi myös doubao-musiikkimallin ja simultaanitulkkausmallin, joka on kattanut täysin kaikki tilat, kuten kielen, äänen, kuvan, videon jne., ja täyttää täysin eri toimialojen ja toimialojen tarpeisiin.

samalla kun tuotteiden ominaisuudet paranevat yhä enemmän, myös suurten papupussimallien käyttö kasvaa nopeasti. volcano enginen mukaan doubao-kielimallin keskimääräinen päivittäinen merkkien käyttö on ylittänyt 1,3 biljoonaa, mikä on kymmenkertainen kasvu verrattuna toukokuun ensimmäiseen julkaisuun. myös multimodaalisen tiedonkäsittelyn määrä on saavuttanut 50 miljoonaa kuvaa ja 50 miljoonaa kuvaa päivässä vastaavasti 850 000 tuntia.

aiemmin doubao suuret mallit ilmoittivat hinnoittelunsa alle 99% teollisuudesta, mikä johtaa kotimaisten suurten mallien hintojen laskutrendiin. tan dai uskoo, että suurten mallien hinta ei ole enää este innovaatioille. yritysten laajamittaisten sovellusten myötä suurempaa samanaikaista liikennettä tukevista malleista on tulossa keskeinen tekijä alan kehityksessä.

tan dai mukaan monet alan suuret mallit tukevat tällä hetkellä vain 300k tai jopa 100k tpm:tä (tokens per minute), mikä on vaikea kuljettaa yritystuotantoympäristöjen liikennettä. esimerkiksi tieteellisen tutkimuslaitoksen dokumentin käännösskenaariossa huippu tpm on 360 000, tietyn auton älykkään ohjaamon huippu tpm on 420 000 ja tekoälykoulutusyrityksen huippu tpm on 630 000. tästä syystä beanbao large -malli tukee oletusarvoisesti 800k:n tpm:ää, mikä on paljon alan keskiarvon yläpuolella. asiakkaat voivat myös joustavasti laajentaa kapasiteettia tarpeiden mukaan.

"meidän ponnisteluillamme suurten mallien sovelluskustannukset on ratkaistu hyvin. suurten mallien on siirryttävä volyymihinnasta volyymitehokkuuteen ja parempien mallien ominaisuuksilla ja palveluilla."

yidan xiaofeng

raportti/palaute

uutiset

"king of beanbao": bytedance julkaisee kaksi suurta videosukupolven mallia yhdessä päivässä

johdanto

yhteystietoni