byte käyttää tekoälyä elvyttääkseen vanhaa liiketoimintaansa: ryhtyy laajamittaisiin videoiden sukupolven malleihin, lähellä tosielämän vaikutuksia

byte käyttää tekoälyä elvyttääkseen vanhaa liiketoimintaansa: ryhtyy laajamittaisiin videoiden sukupolven malleihin, lähellä tosielämän tehosteita

2024-09-27

tämän artikkelin lähde: times weekly kirjoittaja: he shanshan

videoiden sukupolven suurten mallien ala toivottaa tervetulleeksi tärkeät toimijat.

syyskuun 24. päivänä bytedancen tytäryhtiö volcano engine piti ai-innovaatiokiertueen shenzhenissä. se julkaisi kaksi suurta mallia beanbag-videosukupolvesta - pixeldance ja beanbag-videosukupolvi - seaweed, ja avasi myös kutsutestin yritysmarkkinoille.

suurille videontuotantomalleille luodun videon kesto on erittäin tärkeä. tällä hetkellä pixeldancin videoiden luomisen kesto on 5 sekuntia tai 10 sekuntia ja seaweedin 5 sekuntia. volcano enginen presidentti tan dai kertoi time weeklylle ja muille medioille: "videoiden luomisessa on monia vaikeuksia, jotka on voitettava. volcano enginen etuja ovat kyky seurata ohjeita, kameran liike (kohteen johdonmukaisuus useiden linssien alla) jne., joiden takana on teknologisia läpimurtoja ja täyden pinon ominaisuuksia. lisäksi douyinin ja jianyingin videoiden ymmärtäminen on etua.

tan dai uskoo, että suurten videoiden sukupolven malleissa ei pitäisi keskustella vain kestosta, vaan myös sovellusskenaarioista. eri skenaarioilla on erilaiset kestovaatimukset, ja huoshan on enemmän huolissaan eri toimialojen ratkaisuista. "

on syytä huomata, että jimeng ai testaa pienessä mittakaavassa uutta papuvideosukupolven mallia ja se avataan asteittain kaikille käyttäjille tulevaisuudessa.

tämän vuoden helmikuussa zhang nan, douyin groupin entinen toimitusjohtaja, ilmoitti yhtäkkiä siirtyvänsä elokuvaeditointiin ja edistävänsä tekoälyn soveltamista elokuvaeditointiin. vain viikko sen jälkeen, kun openai ilmoitti olevansa vastuussa editoinnista, 16. helmikuuta lanseerasi soran, joka pystyy luomaan 1 minuutin videoita, mikä tekee vincentin videotoiminnosta jälleen suositun ympäri maailmaa. samaan aikaan zhang nan editoinnista vastaavana henkilönä ilmoitti ji mengin julkaisemisesta wechat momentsissa, ja siitä tuli myös zhang nanin ensimmäinen tärkeä tuotepäivitys hänen siirron jälkeen.

tekoälyn innovaatiokiertueella chen xinran, jianyingin ja jimengin tekoälymarkkinoinnin johtaja, esitteli kahden sovelluksen "ai-isoinnin" uusimman tilan. hän kertoi, että aiemmin samanlaatuisen sisällön tuottaminen vaati 5-10 hengen tiimin, johon sisältyi tarinalinjojen luominen, erikoistehosteiden hiominen, pakkaaminen ja editointi jne. yhteistyöprosessi oli monimutkainen, tuotantosykli kesti 1-2 kuukautta. , ja vaadittiin suuria määriä rahaa ja resursseja. mutta tekoälyn avulla useimmat tekijät voivat viimeistellä luomisen yksin, ja tuotantoaika on lyhentynyt 1-2 viikkoon.

tan dai mainitsi myös puheessaan: "videon luomisessa on monia vaikeuksia, jotka on murtauduttava. kaksi doubao-mallia kehittyvät edelleen, tutkivat lisää mahdollisuuksia keskeisten ongelmien ratkaisemiseksi ja nopeuttavat luovan tilan ja sovelluksen laajentamista. ai-videoista."

joka tapauksessa suuren doubao-videosukupolven mallin synty ja sen käyttö jimengissä ja jianyingissa tarkoittaa, että bytedance on askeleen lähempänä tekoälyn käyttöä videon "vanhan liiketoiminnan" parantamiseen.

lähde: kuvan otti times weekly -toimittaja paikan päällä

linssejä voi vaihtaa vapaasti

volcano engine -sivuston raporttien mukaan suurten papupussimallien käyttö kasvaa nopeasti.

syyskuusta lähtien doubao-kielimallitunnusten päivittäinen keskimääräinen käyttö on ylittänyt 1,3 biljoonaa, mikä on kymmenkertainen kasvu toukokuun julkaisusta. multimodaalinen tietojenkäsittelymäärä on myös saavuttanut 50 miljoonaa kuvaa ja 850 000 tuntia puhetta päivässä.

valtavan käyttäjämäärän myötä säkkipussimalli on tuonut jälleen uusia muutoksia. uusi videosukupolvimalli ei ole vain lisätty, vaan myös säkkimusiikkimalli ja simultaanitulkkausmalli on julkaistu, jotka ovat kattavat kaikki tilat, kuten kielen, puheen, kuvat ja videot.

aiemmin useimmat videon sukupolven mallit pystyivät suorittamaan vain yksinkertaisia ohjeita. doubao-videon luontimalli voi saavuttaa luonnollisia ja yhtenäisiä useiden otosten toimintoja ja monimutkaisia vuorovaikutuksia useiden kohteiden kanssa - se ei voi vain seurata monimutkaisia ohjeita, vaan myös antaa eri hahmoille mahdollisuuden suorittaa vuorovaikutusta. useiden toimintaohjeiden ulkonäkö, vaatteiden yksityiskohdat ja jopa pääremmit pysyvät yhtenäisinä eri kameran liikkeissä, mikä on lähellä todellisten otosten vaikutusta.

doubao-videon sukupolvimalli perustuu dit-arkkitehtuuriin tehokkaan dit-fuusiolaskentayksikön ansiosta videota voidaan vaihtaa vapaasti suuren dynamiikan ja liikkuvan objektiivin välillä, ja siinä on usean linssin kieliominaisuudet, kuten zoom, surround, panorointi, zoomaus, ja tavoite seurata. "tämä tarkoittaa, että doubaon luoma video ratkaisee useiden kohtausten vaihtamisen johdonmukaisuuden ongelman ja voi säilyttää kohteen, tyylin ja tunnelman johdonmukaisuuden samaan aikaan otoksia vaihdettaessa. tämä on myös ainutlaatuinen teknologinen innovaatio. doubao-videon sukupolvimalli." tan dai sanoi.

mallin tulevasta suunnasta tan dai sanoi, että volcano engine kiinnittää enemmän huomiota olemassa olevien mallien parempaan toteutukseen ja nopeutettuun innovaatioon "teknologian on vastattava käyttäjien tarpeita, ja uusia ja vanhoja tekniikoita on jatkuvasti mukautettava ja mukautettava. kypsä standardi suurille malleille on käyttäjä inkuboinnin jälkeen todellinen ja hyvä palaute, joka on kokenut ja jolla on tietty määrä, eikä palautetta laboratoriosta. esimerkiksi jimengillä ja doubaolla on suuri määrä sisäisiä testejä, ja käyttäjien palaute on tärkeä arviointikriteeri."

aiemmin doubao big model asetti merkkihinnan, joka oli alle 99 % alan hinnasta, ja se oli ensimmäinen tulivuoren moottori, joka aloitti hinnanalennusten aallon. tällä hetkellä doubao videon suurten mallien käytön hinnoittelua ei ole vielä julkistettu. tan daidai kertoi times weeklylle ja muille medioille, että videomallien ja kielimallien sovellusskenaariot ovat erilaisia, ja hinnoittelulogiikka on myös erilainen "uuden kokemuksen vanhan kokemuksen siirtokustannukset" on harkittava, voidaanko sitä käyttää laajasti loppu riippuu siitä, kuinka paljon tuottavuuden roi on parantunut edelliseen verrattuna.

lähde: jimengin virallinen verkkosivusto

tutustu tekoälyn alkuperäisiin tuotteisiin

aiemmin jimengin tavalliset käyttäjät pystyivät luomaan 3 sekunnin ai-lyhyitä videoita, kun taas vip-käyttäjät voivat pidentää aikaa kolmella sekunnilla.

tämän vuoden maaliskuusta alkaen cutting on päivittänyt intensiivisesti tekoälytoimintoja, kuten älykkäitä tekstityksiä, videon kääntämistä ja muita toimintoja. se on myös avannut douyinin tukemaan liikenne- ja rahapalkintoja lyhyille videoille, jotka käyttävät leikkaus tekoälytoimintoa. esimerkiksi erinomaiset teokset voivat saada liikennetukea dou + 500 yuania per video. tällä hetkellä jianyingin vip-jäsenmaksu on 218 yuania vuodeksi ja keskimääräinen kuukausimaksu 18,17 yuania, kun taas dreamin kuukausittainen vip-jäsenmaksu on 69 yuania.

tekoälyn innovaatiokiertueella chen xinran mainitsi, että "papupussin suuriin malleihin liittyvää teknologiaa on sovellettu leikkausleikkauksiin, unelma-ai- ja heräämiskuviin" ja esitteli uusia toimintoja tekoälyteknologian soveltamisen alaisuudessa.

esimerkiksi digitaalisissa kloonaussovelluksissa digitaalinen ihmisäänen kloonaustoiminto voidaan räätälöidä verkossa äänen kloonaustekniikan perusteella. digitaalisten tuottajien tarvitsee vain tallentaa tai ladata 3 minuutin teräväpiirtovideo, ja sävelen kloonaus vaatii vain 5 sekunnin puhesyötön luodakseen luonnollisen, tasaisen ja ristiriitaisen äänen, ja se voidaan myös kääntää useille kielille. "olemme erittäin huolissamme tietosuoja- ja turvallisuuskysymyksistä. vaadimme käyttäjiltä henkilökohtaista vahvistusta tuotesuunnittelun ja teknisen tason osalta. kiinnitämme huomiota myös uusiin alan määräyksiin parantaaksemme palvelun turvallisuutta ja luotettavuutta."

lisäksi on olemassa myös "sisältömarkkinoinnin" luontityökaluja verkkokauppiaille. aiemmin kauppiaat ovat saattaneet viettää useita tunteja selaamalla douyinia ja tiktokia suosittujen videorutiinien analysointiin, purkamalla rutiineja ja kopioimalla kopiota, ja myös käyttäneet useita tunteja editoimiseen. nyt tuotteen nimen täyttämiseen ja täyttämiseen kuluu vain muutama minuutti lataa se lisäämällä materiaaleja tai liittämällä tuotesivulinkkejä, voit luoda useita eri tyylejä toimitusvideoita yhdellä napsautuksella.

chen xinran mainitsi erityisesti, että sen lisäksi, että se soveltaa tekoälyä olemassa oleviin tuotteisiin, jianying tutkii myös alkuperäisten tekoälytuotteiden mahdollisuutta gena (generative artificial intelligence) i -aikakaudella. ”jimeng ai on tutkimus tähän suuntaan yhdistetty kahteen suureen videomalliin kohtausten kiillotuksen ja tehosteen kiillotuksen sisäistä testausta varten. uskomme, että tuotantokustannusten, tyylin tai kulttuuritaustan ei pitäisi rajoittaa.

tan dai sanoi myös, että suurten mallien sovelluskustannukset on ratkaistu hyvin.

uutiset

byte käyttää tekoälyä elvyttääkseen vanhaa liiketoimintaansa: ryhtyy laajamittaisiin videoiden sukupolven malleihin, lähellä tosielämän tehosteita

johdanto

yhteystietoni