zhang yiming saapui myöhään, mutta jopa later

zhang yiming saapui myöhään, mutta jopa myöhemmin

2024-09-25

syyskuussa suurista videomalleista on tullut uusi ai-kilpailupiste suurille valmistajille. mutta tällä kertaa zhang yiming oli taas myöhässä.

on kulunut viisi päivää alibaba tongyi qianwen wensheng videon julkaisusta ja 3 kuukautta siitä, kun kuaishou julkaisi kelingin kesäkuussa. syyskuun 24. päivänä byte julkaisi vihdoin oman doubao-videosukupolvimallinsa.

huomionarvoista on, että zhang yiming, joka on aina arvostanut sijoitetun pääoman tuottoa (roi) ja on pragmaattinen, asetti doubao-videomallin "kaupallistamisen" sävyn alusta alkaen.

tilaisuudessa volcano enginen presidentti tan dai sanoi:kaupallistamista on harkittu doubao-videosukupolven mallin lanseerauksesta lähtien.sovellusalueita ovat verkkokaupan markkinointi, animaatiokasvatus, kaupunkikulttuurimatkailu ja mikrokäsikirjoitukset, kuten musiikin mv:t, mikroelokuvat ja lyhytnäytelmät.

selite: kirjoita "pikkutyttö joulupukin hatussa ja pitelee ragdoll-kissaa" luodaksesi renderöintilähde: aakkosluettelo

samaan aikaan tan dai korosti myös, että ennen doubao-videomallin julkaisua hän oli jo "näytynyt" monissa douyinin lyhytdraamaprojekteissa. viime kuussa kunlun wanwei julkaisi skyreelsin, tekoälyn lyhytdraaman luomisalustan, ja heinäkuussa meitu xiuxiu julkaisi moki:n, tekoälyn lyhytdraamaa luovan työkalun.

"nyt on satoja yrityksiä, jotka myyvät lyhyitä näytelmiä ulkomaille ja joista on tullut tekoälyn suuria malleja." tekoälyn siunauksella lyhyistä näytelmistä ja mv:stä tulee verkkoartikkelien ja lyhyiden videoiden kaltaisia sisältötuotteita, joissa on enemmän käyttäjien osallistumista. hänen mielestään "myöhässä saapunut byte pelaa kaupallista peliä."

itse asiassa, kun sora räjähti räjähdysmäisesti, siitä, voisiko se julkaista suuren videomallin, tuli "uusi standardi" mitata, onko suurten mallivalmistajien tekniikka edistynyt vuonna 2024.

tässä soran etsimisessä byten "ei kiire" viivästyi syyskuun loppuun "varatakseen tilan" videomallille, kun doubao model pro päivitettiin.

kun alphabet avasi jimeng ai:n, havaittiin, että beanbao-videomallin käyttöönoton jälkeen c-pään käyttäjät voivat kokea videoiden luomisen jimeng ai:ssä.

suurin 12 sekunnin sukupolviaika on "reilu", ja qi kelingin sukupolvivaikutus "ei ole hämmästyttävä, mutta se on muutaman kuukauden myöhässä, eikä sitä ole heitetty ulos teknisestä aukosta ensimmäisellä suurella videomallilla". ensimmäinen erä sisäisiä testejä zhang yang, doubao-videomallin tekoälyn harjoittaja, kertoi alphabetille, että vaikka kotimaisia videomalleja päivitetään intensiivisesti,byten myöhästyneen saapumisen luottamus saattaa johtua siitä, että aiemman tekoälyvideosukupolven vaikutukset eivät ole "yllättäneet" käyttäjiä.

samalla kun kotimaiset mallit jahtaavat soraa, openai on jo osoittanut uuden oppimispolun suurille perusmalleille julkaisemalla gpt-o1:n, ja se saattaa aloittaa uuden aikakauden, jonka arvo on yli biljoona valmistajat, mukaan tulee myös uusia ottelupisteitä.

jianyingin aiemmin lanseeraama jimeng ai tukee vain 3 sekuntia videon kestoa suuren säkkimallin lataamisen jälkeen, jimeng ai voi tuottaa 3-12 sekunnin videoita.

sen sijaan keling-versio 1.0 voi kokea vain 5 sekuntia videoiden luomista ilman jäsenyyttä, kun taas byten jimeng ai tukee käyttäjien ilmaisia kokeiluja antamalla 66 pistettä kirjautumalla sisään joka päivä.

toisin kuin doubao-malli, joka on alkanut kiihottaa "suurten mallien nollajuania ostoa" alle 98 %:n hinnoilla teollisuudesta aiheuttaen kiihkeitä keskusteluja, doubao-malli ei näytä olevan linjassa byten perinteen kanssa. "tekee suuria asioita hiljaa".

syötä avainsana "pieni tyttö pitelee ragdoll-kissaa". sisäisessä beta-versiossa ennen doubao-videomallin julkaisua tekoäly näyttää ensimmäistä kertaa ymmärtävän ragdoll-kissan nukkena ja luodun videon. on valekissa sylissään, myös videon kasvot ovat hieman jäykkiä.

kun se luotiin uudelleen 25. syyskuuta, ragdoll-kissa muuttui jälleen puutarhakissaksi. suuri tekoälymalli täytti ohjeet tarkasti, kun se luotiin kolmannen kerran. zhang yang kertoi alphabetille, että yhtenä ensimmäisistä tekoälyn harjoittajista sisäisessä testauksessa suuren doubao-videomallin käytön vaikutus ei ole hämmästyttävä.

doubao videon suuri malli voi kuitenkin vaihtaa eri tyylien välillä, kuten 3d-animaatio, 2d-animaatio, kiinalainen maalaus, mustavalkoinen ja paksu maali. voit myös siirtää kameraa satunnaisesti tai mukauttaa kameran liiketiloja, kuten zoomausta ja loitontaa verrattuna vain kuvasuhteisiin 16:9, 9:16 ja 1:1, doubao on selvästi sopivampi eri näyttösuhteille, mukaan lukien 3:4, 2:3, 4:3, 3: 2 ja enemmän suhdevaihtoehtoja.

zhang yangin näkemyksen mukaan doubao tarjoaa enemmän vaihtoehtoja käyttäjän vuorovaikutuskokemuksen suhteen. vaikka beanbao-video-suurmalli voi toteuttaa usean linssin vaihdon kehotteen sisällä, "kokonaiskuvan yhteys on silti hieman epätasainen ja hahmojen ilmeet ovat jonkin verran vääristyneitä."

kuitenkin zhang yiming kaivertanut tällä kertaa "pragmatismin" doubao video -mallin dna:han.

kun doubao videon suuri malli julkaistiin, se kutsuttiin testaamaan yritysmarkkinoille. samanaikaisesti volcano enginen toimitusjohtaja tan daigeng sanoi:kaupallistamista on harkittu doubao-videosukupolven mallin lanseerauksesta lähtien.sovellusalueita ovat verkkokaupan markkinointi, animaatiokasvatus, kaupunkikulttuurimatkailu ja mikrokäsikirjoitukset, kuten musiikin mv:t, mikroelokuvat ja lyhytnäytelmät.

eroaa muista ai-startupeista, jotka "etsivät nauloja vasaralla", olipa kyseessä sitten bytedance tai kuaishou, "sillä on oma sisältönsä ja alustansa, ja naulat ovat kädessä, joten suurten videomallien tekemisessä on luonnollisesti enemmän sovellusskenaarioita." zhang yang sanoi,

heinäkuun 24. päivänä keling ai:n virallinen wechat-viesti paljasti, että käyttöoikeuksia hakeneiden käyttäjien määrä on ylittänyt miljoonan, ja maksullinen jäsenyysjärjestelmä otettiin käyttöön samana päivänä, mukaan lukien kolme jäsenluokkaa: kulta, platina ja timantti vuotuinen jäsenhinta alkaa yli 500 yuania. se vaihtelee yli 5000 yuania. peliä myöhässä olevalle bytelle se saattaa olla teknisesti kelingin tasolla, mutta kaupallistamispolulla c-puolen maksamisen alkanut keling näyttää olevan taas askeleen edellä.

toukokuussa "openai julkaisi gpt-4o:n päivää ennen kuin google julkaisi i/o:n", googlen emoyhtiö alphabet ja googlen toimitusjohtaja sundar pichai sanoivat suoraan: "kun olemme tekoälyn käännepisteessä, mitä näen on mahdollisuudet, joten jos pidennät tätä aikajanaa, tietyllä tietyllä päivänä tapahtuvalla asialla ei ole merkitystä."

aivan kuten google, jota openai voittaa jatkuvasti,hei, joka tuli myöhässä, pitää naulaa kädessään ja näyttää yrittävän saada kiinni takaapäin.

questmobilen tietojen mukaan ai app:n kuukausittaisten aktiivisten käyttäjien määrä on heinäkuusta lähtien ylittänyt 66,3 miljoonaa. heidän joukossaan doubao, wen xiaoyan, kimi, hoshino ja tongyi sijoittuvat viiden parhaan joukkoon, ja kuukausittaisia aktiivisia käyttäjiä on 30,42 miljoonaa, 10,08 miljoonaa, 6,25 miljoonaa, 4,66 miljoonaa ja 4,24 miljoonaa.

vaikka doubao app julkaistiin huomattavasti myöhemmin kuin alibaban tongyi qianwen ja jopa myöhemmin kuin baidun wen xinyiyan ja kimi, doubaon kuukausittaiset aktiiviset käyttäjät ovat jo suurempia kuin neljän muun sovelluksen aktiivisten käyttäjien kokonaismäärä.

siksi tekoälyvideon luomisen alallanykyisessä tilanteessa, jossa kotimainen teknologinen läpimurto on hidas, byte näyttää myös uskovan saapuvansa myöhässä.

olipa kyseessä alan ensimmäisenä poistunut keling tai kauan odotettu byte beanbag -videomalli, kukaan ei näytä pystyvän kuromaan kiinni soraa heinä- ja syyskuussa videomalleja lanseeranneista valmistajista.

kuaishoun "mountains and seas' strange mirror: cutting the waves" -elokuvasta byten "sanxingdui: future apocalypse" -sarjaan, tekoälyn käyttämisestä lyhyiden näytelmien luomiseen on tullut "alkemiakivi" johtavien valmistajien tekoälyvideon sukupolvitehosteille.

on selvää, että verrattuna perinteisiin lyhytdraamiin, jotka vaativat oikeita hahmoja esiintymään ja olemaan vuorovaikutuksessa, mytologian, tieteiskirjallisuuden ja muun tyyppiset lyhyet draamat sopivat paremmin suuriin tekoälymalleihin nykyisessä vaiheessa.

"nykyinen tekoälyn sukupolven taso on epävakaa, ja on vaikea erottaa toisistaan todellisia ja vääriä tehosteita, kuten pommiräjähdyksiä ja ilotulitteita suurissa kohtauksissa, mutta se vaatii silti virheenkorjaushenkilöstöä tekemään säätöjä vielä 1-2 tuntia", zhang yang kertoi alphabet lista, nykyinen ai suuri malli luotu videoita, yksityiskohtaisempia ilmaisuja ja toimia merkkiä, on edelleen ongelmia luonnoton ilmaisuja, pieni liikerata, ja mekaanisia ilmaisuja.

zhu jiang, tekoälyn lyhytdraama-alusta reel.ai, sanoi myös suoraan haastattelussa: "muiden kuin animaatioiden lyhytdraaman odotetaan saavuttavan kulutettavia tasoja tämän vuoden toisella puoliskolla.

robin li sanoi kerran: "sillä ei ole väliä, oletko 12 kuukautta edellä vai 18 kuukautta jäljessä. jokainen yritys on täysin kilpailluilla markkinoilla. teet mitä tahansa, kilpailijoita on monia."

douyin app:lla, jonka käyttäjäkunta on 100 miljoonaa, ei ole vaikea selittää byten helppoutta. jopa tencentillä, joka ei ole vielä julkaissut suurta videomallia, on wechat, suurin sosiaalinen app, ja näyttää olevan enemmän valinnanvaraa zhang yimingille ja ma huatengille, jotka pitävät "nauloja".

"riippumatta siitä, minkä yrityksen videomallia käytät nyt, kyse on korttien piirtämisestä."

"noin yksi kymmenestä sukupolvesta voi todella täyttää kaupalliset standardit, mutta 10-kertainen virheenkorjausprosessi ei välttämättä ole yhtä tehokas kuin manuaalinen työ." , sanoi suoraan , nykyinen suuri malli ei täytä käyttäjän odotuksia sukupolven vaikutuksen suhteen.

"syöte luo videon ragdoll-kissasta. tuloksena on joko lelukissa tai puutarhakissa. kun käyttäjät eivät saa vakaita ja odottamattomia tuloksia 2-3 kokeilun jälkeen, käyttäjän säilyttäminen on vaikeaa."shan shanin silmissä tämä saattaa myös selittää, miksi soraa ei ole vielä julkaistu julkiseen testaukseen yli puoli vuotta julkaisunsa jälkeen.

vuoden alussa kerrottiin, että openai:n toimitusjohtaja altman investoi 7 biljoonaa dollaria yhteistyössä tsmc:n kanssa kiekkotehtaan rakentamiseen. syyskuussa openai paljasti, että tsmc työskentelee sen parissa "arka videomalli" "räätälöidyn a16 angstrom-tason prosessisirun kehittämisen tarkoituksena on parantaa sen videontuotantokykyä.

tämän a16-sirun tiheys kasvaa 1,10-kertaisesti."alemman hinnan ja energiankulutuksen käyttäminen nopeamman tekoälyvideon tuotannon edistämiseen" on ilmeisesti tärkeä syy siihen, miksi openai lykkäsi soran julkista betaversiota.

paremman tekoälyvideon tuotantotehosteen saavuttamiseksi korkeammat laskentatehokustannukset, alhaisemmat hinnat ja energiankulutus ovat myös tulleet avaintekijöiksi siihen, voivatko suuret kotimaiset videomallit lopulta "lopeta".

äskettäin paljastettiin, että byte aikoo tehdä yhteistyötä tsmc:n kanssa tekoälysirujen alalla, vaikka byte vastasi myöhemmin, että raportti ei pidä paikkaansa ja totesi, että sen tutkimus sirualalla keskittyy enemmän suositusten ja mainonnan optimointiin.jos kuitenkin kirjoitat byte-rekrytointisivustolle avainsanoja, kuten "siru", siellä on jo yli 200 asiaan liittyvää työpaikkaa, mukaan lukien ai-siruarkkitehtuuri ja sirun sil-testausinsinöörit.

mutta zhang yimingille ja jopa kotimaisille suurille mallipään valmistajille heidän kohtaamat haasteet voivat olla vaikeampia.

syyskuun 19. päivänä 2024 yunqi-konferenssissa dark side of the moonin perustaja yang zhilin sanoi, että gpt-o1:n lanseerauksen tärkein merkitys on nostaa tekoälyn ylärajaa. "tuottavuuden lisääminen 10 %:lla tai 10-kertaisella bkt:lla, tärkein kysymys tässä on, voidaanko sitä skaalata edelleen vahvistavan oppimisen avulla."

gpt-o1-aikakaudella doubaon, tongyi qianwenin, wenxinin ja kimin pikakeskustelu on siirtynyt 10 tai 20 sekunnin ajattelusta vastausten tuottamiseen ja siihen, että on mahdollista kutsua erilaisia työkaluja tehtävien suorittamiseksi minuuttitasolla tai jopa päivätasolla, kotimaisille käyttäjille jo tuttu tekoälyn pikaviestilomake tuo tullessaan valtavan muutoksen "tämä näyttää olevan pimeyden seuraava uusi aikataulu." side of the moon ottaa kiinni openai:sta.

kun uusi kilpailuhetki tulee jälleen, kotimaisten suurten mallivalmistajien suuret perusmallit eivät ole tuolloin nähneet "uusia roiskeita", mutta zhang yiming ja muut ovat jälleen valinnan edessä.

pitäisikö meidän edelleen investoida paljon "ihmisiä, rahaa ja laskentatehoa" toiminnallisiin skenaarioihin, kuten vincent video, iteroidaksemme, vai pitäisikö meidän oppia openai:sta ja ottaa käyttöön parannettu iterointireitti? bytelle, jolla ei ole rahapulaa, sillä voi tietysti olla "molemmat".

ja kun "vahvistusoppimisen" tuoma mielikuvitustila on riittävän suuri ja houkutteleva, ammutaan uusi aloitusase.

(zhang yang ja shan shan ovat nimimerkkejä artikkelissa)

uutiset

zhang yiming saapui myöhään, mutta jopa myöhemmin

johdanto

yhteystietoni