zhang yiming kam spät, aber noch später

2024-09-25

ab september sind große videomodelle zum neuen ki-wettbewerbspunkt für große hersteller geworden. aber dieses mal kam zhang yiming wieder zu spät.

es ist fünf tage her, seit alibaba tongyi qianwen wensheng video auf den markt kam, und drei monate, seit kuaishou im juni keling veröffentlichte. am 24. september brachte byte schließlich sein eigenes doubao-videogenerierungsmodell auf den markt.

bemerkenswert ist, dass zhang yiming, der den return on investment (roi) immer schätzt und pragmatisch ist, von anfang an den ton der „kommerzialisierung“ für das doubao-videomodell vorgegeben hat.

bei der veranstaltung sagte tan dai, präsident von volcano engine:das doubao-videogenerierungsmodell wurde seit seiner einführung für eine kommerzialisierung in betracht gezogen.zu den anwendungsbereichen gehören e-commerce-marketing, animationspädagogik, städtischer kulturtourismus und mikroskripte wie musik-mvs, mikrofilme und kurztheaterstücke.

legende: geben sie „ein kleines mädchen mit einer weihnachtsmütze und einer ragdoll-katze“ ein, um die rendering-quelle zu generieren: alphabet list

gleichzeitig betonte tan dai auch, dass er vor der veröffentlichung des doubao-videomodells bereits in vielen kurzdramaprojekten auf douyin „aufgetaucht“ sei. letzten monat veröffentlichte kunlun wanwei skyreels, eine ki-plattform zur erstellung von kurzdramen, und im juli veröffentlichte meitu xiuxiu moki, ein ki-tool zur erstellung von kurzdramen.

„mittlerweile gibt es hunderte von unternehmen, die kurzfilme im ausland verkaufen und zu ki-nutzern großer modelle geworden sind.“ ein führender ki-tool-dienstleister sagte auch, dass ki bei großen modellherstellern wie byte zur reduzierung hoher film- und fernsehproduktionskosten eingesetzt wird. mit dem segen der ki werden kurzspiele und mvs zu content-produkten ähnlich wie online-artikel und kurzvideos mit mehr benutzerbeteiligung. seiner ansicht nach spielt „byte, das spät kam, ein kommerzielles spiel.“

als sora explodierte, wurde die frage, ob es ein großes videomodell auf den markt bringen könnte, zum „neuen standard“ für die messung, ob die technologie großer modellhersteller im jahr 2024 fortgeschritten ist.

bei dieser verfolgung von sora hat byte es „nicht eilig“ bis ende september verschoben, um „einen platz zu reservieren“ für das videomodell, als doubao model pro aktualisiert wurde.

als alphabet jimeng ai eröffnete, wurde darauf hingewiesen, dass c-end-benutzer nach der anwendung des beanbao-videomodells die videogenerierung in jimeng ai erleben können.

die maximale generierungszeit von 12 sekunden ist „fair“, und der generierungseffekt von qi ke ling ist „nicht erstaunlich, aber er ist ein paar monate zu spät und wurde durch das große videomodell nicht aus der technischen lücke geworfen.“ wurde erstmals veröffentlicht.“ als die erste reihe interner tests sagte zhang yang, ein ki-praktiker des doubao-videomodells, gegenüber alphabet, dass inländische videomodelle zwar intensiv aktualisiert würden,das vertrauen in die verspätete ankunft von byte könnte auf die tatsache zurückzuführen sein, dass die auswirkungen der vorherigen ki-videogeneration die benutzer nicht „überrascht“ haben.

während heimische modelle hinter sora her sind, hat openai mit der einführung von gpt-o1 bereits einen neuen weg des verstärkenden lernens für große basismodelle aufgezeigt und könnte eine neue ära mit einem wert von über einer billion einläuten hersteller, es wird auch neue matchbälle geben.

die zuvor von jianying eingeführte jimeng ai unterstützt nur eine videodauer von 3 sekunden. nach dem laden des großen sitzsackmodells kann jimeng ai videos von 3 bis 12 sekunden erzeugen.

im gegensatz dazu kann keling version 1.0 ohne mitgliedschaft nur 5 sekunden videogenerierung erleben, während bytes jimeng ai benutzer kostenlose testversionen unterstützt, indem sie 66 punkte vergibt, wenn sie sich täglich anmelden.

im gegensatz zum doubao-modell, das begonnen hat, den „null-yuan-kauf großer modelle“ mit einem preis von weniger als 98 % in der branche anzuregen, was zu hitzigen diskussionen führte, scheint das doubao-modell nicht im einklang mit bytes tradition zu stehen „große dinge im stillen erledigen“.

geben sie das schlüsselwort „ein kleines mädchen mit einer ragdoll-katze“ ein. in der geschlossenen betaversion vor der veröffentlichung des doubao-videomodells schien die ki die ragdoll-katze und das generierte video zum ersten mal als puppe zu verstehen war von einer falschen katze in ihren armen, auch die gesichter im video sind leicht steif.

nachdem sie am 25. september erneut generiert wurde, verwandelte sich die ragdoll-katze in eine hirtenkatze. erst als sie zum dritten mal generiert wurde, führte das große ki-modell die anweisungen genau aus. zhang yang sagte gegenüber alphabet, dass die wirkung der verwendung des großen doubao-videomodells als einer der ersten ki-praktiker in internen tests nicht erstaunlich sei.

das große modell von doubao video kann jedoch zwischen verschiedenen stilen wie 3d-animation, 2d-animation, chinesischer malerei, schwarzweiß und dicker farbe wechseln. sie können die kamera auch zufällig bewegen oder die kamerabewegungsmodi wie das vergrößern anpassen und verkleinern. im vergleich zu nur 16:9, 9:16 und 1:1 sind offensichtlich drei bildschirmverhältnisse für verschiedene bildschirmverhältnisse geeignet, darunter 3:4, 2:3, 4:3, 3:1. 2 und mehr verhältnisoptionen.

nach ansicht von zhang yang bietet doubao tatsächlich mehr auswahlmöglichkeiten hinsichtlich der benutzerinteraktionserfahrung. obwohl das doubao-video-großmodell das umschalten mehrerer kameras innerhalb einer eingabeaufforderung realisieren kann, „ist die verbindung des gesamtbilds immer noch etwas ungleichmäßig und die ausdrücke der charaktere sind etwas verzerrt.“

es überrascht jedoch nicht, dass zhang yiming dieses mal „pragmatismus“ in die dna des doubao-videomodells eingravierte.

nachdem das große modell von doubao video veröffentlicht wurde, wurde es zum testen für den unternehmensmarkt eingeladen. gleichzeitig sagte tan daigeng, präsident von volcano engine:das doubao-videogenerierungsmodell wurde seit seiner einführung für eine kommerzialisierung in betracht gezogen.zu den anwendungsbereichen gehören e-commerce-marketing, animationspädagogik, städtischer kulturtourismus und mikroskripte wie musik-mvs, mikrofilme und kurztheaterstücke.

anders als andere ki-startups, die „mit dem hammer nach nägeln suchen“, sei es bytedance oder kuaishou, „hat es seinen eigenen inhalt und seine eigene plattform, und die nägel sind in der hand, sodass die erstellung großer videomodelle natürlich mehr anwendungsszenarien bietet.“ zhang yang sagte:

am 24. juli enthüllte der offizielle wechat-beitrag von keling ai, dass die zahl der benutzer, die berechtigungen beantragt haben, 1 million überschritten hat, und am selben tag wurde ein kostenpflichtiges mitgliedschaftssystem eingeführt, das drei mitgliedschaftskategorien umfasst: gold, platin und diamant der jährliche mitgliedspreis beginnt bei mehr als 500 yuan und reicht von mehr als 5.000 yuan. für byte, das spät ins spiel kommt, mag es technisch zwar auf augenhöhe mit keling sein, aber auf dem weg der kommerzialisierung scheint keling, das bereits mit der c-end-zahlung begonnen hat, wieder einen schritt voraus zu sein.

angesichts des problems „openai hat gpt-4o einen tag vor der veröffentlichung von i/o durch google veröffentlicht“ sagte google-muttergesellschaft alphabet und google-ceo sundar pichai im mai unverblümt: „wenn wir uns am wendepunkt der ki befinden, was ich sehe.“ ist chancen, wenn sie also diese zeitachse verlängern, dann wird eine bestimmte sache, die an einem bestimmten tag passiert, keine rolle spielen.

genau wie google, das ständig von openai geschlagen wird,bye, der zu spät kam, hat nägel in der hand und scheint von hinten aufzuholen.

laut daten von questmobile lag die zahl der monatlich aktiven nutzer der ai app im juli bei über 66,3 millionen. unter ihnen gehören doubao, wen xiaoyan, kimi, hoshino und tongyi zu den top 5 mit monatlich aktiven nutzern von 30,42 millionen, 10,08 millionen, 6,25 millionen, 4,66 millionen bzw. 4,24 millionen.

obwohl die doubao app deutlich später als tongyi qianwen von alibaba und sogar später als wen xinyiyan und kimi von baidu veröffentlicht wurde, sind die monatlichen aktiven nutzer von doubao bereits größer als die gesamtzahl der aktiven nutzer der anderen vier apps.

daher ist im bereich der ki-videogenerierungangesichts der aktuellen situation schleppender inländischer technologischer durchbrüche scheint byte auch die zuversicht zu haben, zu spät zu kommen.

ob keling, der als erster aus der branche ausstieg, oder das lang erwartete byte beanbag-videomodell, unter den herstellern, die im juli und september videomodelle auf den markt gebracht haben, scheint niemand mit sora mithalten zu können.

von kuaishous „mountains and seas‘ strange mirror: cutting the waves“ bis hin zu bytes „sanxingdui: future apocalypse“ ist die verwendung von ki zur erstellung kurzer theaterstücke zum „alchemiestein“ für ki-videogenerierungseffekte führender hersteller geworden.

im vergleich zu traditionellen kurzdramen, bei denen echte charaktere auftauchen und interagieren müssen, eignen sich kurzdramen aus mythologie, science-fiction und anderen genres derzeit offensichtlich besser für große ki-modelle.

„das aktuelle niveau der ki-generierung ist instabil und es ist schwierig, in großen szenen zwischen echten und falschen effekten wie bombenexplosionen und feuerwerk zu unterscheiden, aber es erfordert noch ein bis zwei stunden lang anpassungen durch das debugging-personal“, sagte zhang yang alphabet list sagte, dass das aktuelle ki-großmodell videos mit detaillierteren ausdrücken und aktionen von charakteren erstellt und immer noch probleme mit unnatürlichen ausdrücken, kleinen bewegungsbereichen und mechanischen ausdrücken aufweist.

zhu jiang, die ki-kurzdramenplattform reel.ai, sagte in dem interview ebenfalls unverblümt: „es wird erwartet, dass kurzdramen ohne animation in der zweiten hälfte dieses jahres ein konsumierbares niveau erreichen werden.“

robin li sagte einmal: „es spielt keine rolle, ob man 12 monate im voraus oder 18 monate im rückstand ist. jedes unternehmen befindet sich in einem vollkommen wettbewerbsorientierten markt. egal, was man tut, es wird viele konkurrenten geben.“

da die douyin-app eine nutzerbasis von 100 millionen hat, ist es nicht schwer, die leichtigkeit von byte zu erklären. sogar tencent, das noch kein großes videomodell veröffentlicht hat, verfügt über wechat, die größte soziale app, und scheint mehr auswahl für zhang yiming und ma huateng zu haben, die „die nägel festhalten“.

„egal, welches videomodell welches unternehmen sie jetzt verwenden, es geht nur darum, karten zu ziehen.“

„ungefähr 1 von 10 generierungen kann tatsächlich kommerziellen standards entsprechen, aber der prozess des 10-fachen debuggens ist möglicherweise nicht so effizient wie manuelle arbeit.“ nachdem er mehrere große videomodelle auf dem markt ausprobiert hatte, sagte shan shan, ein film- und fernsehpraktiker , sagte er unverblümt, das aktuelle große modell erfülle nicht die erwartungen der nutzer hinsichtlich der generierungswirkung.

„die eingabe erzeugt ein video einer ragdoll-katze. das ergebnis ist entweder eine spielzeugkatze oder eine gartenkatze. wenn benutzer nach 2-3 versuchen keine stabilen und unerwarteten ergebnisse erhalten, wird es schwierig, die benutzerbindung wirklich abzuschließen.“in shan shans augen könnte dies auch erklären, warum sora mehr als ein halbes jahr nach seiner veröffentlichung noch nicht für öffentliche tests freigegeben wurde.

zu beginn des jahres gab es berichte, dass openai-ceo altman in zusammenarbeit mit tsmc 7 billionen us-dollar in den bau einer waferfabrik investieren würde, um auf nvidias selbst entwickelte chips zu verzichten. im september wurde bekannt gegeben, dass tsmc daran arbeitet „wundes videomodell“ „der zweck der entwicklung eines maßgeschneiderten a16-angström-prozesschips besteht darin, seine videoerzeugungsfähigkeiten zu verbessern.

die dichte dieses a16-chips wird um das 1,10-fache erhöht. bei gleicher betriebsspannung wird die geschwindigkeit um 8 % bis 10 % erhöht.die nutzung von „geringerem preis und energieverbrauch zur förderung einer schnelleren ki-videoerzeugung“ ist offensichtlich ein wichtiger grund, warum openai die öffentliche beta von sora verschoben hat.

um bessere ki-videoerzeugungseffekte zu erzielen, sind höhere rechenleistungskosten, niedrigere preise und energieverbrauch auch zu schlüsselfaktoren dafür geworden, ob große inländische videomodelle irgendwann „ausgehen“ können.

kürzlich wurde bekannt, dass byte eine zusammenarbeit mit tsmc bei ki-chips plant, obwohl byte später antwortete, der bericht sei unwahr und erklärte, dass sich seine erkundung im chipbereich mehr auf die geschäftsoptimierung von empfehlungen und werbung konzentriere.durch die eingabe von schlüsselwörtern wie „chip“ auf der rekrutierungswebsite von byte gibt es jedoch bereits mehr als 200 verwandte stellen, darunter ai-chip-architektur und chip-sil-testingenieure.

aber für zhang yiming und sogar inländische große hersteller von modellköpfen könnten die herausforderungen, vor denen sie stehen, schwieriger sein.

am 19. september sagte yang zhilin, gründer von dark side of the moon, auf der yunqi-konferenz 2024, dass die hauptbedeutung des starts von gpt-o1 darin bestehe, die obergrenze der ki zu erhöhen. „eine steigerung der produktivität um 10 % oder das zehnfache des bip. die wichtigste frage hierbei ist, ob sie durch verstärkendes lernen weiter skaliert werden kann.“

in der gpt-o1-ära hat sich der instant-chat von doubao, tongyi qianwen, wenxin und kimi vom 10- oder 20-sekündigen nachdenken über die generierung von antworten zu der möglichkeit entwickelt, verschiedene tools zum ausführen von aufgaben auf minutenebene oder sogar auf minutenebene aufrufen zu können tagesebene, die ki-instant-chat-produktform, mit der inländische benutzer bereits vertraut sind, wird eine große veränderung einleiten: „dies scheint der nächste neue zeitplan für die dunkelheit zu sein.“ side of the moon, um mit openai schritt zu halten.

wenn wieder ein neuer moment des wettbewerbs kommt, haben die großen basismodelle inländischer großmodellhersteller zu diesem zeitpunkt noch keine „neuen spritzer“ erlebt, aber für zhang yiming und andere stehen sie erneut vor der wahl.

sollten wir weiterhin viel „menschen, geld und rechenleistung“ in funktionsszenarien wie vincent video investieren, um zu iterieren, oder sollten wir von openai lernen und eine verbesserte iterationsroute einführen? für byte, dem es nicht an geld mangelt, kann es natürlich „beides haben“.

und wenn der durch „reinforcement learning“ geschaffene fantasieraum groß genug und verlockend genug ist, wird ein neuer startschuss abgefeuert. kann byte, der es nicht geschafft hat, dieses mal aufzustehen, weiterkommen?

(zhang yang und shan shan sind im artikel pseudonyme)

nachricht

zhang yiming kam spät, aber noch später

einführung

meine kontaktdaten