beanbao-angriff, byte-version von sora ist „spät, aber angekommen“ volcano engine-präsident tan dai: erwägen sie die kommerzialisierung, sobald sie auf den markt kommt

2024-09-26

„der entwicklungspfad des großen byte-modells besteht darin, zuerst zu c zu gehen, um das produkt zu polieren, und dann zu b zu gehen, um den markt zu erweitern, nachdem die modellfähigkeiten einen wettbewerbsvorteil haben.“ am 25. september sagte tan daizai, präsident von volcano engine, nahm ein interview mit „daily economic news“ an, sagte er während eines interviews mit einer mediengruppe, an der auch journalisten teilnahmen.

basierend auf diesem entwicklungspfad wurde das sitzsack-videogenerierungsmodell offiziell auf der volcano engine ai innovation tour 2024 vorgestellt, nachdem im mai dieses jahres eine frühe version auf die vom redaktionsteam entwickelte ki-erstellungsplattform „ji meng“ angewendet wurde am 24. september und richtet sich an den unternehmensmarkt, der für betatests geöffnet ist.

seit sora die „chatgpt-ära des videos“ eingeläutet hat, haben inländische große model-player wie kuaishou, zhipu ai, minimax und alibaba nacheinander ähnliche produkte auf den markt gebracht. kann bytedance nun die bestehende wettbewerbslandschaft großer video-models verändern? ?

durch die demonstration der auswirkungen der beiden videogenerierungsmodelle auf der pressekonferenz glaubt tan dai, dass die große doubao-videogenerierung unabhängig davon ist, ob es sich um die fähigkeit zum semantischen verständnis, um komplexe interaktive bilder mehrerer motivbewegungen oder um die inhaltskonsistenz beim umschalten mehrerer objektive handelt das modell hat das branchenführende niveau erreicht.

gleichzeitig wurden auf der konferenz das „music generation model“ und das „simultaneous interpretation model“ vorgestellt, wodurch das gebiet von byte ai weiter erweitert wurde.

als erster akteur der branche, der die preise für große modelle gesenkt hat, hat volcano engine seine kommerzialisierung deutlich beschleunigt. tan dai sagte dem reporter der „daily economic news“, dass die zahl der anrufe bei b rapide zunehme. „mir ist das to-c-geschäft nicht so klar, aber ich habe das gefühl, dass es sehr reibungslos läuft. ich denke, dass ki probleme durchgängig lösen kann, und die grenzen zwischen to-b- und to-c-geschäft sind nicht so offensichtlich.“

ein reporter der „daily economic news“ erfuhr auf der pressekonferenz, dass die durchschnittliche tägliche nutzung von tokens im doubao-modell im september dieses jahres 1,3 billionen überschritten hat und durchschnittlich 50 millionen bilder pro tag generiert werden die tägliche sprachverarbeitung beträgt 850.000 stunden.

byte geht ins ki-video ein und „beginnt, über eine kommerzialisierung nachzudenken, sobald es erscheint“

am 31. august veröffentlichte minimax, einer der „six little dragons of ai“, das videogenerationsmodell video-1; am 19. september schloss keling ai seine 9. iteration ab und veröffentlichte am selben tag das „keling 1.5-modell“. yunqi auf der konferenz stellte alibaba cloud ein neues videogenerierungsmodell vor. in weniger als einem monat begrüßte das bereits turbulente feld der videogenerierungsmodelle einen neuen player.

auf der volcano engine ai innovation tour am 24. september wurden zwei große modelle von doubao video generation-pixeldance und doubao video generation-seaweed gemeinsam veröffentlicht.

der reporter von „daily economic news“ bemerkte, dass die maximale dauer der von diesen beiden großen modellen unterstützten videoinhaltsgenerierung noch nicht bekannt gegeben wurde. die jimeng-app zeigt, dass sie die videoinhaltsgenerierung von 3 sekunden, 6 sekunden, 9 sekunden und 12 sekunden unterstützt. im gegensatz dazu hat keling am 21. juni eine videofortsetzungsfunktion eingeführt, mit der das video etwa 5 sekunden lang fortgesetzt werden kann und das längste video etwa 3 minuten lang generiert werden kann.

fotoquelle der pressekonferenz: foto von yang xinyi, einem reporter von daily news

„verschiedene szenarien haben unterschiedliche anforderungen an die videodauer, und wir legen mehr wert auf lösungen für unterschiedliche branchen.“ in der branche liegt es vor allem an der fähigkeit, anweisungen zu befolgen, an der konsistenz des wechsels mehrerer objektive und an der verallgemeinerungsfähigkeit der videogenerierung.

auf der pressekonferenz demonstrierten viele offizielle videos die oben genannten fähigkeiten: in einem demonstrationsvideo, in dem ein mann und eine frau zu pferd galoppieren, zeigten die beiden personen auf dem 10-sekunden-bildschirm beispielsweise unterschiedliche gesichtsausdrücke und bewegungen, aber beide zeigten eine leistung naja. natürlich und geschmeidig.

es ist erwähnenswert, dass das große doubao-videogenerierungsmodell die generierung von schwarzweiß, 3d-animationen, 2d-animationen, chinesischer malerei, dicker farbe und anderen inhaltsstilen unterstützt.

„für videogenerierungsmodelle ist es schwierig, unterschiedliche stile (der produktion von inhalten) zu erstellen. neben der technologie hängt es hauptsächlich von der fülle der datenquelle ab“, sagte ein großer modelltechniker dem reporter „daily economic news“. tan dai führte dies auf „die vorteile der full-stack-fähigkeiten, technologische durchbrüche und douyins und jianyings verständnis von video“ zurück.

tan dai hielt sich an den grundsatz des pragmatismus und sagte, dass das neue bean-bag-video-generierungsmodell „seit seiner einführung über eine kommerzialisierung nachdenkt“ und zu seinen anwendungsfeldern e-commerce-marketing, animationsausbildung, städtischer kulturtourismus und mikroskripte gehören.

keling ist ebenfalls „ängstlich“ hinsichtlich der kommerzialisierung. bei der telefonkonferenz zu den ergebnissen des zweiten quartals am abend des 20. august betrachtete cheng yixiao, mitbegründer, vorsitzender und ceo von kuaishou, die kommerzialisierung von keling als oberste priorität und „strebt danach, so schnell wie möglich eine beträchtliche kommerzielle realisierung zu erreichen“. ."

als tan dai über die preisstrategie sprach, gab er bekannt, dass der preis des doubao-videoerzeugungsmodells noch nicht festgelegt wurde. „die anwendungsszenarien von videomodellen und sprachmodellen sind unterschiedlich, und auch die preislogik ist unterschiedlich. der wert des produkts muss anhand neuer erfahrungen, migrationskosten usw. gemessen werden. ob (das produkt) am ende weit verbreitet sein kann.“ hängt auch davon ab, ob sich die produktivität (roi) (return on investment) stark verbessert hat.“

„der preis ist nicht länger die schwelle für innovation.“ kommen cloud-anbieter im ki-zeitalter auf das neue schlachtfeld?

neben dem neuen videogenerationsmodell wurden bei dieser veranstaltung auch bean-bag-musikmodelle und simultandolmetschermodelle vorgestellt. bisher deckte die vollmodale große modellfamilie von doubao die drei kategorien große sprachmodelle, große visuelle modelle und große sprachmodelle ab, und insgesamt wurden 13 große modelle veröffentlicht.

aber modelle allein reichen nicht aus. viele leute in der branche sagen, dass die aktuelle umsetzung großer modellhersteller „mit dem hammer nach nägeln sucht“. das auffinden von nägeln und die verwendung eines geeigneten hammers zum hämmern von nägeln mit weniger kraftaufwand könnte im zeitalter der künstlichen intelligenz zu neuen herausforderungen für cloud-anbieter werden.

das erste ist das kostenproblem, das zwischen großen modellherstellern und unternehmen besteht.

auf der pressekonferenz im mai gab tan dai bekannt, dass der inferenz-eingabepreis des hauptmodells von doubao nur 0,0008 yuan/tausend token beträgt, was 99,3 % günstiger ist als in der branche, was einen preiskampf im bereich der großen modelle auslöste.

„die kosten sind der schlüssel. wenn der preis um ein zehntel sinkt, kann sich das volumen verzehnfachen.“ nach ansicht von tan dai liegt der fokus derzeit auf der anwendungsabdeckung und nicht auf dem umsatz ich glaube, dass die erschließung neuer szenarien wertvoller ist, beispielsweise szenario-upgrades im chat, kameradschaft, produktivität und die erweiterung von unternehmensanwendungsszenarien.“

er bestand jedoch auch darauf, dass die geschäftsvoraussetzung für den b-end-markt nachhaltig sein müsse: „wir können nicht in betracht ziehen, mit werbung geld zu verdienen, wie das für das c-geschäft, und wir müssen die fähigkeit dazu haben.“ selbstvertrauen, es zu tun.

nachdem das große doubao-modell bei der preissenkung die führung übernommen hatte, senkten auch alibaba tongyi qianwen, baidu wenxin yiyan und andere modelle sukzessive ihre preise. auf der diesjährigen yunqi-konferenz wurden die preise der drei hauptmodelle von tongyi qianwen auf der alibaba cloud bailian-plattform erneut gesenkt, sagte zhou jingren, cto von alibaba cloud, sogar, dass sie „im vergleich zu den riesigen anwendungen in der zukunft immer noch zu teuer“ seien ."

zur aktuellen situation dieser branche sagte tan dai, dass nach der preissenkung, gemessen an der anzahl der anrufe, die kosten kein hindernis mehr für innovationen seien: „als nächstes müssen wir die qualität und leistung des modells verbessern.“ der qualitätsindex dient dazu, das modell leistungsfähiger und vielfältiger zu machen.“

nach einer runde „allgemeiner reduzierungen“ wird die große modellindustrie die preise nicht mehr blind „reduzieren“. in dieser phase liegt der wettbewerb in der modellleistung, die auch durch die kundennachfrage gestützt wird.

laut tans beobachtung ändert sich die nachfrage auf dem b-markt bei der implementierung großer modelle langsam, und die kernforderung besteht darin, kosten zu senken und die effizienz zu steigern. „wenn unternehmen ki einsetzen, haben sie früher von oben nach unten geplant, was eine hohe fehlerwahrscheinlichkeit mit sich brachte. jetzt müssen sie von unten nach oben innovieren.“

der reporter von „daily economic news“ bemerkte, dass volcano engine sich im rahmen der unterstützung von unternehmen bei der digitalen transformation mit allen parteien zusammengetan hat, um die smart terminal large model alliance, die automobile large model ecological alliance und die retail large model ecological alliance zu gründen , und externe kunden decken mehr als 30 branchen ab, darunter mobiltelefone, automobile, finanzen, konsum und interaktive unterhaltung.

jetzt hat byte ein paar weitere praktische „hämmer“ in der hand, wie man in allen lebensbereichen weitere „nägel“ findet, die zu ihnen passen, wird der nächste test der volcano engine sein.

tägliche wirtschaftsnachrichten

bericht/feedback

nachricht