„king of beanbao“: bytedance veröffentlicht an einem tag zwei große videogenerierungsmodelle

der „könig von beanbao“: bytedance veröffentlicht an einem tag zwei große videogenerationsmodelle

2024-09-24

bytedance hat offiziell seinen einstieg in die ki-videogenerierung angekündigt. am 24. september veranstaltete volcano engine, eine tochtergesellschaft von bytedance, eine ki-innovationstour in shenzhen, veröffentlichte zwei große modelle von dou bao video generation-pixeldance und dou bao video generation-seaweed und startete einen einladungstest für den unternehmensmarkt.

die bei der veranstaltung gezeigte videogeneration war atemberaubend. ob es um semantische verständnisfähigkeiten, komplexe interaktive bilder mehrerer motivbewegungen oder inhaltskonsistenz beim wechsel mehrerer objektive geht, die großen modelle der doubao-videoerzeugung haben das fortgeschrittene niveau der branche erreicht. tan dai, präsident von volcano engine, sagte: „es gibt viele schwierigkeiten bei der videogenerierung, die überwunden werden müssen. die beiden modelle von doubao werden sich weiterentwickeln, mehr möglichkeiten zur lösung wichtiger probleme erkunden und die erweiterung des kreativen raums beschleunigen.“ und anwendung von ki-videos.“

bild: volcano engine-präsident tan dai veröffentlichte ein sitzsack-video-generationsmodell

innovative technologie zur lösung des problems der interaktion und konsistenz mehrerer agenten

die meisten früheren videogenerierungsmodelle konnten nur einfache anweisungen ausführen, während das doubao-videogenerierungsmodell natürliche und kohärente multi-shot-aktionen und komplexe multi-subjekt-interaktionen erzielen kann. als einige youtuber das doubao-videogenerierungsmodell im voraus ausprobierten, stellten sie fest, dass die damit generierten videos nicht nur komplexen anweisungen folgen und es verschiedenen charakteren ermöglichen konnten, die interaktion mehrerer aktionsanweisungen abzuschließen, sondern auch das aussehen der charaktere, kleidungsdetails und sogar kopfbedeckungen blieb bei verschiedenen bewegungen konstant und kam dem tatsächlichen schusseffekt nahe.

laut volcano engine basiert das doubao-videoerzeugungsmodell auf der dit-architektur. durch die effiziente dit-fusion-recheneinheit kann das video frei zwischen großer dynamik und beweglichen linsen umgeschaltet werden und verfügt über sprachfunktionen mit mehreren linsen wie zoom und surround , schwenken, zoomen und zielverfolgung. die neu entwickelte diffusionsmodell-trainingsmethode hat das konsistenzproblem beim wechseln mehrerer aufnahmen überwunden und kann beim wechseln der aufnahmen gleichzeitig die konsistenz von motiv, stil und atmosphäre beibehalten generationsmodell.

nach dem polieren und der kontinuierlichen iteration von geschäftsszenarien wie cutting und dream ai verfügt das doubao-videogenerierungsmodell über ein licht- und schattenlayout und eine farbkoordination auf professionellem niveau, und das visuelle erscheinungsbild ist äußerst schön und realistisch. die tief optimierte transformer-struktur verbessert die generalisierungsfähigkeit der doubao-videogenerierung erheblich, unterstützt 3d-animation, 2d-animation, chinesische malerei, schwarzweiß, dicke farbe und andere stile und eignet sich für filme, fernsehen, computer, mobiltelefone und andere geräte proportion eignet sich nicht nur für unternehmensszenarien wie e-commerce-marketing, animationsausbildung, urbanen kulturtourismus und mikroskripte, sondern kann auch professionellen kreativen und künstlern kreative unterstützung bieten.

derzeit wird das neue bean-bag-video-generierungsmodell in der internen beta-version von jimeng ai in kleinem maßstab getestet und in zukunft schrittweise für alle benutzer geöffnet. chen xinran, marktführer von jianying und jimeng ai, glaubt, dass ki intensiv mit den schöpfern interagieren und gemeinsam etwas schaffen kann, was viele überraschungen und inspirationen mit sich bringt. jimeng ai hofft, der engste und klügste kreative partner der benutzer zu werden.

doubao big model führt den branchenweit höchsten standard für gleichzeitigen datenverkehr ein

bei dieser veranstaltung fügte doubao big model nicht nur ein neues videogenerationsmodell hinzu, sondern veröffentlichte auch ein doubao-musikmodell und ein simultandolmetschermodell, das alle modi wie sprache, stimme, bild, video usw. vollständig abdeckt und vollständig erfüllt die anforderungen verschiedener branchen und bereiche.

während sich die leistungsfähigkeit der produkte zunehmend verbessert, nimmt auch die verwendung großer sitzsackmodelle rasant zu. laut volcano engine hat die tägliche durchschnittliche nutzung von token des doubao-sprachmodells im september 1,3 billionen überschritten, eine verzehnfachung gegenüber der ersten veröffentlichung im mai, und das multimodale datenverarbeitungsvolumen hat ebenfalls 50 millionen bilder und mehr erreicht 50 millionen bilder pro tag bzw. 850.000 stunden sprache.

zuvor hatten die großen doubao-modelle preise angekündigt, die unter 99 % der branche lagen, und führten damit den preissenkungstrend für inländische großmodelle an. tan dai glaubt, dass der preis großer modelle kein hindernis mehr für innovationen darstellt. mit der groß angelegten anwendung durch unternehmen werden große modelle, die einen größeren gleichzeitigen datenverkehr unterstützen, zu einem schlüsselfaktor in der branchenentwicklung.

laut tan dai unterstützen viele große modelle in der branche derzeit nur bis zu 300.000 oder sogar 100.000 tpm (tokens pro minute), was den datenverkehr in produktionsumgebungen von unternehmen nur schwer bewältigen kann. im dokumentübersetzungsszenario einer wissenschaftlichen forschungseinrichtung beträgt beispielsweise der spitzen-tpm 360.000, der spitzen-tpm eines bestimmten auto-smart-cockpits beträgt 420.000 und der spitzen-tpm eines ki-bildungsunternehmens erreicht 630.000. aus diesem grund unterstützt das große beanbao-modell standardmäßig ein anfängliches tpm von 800.000, was weit über dem branchendurchschnitt liegt. kunden können die kapazität auch je nach bedarf flexibel erweitern.

„mit unseren bemühungen konnten die anwendungskosten großer modelle gut gelöst werden. große modelle müssen vom volumenpreis zur volumenleistung übergehen, mit besseren modellfähigkeiten und dienstleistungen.“

yidan xiaofeng

bericht/feedback

nachricht

der „könig von beanbao“: bytedance veröffentlicht an einem tag zwei große videogenerationsmodelle

einführung

meine kontaktdaten