byte nutzt ki, um sein altes geschäft wiederzubeleben: den einstieg in groß angelegte videogenerierungsmodelle, die realitätsnahen effekten ähneln

2024-09-27

quelle dieses artikels: times weekly autor: he shanshan

der bereich der videogenerierung großer modelle begrüßt wichtige akteure.

am 24. september veranstaltete volcano engine, eine tochtergesellschaft von bytedance, eine ki-innovationstour in shenzhen. dabei wurden zwei große modelle der sitzsack-videogeneration – pixeldance und sitzsack-videogeneration – seaweed veröffentlicht und auch ein einladungstest für den unternehmensmarkt eröffnet.

bei großen modellen der videogenerierung ist die dauer des generierten videos sehr wichtig. derzeit beträgt die dauer der pixeldanc-videogenerierung 5 sekunden oder 10 sekunden und bei seaweed 5 sekunden. tan dai, präsident von volcano engine, sagte gegenüber time weekly und anderen medien: „es gibt viele schwierigkeiten bei der videogenerierung, die überwunden werden müssen. zu den vorteilen von volcano engine gehören die fähigkeit, anweisungen zu befolgen, kamerabewegungen (konsistenz des motivs unter mehreren objektiven)“ usw., hinter denen sich technologische durchbrüche und full-stack-fähigkeiten verbergen. darüber hinaus sind auch das verständnis von douyin und jianying für videos von vorteil.“

tan dai ist der ansicht, dass große videogenerierungsmodelle nicht nur die dauer diskutieren, sondern auch anwendungsszenarien mit unterschiedlichen anforderungen an die dauer berücksichtigen sollten, und huoshan legt mehr wert auf lösungen für unterschiedliche branchen. "

es ist erwähnenswert, dass das neue modell zur videogenerierung von sitzsäcken von jimeng ai in kleinem maßstab getestet und in zukunft schrittweise für alle benutzer geöffnet wird.

im februar dieses jahres kündigte zhang nan, der ehemalige ceo der douyin group, plötzlich an, dass er auf den filmschnitt umsteigen und den einsatz von ki im filmschnitt fördern werde. nur eine woche nach der bekanntgabe, dass openai für die bearbeitung verantwortlich ist, startete openai am 16. februar sora, das 1-minütige videos generieren kann, was vincents videofunktion wieder weltweit beliebt machte. gleichzeitig kündigte zhang nan als verantwortlicher für das redaktionsgeschäft die einführung von ji meng auf wechat moments an, was auch zhang nans erstes wichtiges produktupdate nach seinem transfer darstellte.

auf der ai innovation tour stellte chen xinran, leiter des ki-marketings für jianying und jimeng, den neuesten stand der „ki-isierung“ der beiden apps vor. sie sagte, dass die produktion von inhalten ähnlicher qualität in der vergangenheit ein team von 5–10 personen erforderte, einschließlich der erstellung von handlungssträngen, der verfeinerung von spezialeffekten, der verpackung und bearbeitung usw. der zusammenarbeitsprozess war komplex, der produktionszyklus dauerte 1–2 monate , und es waren große geld- und ressourceninvestitionen erforderlich. aber mit hilfe von ki können die meisten kreativen die kreation alleine abschließen und die produktionszeit wurde auf 1-2 wochen verkürzt.

tan dai erwähnte in seiner rede auch: „es gibt viele schwierigkeiten bei der videogenerierung, die überwunden werden müssen. die beiden doubao-modelle werden sich weiterentwickeln, mehr möglichkeiten zur lösung wichtiger probleme erkunden und die erweiterung des kreativen raums und der anwendung beschleunigen.“ von ki-videos.“

auf jeden fall bedeutet die geburt des großen doubao-videogenerierungsmodells und seine verwendung in jimeng und jianying, dass bytedance dem einsatz von ki zur verbesserung des „alten geschäfts“ videos einen schritt näher gekommen ist.

quelle: foto aufgenommen vom times weekly-reporter vor ort

kann die objektive frei wechseln

berichten der volcano engine-website zufolge nimmt die verwendung großer sitzsackmodelle rasant zu.

bis september hat die tägliche durchschnittliche nutzung von doubao-sprachmodell-tokens 1,3 billionen überschritten, eine verzehnfachung gegenüber der einführung im mai. das multimodale datenverarbeitungsvolumen hat außerdem 50 millionen bilder bzw. 850.000 sprachstunden pro tag erreicht.

mit der großen nutzerzahl hat das sitzsack-modell noch einmal neue veränderungen mit sich gebracht. es wurde nicht nur ein neues videogenerierungsmodell hinzugefügt, sondern auch ein bean-bag-musikmodell und ein simultandolmetschermodell veröffentlicht, die alle modi wie sprache, sprache, bilder und videos vollständig abdecken.

bisher konnten die meisten videogenerierungsmodelle nur einfache anweisungen ausführen. das doubao-videogenerierungsmodell kann natürliche und kohärente multi-shot-aktionen und komplexe interaktionen mit mehreren subjekten erzielen – es kann nicht nur komplexe anweisungen befolgen, sondern auch verschiedenen charakteren ermöglichen, die interaktion abzuschließen von mehreren aktionsanweisungen das aussehen, die kleidungsdetails und sogar die kopfbedeckung bleiben bei verschiedenen kamerabewegungen konsistent, was der wirkung echter aufnahmen nahe kommt.

das doubao-videogenerierungsmodell basiert auf der dit-architektur. durch die effiziente dit-fusion-recheneinheit kann das video frei zwischen großen dynamik- und beweglichen linsen umgeschaltet werden und verfügt über sprachfunktionen für mehrere linsen wie zoom, surround, schwenken, zoomen usw. und zielverfolgung. „das bedeutet, dass das von doubao erzeugte video das problem der konsistenz beim wechsel mehrerer szenen überwindet und beim wechseln der aufnahmen gleichzeitig die konsistenz des motivs, des stils und der atmosphäre beibehalten kann. dies ist auch eine einzigartige technologische innovation der.“ „doubao-videogenerierungsmodell“, sagte tan dai.

in bezug auf die zukünftige ausrichtung des modells sagte tan dai, dass volcano engine mehr wert auf eine bessere implementierung und beschleunigte innovation auf der grundlage bestehender modelle legt: „technologie muss den bedürfnissen der benutzer gerecht werden und neue und alte technologien müssen ständig angepasst und angepasst werden. der ausgereifte standard.“ bei großen modellen ist der benutzer nach der inkubation ein echtes und gutes feedback, das ein gewisses maß an volumen hat, und nicht das feedback aus dem labor. beispielsweise haben jimeng und doubao eine große anzahl interner tests und benutzerfeedback wichtiges bewertungskriterium.“

zuvor hatte doubao big model einen token-preis festgelegt, der unter 99 % der branche lag, und war der erste vulkanmotor, der eine welle von preissenkungen auslöste. die preise für die nutzung der großen modelle von doubao video sind derzeit noch nicht bekannt gegeben. tan daidai sagte gegenüber times weekly und anderen medien, dass die anwendungsszenarien von videomodellen und sprachmodellen unterschiedlich seien und auch die preislogik unterschiedlich sei. „neue erfahrung – alte erfahrung – migrationskosten“ muss berücksichtigt werden das ende hängt davon ab, um wie viel sich der produktivitäts-roi im vergleich zum vorherigen verbessert.

quelle: offizielle website von jimeng

entdecken sie native ki-produkte

zuvor konnten normale benutzer von jimeng 3-sekündige ki-kurzvideos erstellen, während vip-benutzer die zeit um 3 sekunden verlängern konnten.

ab märz dieses jahres hat cutting die ki-funktionen intensiv aktualisiert, wie zum beispiel intelligente untertitel, videoübersetzung und andere funktionen. es hat sich auch mit douyin zusammengeschlossen, um traffic und geldprämien für kurze videos zu unterstützen, die die schnitt-ki-funktion nutzen. beispielsweise können herausragende werke traffic-unterstützung in höhe von dou + 500 yuan pro video erhalten. derzeit beträgt der vip-mitgliedsbeitrag von jianying 218 yuan für ein jahr, mit einer durchschnittlichen monatlichen gebühr von 18,17 yuan, während der monatliche vip-mitgliedsbeitrag von dream 69 yuan beträgt.

auf der ai innovation tour erwähnte chen xinran, dass „die technologie im zusammenhang mit großen sitzsackmodellen auf ausschnitte, traum-ki und wachbilder angewendet wurde“ und führte unter der anwendung der ki-technologie neue funktionen ein.

beispielsweise kann in digitalen klonanwendungen die funktion zum digitalen klonen menschlicher stimmen online basierend auf der technologie zum klonen von stimmen angepasst werden. digitalproduzenten müssen lediglich ein 3-minütiges hochauflösendes frontalvideo aufnehmen oder hochladen, und das tone-klonen erfordert nur 5 sekunden spracheingabe, um eine natürliche, sanfte, widerspruchsfreie stimme zu erzeugen, und kann auch in verschiedene sprachen übersetzt werden. „wir sind sehr besorgt über datenschutz- und sicherheitsfragen. wir benötigen eine persönliche bestätigung der benutzer auf der produktdesign- und technischen ebene. wir werden auch auf neue branchenvorschriften achten, um die servicesicherheit und -zuverlässigkeit zu verbessern.“

darüber hinaus gibt es auch „content-marketing“-erstellungstools für e-commerce-händler. in der vergangenheit haben händler möglicherweise mehrere stunden damit verbracht, douyin und tiktok zu durchsuchen, um die beliebten videoroutinen zu analysieren, die routinen zu zerlegen und die kopie zu kopieren, und auch mehrere stunden mit der bearbeitung verbracht. jetzt dauert es nur noch wenige minuten, den produktnamen einzugeben laden sie es hoch, indem sie materialien hinzufügen oder links zu produktseiten einfügen, um mit einem klick mehrere verschiedene arten von liefervideos zu erstellen.

chen xinran erwähnte ausdrücklich, dass jianying neben der anwendung von ki auf bestehende produkte auch die möglichkeit von ki-nativen produkten in der gena-ära (generative künstliche intelligenz) erkundet. „jimeng ai ist eine erforschung dieser richtung.“ verbunden mit zwei großen videogenerierungsmodellen zum internen testen der szenenpolitur und der effektpolitur. es sollte spaß machen, fröhlich sein und frei sein.

tan dai sagte auch, dass die anwendungskosten großer modelle gut gelöst wurden: „große modelle müssen vom volumenpreis zur volumenleistung übergehen und bessere modellfunktionen und -dienste bieten.“

nachricht

byte nutzt ki, um sein altes geschäft wiederzubeleben: den einstieg in groß angelegte videogenerierungsmodelle, die realitätsnahen effekten ähneln

einführung

meine kontaktdaten