sora wurde erneut übertroffen! das meta-ki-videomodell explodiert und macht die videobearbeitung einfacher als p-pictures

sora wurde erneut übertroffen! das meta-ki-videomodell explodiert und macht die videobearbeitung einfacher als p-bilder

2024-10-05

zuckerberg war in letzter zeit damit beschäftigt, weltweit „das rampenlicht zu stehlen“.

vor nicht allzu langer zeit startete er sein „zweites unternehmertum“ und zeigte uns gerade die leistungsstärkste ar-brille meta orion, an der er seit zehn jahren feilt. obwohl es sich nur um einen prototyp einer maschine handelt, die auf die zukunft setzt, hat sie ihm das rampenlicht gestohlen apples vision pro.

gestern abend stahl meta erneut die show im video-generation-model-track.

meta sagte, dass der neu veröffentlichte meta movie gen istdie bisher fortschrittlichsten „media foundation models“.

doch zunächst einmal eine vorsichtsmaßnahme: die verantwortlichen von meta haben noch keinen klaren zeitplan für die öffnung genannt.

beamte geben an, dass sie aktiv mit fachleuten und kreativen in der unterhaltungsbranche kommunizieren und zusammenarbeiten, und es wird erwartet, dass sie dies irgendwann im nächsten jahr in die eigenen produkte und dienstleistungen von meta integrieren.

fassen sie die funktionen von meta movie gen kurz zusammen:

es verfügt über funktionen wie personalisierte videogenerierung, präzise videobearbeitung und audiogenerierung.

unterstützt die erstellung von hochauflösenden langen videos mit 1080p, 16 sekunden und 16 bildern pro sekunde

kann bis zu 45 sekunden audio in hoher qualität und mit hoher wiedergabetreue erzeugen

geben sie einfachen text ein, um anspruchsvolle und präzise videobearbeitungsfunktionen zu nutzen

die demo war ausgezeichnet, aber das produkt wird voraussichtlich erst im nächsten jahr offiziell für die öffentlichkeit verfügbar sein

verabschieden sie sich vom „pantomimen“ und konzentrieren sie sich auf große und umfassende funktionen

untergliedert verfügt movie gen über vier hauptfunktionen: videogenerierung, personalisierte videogenerierung, präzise videobearbeitung und audiogenerierung.

die vincent-videofunktion ist seit langem eine standardfunktion von videogenerierungsmodellen. meta movie gen kann jedoch hochauflösende videos mit unterschiedlichen seitenverhältnissen entsprechend den benutzeranforderungen generieren, was das erste seiner art in der branche ist.

zusammenfassung der texteingabe: ein faultier mit rosa sonnenbrille liegt auf einem donut-schwimmer in einem pool. das faultier hält ein tropisches getränk in der hand. die welt ist tropisch. das sonnenlicht wirft einen schatten.

zusammenfassung der texteingabe: die kamera befindet sich hinter einem mann. der mann trägt kein hemd und trägt ein grünes tuch um die taille. er ist barfuß. mit einem feurigen gegenstand in jeder hand erzeugt er weite kreisende bewegungen. im hintergrund ist ein ruhiges meer zu sehen. die atmosphäre mit dem feuertanz ist faszinierend.

darüber hinaus bietet meta movie gen erweiterte videobearbeitungsfunktionen, mit denen benutzer komplexe videobearbeitungsaufgaben durch einfache texteingabe erledigen können.

vom visuellen stil des videos über die übergangseffekte zwischen videoclips bis hin zu detaillierteren bearbeitungsvorgängen bietet ihnen dieses modell auch genügend freiheit.

im hinblick auf die erstellung personalisierter videosauch meta movie gen macht einen großen schritt nach vorne.

benutzer können ihre eigenen bilder hochladen und meta movie gen verwenden, um videos zu erstellen, die personalisiert sind und gleichzeitig charakter und bewegung beibehalten.

zusammenfassung der texteingabe: ein cowgirl in jeanshosen sitzt auf einem weißen pferd in einer alten westernstadt. ein ledergürtel umschließt ihre taille. das pferd ist majestätisch, sein fell glänzt im sonnenlicht. die rocky mountains sind im hintergrund.

von kongming-laternen bis hin zu transparenten farbigen blasen können sie dasselbe objekt in einem video ganz einfach mit nur einem satz ersetzen.

texteingabe: verwandeln sie die laterne in eine blase, die in die luft schwebt.

obwohl in diesem jahr viele videomodelle vorgestellt wurden, können die meisten von ihnen nur „pantomime“ erzeugen. es ist schade, sie aufzugeben, wenn sie nicht „die gleichen fehler wiederholt haben“.

texteingabe: ein wunderschönes orchesterstück, das ein gefühl des staunens hervorruft.

benutzer können videodateien oder textinhalte bereitstellen und meta movie gen basierend auf diesen eingaben entsprechende audiodaten generieren lassen. (ps: achten sie auf die synchronisation der skateboard-landung)

und es kann nicht nur einen einzelnen soundeffekt erzeugen, sondern auch hintergrundmusik oder sogar einen kompletten soundtrack für das gesamte video erstellen und so die gesamtqualität des videos und das seherlebnis des publikums erheblich verbessern.

nachdem er sich die demo angesehen hatte, brachte lex fridman seine bewunderung kurz und bündig zum ausdruck.

viele internetnutzer haben sora, die zukunft von openai, erneut „gepusht“, aber noch mehrnetizens, die sehnsüchtig gewartet haben, freuen sich nun auf die eröffnung von testerfahrungsqualifikationen.

der chefwissenschaftler von meta ai, yann lecun, bewarb auch online die meta movie gen-plattform.

es lohnt sich, sich auf den von meta gemalten kuchen zu freuen

als meta movie gen auf den markt kam, veröffentlichte das meta ai-forschungsteam gleichzeitig auch ein 92-seitiges technisches dokument.

berichten zufolge verwendet das ki-forschungsteam von meta hauptsächlich zwei grundmodelle, um diese umfangreichen funktionen zu erreichen: movie gen video- und movie gen audio-modelle.

darunter ist movie gen video ein basismodell mit 30b-parametern, das für die text-zu-video-generierung verwendet wird und hochwertige hd-videos mit einer länge von bis zu 16 sekunden erzeugen kann.

in der vorschulungsphase des modells werden große mengen an bild- und videodaten verwendet, um verschiedene konzepte der visuellen welt zu verstehen, darunter objektbewegung, interaktion, geometrie, kamerabewegung und physikalische gesetze.

um die qualität der videogenerierung zu verbessern, wird das modell außerdem einer supervised fine-tuning (sft) unter verwendung eines kleinen satzes sorgfältig ausgewählter hochwertiger videos und textuntertitel unterzogen.

der bericht zeigt, dass der post-training-prozess eine wichtige phase im movie gen video-modelltraining ist, das die qualität der videogenerierung weiter verbessern kann, insbesondere die personalisierungs- und bearbeitungsfunktionen von bildern und videos.

erwähnenswert ist, dass das forschungsteam das movie gen video-modell auch mit gängigen videogenerierungsmodellen verglichen hat.

da sora derzeit nicht geöffnet ist, können forscher zum vergleich nur die öffentlich veröffentlichten videos und tipps verwenden. bei anderen modellen wie runway gen3, lumalabs und keling 1.5 entscheiden sich forscher dafür, videos selbst über api-schnittstellen zu generieren.

und da die von sora geposteten videos unterschiedliche auflösungen und dauern haben, haben die forscher die videos von movie gen video zugeschnitten, um sicherzustellen, dass die videos beim vergleich die gleiche auflösung und dauer hatten.

die ergebnisse zeigen,der gesamtbewertungseffekt von movie gen video ist deutlich besser als der von runway gen3 und lumalabs, hat einen leichten vorteil gegenüber openai sora und entspricht keling 1.5.

in zukunft plant meta außerdem die öffentliche veröffentlichung mehrerer benchmarks, darunter movie gen video bench, movie gen edit bench und movie gen audio bench, um die forschung an videogenerierungsmodellen zu beschleunigen.

das movie gen audio-modell ist ein 13b-parametermodell für die video- und text-to-audio-generierung, das in der lage ist, bis zu 45 sekunden hochwertiges und hochauflösendes audio, einschließlich soundeffekten und musik, zu erzeugen und mit dem video zu synchronisieren.

das modell übernimmt ein generatives modell, das auf flow matching und einer diffusion transformer (dit)-modellarchitektur basiert, und fügt zusätzliche bedingte module hinzu, um die kontrolle zu ermöglichen.

sogar das forschungsteam von meta hat eine audioerweiterungstechnologie eingeführt, die es dem modell ermöglicht, kohärenten ton über die anfängliche 45-sekunden-grenze hinaus zu erzeugen. das heißt, das modell kann unabhängig von der länge des videos passendes audio erzeugen.

gestern gab tim brooks, der leiter von openai sora, offiziell seinen rücktritt bekannt und trat google deepmind bei, was erneut einen nebel über die ungewisse zukunft des sora-projekts wirft.

laut bloomberg sagte meta-vizepräsident connor hayes, dass meta movie gen derzeit keine konkreten produktpläne habe. hayes nannte einen wesentlichen grund für die verzögerte einführung.

meta movie gen verwendet derzeit textaufforderungswörter, um ein video zu generieren, das oft dutzende minuten wartezeit erfordert, was sich stark auf die benutzererfahrung auswirkt.

meta hofft, die effizienz der videogenerierung weiter zu verbessern und den videodienst so schnell wie möglich auf dem mobilen endgerät einzuführen, um den bedürfnissen der verbraucher besser gerecht zu werden.

wenn wir uns tatsächlich die produktform ansehen,das funktionale design von meta movie gen konzentriert sich darauf, groß und umfassend zu seines gibt kein „lahmes bein“ wie bei anderen videomodellen.

der größte nachteil besteht darin, dass es den gleichen „futures“-charakter hat wie sora.

das ideal ist sehr voll, die realität ist sehr dürftig.

man könnte sagen, dass sich die wettbewerbslandschaft im bereich der videogenerierung möglicherweise erneut ändern wird, wenn sora derzeit von großen inländischen modellen überholt wird, wenn meta movie gen auf den markt kommt.

aber zumindest für den moment reicht der von meta gemalte kuchen aus, damit die leute ihn schlucken können.

nachricht

sora wurde erneut übertroffen! das meta-ki-videomodell explodiert und macht die videobearbeitung einfacher als p-bilder

einführung

meine kontaktdaten