Belegung

KI kann auch „TikTok auffrischen“! Die Tsinghua-Universität übernimmt die Führung bei der Veröffentlichung eines neuen Modells für das vollständige Verständnis von Kurzvideos (ICML 2024).

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Neuer Weisheitsbericht

Herausgeber: LRST So schläfrig

[Einführung in die neue Weisheit] Bei großen Sprachmodellen für Audio und Video wird die Rolle der Sprache bei der Verarbeitung von Videoinhalten oft nicht voll ausgeschöpft. Das Video-SALMONN-Modell ist durch drei Teile innovativ: Audio- und Videokodierung und zeitliche Ausrichtung, kausaler Q-Former mit mehreren Auflösungen, Diversity-Loss-Funktion und gemischtes ungepaartes Audio- und Videodatentraining. Das Modell schneidet nicht nur bei Einzelmodalitätsaufgaben gut ab, sondern zeigt auch bei gemeinsamen audiovisuellen Aufgaben eine hervorragende Leistung und beweist damit seine Vollständigkeit und Genauigkeit.

Wenn Sie kurze Videos verstehen möchten, spielen neben visuellen Inhalten auch akustische Informationen wie Sprache und Audio, wie Videomusik, Soundeffekte, Sprachinhalte usw., eine wichtige Rolle für das Verständnis kurzer Videos.

Audiovisuelle Großsprachmodelle (av-LLMs) haben in den letzten Jahren erhebliche Fortschritte gemacht, aber Sprache als Hauptträger der menschlichen Sprache in Videos ist in diesen Modellen noch nicht vollständig erforscht. Sprache liefert nicht nur reichhaltige sprachliche und semantische Informationen, sondern hilft auch, die Emotionen und die zugrunde liegende Bedeutung des Videos zu verstehen.

Gleichzeitig enthalten Sprachsignale auch umfangreiche paralinguistische Informationen wie Tonhöhe und Tonhöhe sowie verschiedene Sprecherattribute (wie Alter, Geschlecht, Akzent und Identität), die unverzichtbare Elemente für das Videoverständnis sind.

Die Verbesserung der Sprachfähigkeiten allgemeiner audiovisueller Großsprachmodelle ist jedoch äußerst anspruchsvoll und erfordert eine zeitlich feine Modellierung und komplexe Interaktionen mit anderen Modalitäten sowohl auf groben (z. B. Videothemen) als auch auf feinen (z. B. Lippenbewegungen) Zeitskalen.

Das kürzlich im ICML 2024 veröffentlichte Papier „video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models“ war das erste groß angelegte Modell, das alle Audio- und Videoelemente in Videos integriert (natürliche Bilder, Text, Sprache, Audioereignisse, Musik) Modell.


Link zum Video-SALMONN-Papier: https://openreview.net/pdf?id=nYsh5GFIqX

Link zum SALMONN-Papier: https://arxiv.org/abs/2310.13289

Github-Seite: https://github.com/bytedance/SALMONN

Schauen wir uns anhand der folgenden Beispiele an, wie Video-SALMONN Videoinhalte anhand von Sprach-Audio-Video-Informationen interpretiert!

Hier ist zunächst ein klassischer Clip aus „Titanic“

Lassen Sie Video-SALMONN darüber sprechen, warum dieses Video so romantisch ist:


Frage:

Bitte kombinieren Sie Video, Audio und Charakterdialoge, um zu erklären, warum das Video romantisch ist

Antwort:

Das Video zeigt eine romantische Szene zwischen einem Mann und einer Frau auf einem Boot. Der Mann hielt die Frau in seinen Armen und sie beobachteten gemeinsam den Sonnenuntergang. Die Hintergrundmusik ist ein Lied, das zur romantischen Atmosphäre beiträgt. Frauen sagen „Ich fliege“ und „Jack“, was zeigt, dass sie glücklich sind und den Moment genießen. Der Hintergrund des Bootes und des Sonnenuntergangs schafft eine wunderschöne und friedliche Umgebung, die die romantische Atmosphäre des Videos verstärkt. Auch die Körpersprache und Mimik von Männern und Frauen vermitteln ihre Liebe und Zuneigung zueinander. Insgesamt fängt das Video einen romantischen und intimen Moment zwischen den beiden perfekt ein.

Video-SALMONN beschrieb nicht nur die Szenen, die er sah, sondern integrierte auch die Musik, die er hörte, und die Dialoge der Charaktere in seine Beschreibung.

Noch überraschender ist, dass Video-SALMONN auch wissen kann, dass es eine Frau war, die „Ich fliege“ gesagt hat.

Darüber hinaus kann Video-SALMONN auch darauf schließen, dass der Name des Mannes „Jack“ ist.

Wir alle wissen, dass es diese beiden Dialoglinien waren, die diese klassische Szene geschaffen haben, und Video-SALMONN hat einfach die Essenz dieser Szene eingefangen!

Hier ist ein weiterer animierter Clip aus „Zootopia“:

Schauen Sie sich an, wie Video-SALMONN die lustigen Dinge über Faultiere versteht:


Frage:

In der Szene sind ein Hase, ein Fuchs und ein Faultier zu sehen. Was hat das Faultier gesagt? Warum sind Faultiere interessant?

Antwort:

Das Faultier sagt am Ende des Videos „Nick“. Das Faultier ist lustig, weil es ein sich langsam bewegendes Tier ist und im Video sehr faul wirkt und lange braucht, um Dinge zu erledigen. Dies steht im Kontrast zur aktiven und energischen Natur anderer Tiere wie Kaninchen und Füchse, wodurch das Faultier hervorsticht und zum Humor beiträgt. Darüber hinaus tragen die Zeitlupe und der Gesichtsausdruck des Faultiers im Video zu seiner komödiantischen Wirkung bei.

Dieses Beispiel zeigt die Erkennung des Sprechers durch die Kombination von Audio und Video. Wir wissen nicht, dass das Faultier spricht. Nur mit dem Sehen wissen wir nicht, was das Faultier gesagt hat Kombination können wir das Video wirklich verstehen!

Und dieses sehr beliebte Meme:

Fragen Sie video-SALMONN, warum dieses Video lustig ist:


Frage:

Können Sie erklären, warum dieses Video lustig ist?

Antwort:

Das Video ist lustig, weil es einen Mann zeigt, der ein lustiges Gesicht macht und dann „nett“ sagt. Der Kontrast zwischen seinem ernsten Gesichtsausdruck und dem Wort „nett“ erzeugt Humor und ein Gefühl der Überraschung. Darüber hinaus erhöhen die Soundeffekte eines rülpsenden Mannes und laute Knallgeräusche den Unterhaltungswert des Videos.

Schauen wir uns noch einmal einen Dokumentarfilm von National Geographic an, um zu sehen, wie das Verstehen von Sprache helfen kann:

Lassen Sie mich fragen, um welche Art von Hai es sich im Video-SALMONN-Video handelt:


Frage:

Was für ein Hai ist der im Video?

Antwort mit Audioeingabe:

Der Hai im Video ist ein Walhai

Antwort ohne Audioeingabe:

Der Hai im Video ist ein Weißer Hai

Wenn ich mir nur das Video ansehe, weiß ich ohne Fachkenntnisse wirklich nicht, um welche Art von Hai es sich handelt, daher kann das Modell nur vermuten, dass er anfällig für Halluzinationen ist.


Aber nach dem Anhören der Audio-Erklärung kann Video-SALMONN genau erkennen, dass es in dem Video um Walhaie geht, sodass es nicht nötig ist, zu raten.

Es gibt auch einen Videoclip des Gesprächs zwischen den Großen:

Es versteht nicht nur den Inhalt des Gesprächs, Video-SALMONN verbindet auch den Sprecher und den Inhalt des Gesprächs:


Frage:

War es laut Video und Stimme ein Mann oder eine Frau, die im Video nach Florenz geflogen ist?

Antwort:

Es war eine Frau, die nach Florenz flog‍‍

Dieses Beispiel demonstriert weiter das umfassende Sprachverständnis von video-SALMONN in Videos.

Wenn Sie den Text der Sprachtranskription direkt eingeben, ist es für das Modell unmöglich zu wissen, wer nach Florenz geflogen ist, aber Video-SALMONN kann den Sprachinhalt und die Sprecherinformationen eng kombinieren.

Als nächstes kommt der praktische Teil: Schauen wir uns an, wie Video-SALMONN ein umfassendes Verständnis von Sprache-Audio-Video erreicht!

Kerntechnologie


Video-SALMONN-Modell

Video-SALMONN stellt sich der Herausforderung des Sprachverstehens in großen Audio- und Videomodellen und verfügt über die folgenden drei Innovationskomponenten, die es ihm ermöglichen, verschiedene grundlegende Videoelemente wie natürliche Bilder, visuelle Bildsequenzen, Sprache, Audioereignisse und Musikelemente zu verarbeiten:

Teil 1: Audio- und Videokodierung und Zeitausrichtung

video-SALMONN verwendet den Whisper-Sprachencoder und den BEATs-Audioencoder, um die Codierungsvektorsequenzen von Sprache bzw. Audio zu erhalten (50 Vektoren für jede Audiosekunde) und verwendet außerdem den visuellen InstructBLIP-Encoder, um das Bildmaterial mit einer Videoabtastrate zu erhalten von 2 FPS. Vektorsequenz kodieren (2 Bilder pro 1 Sekunde Video, entsprechend 64 Vektoren).

In der Zeitdimension werden die drei Sequenzen alle 0,5 Sekunden basierend auf dem Videobild ausgerichtet und gespleißt (zeitliche feinkörnige Synchronisation), da die Sprach-Audiosequenz etwas kürzer als die visuelle Sequenz ist und keine Auffüllung hinzugefügt wird kurzer Teil.

Teil 2: Kausaler Q-Former mit mehreren Auflösungen

Die Multi-Resolution Causal (MRC) Q-Former-Struktur ist der innovative Kern von Video-SALMONN, der nicht nur zeitsynchronisierte audiovisuelle Eingabemerkmale räumlich mit Textdarstellungen auf mehreren unterschiedlichen Zeitskalen ausrichtet und so Aufgaben erfüllt, die auf unterschiedlichen Videos basieren Elementanforderungen und um die zeitliche Kausalität von Ereignissen zwischen aufeinanderfolgenden Videobildern zu stärken, wird eine kausale Selbstaufmerksamkeitsstruktur mit einer speziellen Kausalmaske eingeführt.


MRC Q-Former-Struktur

Zunächst unterteilt MRC Q-Former die Eingabesequenz in Fenster unterschiedlicher Länge. Anschließend wird in jedem Fenster Q-Former verwendet, um die gespleißte multimodale Darstellung dem semantischen Darstellungsraum zuzuordnen. Schließlich werden die von jedem Fenster-Q-Former in jeder Auflösungsebene ausgegebenen Vektoren verkettet, um eine Vektorsequenz im semantischen Raum zu bilden.

Durch die Sicherstellung, dass die Anzahl der Ausgabevektoren und das Fensterlängenverhältnis konstant sind, stellt MRC Q-Former sicher, dass Ausgabesequenzen mit unterschiedlichen Auflösungsstufen direkt in der Merkmalsdimension gespleißt werden können. Die gespleißten Vektoren werden durch eine lineare Ebene abgebildet und als Eingabe für das große Sprachmodell verwendet.

Durch Training kann der hochauflösende Q-Former feinkörnige Informationen wie Sprachinhalte und den Zusammenhang zwischen Sprache und Lippenbewegungen erfassen. Der niedrigauflösende Q-Former kann effektiv Informationen auf Videoebene und den Gesamtinhalt extrahieren das Video und besseres Verständnis der Beziehungen zwischen mehreren Frames.

(Hinweis: Die MRC Q-Former-Struktur eignet sich auch für Mehrfachauflösungen im Raum. In dem Artikel wird erstmals die Image-Spotlight-Methode vorgeschlagen, mit der das Bild als Eingabe in Teilbildsequenzen unterschiedlicher Genauigkeit aufgeteilt werden kann, was eine erhebliche Verbesserung darstellt die Leistung des Bildverständnisses)

Teil 3: Diversity-Loss-Funktion und Training an gemischten ungepaarten Audio- und Videodaten

Um die Dominanz eines bestimmten Bildes im Video zu vermeiden, schlägt Video-SALMONN außerdem eine neue Diversity-Loss-Funktion vor, die auf Kreuzentropie basiert und das Modell dazu ermutigt, verschiedene Teile der gesamten Sequenz zu erkunden.

Um gleichzeitig die Dominanz einer einzelnen Modalität in gepaarten Audio- und Videodaten zu verhindern (z. B. bietet Nicht-Sprach-Audio in Videos oft nur eine sehr geringe Menge an Hilfsinformationen und wird leicht ignoriert), Video-SALMONN verwendet eine Strategie zum Mischen von ungepaartem Audio und Video. Das Training wird so durchgeführt, dass Video-SALMONN gleichzeitig auf die Informationen von zwei Modalitäten achten muss.

Hauptergebnisse

Das Video-SALMONN-Papier schlägt den SAVE-Benchmark (Speech-Audio-Visual Evaluation) zum Testen vor und zeigt eine hervorragende Leistung bei Sprach-, Nicht-Sprach-Audio-, Bild- und Videoaufgaben.

Zu den Testaufgaben von SAVE gehören Spracherkennung (ASR), Audiobeschreibung (AAC), Bildbeschreibung (IC), visuelle Texterkennung (OCR), Bildfrage und -antwort (VQA), Videofrage und -antwort (Video QA) und andere visuelle und akustische Zu den Aufgaben gehören außerdem audiovisuelle Spracherkennung (AVSR), Audio- und Video-Fragenbeantwortung (AVQA), Audio- und Video-Tonquellenerkennung (AVSSD) und Audio- und Video-Matching (AVM), vier gemeinsame Audio- und Video-Eingänge Wahrnehmungsaufgaben.

Unter diesen ist AVQA ein neu vorgeschlagener Testsatz und AVM eine neu vorgeschlagene Aufgabe, bei der das Modell bestimmen muss, ob Audio und Video übereinstimmen.


Erstens erzielt video-SALMONN bei einmodalen Eingabeaufgaben die gleichen oder sogar bessere Ergebnisse als Modelle, die nur visuelle oder akustische modale Eingaben verarbeiten können.

Im Vergleich zu Video-LLaMA, einem großen Modell, das auch Audio und Video verarbeiten kann, steigert Video-SALMONN nicht nur seine Fähigkeit, Spracheingaben zu verstehen, sondern übertrifft auch seine Leistung bei verschiedenen einmodalen Aufgaben bei weitem.


Beim Verstehen der gemeinsamen Audio- und Videoeingabe hat Video-SALMONN eine weitaus bessere Leistung als andere Modelle gezeigt.


Dank seiner Fähigkeit, Sprache zu verstehen, übertrifft Video-SALMONN das ähnliche große Modell Video-LLaMA in AVQA deutlich.

Noch wichtiger ist, dass Video-SALMONN hervorragende Zero-Sample-Emergenzfähigkeiten für das gemeinsame sprach-audiovisuelle Denken auf AVM und AVSSD demonstriert, zwei völlig untrainierte Aufgaben.


Die Entstehung dieser gemeinsamen Denkfähigkeiten erfordert, dass das Modell den eingegebenen visuellen und akustischen Informationen gleichzeitig die gleiche Aufmerksamkeit schenkt und die komplexen Zusammenhänge zwischen Audio und Bild verstehen kann.


Bestehende Open-Source-Modelle können Audio jedoch entweder nicht vollständig verstehen oder jede einzelne Eingabemodalität nur separat beschreiben.

Abschluss

Die Einführung von video-SALMONN wird dazu beitragen, die Vollständigkeit und Genauigkeit der Videoverständnistechnologie zu verbessern und neue Möglichkeiten für die Videoinhaltsanalyse, Emotionserkennung, multimodale Interaktion und andere Bereiche zu eröffnen.


Dieses Modell ist nicht nur in der akademischen Forschung von großer Bedeutung, sondern bietet auch starke technische Unterstützung für praktische Anwendungen.

Verweise:

https://openreview.net/pdf?id=nYsh5GFIqX