Nachricht

Fügen Sie dem Videomodell schnelle und langsame Augen hinzu, Apples neue trainingsfreie Methode übertrifft alles, was SOTA in Sekundenschnelle leistet

2024-08-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Seit der Veröffentlichung von Sora ist der Bereich der KI-Videogenerierung „geschäftiger“ geworden. In den letzten Monaten haben wir erlebt, wie Jimeng, Runway Gen-3, Luma AI und Kuaishou Keling abwechselnd explodierten.

Anders als in der Vergangenheit, wo man auf den ersten Blick erkennen konnte, dass die Modelle von KI generiert wurden, ist dieser Stapel großer Videomodelle möglicherweise der „Beste“, den wir je gesehen haben.

Die erstaunliche Leistung von Video-Large-Language-Modellen (LLM) ist jedoch untrennbar mit einem großen und fein annotierten Videodatensatz verbunden, was sehr hohe Kosten erfordert. In jüngster Zeit sind im Forschungsbereich eine Reihe innovativer Methoden aufgetaucht, die kein zusätzliches Training erfordern: Verwenden Sie trainierte Bild-Großsprachmodelle, um Videoaufgaben direkt zu verarbeiten und so den „teuren“ Trainingsprozess zu umgehen.

Darüber hinaus weisen die meisten vorhandenen Video-LLMs zwei große Mängel auf: (1) Sie können Videoeingaben nur mit einer begrenzten Anzahl von Bildern verarbeiten, was es für das Modell schwierig macht, die subtilen räumlichen und zeitlichen Inhalte im Video zu erfassen (2). ) Es fehlt ihnen das zeitliche Modellierungsdesign, sondern sie geben lediglich Videofunktionen in LLM ein und verlassen sich dabei vollständig auf die Fähigkeit von LLM, Bewegungen zu modellieren.

Als Reaktion auf die oben genannten ProblemeApple-Forscher schlugen SlowFast-LLaVA (kurz SF-LLaVA) vor. Dieses Modell basiert auf der vom Byte-Team entwickelten LLaVA-NeXT-Architektur. Es erfordert keine zusätzliche Feinabstimmung und kann sofort verwendet werden.. Inspiriert durch das erfolgreiche Two-Stream-Netzwerk im Bereich der Aktionserkennung entwarf das Forschungsteam einen neuartigen SlowFast-Eingabemechanismus für Video-LLM.

Einfach ausgedrückt: SF-LLaVA erkennt Details und Bewegungen in Videos durch zwei verschiedene Betrachtungsgeschwindigkeiten (langsam und schnell).

Langsamer Pfad: Extrahieren Sie Features mit einer niedrigen Bildrate und behalten Sie dabei so viele räumliche Details wie möglich bei (z. B. Beibehaltung von 24×24 Token alle 8 Bilder).

Schneller Pfad: Mit einer hohen Bildrate ausführen, aber die Auflösung des Videos mit einem größeren räumlichen Pooling-Schritt reduzieren, um einen größeren zeitlichen Kontext zu simulieren und sich mehr auf das Verständnis der Kohärenz von Aktionen zu konzentrieren.

Dies entspricht dem Modell mit zwei „Augen“: Das eine schaut langsam und achtet auf Details; das andere schaut schnell und achtet auf Bewegungen. Dies löst die Schwachstellen der meisten vorhandenen Video-LLMs und kann sowohl detaillierte räumliche Semantik als auch längere zeitliche Kontexte erfassen.



Link zum Papier: https://arxiv.org/pdf/2407.15841

Experimentelle Ergebnisse zeigen, dass SF-LLaVA bestehende trainingsfreie Methoden durch signifikante Vorteile in allen Benchmark-Tests übertrifft. Im Vergleich zum sorgfältig abgestimmten SFT-Modell kann SF-LLaVA die gleiche oder sogar eine bessere Leistung erzielen.



Modellarchitektur

Wie in der folgenden Abbildung dargestellt, folgt SF-LLaVA dem standardmäßigen schulungsfreien Video-LLM-Prozess. Es nimmt Video V und Frage Q als Eingabe und gibt die entsprechende Antwort A aus.



Für die Eingabe werden N Frames gleichmäßig aus jedem Video beliebiger Größe und Länge abgetastet, I = {I_1, I_2, ..., I_N}, und es ist keine spezielle Kombination oder Anordnung der ausgewählten Videoframes erforderlich. Das unabhängig extrahierte Frequenzmerkmal in der Rahmeneinheit ist F_v ∈ R^N×H×W, wobei H und W die Höhe bzw. Breite des Rahmenmerkmals sind.





Experimentelle Ergebnisse

Das Forschungsteam führte eine umfassende Leistungsbewertung von SF-LLaVA durch und verglich es mit aktuellen SOTA-trainingsfreien Modellen (wie IG-VLM und LLoVi) in mehreren Aufgaben zur Beantwortung von Videofragen. Darüber hinaus verglichen sie es mit Video-LLMs wie VideoLLaVA und PLLaVA, die auf Videodatensätzen überwacht wurden (Supervised Fine-Tuning, SFT).

Öffnen Sie das Video „Fragen und Antworten“.

Wie in der folgenden Tabelle gezeigt, schneidet SF-LLaVA bei der offenen Video-Fragen-Antwort-Aufgabe in allen Benchmarks besser ab als bestehende trainingsfreie Methoden. Insbesondere bei Ausstattung mit LLMs der Parametergrößen 7B und 34B ist SF-LLaVA bei MSRVTT-QA um 2,1 % bzw. 5,0 % höher als IGVLM, bei TGIF-QA um 5,7 % bzw. 1,5 % und bei TGIF-QA um 5,7 % bzw. 1,5 % höher ActivityNet. -2,0 % und 0,8 % höher bei der Qualitätssicherung.

Selbst im Vergleich zur fein abgestimmten SFT-Methode zeigt SF-LLaVA in den meisten Benchmarks eine vergleichbare Leistung, nur beim ActivityNet-QA-Benchmark sind PLLaVA und LLaVA-NeXT-VideoDPO etwas besser.



Fragen und Antworten zu Multiple-Choice-Videos

Wie aus der folgenden Tabelle hervorgeht, übertrifft SF-LLaVA in allen Benchmarks andere trainingsfreie Methoden zur Beantwortung von Multiple-Choice-Videofragen. Im EgoSchema-Datensatz, der komplexe langfristige Überlegungen erfordert, erzielten die Versionen SF-LLaVA7B und 34B 11,4 % bzw. 2,2 % bessere Ergebnisse als das IG-VLM-Modell.

Obwohl VideoTree im Benchmark-Test führend ist, da es sich um ein proprietäres Modell auf Basis von GPT-4 handelt, ist seine Leistung deutlich höher als die des Open-Source-LLM. Im Vergleich zur SFT-Methode erzielt das SF-LLaVA 34B-Modell auch bessere Ergebnisse bei EgoSchema, was die starke Fähigkeit des SlowFast-Designs bestätigt, lange Videos zu verarbeiten.

Textgenerierung



Vincent Video

Wie in Tabelle 3 gezeigt, zeigt SF-LLaVA auch einige Vorteile für die Aufgabe der Textgenerierung von Videos. Der SF-LLaVA-34B übertraf alle trainingsfreien Benchmarks in der Gesamtleistung. Allerdings ist SF-LLaVA hinsichtlich der Detailorientierung etwas schlechter als LLaVA-NeXT-Image. Basierend auf dem SlowFast-Design kann SF-LLaVA einen längeren zeitlichen Kontext mit weniger visuellen Token abdecken und eignet sich daher besonders gut für Aufgaben zum zeitlichen Verständnis.

Darüber hinaus übertrifft SF-LLaVA-34B auch die meisten SFT-Methoden hinsichtlich der Vincent-Videoleistung.



Weitere Einzelheiten finden Sie im Originalpapier.