Nachricht

Warten Sie nicht auf OpenAIs Open-Source-GPT-4o, sondern auf die Open-Source-Version VITA

2024-08-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Maschinenherzbericht

Redaktion von Machine Heart

Es gibt wieder gute Nachrichten im Open-Source-Bereich.

Große Sprachmodelle (LLMs) haben eine bedeutende Entwicklung durchlaufen, und in letzter Zeit haben wir auch einen Boom bei multimodalen großen Sprachmodellen (MLLMs) erlebt, die überraschende multimodale Fähigkeiten aufweisen.

Insbesondere das Aufkommen von GPT-4o hat die Entwicklung des MLLM-Bereichs erheblich vorangetrieben. Die diesen Modellen entsprechenden Open-Source-Modelle sind jedoch deutlich unzureichend. Die dringende Notwendigkeit für die Open-Source-Community, die Entwicklung dieses Bereichs weiter voranzutreiben, kann nicht genug betont werden.

In diesem Artikel schlagen Forscher des Tencent Youtu Lab und anderer Institutionen VITA vor, das erste Open-Source-Multimodal-Large-Language-Modell (MLLM), das gleichzeitig Video-, Bild-, Text- und Audiomodalitäten verarbeiten und analysieren kann Gleichzeitig bietet es ein fortschrittliches multimodales interaktives Erlebnis.

Als Sprachbasis nutzten die Forscher Mixtral 8×7B, erweiterten dann dessen chinesischen Wortschatz und verfeinerten die zweisprachigen Anweisungen. Darüber hinaus statteten die Forscher das Sprachmodell durch zweistufiges Multitasking-Lernen mit multimodaler Ausrichtung und Feinabstimmung der Anweisungen weiter mit visuellen und akustischen Fähigkeiten aus.

VITA verfügt über starke Mehrsprachigkeits-, Bild- und Tonverständnisfähigkeiten, was durch seine hervorragende Leistung bei Single-Modal- und Multi-Modal-Benchmarks belegt wird.

Zusätzlich zu den grundlegenden Fähigkeiten hat diese Forschung auch große Fortschritte bei der Verbesserung der natürlichen multimodalen Mensch-Computer-Interaktionserfahrung gemacht. Nach unserem besten Wissen ist dies die erste Studie, die Nicht-Wach-Interaktionen und Audiounterbrechungen im MLLM nutzt. Die Forscher entwarfen außerdem zusätzliche Status-Tokens und entsprechende Trainingsdaten und Strategien, um verschiedene Interaktionsszenarien wahrzunehmen.

VITA wird mithilfe eines Duplex-Ansatzes bereitgestellt, wobei ein Modell für die Generierung von Antworten auf Benutzeranfragen verantwortlich ist und ein anderes Modell kontinuierlich Umgebungseingaben verfolgt. Dies verleiht VITA beeindruckende Möglichkeiten der Mensch-Computer-Interaktion.

VITA ist der erste Schritt für die Open-Source-Community, die nahtlose Integration von multimodalem Verständnis und Interaktion zu erforschen. Während es bei VITA noch viel zu tun gibt, um näher an seine Closed-Source-Pendants heranzukommen, hofft die Studie, dass die Rolle von VITA als Pionier als Eckpfeiler für nachfolgende Forschungen dienen kann.



  • Papieradresse: https://arxiv.org/pdf/2408.05211
  • Paper-Homepage: https://vita-home.github.io/
  • Titel des Papiers: VITA: Auf dem Weg zu Open-Source Interactive Omni Multimodal LLM



视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==∣=2650930230&idx=4&sn=9438b7c9c53ffa71dc7b3aa78ffaf348&chksm=84e43848b393b15ede 2b21d694dde6ee5d90c364b94e53f09728faef1db5b5524cd4dbe49dee&token=2010422951⟨=zh_CN#rd

Im obigen Video können Benutzer barrierefrei mit VITA kommunizieren. Nachdem sie das weiße T-Shirt gesehen haben, das der Benutzer trägt, wird ihm angezeigt, welche Farbe zur Hose passt, und er kann die Frage eingeben Wenn Sie in Echtzeit sprechen und Schlussfolgerungen ziehen, wird VITA Sie nicht unterbrechen, da es weiß, dass der Benutzer während des Vorgangs nicht mit ihm kommuniziert Mit der VITA-Ausgabe können Sie ein Gespräch auch in Echtzeit unterbrechen und ein anderes Thema beginnen.



视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==∣=2650930230&idx=4&sn=9438b7c9c53ffa71dc7b3aa78ffaf348&chksm=84e43848b393b15ede 2b21d694dde6ee5d90c364b94e53f09728faef1db5b5524cd4dbe49dee&token=2010422951⟨=zh_CN#rd

In diesem Video hält der Benutzer einen Keks und fragt VITA, was er isst. VITA sagt ihm, dass er Kekse isst und gibt Hinweise, dass die Kekse mit Milch oder Tee besser schmecken.

Seien Sie beim Training Ihr Chatpartner:



视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==∣=2650930230&idx=4&sn=9438b7c9c53ffa71dc7b3aa78ffaf348&chksm=84e43848b393b15ede 2b21d694dde6ee5d90c364b94e53f09728faef1db5b5524cd4dbe49dee&token=2010422951⟨=zh_CN#rd

Hinweis: Die oben genannten Videos werden in Echtzeit mit 1-facher Geschwindigkeit abgespielt und wurden nicht beschleunigt.

Basierend auf dem vom Benutzer bereitgestellten Flussdiagramm kann VITA Code schreiben:



Stellen Sie ein Bild zur Verfügung, und VITA kann auch Fragen basierend auf dem Bildinhalt beantworten:



Auch auf die Frage „Beschreiben Sie die Bewegungen des Hundes im Detail“ können Sie Videos ansehen und Fragen beantworten:



Methodeneinführung

Wie in Abbildung 3 dargestellt, umfasst der gesamte Trainingsprozess von VITA drei Phasen: Feinabstimmung der LLM-Anweisungen, multimodale Ausrichtung und multimodale Feinabstimmung der Anweisungen.



Feinabstimmung des LLM-Unterrichts

Die Leistung von Mixtral 8x7B gehört zu den besten Open-Source-LLMs und wurde daher als Grundlage für diese Studie verwendet. Forscher stellten jedoch fest, dass das offizielle Mixtral-Modell nur begrenzte Fähigkeiten zum Verstehen von Chinesisch besitzt. Um zweisprachige Verständnisfähigkeiten (Chinesisch und Englisch) zu vermitteln, erweiterte die Studie den chinesischen Wortschatz auf das Basismodell und erhöhte den Wortschatz von 32.000 auf 51.747. Nach der Erweiterung des Wortschatzes verwendeten die Forscher einen synthetischen zweisprachigen Korpus von 5 Millionen, um die Klartextanweisungen zu verfeinern.

Multimodale Ausrichtung

Die Darstellungslücke zwischen Text und anderen Modalitäten schließen und so den Grundstein für multimodales Verständnis legen. Visuelle Konnektoren werden nur während der visuellen Ausrichtungsphase trainiert. Tabelle 1 fasst die verwendeten Trainingsdaten mit Ausnahme des Klartextteils zusammen.



visuelle Modalität

Der erste ist der visuelle Encoder. Die Forscher verwendeten InternViT-300M-448px als visuellen Encoder, der ein Bild mit einer Auflösung von 448 x 448 als Eingabe aufnahm und 256 Token generierte, nachdem er einen visuellen Connector als einfachen zweischichtigen MLP verwendet hatte. Für die hochauflösende Bildeingabe verwenden Forscher dynamische Patching-Strategien, um lokale Details zu erfassen.

Video gilt als besonderer Anwendungsfall für Bilder. Wenn die Videolänge kürzer als 4 Sekunden ist, werden 4 Bilder pro Sekunde gleichmäßig abgetastet. Wenn die Videolänge zwischen 4 Sekunden und 16 Sekunden liegt, wird jede Sekunde ein Bild abgetastet. Bei Videos, die länger als 16 Sekunden sind, werden 16 Bilder gleichmäßig abgetastet.

Zweitens ist die visuelle Ausrichtung. Wir haben den visuellen Konnektor nur während der visuellen Ausrichtungsphase trainiert und in dieser Phase keine Audiofragen verwendet.

Schließlich gibt es noch die Datenkaskadierung. Für reine Textdaten und Bilddaten zielt diese Forschung darauf ab, die Kontextlänge mit 6K-Tokens zu verketten, wie in Abbildung 4 dargestellt. Es ist zu beachten, dass die Videodaten nicht verkettet sind.



Die Kaskadierung unterschiedlicher Daten hat zwei Vorteile:

  • Es unterstützt längere Kontextlängen und ermöglicht die Skalierung von Einzelbild-Frageninteraktionen auf Mehrfachbild-Frageninteraktionen, was zu flexibleren Eingabeformularen und längeren Kontextlängen führt.
  • Es verbessert die Recheneffizienz, da Videobilder normalerweise eine große Anzahl visueller Token enthalten. Durch die Verkettung von Bild-Frage-Paaren kann diese Studie eine ausgewogene Anzahl von Token im Trainingsstapel aufrechterhalten und dadurch die Recheneffizienz verbessern.

Darüber hinaus ergab die Studie, dass Modelle, die mit kaskadierten Daten trainiert wurden, eine vergleichbare Leistung erbrachten wie Modelle, die mit Rohdaten trainiert wurden.

Audiomodalität

Auf der einen Seite befindet sich der Audio-Encoder. Das Eingangsaudio wird zunächst durch einen Mel-Filterblock verarbeitet, der das Audiosignal in einzelne Frequenzbänder innerhalb des Mel-Frequenzbereichs zerlegt und so die nichtlineare menschliche Wahrnehmung von Klang nachahmt. Anschließend verwendeten die Forscher eine 4×CNN-Downsampling-Schicht und einen 24-Schicht-Transformator mit insgesamt 341 Millionen Parametern, um die Eingabemerkmale zu verarbeiten. Außerdem verwenden sie ein einfaches zweischichtiges MLP als modalen Audio-Text-Anschluss. Schließlich wird die Audioeingabe alle 2 Sekunden in 25 Token kodiert.

Ein weiterer Aspekt ist die Audioausrichtung. Für die Ausrichtungsaufgabe nutzten die Forscher die automatische Spracherkennung (ASR). Zu den Datensätzen gehören Wenetspeech (mit mehr als 10.000 Stunden Multi-Domain-Spracherkennungsdaten, die sich hauptsächlich auf chinesische Aufgaben konzentrieren) und Gigaspeech (mit 10.000 Stunden hochwertigen Audiodaten, von denen die meisten auf englische Spracherkennungsaufgaben ausgerichtet sind). Für die Audio-Untertitel-Aufgabe verwendeten die Forscher die AudioSet SL-Teilmenge von Wavcaps, die 400.000 Audioclips mit entsprechenden Audio-Untertiteln enthält. Während des Ausrichtungsprozesses werden Audio-Encoder und Anschlüsse trainiert.

Feinabstimmung des multimodalen Unterrichts

Die Studie passte das Modell an, um seine Fähigkeit zu verbessern, Anweisungen zu befolgen, egal ob Text oder Audio.

Datenkonstruktion. Die Datenquellen für die Anweisungsoptimierungsphase sind dieselben wie für die Ausrichtungsphase in Tabelle 1, diese Studie führte jedoch zu folgenden Verbesserungen:

Fragen werden nach dem Zufallsprinzip (ungefähr die Hälfte) durch ihre Audioversionen ersetzt (unter Verwendung von TTS-Technologie wie GPT-SoVITS6), um das Verständnis des Modells für Audioabfragen und seine Fähigkeit, Anweisungen zu befolgen, zu verbessern.

Legen Sie unterschiedliche Systemaufforderungen fest, um Konflikte zwischen verschiedenen Datentypen zu vermeiden, wie in Tabelle 2 dargestellt. Beispielsweise können einige Fragen anhand visueller Informationen oder anhand des eigenen Wissens des Modells beantwortet werden, was zu Konflikten führt. Darüber hinaus wurden die Bilddaten ähnlich wie bei Multi-Frame-Videodaten gepatcht, was das Modell verwirren kann. Die Systemeingabeaufforderung unterscheidet explizit verschiedene Datentypen, was zu einem intuitiveren Verständnis beiträgt.



Um zwei interaktive Funktionen zu realisieren, nämlich Nicht-Weck-Interaktion und Audio-Unterbrechungs-Interaktion, schlägt diese Studie ein Duplex-Bereitstellungs-Framework vor, das heißt, zwei VITA-Modelle werden gleichzeitig bereitgestellt, wie in Abbildung 1 dargestellt.



Typischerweise beantwortet ein Generierungsmodell Benutzeranfragen. Gleichzeitig erkennt das Monitoring-Modell Umgebungsgeräusche während des Generierungsprozesses. Es ignoriert nicht abfragende Benutzerstimmen, stoppt jedoch den Fortschritt der Generierung des Modells, wenn Abfrageaudio erkannt wird. Das Überwachungsmodell integriert dann den historischen Kontext und reagiert auf die neuesten Benutzeranfragen, und die Identitäten der Generierungs- und Überwachungsmodelle werden vertauscht.



Experimentelle Auswertung

Sprachleistung. Um die Wirksamkeit des Sprachmodell-Trainingsprozesses zu überprüfen, verwendeten die Forscher vier Datensätze, nämlich C-EVAL, AGIEVAL, MMLU und GSM8K. Diese Datensätze decken eine Vielzahl von Szenarien ab, darunter allgemeine Multiple-Choice-Fragen, multidisziplinäre Quizfragen sowie Aufgaben zum mathematischen und logischen Denken, die sowohl chinesische als auch englische Kontexte abdecken.

Die Ergebnisse in Tabelle 3 unten zeigen, dass das Training in diesem Artikel die Fähigkeiten des Sprachmodells im chinesischen Bewertungssatz (C-EVAL und AGIEVAL) erheblich verbessert und gleichzeitig das ursprüngliche Leistungsniveau im englischsprachigen Benchmark (MMLU) beibehält Verbesserung des mathematischen Denkens Bei der Aufgabe wurde eine erhebliche Verbesserung erzielt (GSM8K).



Audioleistung. Um die Robustheit der vom Modell gelernten Sprachdarstellung zu überprüfen, führten die Forscher Tests mit zwei Datensätzen durch: Wenetspeech und Librispeech.

Unter ihnen verfügt Wenetspeech über zwei Bewertungsindikatoren, nämlich test_net und test_meeting. Die erstere Datenquelle stimmt besser mit den Trainingsdaten überein, sodass letztere eine größere Herausforderung darstellt. Als zurückgehaltener Datensatz des Modells bewertet Librispeech die Generalisierungsfähigkeit des Modells anhand unsichtbarer Datensätze. Der mit „dev“ beginnende Satz ist der Verifizierungssatz und derjenige, der mit „test“ beginnt. ist der Testsatz, „Clean“ stellt einen weniger anspruchsvollen Satz dar und „other“ stellt einen anspruchsvolleren Satz dar.

Wie aus den Ergebnissen in Tabelle 4 unten hervorgeht, erzielte VITA beim ASR-Benchmarktest sehr gute Ergebnisse.



Multimodale Leistung. Um die multimodalen Fähigkeiten zu bewerten, bewertete die Studie VITA anhand von vier Benchmarks, darunter MME, OCRBench, HallusionBench und Video-MME. Die Ergebnisse sind in Abbildung 5 dargestellt.

In Bezug auf das Bildverständnis ist VITA besser als das bildspezifische Open-Source-Modell LLaVA-Next und kommt dem Closed-Source-Modell Gemini 1.5 Pro nahe.

In Bezug auf das Videoverständnis übertrifft VITA Video-CCAM, ein Open-Source-Videomodell. Obwohl es eine Lücke zwischen VITA und dem videospezifischen LLaVA-Next-Video gibt, ist dies akzeptabel, da VITA ein breiteres Spektrum an Modalitäten unterstützt und Interaktivität priorisiert.

Abschließend ist anzumerken, dass zwischen Open-Source-Modellen und proprietären Modellen immer noch eine große Lücke in den Videoverständnisfähigkeiten besteht.