Nachricht

Dieses multimodale große Modell der „nativen Version“ verzichtet auf den visuellen Encoder und ist auch mit Mainstream-Methoden vergleichbar

2024-07-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Die AIxiv-Kolumne ist eine Kolumne, in der Machine Heart akademische und technische Inhalte veröffentlicht. In den letzten Jahren hat die Kolumne „Heart of the Machine AIxiv“ mehr als 2.000 Berichte erhalten, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail-Adresse: [email protected]; [email protected]

Diao Haiwen ist Doktorand an der Dalian University of Technology und sein Betreuer ist Professor Lu Huchuan. Derzeit als Praktikant am Beijing Zhiyuan Artificial Intelligence Research Institute unter der Leitung von Dr. Wang Xinlong tätig. Seine Forschungsinteressen sind Vision und Sprache, effiziente Übertragung großer Modelle, multimodale große Modelle usw. Co-Autor Cui Yufeng hat seinen Abschluss an der Beihang-Universität und ist Algorithmenforscher am Vision Center des Beijing Zhiyuan Artificial Intelligence Research Institute. Seine Forschungsinteressen sind multimodale Modelle, generative Modelle und Computer Vision, und zu seinem Hauptwerk gehört die Emu-Reihe.

In letzter Zeit ist die Forschung an multimodalen Großmodellen in vollem Gange und die Industrie investiert immer mehr in diese. Im Ausland wurden beliebte Modelle eingeführt, wie GPT-4o (OpenAI), Gemini (Google), Phi-3V (Microsoft), Claude-3V (Anthropic) und Grok-1.5V (xAI) usw. Gleichzeitig sind inländische Modelle GLM-4V (Wisdom Spectrum AI), Step-1.5V (Step Star), Emu2 (Beijing Zhiyuan), Intern-VL (Shanghai AI Laboratory), Qwen-VL (Alibaba) usw. vorhanden in voller Blüte.

Das aktuelle visuelle Sprachmodell (VLM) basiert normalerweise auf dem visuellen Encoder (Vision Encoder, VE), um visuelle Merkmale zu extrahieren, und kombiniert dann die Benutzeranweisungen mit dem großen Sprachmodell (LLM) zur Verarbeitung und Beantwortung Visueller Encoder und große Sprachmodell-Trainingstrennung. Diese Trennung führt dazu, dass visuelle Encoder Probleme mit der visuellen Induktionsverzerrung verursachen, wenn sie mit großen Sprachmodellen interagieren, wie z. B. eine begrenzte Bildauflösung und ein begrenztes Seitenverhältnis sowie starke visuelle semantische Prioritäten. Da die Kapazität visueller Encoder immer weiter zunimmt, ist auch die Einsatzeffizienz multimodaler großer Modelle bei der Verarbeitung visueller Signale stark eingeschränkt. Darüber hinaus ist es immer komplexer und herausfordernder geworden, die optimale Kapazitätskonfiguration für visuelle Encoder und große Sprachmodelle zu finden.

Vor diesem Hintergrund entstanden schnell einige weitere innovative Ideen:

  • Können wir den visuellen Encoder entfernen, also direkt ein großes natives multimodales Modell ohne visuellen Encoder erstellen?
  • Wie lässt sich ein großes Sprachmodell ohne visuelle Encoder effizient und reibungslos in ein natives multimodales großes Modell weiterentwickeln?
  • Wie lässt sich die Leistungslücke zwischen Encoder-losen nativen multimodalen Frameworks und Mainstream-Encoder-basierten multimodalen Paradigmen schließen?

Adept AI veröffentlichte die Fuyu-Modellreihe Ende 2023 und unternahm einige damit verbundene Versuche, gab jedoch keine Trainingsstrategien, Datenressourcen und Ausrüstungsinformationen bekannt. Gleichzeitig besteht eine erhebliche Leistungslücke zwischen dem Fuyu-Modell und den gängigen Algorithmen bei öffentlichen visuellen Textbewertungsindikatoren. Im gleichen Zeitraum zeigten einige von uns durchgeführte Pilotexperimente, dass das native multimodale große Modell ohne Encoder immer noch mit heiklen Problemen wie langsamer Konvergenzgeschwindigkeit und schlechter Leistung konfrontiert ist, selbst wenn der Umfang der Vortrainingsdaten in großem Maßstab erhöht wird.

Als Reaktion auf diese Herausforderungen hat sich das Vision-Team des Zhiyuan Research Institute mit inländischen Universitäten wie der Dalian University of Technology und der Peking University zusammengetan, um eine neue Generation des programmiererfreien visuellen Sprachmodells EVE auf den Markt zu bringen. Durch verfeinerte Trainingsstrategien und zusätzliche visuelle Überwachung integriert EVE visuell-sprachliche Darstellung, Ausrichtung und Inferenz in eine einheitliche reine Decoder-Architektur. Unter Verwendung öffentlich verfügbarer Daten schneidet EVE bei mehreren visuell-linguistischen Benchmarks gut ab, konkurriert mit gängigen Encoder-basierten multimodalen Methoden ähnlicher Kapazität und übertrifft sein Pendant Fuyu-8B deutlich. EVE soll einen transparenten und effizienten Weg für die Entwicklung nativer multimodaler Architekturen für reine Decoder bieten.





  • Papieradresse: https://arxiv.org/abs/2406.11832
  • Projektcode: https://github.com/baaivision/EVE
  • Modelladresse: https://huggingface.co/BAAI/EVE-7B-HD-v1.0

1. Technische Highlights

  • Natives visuelles Sprachmodell: Durchbricht das feste Paradigma der gängigen multimodalen Modelle, entfernt den visuellen Encoder und kann jedes Bildseitenverhältnis verarbeiten. Es ist in mehreren visuellen Sprachbenchmarks deutlich besser als der gleiche Typ des Fuyu-8B-Modells und kommt der gängigen visuellen Encoder-basierten visuellen Spracharchitektur nahe.
  • Geringe Daten- und Schulungskosten: Das Vortraining des EVE-Modells überprüfte nur öffentliche Daten von OpenImages, SAM und LAION und nutzte 665.000 LLaVA-Anweisungsdaten und weitere 1,2 Millionen visuelle Dialogdaten, um reguläre bzw. High-Level-Versionen zu erstellen Version von EVE-7B. Die Schulung dauert auf zwei 8-A100 (40G)-Knoten etwa 9 Tage bzw. 5 Tage auf vier 8-A100-Knoten.
  • Transparente und effiziente Erkundung: EVE versucht, einen effizienten, transparenten und praktischen Weg zum nativen visuellen Sprachmodell zu erkunden und liefert neue Ideen und wertvolle Erfahrungen für die Entwicklung einer neuen Generation reiner Decoder-visueller Sprachmodellarchitektur für die zukünftige multimodale Entwicklung von Modellen eröffnet neue Wege für die Erforschung.

2. Modellstruktur



Zunächst wird es durch das Vicuna-7B-Sprachmodell initialisiert, sodass es über umfassende Sprachkenntnisse und leistungsstarke Funktionen zur Befehlsfolge verfügt. Auf dieser Grundlage wird der tiefe visuelle Encoder entfernt, eine leichte visuelle Codierungsschicht aufgebaut, die Bildeingabe effizient und verlustfrei codiert und zusammen mit Benutzersprachbefehlen in einen einheitlichen Decoder eingegeben. Darüber hinaus führt die visuelle Ausrichtungsschicht eine Merkmalsausrichtung mit einem allgemeinen visuellen Encoder durch, um die feinkörnige Kodierung und Darstellung visueller Informationen zu verbessern.



2.1 Patch-Einbettungsebene

  • Verwenden Sie zunächst eine einzelne Faltungsschicht, um die 2D-Feature-Map des Bildes zu erhalten, und führen Sie dann ein Downsampling über eine durchschnittliche Pooling-Schicht durch.
  • Verwenden Sie das Cross-Attention-Modul (CA1), um in einem begrenzten Empfangsfeld zu interagieren und die lokalen Funktionen jedes Patches zu verbessern.
  • Verwenden Sie das <CLS>-Token und kombinieren Sie es mit dem Cross-Attention-Modul (CA2), um globale Informationen für jede nachfolgende Patch-Funktion bereitzustellen.
  • Am Ende jeder Patch-Feature-Linie wird ein lernbares <SPL>-Token eingefügt, um dem Netzwerk zu helfen, die zweidimensionale räumliche Struktur des Bildes zu verstehen.

2.2 Patch-Ausrichtungsebene

  • Zeichnen Sie die 2D-Form eines gültigen Patches auf; verwerfen Sie <CLS>/
  • Token und verwenden Sie die adaptive Pooling-Schicht, um die ursprüngliche zweidimensionale Form wiederherzustellen.
  • Durch das hierarchische Cross-Attention-Modul (CA3) werden mehrschichtige visuelle Netzwerkfunktionen integriert, um eine feinkörnige Ausrichtung mit der visuellen Encoder-Ausgabe zu erreichen.

3. Trainingsstrategie



  • Die vom großen Sprachmodell geleitete Vortrainingsphase stellt die anfängliche Verbindung zwischen Vision und Sprache her und legt den Grundstein für ein anschließendes stabiles und effizientes groß angelegtes Vortraining.
  • Generative Vortrainingsphase: Verbessern Sie die Fähigkeit des Modells, visuell-linguistische Inhalte zu verstehen, und erreichen Sie einen reibungslosen Übergang von einem reinen Sprachmodell zu einem multimodalen Modell.
  • Überwachte Feinabstimmungsphase: Die Fähigkeit des Modells, Sprachanweisungen zu befolgen und Dialogmuster zu lernen, weiter zu standardisieren, um den Anforderungen verschiedener Benchmarks für visuelle Sprache gerecht zu werden.



  • In der Vortrainingsphase wurden 33 Millionen öffentliche Daten von SA-1B, OpenImages und LAION überprüft und nur Bildbeispiele mit einer Auflösung von mehr als 448 x 448 beibehalten. Um insbesondere das Problem der hohen Redundanz in LAION-Bildern anzugehen, wurden 50.000 Cluster durch Anwendung von K-Means-Clustering auf die von EVA-CLIP extrahierten Bildmerkmale generiert und schließlich die 300 Bilder ausgewählt, die jedem Clusterzentrum am nächsten liegen 15 Millionen LAION-Bildbeispiele ausgewählt. Anschließend werden hochwertige Bildbeschreibungen mit Emu2 (17B) und LLaVA-1.5 (13B) neu generiert.
  • In der überwachten Feinabstimmungsphase wird der Feinabstimmungsdatensatz LLaVA-mix-665K verwendet, um die Standardversion von EVE-7B und gemischte Datensätze wie AI2D, Synthdog, DVQA, ChartQA, DocVQA, Vision-Flan zu trainieren und Bunny-695K sind integriert, um die hochauflösende Version von EVE-7B zu trainieren.

4. Quantitative Analyse



Das EVE-Modell übertrifft das ähnliche Fuyu-8B-Modell in mehreren visuellen Sprachbenchmarks deutlich und schneidet auf Augenhöhe mit einer Vielzahl gängiger Encoder-basierter visueller Sprachmodelle ab. Aufgrund der Verwendung einer großen Menge visueller Sprachdaten für das Training ist es jedoch schwierig, genau auf bestimmte Anweisungen zu reagieren, und die Leistung in einigen Benchmark-Tests muss verbessert werden. Spannend ist, dass das Encoder-lose EVE durch effiziente Trainingsstrategien eine mit dem Encoder-basierten visuellen Sprachmodell vergleichbare Leistung erzielen kann, wodurch die Probleme der Eingabegrößenflexibilität, der Bereitstellungseffizienz und der Modalität von Mainstream-Modellen grundsätzlich gelöst werden.



Im Vergleich zu Modellen mit Encodern, die anfällig für Probleme wie die Vereinfachung der Sprachstruktur und den Verlust umfangreicher Kenntnisse sind, hat EVE mit zunehmender Datengröße eine allmähliche und stabile Leistungsverbesserung gezeigt und nähert sich allmählich dem Leistungsniveau von Encoder-basierten Modellen an. Dies kann daran liegen, dass die Codierung und Ausrichtung visueller und sprachlicher Modalitäten in einem einheitlichen Netzwerk eine größere Herausforderung darstellt, wodurch Encoder-freie Modelle im Vergleich zu Modellen mit Encodern weniger anfällig für Überanpassungen sind.

5. Was denken Ihre Kollegen?

Ali Hatamizadeh, ein leitender Forscher bei NVIDIA, sagte, dass EVE erfrischend sei und versuche, eine neue Erzählung vorzuschlagen, die sich von der Konstruktion komplexer Bewertungsstandards und progressiven Verbesserungen visueller Sprachmodelle unterscheide.



Armand Joulin, leitender Forscher bei Google Deepmind, sagte, es sei spannend, ein reines Decoder-Modell für visuelle Sprache zu entwickeln.



Prinz Canuma, Ingenieur für maschinelles Lernen bei Apple, sagte, die EVE-Architektur sei sehr interessant und eine gute Ergänzung zum MLX-VLM-Projektsatz.



6. Zukunftsaussichten

Als natives visuelles Sprachmodell ohne Encoder hat EVE derzeit ermutigende Ergebnisse erzielt. Auf diesem Weg gibt es einige interessante Richtungen, die es wert sind, in Zukunft erkundet zu werden:

  • Weitere Leistungsverbesserung: Experimente ergaben, dass das Vortraining, bei dem nur visuell-linguistische Daten verwendet wurden, die Sprachfähigkeit des Modells deutlich verringerte (der SQA-Score sank von 65,3 % auf 63,0 %), die multimodale Leistung des Modells jedoch schrittweise verbesserte. Dies weist darauf hin, dass es bei der Aktualisierung großer Sprachmodelle zu einem internen katastrophalen Vergessen von Sprachkenntnissen kommt. Es wird empfohlen, reinsprachliche Pre-Training-Daten angemessen zu integrieren oder eine Expertenmix-Strategie (MoE) zu verwenden, um die Interferenz zwischen visuellen und sprachlichen Modalitäten zu reduzieren.
  • Die Vision einer Encoder-losen Architektur: Mit geeigneten Strategien und Training mit hochwertigen Daten können Encoder-lose visuelle Sprachmodelle mit Modellen mit Encodern konkurrieren. Wie hoch ist also die Leistung der beiden bei gleicher Modellkapazität und umfangreichen Trainingsdaten? Wir spekulieren, dass die Encoder-lose Architektur durch die Erweiterung der Modellkapazität und der Trainingsdatenmenge die Encoder-basierte Architektur erreichen oder sogar übertreffen kann, da erstere Bilder nahezu verlustfrei eingibt und die a priori-Verzerrung des visuellen Encoders vermeidet.
  • Konstruktion nativer multimodaler Modelle: EVE demonstriert umfassend, wie native multimodale Modelle effizient und stabil erstellt werden können, was eine transparente und praktikable Möglichkeit zur Integration weiterer Modalitäten (wie Audio, Video, Wärmebild, Tiefe usw.) eröffnet. in der Zukunft. Die Kernidee besteht darin, diese Modalitäten durch ein eingefrorenes großes Sprachmodell vorab auszurichten, bevor ein umfassendes einheitliches Training eingeführt wird, und entsprechende Einzelmodal-Encoder und Sprachkonzeptausrichtung zur Überwachung zu nutzen.