2024-07-16
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Die AIxiv-Kolumne ist eine Kolumne, in der Machine Heart akademische und technische Inhalte veröffentlicht. In den letzten Jahren hat die Kolumne „Heart of the Machine AIxiv“ mehr als 2.000 Berichte erhalten, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail-Adresse: [email protected]; [email protected]
Diao Haiwen ist Doktorand an der Dalian University of Technology und sein Betreuer ist Professor Lu Huchuan. Derzeit als Praktikant am Beijing Zhiyuan Artificial Intelligence Research Institute unter der Leitung von Dr. Wang Xinlong tätig. Seine Forschungsinteressen sind Vision und Sprache, effiziente Übertragung großer Modelle, multimodale große Modelle usw. Co-Autor Cui Yufeng hat seinen Abschluss an der Beihang-Universität und ist Algorithmenforscher am Vision Center des Beijing Zhiyuan Artificial Intelligence Research Institute. Seine Forschungsinteressen sind multimodale Modelle, generative Modelle und Computer Vision, und zu seinem Hauptwerk gehört die Emu-Reihe.
In letzter Zeit ist die Forschung an multimodalen Großmodellen in vollem Gange und die Industrie investiert immer mehr in diese. Im Ausland wurden beliebte Modelle eingeführt, wie GPT-4o (OpenAI), Gemini (Google), Phi-3V (Microsoft), Claude-3V (Anthropic) und Grok-1.5V (xAI) usw. Gleichzeitig sind inländische Modelle GLM-4V (Wisdom Spectrum AI), Step-1.5V (Step Star), Emu2 (Beijing Zhiyuan), Intern-VL (Shanghai AI Laboratory), Qwen-VL (Alibaba) usw. vorhanden in voller Blüte.
Das aktuelle visuelle Sprachmodell (VLM) basiert normalerweise auf dem visuellen Encoder (Vision Encoder, VE), um visuelle Merkmale zu extrahieren, und kombiniert dann die Benutzeranweisungen mit dem großen Sprachmodell (LLM) zur Verarbeitung und Beantwortung Visueller Encoder und große Sprachmodell-Trainingstrennung. Diese Trennung führt dazu, dass visuelle Encoder Probleme mit der visuellen Induktionsverzerrung verursachen, wenn sie mit großen Sprachmodellen interagieren, wie z. B. eine begrenzte Bildauflösung und ein begrenztes Seitenverhältnis sowie starke visuelle semantische Prioritäten. Da die Kapazität visueller Encoder immer weiter zunimmt, ist auch die Einsatzeffizienz multimodaler großer Modelle bei der Verarbeitung visueller Signale stark eingeschränkt. Darüber hinaus ist es immer komplexer und herausfordernder geworden, die optimale Kapazitätskonfiguration für visuelle Encoder und große Sprachmodelle zu finden.
Vor diesem Hintergrund entstanden schnell einige weitere innovative Ideen:
Adept AI veröffentlichte die Fuyu-Modellreihe Ende 2023 und unternahm einige damit verbundene Versuche, gab jedoch keine Trainingsstrategien, Datenressourcen und Ausrüstungsinformationen bekannt. Gleichzeitig besteht eine erhebliche Leistungslücke zwischen dem Fuyu-Modell und den gängigen Algorithmen bei öffentlichen visuellen Textbewertungsindikatoren. Im gleichen Zeitraum zeigten einige von uns durchgeführte Pilotexperimente, dass das native multimodale große Modell ohne Encoder immer noch mit heiklen Problemen wie langsamer Konvergenzgeschwindigkeit und schlechter Leistung konfrontiert ist, selbst wenn der Umfang der Vortrainingsdaten in großem Maßstab erhöht wird.
Als Reaktion auf diese Herausforderungen hat sich das Vision-Team des Zhiyuan Research Institute mit inländischen Universitäten wie der Dalian University of Technology und der Peking University zusammengetan, um eine neue Generation des programmiererfreien visuellen Sprachmodells EVE auf den Markt zu bringen. Durch verfeinerte Trainingsstrategien und zusätzliche visuelle Überwachung integriert EVE visuell-sprachliche Darstellung, Ausrichtung und Inferenz in eine einheitliche reine Decoder-Architektur. Unter Verwendung öffentlich verfügbarer Daten schneidet EVE bei mehreren visuell-linguistischen Benchmarks gut ab, konkurriert mit gängigen Encoder-basierten multimodalen Methoden ähnlicher Kapazität und übertrifft sein Pendant Fuyu-8B deutlich. EVE soll einen transparenten und effizienten Weg für die Entwicklung nativer multimodaler Architekturen für reine Decoder bieten.
1. Technische Highlights
2. Modellstruktur
Zunächst wird es durch das Vicuna-7B-Sprachmodell initialisiert, sodass es über umfassende Sprachkenntnisse und leistungsstarke Funktionen zur Befehlsfolge verfügt. Auf dieser Grundlage wird der tiefe visuelle Encoder entfernt, eine leichte visuelle Codierungsschicht aufgebaut, die Bildeingabe effizient und verlustfrei codiert und zusammen mit Benutzersprachbefehlen in einen einheitlichen Decoder eingegeben. Darüber hinaus führt die visuelle Ausrichtungsschicht eine Merkmalsausrichtung mit einem allgemeinen visuellen Encoder durch, um die feinkörnige Kodierung und Darstellung visueller Informationen zu verbessern.
2.1 Patch-Einbettungsebene
2.2 Patch-Ausrichtungsebene
3. Trainingsstrategie
4. Quantitative Analyse
Das EVE-Modell übertrifft das ähnliche Fuyu-8B-Modell in mehreren visuellen Sprachbenchmarks deutlich und schneidet auf Augenhöhe mit einer Vielzahl gängiger Encoder-basierter visueller Sprachmodelle ab. Aufgrund der Verwendung einer großen Menge visueller Sprachdaten für das Training ist es jedoch schwierig, genau auf bestimmte Anweisungen zu reagieren, und die Leistung in einigen Benchmark-Tests muss verbessert werden. Spannend ist, dass das Encoder-lose EVE durch effiziente Trainingsstrategien eine mit dem Encoder-basierten visuellen Sprachmodell vergleichbare Leistung erzielen kann, wodurch die Probleme der Eingabegrößenflexibilität, der Bereitstellungseffizienz und der Modalität von Mainstream-Modellen grundsätzlich gelöst werden.
Im Vergleich zu Modellen mit Encodern, die anfällig für Probleme wie die Vereinfachung der Sprachstruktur und den Verlust umfangreicher Kenntnisse sind, hat EVE mit zunehmender Datengröße eine allmähliche und stabile Leistungsverbesserung gezeigt und nähert sich allmählich dem Leistungsniveau von Encoder-basierten Modellen an. Dies kann daran liegen, dass die Codierung und Ausrichtung visueller und sprachlicher Modalitäten in einem einheitlichen Netzwerk eine größere Herausforderung darstellt, wodurch Encoder-freie Modelle im Vergleich zu Modellen mit Encodern weniger anfällig für Überanpassungen sind.
5. Was denken Ihre Kollegen?
Ali Hatamizadeh, ein leitender Forscher bei NVIDIA, sagte, dass EVE erfrischend sei und versuche, eine neue Erzählung vorzuschlagen, die sich von der Konstruktion komplexer Bewertungsstandards und progressiven Verbesserungen visueller Sprachmodelle unterscheide.
Armand Joulin, leitender Forscher bei Google Deepmind, sagte, es sei spannend, ein reines Decoder-Modell für visuelle Sprache zu entwickeln.
Prinz Canuma, Ingenieur für maschinelles Lernen bei Apple, sagte, die EVE-Architektur sei sehr interessant und eine gute Ergänzung zum MLX-VLM-Projektsatz.
6. Zukunftsaussichten
Als natives visuelles Sprachmodell ohne Encoder hat EVE derzeit ermutigende Ergebnisse erzielt. Auf diesem Weg gibt es einige interessante Richtungen, die es wert sind, in Zukunft erkundet zu werden: