Abbandonando il codificatore visivo, questo grande modello multimodale in "versione nativa" è paragonabile anche ai metodi

Abbandonando il codificatore visivo, questo grande modello multimodale in "versione nativa" è paragonabile anche ai metodi tradizionali

2024-07-16

La rubrica AIxiv è una rubrica in cui Machine Heart pubblica contenuti accademici e tecnici. Negli ultimi anni, la rubrica Heart of the Machine AIxiv ha ricevuto più di 2.000 segnalazioni, riguardanti i migliori laboratori delle principali università e aziende di tutto il mondo, promuovendo efficacemente gli scambi accademici e la divulgazione. Se hai un lavoro eccellente che desideri condividere, non esitare a contribuire o contattarci per segnalarlo. E-mail di presentazione: [email protected] [email protected];

Diao Haiwen è uno studente di dottorato presso l'Università di Tecnologia di Dalian e il suo supervisore è il professor Lu Huchuan. Attualmente lavora come stagista presso l'Istituto di ricerca sull'intelligenza artificiale Zhiyuan di Pechino, sotto la guida del Dr. Wang Xinlong. I suoi interessi di ricerca riguardano la visione e il linguaggio, il trasferimento efficiente di modelli di grandi dimensioni, modelli di grandi dimensioni multimodali, ecc. Il coautore Cui Yufeng si è laureato all'Università di Beihang ed è ricercatore di algoritmi presso il Vision Center dell'Istituto di ricerca sull'intelligenza artificiale Zhiyuan di Pechino. I suoi interessi di ricerca riguardano i modelli multimodali, i modelli generativi e la visione artificiale, e il suo lavoro principale include la serie Emu.

Recentemente, la ricerca sui grandi modelli multimodali è stata in pieno svolgimento e l’industria ha investito sempre di più in questo. All'estero sono stati lanciati modelli interessanti, come GPT-4o (OpenAI), Gemini (Google), Phi-3V (Microsoft), Claude-3V (Anthropic) e Grok-1.5V (xAI), ecc. Allo stesso tempo, i modelli domestici GLM-4V (Wisdom Spectrum AI), Step-1.5V (Step Star), Emu2 (Beijing Zhiyuan), Intern-VL (Shanghai AI Laboratory), Qwen-VL (Alibaba), ecc. in piena fioritura.

L'attuale modello del linguaggio visivo (VLM) si basa solitamente sul codificatore visivo (Vision Encoder, VE) per estrarre le caratteristiche visive, quindi combina le istruzioni dell'utente con il modello del linguaggio di grandi dimensioni (LLM) per l'elaborazione e la risposta codificatore visivo e separazione dell'addestramento del modello linguistico di grandi dimensioni. Questa separazione fa sì che i codificatori visivi introducano problemi di bias di induzione visiva quando si interfacciano con modelli linguistici di grandi dimensioni, come risoluzione dell'immagine e proporzioni limitate e forti priori semantici visivi. Poiché la capacità dei codificatori visivi continua ad espandersi, anche l’efficienza di implementazione di modelli multimodali di grandi dimensioni nell’elaborazione dei segnali visivi è notevolmente limitata. Inoltre, come trovare la configurazione ottimale della capacità dei codificatori visivi e dei modelli linguistici di grandi dimensioni è diventato sempre più complesso e impegnativo.

In questo contesto, sono emerse rapidamente alcune idee più all’avanguardia:

Possiamo rimuovere il codificatore visivo, ovvero creare direttamente un grande modello multimodale nativo senza codificatore visivo?
Come evolvere in modo efficiente e fluido un modello linguistico di grandi dimensioni in un modello multimodale nativo di grandi dimensioni senza codificatori visivi?
Come colmare il divario prestazionale tra i framework multimodali nativi senza codificatore e i principali paradigmi multimodali basati su codificatore?

Adept AI ha rilasciato la serie di modelli Fuyu alla fine del 2023 e ha effettuato alcuni tentativi correlati, ma non ha rivelato strategie di formazione, risorse di dati e informazioni sulle apparecchiature. Allo stesso tempo, esiste un significativo divario prestazionale tra il modello Fuyu e gli algoritmi tradizionali negli indicatori di valutazione del testo visivo pubblico. Nello stesso periodo, alcuni esperimenti pilota che abbiamo condotto hanno dimostrato che, anche se la portata dei dati di pre-addestramento viene aumentata su larga scala, il grande modello multimodale nativo senza codificatore deve ancora affrontare problemi spinosi come la bassa velocità di convergenza e le scarse prestazioni.

In risposta a queste sfide, il team di visione dello Zhiyuan Research Institute ha collaborato con università nazionali come l’Università di Tecnologia di Dalian e l’Università di Pechino per lanciare una nuova generazione di modello di linguaggio visivo senza codificatore EVE. Attraverso strategie di formazione raffinate e supervisione visiva aggiuntiva, EVE integra rappresentazione, allineamento e inferenza visivo-linguistica in un'architettura di decodifica pura unificata. Utilizzando dati disponibili al pubblico, EVE si comporta bene su molteplici benchmark visivo-linguistici, competendo con i tradizionali metodi multimodali basati su codificatore di capacità simile e superando significativamente il collega Fuyu-8B. EVE si propone di fornire un percorso trasparente ed efficiente per lo sviluppo di architetture multimodali native per decodificatori puri.

Indirizzo del documento: https://arxiv.org/abs/2406.11832
Codice del progetto: https://github.com/baaivision/EVE
Indirizzo del modello: https://huggingface.co/BAAI/EVE-7B-HD-v1.0

1. Aspetti tecnici

Modello del linguaggio visivo nativo: rompe il paradigma fisso dei modelli multimodali tradizionali, rimuove il codificatore visivo e può gestire qualsiasi proporzione dell'immagine. È significativamente migliore dello stesso tipo di modello Fuyu-8B in diversi benchmark del linguaggio visivo ed è vicino all'architettura del linguaggio visivo tradizionale basata su codificatore visivo.
Bassi costi di dati e formazione: il pre-addestramento del modello EVE ha selezionato solo i dati pubblici di OpenImages, SAM e LAION e ha utilizzato 665.000 dati di istruzioni LLaVA e ulteriori 1,2 milioni di dati di dialogo visivo per creare rispettivamente versioni regolari e di alto livello di Resolved versione di EVE-7B. Il completamento della formazione richiede circa 9 giorni su due nodi 8-A100 (40G) o 5 giorni su quattro nodi 8-A100.
Esplorazione trasparente ed efficiente: EVE tenta di esplorare un percorso efficiente, trasparente e pratico verso il modello di linguaggio visivo nativo, fornendo nuove idee e preziosa esperienza per lo sviluppo di una nuova generazione di architettura del modello di linguaggio visivo di decodificatore puro per il futuro multimodale. Lo sviluppo di modelli apre nuove direzioni per l’esplorazione.

2. Struttura del modello

Innanzitutto, viene inizializzato tramite il modello linguistico Vicuna-7B, in modo che abbia una ricca conoscenza della lingua e potenti capacità di seguire le istruzioni. Su questa base, il codificatore visivo profondo viene rimosso, viene costruito uno strato di codifica visiva leggero, l'input dell'immagine viene codificato in modo efficiente e senza perdite e immesso in un decodificatore unificato insieme ai comandi del linguaggio dell'utente. Inoltre, il livello di allineamento visivo esegue l'allineamento delle caratteristiche con un codificatore visivo generale per migliorare la codifica e la rappresentazione a grana fine delle informazioni visive.

2.1 Livello di incorporamento della patch

Utilizzare innanzitutto un singolo livello convoluzionale per ottenere la mappa delle caratteristiche 2D dell'immagine, quindi eseguire il downsampling attraverso un livello di pooling medio;
Utilizzare il modulo di attenzione incrociata (CA1) per interagire in un campo ricettivo limitato per migliorare le caratteristiche locali di ciascuna patch;
Utilizzare il token <CLS> e combinarlo con il modulo di attenzione incrociata (CA2) per fornire informazioni globali per ogni funzionalità di patch successiva;
Un token <SPL> apprendibile viene inserito alla fine di ciascuna linea caratteristica della patch per aiutare la rete a comprendere la struttura spaziale bidimensionale dell'immagine.

2.2 Livello di allineamento delle patch

Registra la forma 2D di una patch valida; scarta <CLS>/
token e utilizzare il livello di pooling adattivo per ripristinare la forma bidimensionale originale;
Attraverso il modulo gerarchico di attenzione incrociata (CA3), le funzionalità visive di rete multistrato sono integrate per ottenere un allineamento a grana fine con l'output del codificatore visivo.

3. Strategia formativa

La fase di pre-formazione guidata dal modello del grande linguaggio: stabilisce la connessione iniziale tra visione e linguaggio, ponendo le basi per una successiva pre-formazione stabile ed efficiente su larga scala;
Fase di pre-formazione generativa: migliorare ulteriormente la capacità del modello di comprendere i contenuti visivo-linguistici e ottenere una transizione graduale da un modello linguistico puro a un modello multimodale;
Fase di messa a punto supervisionata: standardizzare ulteriormente la capacità del modello di seguire le istruzioni linguistiche e apprendere modelli di dialogo per soddisfare i requisiti di vari parametri di riferimento del linguaggio visivo.

Nella fase di pre-formazione sono stati analizzati 33 milioni di dati pubblici di SA-1B, OpenImages e LAION e sono stati conservati solo campioni di immagini con una risoluzione superiore a 448×448. In particolare, per risolvere il problema dell'elevata ridondanza nelle immagini LAION, sono stati generati 50.000 cluster applicando il clustering K-mean sulle caratteristiche dell'immagine estratte da EVA-CLIP e infine sono state selezionate le 300 immagini più vicine a ciascun centro del cluster selezionato 15 milioni di campioni di immagini LAION. Successivamente, le descrizioni delle immagini di alta qualità vengono rigenerate utilizzando Emu2 (17B) e LLaVA-1.5 (13B).
Nella fase di regolazione fine supervisionata, il set di dati di regolazione fine LLaVA-mix-665K viene utilizzato per addestrare la versione standard di EVE-7B e set di dati misti come AI2D, Synthdog, DVQA, ChartQA, DocVQA, Vision-Flan e Bunny-695K sono integrati per addestrare la versione ad alta risoluzione di EVE-7B.

4. Analisi quantitativa

Il modello EVE supera significativamente il modello simile Fuyu-8B in numerosi benchmark di linguaggio visivo e funziona alla pari con una varietà di modelli di linguaggio visivo tradizionali basati su codificatore. Tuttavia, a causa dell’uso di una grande quantità di dati del linguaggio visivo per la formazione, ci sono difficoltà nel rispondere accuratamente a istruzioni specifiche e le sue prestazioni in alcuni test di riferimento devono essere migliorate. Ciò che è interessante è che attraverso strategie di formazione efficienti, l’EVE senza codificatore può ottenere prestazioni paragonabili al modello di linguaggio visivo basato su codificatore, risolvendo sostanzialmente i problemi di flessibilità delle dimensioni dell’input, efficienza di implementazione e modalità dei modelli tradizionali di corrispondenza delle capacità.

Rispetto ai modelli con codificatori, che sono suscettibili a problemi come la semplificazione della struttura del linguaggio e la perdita di conoscenze approfondite, EVE ha mostrato un miglioramento graduale e stabile delle prestazioni all'aumentare della dimensione dei dati, avvicinandosi gradualmente al livello di prestazioni dei modelli basati su codificatore. Ciò potrebbe essere dovuto al fatto che codificare e allineare le modalità visive e linguistiche in una rete unificata è più impegnativo, rendendo i modelli privi di codificatori meno inclini all'adattamento eccessivo rispetto ai modelli con codificatori.

5. Cosa pensano i tuoi coetanei?

Ali Hatamizadeh, ricercatore senior presso NVIDIA, ha affermato che EVE è rinfrescante e tenta di proporre una nuova narrativa, che è diversa dalla costruzione di complessi standard di valutazione e miglioramenti progressivi del modello del linguaggio visivo.

Armand Joulin, ricercatore principale di Google Deepmind, ha affermato che è entusiasmante costruire un modello di linguaggio visivo puramente decodificatore.

Prince Canuma, ingegnere di machine learning di Apple, ha affermato che l'architettura EVE è molto interessante e costituisce una buona aggiunta al set di progetti MLX VLM.

6. Prospettive future

Essendo un modello di linguaggio visivo nativo senza codificatore, EVE ha attualmente ottenuto risultati incoraggianti. Lungo questo percorso ci sono alcune direzioni interessanti che vale la pena esplorare in futuro:

Ulteriore miglioramento delle prestazioni: gli esperimenti hanno rilevato che il pre-addestramento utilizzando solo dati visivo-linguistici ha ridotto significativamente l'abilità linguistica del modello (il punteggio SQA è sceso dal 65,3% al 63,0%), ma ha gradualmente migliorato le prestazioni multimodali del modello. Ciò indica che si verifica un catastrofico oblio interno della conoscenza linguistica quando vengono aggiornati grandi modelli linguistici. Si raccomanda di integrare in modo appropriato i dati pre-formazione sul linguaggio puro o di utilizzare una strategia mista di esperti (MoE) per ridurre l'interferenza tra le modalità visive e linguistiche.
La visione di un'architettura senza codificatore: con strategie adeguate e formazione con dati di alta qualità, i modelli di linguaggio visivo senza codificatore possono competere con i modelli con codificatori. Quindi, con la stessa capacità del modello e enormi dati di addestramento, qual è la prestazione dei due? Ipotizziamo che espandendo la capacità del modello e la quantità di dati di addestramento, l'architettura senza codificatore possa raggiungere o addirittura superare l'architettura basata su codificatore, perché la prima inserisce le immagini quasi senza perdite ed evita il pregiudizio a priori del codificatore visivo.
Costruzione di modelli multimodali nativi: EVE dimostra completamente come costruire modelli multimodali nativi in modo efficiente e stabile, il che apre un modo trasparente e fattibile per integrare più modalità (come audio, video, imaging termico, profondità, ecc.) in futuro. L’idea centrale è quella di pre-allineare queste modalità attraverso un modello linguistico di grandi dimensioni congelato prima di introdurre una formazione unificata su larga scala e utilizzare i corrispondenti codificatori monomodali e l’allineamento dei concetti linguistici per la supervisione.

notizia

Abbandonando il codificatore visivo, questo grande modello multimodale in "versione nativa" è paragonabile anche ai metodi tradizionali

introduzione

le mie informazioni di contatto