le mie informazioni di contatto
Posta[email protected]
2024-07-16
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
La rubrica AIxiv è una rubrica in cui Machine Heart pubblica contenuti accademici e tecnici. Negli ultimi anni, la rubrica Heart of the Machine AIxiv ha ricevuto più di 2.000 segnalazioni, riguardanti i migliori laboratori delle principali università e aziende di tutto il mondo, promuovendo efficacemente gli scambi accademici e la divulgazione. Se hai un lavoro eccellente che desideri condividere, non esitare a contribuire o contattarci per segnalarlo. E-mail di presentazione: [email protected] [email protected];
Diao Haiwen è uno studente di dottorato presso l'Università di Tecnologia di Dalian e il suo supervisore è il professor Lu Huchuan. Attualmente lavora come stagista presso l'Istituto di ricerca sull'intelligenza artificiale Zhiyuan di Pechino, sotto la guida del Dr. Wang Xinlong. I suoi interessi di ricerca riguardano la visione e il linguaggio, il trasferimento efficiente di modelli di grandi dimensioni, modelli di grandi dimensioni multimodali, ecc. Il coautore Cui Yufeng si è laureato all'Università di Beihang ed è ricercatore di algoritmi presso il Vision Center dell'Istituto di ricerca sull'intelligenza artificiale Zhiyuan di Pechino. I suoi interessi di ricerca riguardano i modelli multimodali, i modelli generativi e la visione artificiale, e il suo lavoro principale include la serie Emu.
Recentemente, la ricerca sui grandi modelli multimodali è stata in pieno svolgimento e l’industria ha investito sempre di più in questo. All'estero sono stati lanciati modelli interessanti, come GPT-4o (OpenAI), Gemini (Google), Phi-3V (Microsoft), Claude-3V (Anthropic) e Grok-1.5V (xAI), ecc. Allo stesso tempo, i modelli domestici GLM-4V (Wisdom Spectrum AI), Step-1.5V (Step Star), Emu2 (Beijing Zhiyuan), Intern-VL (Shanghai AI Laboratory), Qwen-VL (Alibaba), ecc. in piena fioritura.
L'attuale modello del linguaggio visivo (VLM) si basa solitamente sul codificatore visivo (Vision Encoder, VE) per estrarre le caratteristiche visive, quindi combina le istruzioni dell'utente con il modello del linguaggio di grandi dimensioni (LLM) per l'elaborazione e la risposta codificatore visivo e separazione dell'addestramento del modello linguistico di grandi dimensioni. Questa separazione fa sì che i codificatori visivi introducano problemi di bias di induzione visiva quando si interfacciano con modelli linguistici di grandi dimensioni, come risoluzione dell'immagine e proporzioni limitate e forti priori semantici visivi. Poiché la capacità dei codificatori visivi continua ad espandersi, anche l’efficienza di implementazione di modelli multimodali di grandi dimensioni nell’elaborazione dei segnali visivi è notevolmente limitata. Inoltre, come trovare la configurazione ottimale della capacità dei codificatori visivi e dei modelli linguistici di grandi dimensioni è diventato sempre più complesso e impegnativo.
In questo contesto, sono emerse rapidamente alcune idee più all’avanguardia:
Adept AI ha rilasciato la serie di modelli Fuyu alla fine del 2023 e ha effettuato alcuni tentativi correlati, ma non ha rivelato strategie di formazione, risorse di dati e informazioni sulle apparecchiature. Allo stesso tempo, esiste un significativo divario prestazionale tra il modello Fuyu e gli algoritmi tradizionali negli indicatori di valutazione del testo visivo pubblico. Nello stesso periodo, alcuni esperimenti pilota che abbiamo condotto hanno dimostrato che, anche se la portata dei dati di pre-addestramento viene aumentata su larga scala, il grande modello multimodale nativo senza codificatore deve ancora affrontare problemi spinosi come la bassa velocità di convergenza e le scarse prestazioni.
In risposta a queste sfide, il team di visione dello Zhiyuan Research Institute ha collaborato con università nazionali come l’Università di Tecnologia di Dalian e l’Università di Pechino per lanciare una nuova generazione di modello di linguaggio visivo senza codificatore EVE. Attraverso strategie di formazione raffinate e supervisione visiva aggiuntiva, EVE integra rappresentazione, allineamento e inferenza visivo-linguistica in un'architettura di decodifica pura unificata. Utilizzando dati disponibili al pubblico, EVE si comporta bene su molteplici benchmark visivo-linguistici, competendo con i tradizionali metodi multimodali basati su codificatore di capacità simile e superando significativamente il collega Fuyu-8B. EVE si propone di fornire un percorso trasparente ed efficiente per lo sviluppo di architetture multimodali native per decodificatori puri.
1. Aspetti tecnici
2. Struttura del modello
Innanzitutto, viene inizializzato tramite il modello linguistico Vicuna-7B, in modo che abbia una ricca conoscenza della lingua e potenti capacità di seguire le istruzioni. Su questa base, il codificatore visivo profondo viene rimosso, viene costruito uno strato di codifica visiva leggero, l'input dell'immagine viene codificato in modo efficiente e senza perdite e immesso in un decodificatore unificato insieme ai comandi del linguaggio dell'utente. Inoltre, il livello di allineamento visivo esegue l'allineamento delle caratteristiche con un codificatore visivo generale per migliorare la codifica e la rappresentazione a grana fine delle informazioni visive.
2.1 Livello di incorporamento della patch
2.2 Livello di allineamento delle patch
3. Strategia formativa
4. Analisi quantitativa
Il modello EVE supera significativamente il modello simile Fuyu-8B in numerosi benchmark di linguaggio visivo e funziona alla pari con una varietà di modelli di linguaggio visivo tradizionali basati su codificatore. Tuttavia, a causa dell’uso di una grande quantità di dati del linguaggio visivo per la formazione, ci sono difficoltà nel rispondere accuratamente a istruzioni specifiche e le sue prestazioni in alcuni test di riferimento devono essere migliorate. Ciò che è interessante è che attraverso strategie di formazione efficienti, l’EVE senza codificatore può ottenere prestazioni paragonabili al modello di linguaggio visivo basato su codificatore, risolvendo sostanzialmente i problemi di flessibilità delle dimensioni dell’input, efficienza di implementazione e modalità dei modelli tradizionali di corrispondenza delle capacità.
Rispetto ai modelli con codificatori, che sono suscettibili a problemi come la semplificazione della struttura del linguaggio e la perdita di conoscenze approfondite, EVE ha mostrato un miglioramento graduale e stabile delle prestazioni all'aumentare della dimensione dei dati, avvicinandosi gradualmente al livello di prestazioni dei modelli basati su codificatore. Ciò potrebbe essere dovuto al fatto che codificare e allineare le modalità visive e linguistiche in una rete unificata è più impegnativo, rendendo i modelli privi di codificatori meno inclini all'adattamento eccessivo rispetto ai modelli con codificatori.
5. Cosa pensano i tuoi coetanei?
Ali Hatamizadeh, ricercatore senior presso NVIDIA, ha affermato che EVE è rinfrescante e tenta di proporre una nuova narrativa, che è diversa dalla costruzione di complessi standard di valutazione e miglioramenti progressivi del modello del linguaggio visivo.
Armand Joulin, ricercatore principale di Google Deepmind, ha affermato che è entusiasmante costruire un modello di linguaggio visivo puramente decodificatore.
Prince Canuma, ingegnere di machine learning di Apple, ha affermato che l'architettura EVE è molto interessante e costituisce una buona aggiunta al set di progetti MLX VLM.
6. Prospettive future
Essendo un modello di linguaggio visivo nativo senza codificatore, EVE ha attualmente ottenuto risultati incoraggianti. Lungo questo percorso ci sono alcune direzioni interessanti che vale la pena esplorare in futuro: