Le mie informazioni di contatto
Posta[email protected]
2024-08-19
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Dopo aver visto un film di 2 ore in 4 secondi, i nuovi traguardi del team Alibaba sono stati ufficialmente svelati——
srotolareModello grande multimodale universale mPLUG-Owl3, utilizzato appositamente per comprendere più immagini e video lunghi.
Nello specifico, prendendo LLaVA-Next-Interleave come punto di riferimento, mPLUG-Owl3La latenza del primo token si è ridotta di 6 volte, e il numero di immagini che possono essere modellate da un singolo A100 è aumentato di 8 volte, raggiungendo400 immagini, secondo il test attuale, puoi guardare un film di 2 ore in 4 secondi.
In altre parole, l’efficienza del ragionamento del modello è stata notevolmente migliorata.
ESenza sacrificare la precisione del modello。
mPLUG-Owl3 ha inoltre raggiunto molti parametri di riferimento in vari scenari coinvolti in modelli multimodali di grandi dimensioni, inclusi campi a immagine singola, multiimmagine e video.SOTA。
L'autore del documento è diSquadra Alibaba mPLUG, sono stati profondamente coinvolti in modelli di base multimodali di grandi dimensioni, e prima ancora hanno anche proposto:
Diamo un'occhiata a quale tecnologia nera offre questa versione di mPLUG-Owl3.
Gioco sbloccato
Il team ha dimostrato diversi usi comuni di mPLUG-Owl3.
Miglioramento del recupero multimodale
In generale, è pratica comune integrare la conoscenza che il modello non ha appreso attraverso il sistema di recupero. Ciò richiede che il modello comprenda accuratamente la conoscenza multimodale in arrivo e la utilizzi per rispondere alle domande.
Nell'esempio seguente, mPLUG-Owl3 non solo può rispondere correttamente in base alla conoscenza recuperata, ma anche darleSu quale conoscenza si basa il giudizio?e fornire una base di giudizio dettagliata. Ciò è molto amichevole per il personale di ricerca e sviluppo a valle per lo sviluppo e il debug.
Cerca parte: Di seguito sono riportate diverse conoscenze multimodali recuperate per consentirti di prendere una decisione.
Fai una domanda: Sulla base delle tue osservazioni sulle quattro foto di cani sopra, puoi classificare il cane nell'immagine 5? Motivare.
risposta: Sulla base dell'osservazione delle quattro foto di cani, il cane nell'immagine 5 può essere classificato come Irish Terrier. Il cane nella foto 1 è descritto come un Irish Terrier e il cane nella foto 5 ha caratteristiche fisiche simili al cane nella foto 1...
Ragionamento multigrafico
Situazioni come questa si verificano spesso nella vita——
Molti utenti non conversano solo attorno a un'immagine, ma l'utente può avere diversi materiali e il modello deve essere in grado di comprendere correttamente la relazione tra i contenuti nei diversi materiali.
Nell'esempio seguente, mPLUG-Owl3 può attivare la conoscenza del buon senso del modello linguistico attraverso ciò che vede in due immagini e ragionare attorno alle due immagini.
Fai una domanda: L'animale a sinistra può sopravvivere nell'ambiente a destra? Servono risposte e spiegazioni.
risposta(La risposta corretta è contrassegnata in verde): L'idea generale è che non può sopravvivere perché l'ambiente è troppo freddo.
In un altro esempio, mPLUG-Owl3 non solo può rilevare la differenza di stile tra due immagini, ma anche realizzare che, sebbene i personaggi nelle due immagini abbiano stili diversi, in realtà sono lo stesso personaggio.
domanda per la prima volta: Quali stili artistici sono raffigurati nell'immagine e in cosa differiscono?
risposta: La prima immagine è in stile pixel, la seconda immagine è in stile cartone animato... (motivare)
seconda domanda: Chi appare in entrambi i dipinti? Quali sono le loro caratteristiche?
risposta: In entrambi i dipinti appare un uomo che indossa un cappello da cowboy ed è raffigurato in due stili diversi.
Lunga comprensione del video
Guardare video molto lunghi è un compito che la maggior parte dei modelli attuali non può completare end-to-end. Se si basa sul framework Agent, è difficile garantire la velocità di risposta.
mPLUG-Owl3 può guardare un film di 2 ore eInizia a rispondere alle domande degli utenti in 4 secondi。
Se l'utente pone domande su clip molto dettagliate all'inizio, a metà e alla fine del film, mPLUG-Owl3 può rispondere in modo fluido.
Come hai fatto?
A differenza dei modelli tradizionali, mPLUG-Owl3Non è necessario unire in anticipo la sequenza visiva nella sequenza testuale del modello linguistico。
In altre parole, qualunque sia l'input (dozzine di immagini o ore di video), non occupa la capacità di sequenza del modello linguistico, il che evita l'enorme sovraccarico computazionale e l'utilizzo della memoria video causati da lunghe sequenze visive.
Qualcuno potrebbe chiedersi: come vengono integrate le informazioni visive nel modello linguistico?
Per raggiungere questo obiettivo, il team ha proposto aModulo iperattenzione leggero, che può estendere un Transformer Block esistente che può solo modellare il testo in un nuovo modulo che può eseguire sia l'interazione con le funzionalità grafiche che di testo e la modellazione del testo.
Diffondendosi scarsamente in tutto il modello linguistico4Transformer Block, mPLUG-Owl3 può aggiornare LLM a LLM multimodale a un costo molto basso.
Dopo che le caratteristiche visive sono state estratte dal codificatore visivo, le dimensioni vengono allineate alle dimensioni del modello linguistico attraverso una semplice mappatura lineare.
Successivamente, le funzionalità visive interagiranno solo con il testo in questi quattro livelli di Transformer Block. Poiché il token visivo non ha subito alcuna compressione, le informazioni a grana fine possono essere preservate.
Dai un'occhiata qui sottoCome viene progettata l'iperattenzione?。
Per consentire al modello linguistico di percepire le caratteristiche visive, Hyper Attention introduce aAttenzione incrociataNell'operazione, le funzionalità visive vengono utilizzate come chiave e valore e lo stato nascosto del modello linguistico viene utilizzato come query per estrarre le funzionalità visive.
Negli ultimi anni, altre ricerche hanno preso in considerazione l’utilizzo di Cross-Attention per la fusione multimodale, come Flamingo e IDEFICS, ma questi lavori non sono riusciti a ottenere buone prestazioni.
In un rapporto tecnico su mPLUG-Owl3, il teamConfronto del design di Flamingo, per spiegare ulteriormente l'iperattenzionePunti tecnici chiave:
Innanzitutto, l’Iperattenzione non adotta il disegno dell’attenzione incrociata e dell’autoattenzione a cascata, ma è incorporata nel blocco dell’autoattenzione.
Il suo vantaggio è che riduce notevolmente il numero di nuovi parametri aggiuntivi introdotti, rendendo il modello più semplice da addestrare e l'efficienza dell'addestramento e dell'inferenza può essere ulteriormente migliorata.
In secondo luogo, la selezione dell'iperattenzioneLayerNorm per modelli linguistici condivisi, perché l'output della distribuzione di LayerNorm è la distribuzione stabile che è stata addestrata dal livello di attenzione. La condivisione di questo livello è cruciale per l'apprendimento stabile del nuovo livello di attenzione incrociata.
Infatti, l’IperAttenzione adotta una strategia parallela di Cross-Attenzione e Auto-Attenzione, utilizzando una Query condivisa per interagire con le funzionalità visive, e integrando le due funzionalità attraverso un Adaptive Gate.
Ciò consente a Query di selezionare selettivamente le funzionalità visive rilevanti in base alla propria semantica.
Scoperta della squadra, immagineposizione relativa rispetto al testo nel contesto originaleÈ molto importante che il modello comprenda meglio l’input multimodale.
Per modellare questa proprietà, hanno introdotto una posizione di rotazione interleaved multimodale che codifica MI-Rope per modellare le informazioni sulla posizione per la chiave visiva.
Nello specifico, hanno preregistrato le informazioni sulla posizione di ciascuna immagine nel testo originale e hanno utilizzato questa posizione per calcolare l'incorporamento di Rope corrispondente e ogni patch della stessa immagine avrebbe condiviso questo incorporamento.
Inoltre, stanno anche facendo Attenzione IncrociataViene introdotta la maschera di attenzione, in modo che il testo prima dell'immagine nel contesto originale non possa vedere le caratteristiche corrispondenti alle immagini successive.
In sintesi, questi punti di progettazione di Hyper Attention hanno apportato ulteriori miglioramenti in termini di efficienza a mPLUG-Owl3 e hanno assicurato che possa ancora avere capacità multimodali di prima classe.
Risultati sperimentali
Conducendo esperimenti su un'ampia gamma di set di dati, mPLUG-Owl3La maggior parte dei benchmark multimodali a immagine singolaTutti possono ottenere risultati SOTA e molti test possono addirittura superare modelli di dimensioni maggiori.
allo stesso tempo,Nella valutazione multi-immagine, mPLUG-Owl3 ha superato anche LLAVA-Next-Interleave e Mantis, che sono appositamente ottimizzati per scene multi-immagine.
Inoltre, in LongVideoBench (52,1 punti), un modello di valutazione specializzatoComprendere i video lunghiSupera i modelli esistenti nell'elenco.
Il team di ricerca e sviluppo ha anche proposto un'interessanteMetodo di valutazione di sequenze visive lunghe。
Come tutti sappiamo, negli scenari reali di interazione uomo-computer, non tutte le immagini servono ai problemi degli utenti. Il contesto storico sarà pieno di contenuti multimodali irrilevanti per il problema. Più lunga è la sequenza, più grave è questo fenomeno.
Per valutare le prestazioni del modello su input di sequenze visive lungheAbilità anti-interferenza, ne hanno costruito uno basato su MMMBench-devNuovo set di dati di valutazione。
Introducendo immagini irrilevanti per ciascun campione di valutazione del ciclo MMBench e interrompendo l'ordine delle immagini, vengono quindi poste domande sulle immagini originali per vedere se il modello può rispondere correttamente e stabilmente. (Per la stessa domanda, verranno costruiti quattro campioni con diverso ordine di opzioni e immagini di interferenza e verrà registrata solo una risposta corretta se a tutte si risponde correttamente.)
L'esperimento è suddiviso in più livelli in base al numero di immagini in input.
Si può vedere che i modelli senza addestramento multigrafico come Qwen-VL e mPLUG-Owl2 fallirono rapidamente.
LLAVA-Next-Interleave e Mantis, che sono stati addestrati con più immagini, possono mantenere una curva di attenuazione simile a mPLUG-Owl3 all'inizio, ma quando il numero di immagini raggiunge50A questa portata, questi modelli non possono più rispondere correttamente.
E mPLUG-Owl3 persisteva400 immaginiPuò ancora mantenerePrecisione del 40%.。
Tuttavia, c'è una cosa da dire. Sebbene mPLUG-Owl3 superi i modelli esistenti, la sua precisione è lungi dal raggiungere un livello eccellente. Si può solo dire che questo metodo di valutazione rivela la capacità anti-interferenza di tutti i modelli nelle lunghe sequenze necessarie da migliorare ulteriormente in futuro.
Per maggiori dettagli fare riferimento alla carta e al codice.