Le mie informazioni di contatto
Posta[email protected]
2024-08-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Nuovo rapporto sulla saggezza
Redattore: LRST Che sonno
[Introduzione alla Nuova Saggezza]Mini-Monkey è un modello linguistico multimodale leggero su larga scala che allevia efficacemente l'effetto aliasing causato dalle tradizionali strategie di segmentazione delle immagini utilizzando la strategia di segmentazione adattiva multiscala (MSAC) e il meccanismo di compressione della scala (SCM). -attività di elaborazione delle immagini e di comprensione dei documenti ad alta risoluzione. Raggiunge risultati di primo piano in molteplici benchmark, dimostrando il suo potenziale nei campi della comprensione multimodale e dell'intelligenza dei documenti.
Recentemente, il miglioramento della capacità dei modelli multimodali di grandi dimensioni di elaborare immagini ad alta risoluzione ha attirato una crescente attenzione in questo campo.
La maggior parte dei metodi si concentra sul miglioramento della capacità dei modelli multimodali di grandi dimensioni di comprendere i dettagli dell'immagine attraverso la strategia di segmentazione e rifusione delle immagini.
Tuttavia, a causa dell'operazione di segmentazione dell'immagine, è inevitabile causare la frammentazione del target e delle aree collegate, che influisce sulla capacità di riconoscimento dei MLMM per target piccoli o di forma irregolare. Questo fenomeno è estremamente evidente nelle attività di comprensione dei documenti, perché la parte testuale è spesso interrotta.
In risposta a questa sfida, la Huazhong University of Science and Technology e la South China University of Technology hanno recentemente rilasciato congiuntamente un modello multimodale di grandi dimensioni Mini-Monkey, che utilizza una strategia adattiva multiscala collegabile (MSAC) per modelli di grandi dimensioni multimodali leggeri .
Mini-Monkey genera in modo adattivo rappresentazioni multiscala, consentendo al modello di selezionare oggetti non segmentati da varie scale, e le sue prestazioni raggiungono il nuovo SOTA dei modelli di grandi dimensioni multimodali 2B.
Indirizzo del documento: https://arxiv.org/pdf/2408.02034
Indirizzo del progetto: https://github.com/Yuliang-Liu/Monkey
Per alleviare il sovraccarico computazionale causato da MSAC, proponiamo un meccanismo di compressione di scala (SCM) per comprimere efficacemente i token di immagine.
Mini-Monkey non solo ha ottenuto prestazioni leader in molteplici attività di document intelligence, ma ha anche ottenuto miglioramenti consistenti delle prestazioni nelle attività generali di comprensione del modello multimodale, ottenendo prestazioni SOTA 2B.
Su OCRBench, Mini-Monkey ha ottenuto 802 punti, un risultato migliore rispetto ai modelli con parametri più ampi come GLM-4v-9B.
Figura 3 Diagramma a blocchi del metodo: H-Attn rappresenta un peso di attenzione elevato; L-Attn rappresenta un peso di attenzione basso; i token con un peso di attenzione inferiore verranno filtrati; il livello LLM condiviso rappresenta il livello di blocco che utilizza LLM in SCM
Contesto della ricerca
I modelli linguistici multimodali di grandi dimensioni (MLMM) hanno attirato molta attenzione negli ultimi anni. I ricercatori stanno esplorando attivamente modi efficaci per integrare i codificatori visivi con LLM.
Alcuni metodi, come Flamingo, BLIP-2, MiniGPT4 e Qwen-VL e LLaVA, hanno raggiunto questi risultati, ma i precedenti modelli multimodali di linguaggio di grandi dimensioni non hanno raggiunto una buona comprensione dettagliata della scena a causa della risoluzione di elaborazione limitata.
Figura 1 L'effetto aliasing causato dalla segmentazione su oggetti universali: (a) immagine di input; (b) strategia di espansione della segmentazione; (c) strategia di espansione della segmentazione sovrapposta (d) strategie di segmentazione adattativa multiscala;
I ricercatori hanno iniziato a risolvere questo problema espandendo la risoluzione di input dell'immagine. La strategia di slicing è uno dei metodi più comunemente utilizzati. Ad esempio, Monkey, LLaVA 1.6, InternVL 1.5 e LLama3-V, ecc.
Nonostante i progressi significativi nei modelli linguistici multimodali su larga scala, permangono sfide nella comprensione dettagliata della scena a causa delle strategie di segmentazione.
Le operazioni di segmentazione sulle immagini segmentano inevitabilmente oggetti e regioni connesse, indebolendo così la capacità di MLLM di identificare oggetti piccoli o di forma irregolare, soprattutto nel contesto della comprensione del documento.
Questa strategia introdurrà due tipi di incoerenza semantica:
1. Se un oggetto o un personaggio è segmentato, potrebbe non essere riconosciuto. Ad esempio, il naso segmentato assomiglia molto a quello di una scimmia, come mostrato nella Figura 1(b);
2. Se una parola o una frase viene segmentata, ciò causerà un danno semantico alla parola segmentata. Ad esempio, la parola "Aule" potrebbe essere suddivisa in "Classe" e "stanze", il che causerebbe danni semantici alle parole segmentate.
Per semplicità, gli autori chiamano questo problema effetto dente di sega. Un'idea molto semplice è quella di utilizzare una strategia di segmentazione sovrapposta per risolvere questo problema, come mostrato nella Figura 1(c).
Tuttavia, gli autori hanno scoperto che la strategia di segmentazione sovrapposta introduceva alcune illusioni che portavano a un degrado delle prestazioni piuttosto che a un miglioramento.
Idee di metodo
L'autore propone Mini-Monkey, un modello linguistico multimodale leggero su larga scala progettato per alleviare l'effetto dente di sega causato dalle strategie di segmentazione. Lo schema a blocchi del metodo è mostrato nella Figura 2.
Figura 2 L'effetto frastagliato causato dal ritaglio delle immagini di testo.
A differenza dei metodi esistenti che segmentano direttamente l'immagine di input, Mini-Monkey adotta un approccio plug-and-play chiamato Multi-Scale Adaptive Segmentation Strategy (MSAC).
MSAC può integrare efficacemente le funzionalità su scale diverse, come mostrato nella Figura 1 (d).
Strategia di segmentazione adattiva multiscala (MSAC)
MSAC esegue prima un'operazione di stratificazione su queste mesh, dividendole in tre gruppi in base alle loro proporzioni. L'autore sceglierà le proporzioni per ogni livello. Livelli diversi forniscono informazioni diverse al modello.
Il livello di dettaglio è responsabile di fornire informazioni dettagliate. Limita sia la risoluzione massima che la risoluzione minima dell'immagine, rendendo l'immagine più grande possibile e rendendo più chiari gli oggetti nell'immagine. A causa della strategia di segmentazione utilizzata per ritagliare l'immagine, le immagini generate da questo livello potrebbero presentare incoerenze semantiche.
Pertanto, gli autori utilizzano livelli adattivi insieme a livelli di dettaglio per consentire al modello di selezionare oggetti non segmentati da varie scale. Il livello adattivo genererà in modo adattivo le proporzioni in base al livello di dettaglio, garantendo che la linea di segmentazione sul livello di dettaglio non si sovrapponga alla linea di segmentazione sul livello adattivo, impedendo così che lo stesso oggetto venga segmentato due volte su livelli diversi. Questo processo garantisce che il livello di dettaglio e il livello di adattamento forniscano informazioni semantiche e caratteristiche visive diverse al modello.
meccanismo di compressione della scala
MSAC potrebbe introdurre qualche ulteriore sovraccarico computazionale. Pertanto, l'autore propone un meccanismo di compressione della scala (SCM) per le situazioni in cui sono presenti vincoli di sovraccarico computazionale. SCM è un meccanismo che non richiede formazione né parametri per ridurre il sovraccarico computazionale.
L'autore seleziona i token visivi del livello adattivo, i token visivi del livello globale e i token di testo per concentrarsi sui marcatori visivi del livello di dettaglio, quindi genera la mappa di attenzione e quindi estrae le caratteristiche visive della K in alto della mappa dell'attenzione.
Un LLM ben addestrato può selezionare in modo efficiente le funzionalità visive necessarie in base al problema di input. Pertanto, SCM utilizza il primo e il secondo livello di LLM per selezionare i token visivi senza generare parametri aggiuntivi.
Il modello grande multimodale 2B più potente di Mini-Monkey
Gli autori hanno testato il loro metodo sulla comprensione multimodale generale e sulla comprensione dei documenti. I risultati sperimentali mostrano che Mini-Monkey ha ottenuto le migliori prestazioni sulla comprensione multimodale generale e sulla comprensione dei documenti contemporaneamente con i parametri 2B.
Tabella 1 Risultati sulla comprensione multimodale generale
Tabella 2 Risultati sulla comprensione del documento
L'autore confronta il MSAC proposto con i metodi esistenti. La prima riga è un metodo di segmentazione dinamica, la seconda riga è un metodo di segmentazione a risoluzione fissa, la terza riga è una segmentazione sovrapposta e la quarta riga è una strategia multiscala S2.
La tabella 3 mette a confronto diverse strategie di segmentazione
MSAC può essere applicato a diverse architetture multimodali, stabilizzandole e migliorandole
Allo stesso tempo, l’autore ha applicato MSAC anche ad altri metodi di confronto, e si può vedere che ci sono miglioramenti consistenti nella comprensione multimodale generale e nelle attività di comprensione dei documenti.
La tabella 4 applica MSAC a diversi quadri
Allevia efficacemente le "sequele" causate dalla segmentazione per aumentare la risoluzione
Allo stesso tempo, l’autore fornisce anche alcune analisi qualitative, come mostrato nella Figura 4. L'autore pone domande sui luoghi segmentati, come "aule" e "scuola" che sono segmentate.
Si può vedere che Mini-Monkey può alleviare efficacemente le "sequele" causate dall'aumento della risoluzione della segmentazione tramite MSAC.
Figura 4 Risultati qualitativi: (a) immagine di input e Ground Truth; (b) risultati utilizzando la strategia di segmentazione sovrapposta, OSC rappresenta la strategia di segmentazione sovrapposta (c) risultati di internv2-2b e internv2-26b (d) risultati Mini-Monkey;
Confronto visivo
Mini-Monkey può estrarre accuratamente il contenuto del testo in ambigui libri antichi, mentre MiniCPM-V 2.6 e InternVL2-2B hanno mancato molto del testo.
(a) Immagine inserita
(b)Mimi-Monkey: riconosce accuratamente tutto il testo
(c) MiniCPM-V 2.6: manca molto testo.
(d) InternVL2-2B: manca un'intera frase di testo relativamente vago
(e)GPT-4o: Rifiuta di rispondere
Riassumere
I metodi che utilizzano la segmentazione per espandere la risoluzione spesso segmentano oggetti e regioni connesse, il che limita il riconoscimento di oggetti e testo piccoli o di forma irregolare. Questo problema è particolarmente evidente nel MLLM leggero.
In questo studio, l'autore propone Mini-Monkey, un modello multimodale di grandi dimensioni 2B che raggiunge prestazioni SOTA, con l'obiettivo di risolvere i limiti delle strategie di segmentazione esistenti per migliorare la capacità di MLLM di elaborare immagini ad alta risoluzione.
Mini-Monkey adotta una strategia di segmentazione adattiva multiscala (MSAC) per generare rappresentazioni multiscala, consentendo al modello di selezionare oggetti non segmentati su scale diverse, alleviando così questo problema.
Allo stesso tempo, l'autore ha anche verificato l'efficacia della strategia di segmentazione adattiva multiscala su grandi modelli multimodali di altre architetture, fornendo una soluzione semplice ed efficace per alleviare le "sequele" causate dalla maggiore risoluzione del piano di segmentazione .
Riferimenti:
[1] Chen Z, Wang W, Tian H, et al. Quanto siamo lontani da gpt-4v? colmare il divario con i modelli multimodali commerciali con suite open source[J]. preprint arXiv arXiv:2404.16821, 2024.
[2] Li J, Li D, Savarese S, et al. Blip-2: Bootstrapping del pre-addestramento linguaggio-immagine con codificatori di immagini congelate e grandi modelli linguistici[C]//Conferenza internazionale sull'apprendimento automatico. PMLR, 2023: 19730-19742.
[3] Liu Y, Yang B, Liu Q, et al. Textmonkey: un modello multimodale di grandi dimensioni senza OCR per comprendere i documenti[J]. arXiv preprint arXiv:2403.04473, 2024.
[4] Bai J, Bai S, Yang S, et al. Qwen-vl: un modello di visione-linguaggio di frontiera con abilità versatili[J]. arXiv preprint arXiv:2308.12966, 2023.
[5] Dubey A, Jauhri A, Pandey A, et al. La mandria di modelli Llama 3[J]. preprint arXiv arXiv:2407.21783, 2024.