Il team di Li Xi dell'Università di Zhejiang: un nuovo metodo per fare riferimento alla comprensione delle espressioni, ScanFormer elimina la ridondanza da grossolano a fine

Il team di Li Xi dell'Università di Zhejiang: un nuovo metodo per fare riferimento alla comprensione delle espressioni, ScanFormer elimina la ridondanza da grossolana a fine

2024-08-20

La rubrica AIxiv è una rubrica in cui Machine Heart pubblica contenuti accademici e tecnici. Negli ultimi anni, la rubrica Heart of the Machine AIxiv ha ricevuto più di 2.000 segnalazioni, riguardanti i migliori laboratori delle principali università e aziende di tutto il mondo, promuovendo efficacemente gli scambi accademici e la divulgazione. Se hai un lavoro eccellente che desideri condividere, non esitare a contribuire o contattarci per segnalarlo. E-mail di presentazione: [email protected] [email protected];

Gli autori di questo articolo appartengono tutti al team del professor Li Xi dell'Università di Zhejiang. Il primo autore dell'articolo è il dottorando Su Wei, e l'autore corrispondente è il professor Li Xi (IET Fellow, National Distinguished Young Scholar). Negli ultimi anni, il team del Professor Li Xi ha pubblicato più di 180 lavori di ricerca relativi al CV/AIGC in autorevoli riviste internazionali (come TPAMI, IJCV, ecc.) e nelle principali conferenze accademiche internazionali (ICCV, CVPR, ECCV, ecc.), e ha collaborato con rinomate università e istituti di ricerca scientifica in patria e all'estero. Le istituzioni collaborano ampiamente.

Come compito base del linguaggio visivo, la comprensione dell'espressione referenziale (REC) individua l'obiettivo riferito nell'immagine in base alla descrizione del linguaggio naturale. Il modello REC è solitamente composto da tre parti: codificatore visivo, codificatore di testo e interazione cross-modale, che vengono utilizzati rispettivamente per estrarre le funzionalità visive, le funzionalità di testo e l'interazione e il miglioramento delle funzionalità cross-modali.

La maggior parte della ricerca attuale si concentra sulla progettazione di moduli di interazione intermodale efficienti per migliorare l’accuratezza del compito e manca l’esplorazione dei codificatori visivi. Un approccio comune consiste nell'utilizzare estrattori di funzionalità pre-addestrati su attività di classificazione e rilevamento, come ResNet, DarkNet, Swin Transformer o ViT, ecc. Questi modelli attraversano tutte le posizioni spaziali dell'immagine per estrarre le caratteristiche in una finestra scorrevole o in una modalità patch divisa. La loro complessità computazionale aumenterà rapidamente con la risoluzione dell'immagine, il che è più evidente nei modelli basati su Transformer.

A causa delle caratteristiche di ridondanza spaziale delle immagini, ci sono un gran numero di aree di sfondo con basso contenuto di informazioni e aree che sono irrilevanti per l'espressione referenziale nell'immagine. L'estrazione di caratteristiche in queste aree allo stesso modo aumenterà la complessità computazionale non contribuiscono all'estrazione efficace delle funzionalità. Un modo più efficiente consiste nel prevedere in anticipo la pertinenza del testo e la ricchezza del contenuto dell'area dell'immagine, estrarre completamente le funzionalità dall'area in primo piano correlata al testo ed estrarre approssimativamente le funzionalità dall'area di sfondo. Per la previsione regionale, un modo più intuitivo consiste nell'utilizzare la piramide dell'immagine per identificare in anticipo l'area di sfondo nell'immagine a grana grossa nella parte superiore della piramide, quindi aggiungere gradualmente aree in primo piano a grana fine ad alta risoluzione.

Sulla base dell'analisi di cui sopra, abbiamo propostoScanFormer, un framework in grado di riconoscere l'iterazione da grossolana a fine, scansiona strato per strato nella piramide delle immagini, partendo da immagini a bassa risoluzione e su scala grossolana, e filtra gradualmente le aree irrilevanti/di sfondo che fanno riferimento alle espressioni per ridurre gli sprechi computazionali, consentendo al modello di concentrarsi maggiormente sulle aree in primo piano/correlate alle attività .

Titolo dell'articolo: ScanFormer: comprensione delle espressioni di riferimento mediante scansione iterativa
Link al documento: https://arxiv.org/pdf/2406.18048

Introduzione al metodo

1. Quadro di percezione dell'iterazione da grossolana a fine

Per semplificare la struttura, adottiamo il modello ViLT [1] che unifica modalità testuali e visive e lo divide in due parti, Encoder1 ed Encoder2, lungo la dimensione della profondità per compiti diversi.

Per prima cosa, estrai le caratteristiche del testo e memorizzale in KV Cache; quindi costruisci una piramide di immagini ed esegui l'iterazione verso il basso dalla parte superiore della piramide. In ogni iterazione, viene immessa la patch selezionata alla scala corrente e Encoder1 viene utilizzato per prevedere il passaggio successivo corrispondente a ciascuna patch. La selezione di patch a grana fine su una scala In particolare, tutte le patch dell'immagine di livello superiore vengono selezionate per garantire che il modello possa ottenere informazioni sull'immagine intera a grana grossa. Encoder2 estrae ulteriormente le caratteristiche e prevede il riquadro di delimitazione di questa scala in base al token [cls] della scala corrente.

Allo stesso tempo, le funzionalità intermedie di Encoder1 ed Encoder2 verranno archiviate in KV Cache per facilitare il successivo utilizzo standard. Man mano che la scala aumenta, vengono introdotte funzionalità a grana fine, la previsione della posizione sarà più accurata e la maggior parte delle patch irrilevanti verrà scartata per risparmiare molti calcoli.

Inoltre, i patch all'interno di ciascuna scala hanno un'attenzione bidirezionale, prestando attenzione a tutti i patch e alle caratteristiche del testo delle scale precedenti. Questa attenzione causale su tutte le scale può ridurre ulteriormente i requisiti computazionali.

2. Selezione della patch dinamica

La selezione di ciascuna patch è determinata dal fattore di selezione generato dalla scala precedente. Esistono due opzioni per la posizione dell'applicazione. Una viene utilizzata in tutte le teste di ogni livello di MHSA nell'Encoder H teste, è molto difficile ottenere informazioni sul gradiente efficaci per l'aggiornamento, quindi il fattore di selezione appreso non è l'ideale, il secondo viene utilizzato direttamente come input dell'encoder, ovvero l'incorporamento della patch poiché è solo utilizzato in questa posizione, è più facile da imparare Infine, questo articolo è stata adottata anche questa soluzione.

Inoltre, va notato che anche se l'incorporamento della patch di input è impostato su 0, a causa dell'esistenza di MHSA e FFN, le funzionalità della patch nei livelli successivi diventeranno comunque diverse da 0 e influenzeranno le funzionalità di altre patch. Fortunatamente, quando nella sequenza dei token sono presenti molti token identici, il calcolo dell'MHSA può essere semplificato e si può ottenere un'effettiva accelerazione dell'inferenza. Inoltre, per migliorare la flessibilità del modello, questo articolo non imposta direttamente l'incorporamento della patch su 0, ma lo sostituisce con un token costante apprendibile.

Pertanto, il problema della selezione delle patch si trasforma in un problema di sostituzione delle patch. Il processo di selezione delle patch può essere scomposto in due fasi: sostituzione costante dei token e fusione dei token. Le patch non selezionate verranno sostituite con lo stesso token costante. Poiché questi token non selezionati sono gli stessi, secondo il metodo di calcolo dell'attenzione del prodotto scalare, questi token possono essere combinati in un token e moltiplicati per il numero totale, che equivale ad aggiungere alla dimensione, quindi il metodo dell'attenzione del prodotto scalare è calcolato. Nessuna modifica, i metodi di accelerazione comuni sono ancora disponibili.

Risultati sperimentali

Questo metodo raggiunge prestazioni simili allo stato dell'arte su quattro set di dati: RefCOCO, RefCOCO+, RefCOCOg e ReferItGame. Mediante l'addestramento preliminare su set di dati su larga scala e la messa a punto di set di dati specifici, le prestazioni del modello possono essere ulteriormente migliorate notevolmente e ottenere risultati simili a modelli preaddestrati come MDETR [2] e OFA [3].

In termini di velocità di ragionamento, il metodo proposto raggiunge una velocità di ragionamento in tempo reale garantendo allo stesso tempo un'elevata precisione del compito.

Inoltre, la parte sperimentale ha effettuato anche statistiche sulla selezione delle patch del modello e sulla distribuzione della precisione di posizionamento su ciascuna scala (scala1 e scala2).

Come mostrato nella figura a sinistra, all'aumentare della scala vengono aggiunte caratteristiche a grana fine dell'immagine e la precisione del modello migliora gradualmente. Pertanto, è possibile provare ad aggiungere un meccanismo di uscita anticipata per uscire in tempo quando la precisione di posizionamento soddisfa i requisiti, evitando ulteriori calcoli su immagini ad alta risoluzione e ottenendo l'effetto di selezionare in modo adattivo una risoluzione appropriata in base ai campioni. Questo articolo ha anche fatto alcuni tentativi preliminari, tra cui l'aggiunta di rami di previsione come IoU, GIoU e incertezza e la restituzione di indicatori di uscita anticipata. Tuttavia, si è riscontrato che l'effetto non era ideale continuato ad esplorare.

La figura a destra mostra la situazione della selezione delle patch su diverse scale. A tutte le scale, le patch selezionate rappresentano una proporzione relativamente piccola e la maggior parte delle patch può essere eliminata, in modo che le risorse di calcolo possano essere effettivamente risparmiate. Per ciascun campione (immagine + espressione referenziale), il numero di patch effettivamente selezionati è relativamente piccolo, circa il 65% del totale.

Infine, la parte sperimentale mostra alcuni risultati di visualizzazione all'aumentare della scala (rosso → verde → blu), la precisione di posizionamento del modello migliora gradualmente. Inoltre, secondo l'immagine ricostruita dalla patch selezionata, si può vedere che il modello presta attenzione solo alle informazioni su scala grossolana per l'area di sfondo, e per l'area rilevante in primo piano, il modello può prestare attenzione a dettagli a grana fine informazioni.

Letteratura correlata:

[1]. Kim W, Son B, Kim I. Vilt: Trasformatore di visione e linguaggio senza convoluzione o supervisione della regione [C]//Conferenza internazionale sull'apprendimento automatico. PMLR, 2021: 5583-5594.

[2]. Kamath A, Singh M, LeCun Y, et al. Rilevamento modulato da Mdetr per la comprensione multimodale end-to-end [C]//Atti della conferenza internazionale IEEE/CVF sulla visione artificiale. 2021: 1780-1790.

[3].Wang P, Yang A, Men R, et al. Ofa: Unificazione di architetture, attività e modalità attraverso un semplice framework di apprendimento sequenza-sequenza [C]//Conferenza internazionale sull'apprendimento automatico. PMLR, 2022: 23318-23340.

notizia

Il team di Li Xi dell'Università di Zhejiang: un nuovo metodo per fare riferimento alla comprensione delle espressioni, ScanFormer elimina la ridondanza da grossolana a fine

Introduzione

Le mie informazioni di contatto