notizia

Per migliorare le prestazioni delle attività di rilevamento GPT-4V e Gemini, è necessario questo paradigma rapido

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

La rubrica AIxiv è una rubrica in cui Machine Heart pubblica contenuti accademici e tecnici. Negli ultimi anni, la rubrica Heart of the Machine AIxiv ha ricevuto più di 2.000 segnalazioni, riguardanti i migliori laboratori delle principali università e aziende di tutto il mondo, promuovendo efficacemente gli scambi accademici e la divulgazione. Se hai un lavoro eccellente che desideri condividere, non esitare a contribuire o contattarci per segnalarlo. E-mail di presentazione: [email protected] [email protected];

Gli autori di questo articolo provengono dall’Università di Zhejiang, dallo Shanghai Artificial Intelligence Laboratory, dall’Università cinese di Hong Kong, dall’Università di Sydney e dall’Università di Oxford. Elenco degli autori: Wu Yixuan, Wang Yizhou, Tang Shixiang, Wu Wenhao, He Tong, Wanli Ouyang, Philip Torr, Jian Wu. Tra questi, il co-primo autore Wu Yixuan è uno studente di dottorato presso l'Università di Zhejiang e Wang Yizhou è un assistente di ricerca scientifica presso il Laboratorio di intelligenza artificiale di Shanghai. L'autore corrispondente Tang Shixiang è un ricercatore post-dottorato presso l'Università cinese di Hong Kong.

I modelli multimodali di grandi linguaggi (MLLM) hanno mostrato capacità impressionanti in diversi compiti, nonostante ciò, il potenziale di questi modelli nei compiti di rilevamento è ancora sottostimato. Quando sono richieste coordinate precise in attività complesse di rilevamento di oggetti, le allucinazioni degli MLLM spesso fanno sì che manchino gli oggetti target o forniscano riquadri di delimitazione imprecisi. Per consentire il rilevamento degli MLLM, il lavoro esistente richiede non solo la raccolta di un gran numero di set di dati di istruzioni di alta qualità, ma anche la messa a punto di modelli open source. Sebbene richieda molto tempo e manodopera, non riesce nemmeno a sfruttare le più potenti capacità di comprensione visiva dei modelli closed-source.A tal fine hanno proposto l’Università di Zhejiang, il Laboratorio di Intelligenza Artificiale di Shanghai e l’Università di OxfordCatena di strumenti di Det , un nuovo paradigma di suggerimento che libera il potere di rilevamento dei modelli linguistici multimodali di grandi dimensioni. I grandi modelli multimodali possono imparare a rilevare con precisione senza formazione.La ricerca correlata è stataECCV 2024 incluso

Per risolvere i problemi di MLLM nelle attività di rilevamento, DetToolChain parte da tre punti: (1) Progettare prompt visivi per il rilevamento, che sono più diretti ed efficaci rispetto ai tradizionali prompt testuali per consentire a MLLM di comprendere le informazioni sulla posizione, (2) Suddividere i compiti di rilevamento precisi in compiti piccoli e semplici e (3) utilizzare la catena di pensiero per ottimizzare gradualmente i risultati del rilevamento ed evitare il più possibile l'illusione di grandi modelli multimodali.

Corrispondenti alle intuizioni di cui sopra, DetToolChain contiene due progetti chiave: (1) Una serie completa di suggerimenti di elaborazione visiva, che vengono disegnati direttamente nell'immagine e possono ridurre significativamente il divario tra informazioni visive e informazioni testuali. (2) Una serie completa di ragionamenti di rilevamento suggerisce di migliorare la comprensione spaziale del bersaglio di rilevamento e di determinare gradualmente la posizione precisa finale del bersaglio attraverso una catena di strumenti di rilevamento adattativi al campione.

Combinando DetToolChain con MLLM, come GPT-4V e Gemini, è possibile supportare varie attività di rilevamento senza ottimizzazione delle istruzioni, incluso il rilevamento del vocabolario aperto, il rilevamento del target della descrizione, la comprensione dell'espressione referenziale e il rilevamento del target orientato.



Titolo dell'articolo: DetToolChain: un nuovo paradigma stimolante per liberare la capacità di rilevamento di MLLM

Link al documento: https://arxiv.org/abs/2403.12488

Cos'è DetToolChain?



Figura 1 Quadro generale di DetToolChain

Come mostrato nella Figura 1, per una determinata immagine di query, MLLM viene incaricato di eseguire i seguenti passaggi:

I. Formattazione: convertire il formato di input originale dell'attività in un modello di istruzioni appropriato come input di MLLM;

II. Pensare: suddividere un'attività di rilevamento complessa e specifica in sottoattività più semplici e selezionare suggerimenti efficaci dal toolkit dei suggerimenti di rilevamento;

III. Esegui: esegue prompt specifici (prompt) in modo iterativo in sequenza;

IV. Risposta: utilizzare le capacità di ragionamento di MLLM per supervisionare l'intero processo di rilevamento e restituire la risposta finale (risposta finale).

Toolkit dei prompt di rilevamento: prompt di elaborazione visiva



Figura 2: diagramma schematico dei suggerimenti di elaborazione visiva. Abbiamo progettato (1) Amplificatore regionale, (2) Standard di misurazione spaziale, (3) Parser di immagini di scena per migliorare le capacità di rilevamento degli MLLM da diverse prospettive.

Come mostrato nella Figura 2, (1) L'amplificatore regionale mira a migliorare la visibilità degli MLLM sulla regione di interesse (ROI), incluso il ritaglio dell'immagine originale in diverse sottoregioni, concentrandosi sulla sottoregione in cui si trova l'oggetto target ; inoltre, la funzione di amplificazione consente l'osservazione a grana fine di specifiche sottoregioni dell'immagine.

(2) Lo standard di misurazione spaziale fornisce un riferimento più chiaro per il rilevamento del bersaglio sovrapponendo un righello e una bussola con scale lineari all'immagine originale, come mostrato nella Figura 2 (2). Righelli e bussole ausiliari consentono agli MLLM di produrre coordinate e angoli accurati utilizzando riferimenti di traslazione e rotazione sovrapposti all'immagine. In sostanza, questa linea ausiliaria semplifica il compito di rilevamento, consentendo agli MLLM di leggere le coordinate degli oggetti invece di prevederli direttamente.

(3) Scene Image Parser contrassegna le posizioni o le relazioni previste degli oggetti e utilizza informazioni spaziali e contestuali per comprendere le relazioni spaziali dell'immagine. Scene Image Parser può essere suddiviso in due categorie:Innanzitutto, per un singolo oggetto di destinazione , etichettiamo gli oggetti previsti con centroidi, involucri convessi e riquadri di delimitazione con nomi di etichette e indici di riquadri. Questi marcatori rappresentano le informazioni sulla posizione degli oggetti in diversi formati, consentendo a MLLM di rilevare diversi oggetti di diverse forme e sfondi, in particolare oggetti con forme irregolari o oggetti fortemente occlusi. Ad esempio, il marcatore dello scafo convesso segna i punti di confine di un oggetto e li collega in uno scafo convesso per migliorare le prestazioni di rilevamento di oggetti dalla forma molto irregolare.In secondo luogo, per obiettivi multipli , colleghiamo i centri di diversi oggetti tramite marcatori del grafico della scena per evidenziare le relazioni tra gli oggetti nell'immagine. Sulla base del grafico della scena, MLLM può sfruttare le sue capacità di ragionamento contestuale per ottimizzare i riquadri di delimitazione previsti ed evitare allucinazioni. Ad esempio, come mostrato nella Figura 2 (3), Jerry vuole mangiare formaggio, quindi i loro riquadri di delimitazione dovrebbero essere molto vicini.

Toolkit delle richieste di motivazione del rilevamento: Richieste di motivazione del rilevamento



Per migliorare l'affidabilità della casella di previsione, abbiamo eseguito prompt di inferenza di rilevamento (mostrati nella Tabella 1) per verificare i risultati della previsione e diagnosticare potenziali problemi che potrebbero esistere. Innanzitutto, proponiamo Problem Insight Guider, che evidenzia problemi difficili e fornisce suggerimenti di rilevamento efficaci ed esempi simili per le immagini di query. Ad esempio, per la Figura 3, Problem Insight Guider definisce la query come un problema di rilevamento di piccoli oggetti e suggerisce di risolverlo ingrandendo l'area della tavola da surf. In secondo luogo, al fine di sfruttare le capacità spaziali e contestuali intrinseche dei MLLM, abbiamo progettato lo Spatial Relationship Explorer e il Contextual Object Predictor per garantire che i risultati del rilevamento siano coerenti con il buon senso. Come mostrato nella Figura 3, una tavola da surf può coesistere con l'oceano (conoscenza contestuale) e dovrebbe esserci una tavola da surf vicino ai piedi del surfista (conoscenza spaziale). Inoltre, applichiamo il Promotore di Autoverifica per migliorare la coerenza delle risposte in più round. Per migliorare ulteriormente le capacità di ragionamento degli MLLM, adottiamo metodi di suggerimento ampiamente utilizzati, come il dibattito e l'auto-debug. Si prega di consultare il testo originale per una descrizione dettagliata.



Figura 3 I suggerimenti per il ragionamento sul rilevamento possono aiutare gli MLLM a risolvere problemi di rilevamento di piccoli oggetti, ad esempio utilizzando il buon senso per individuare una tavola da surf sotto i piedi di una persona e incoraggiare il modello a rilevare le tavole da surf nell'oceano.



Figura 4 Un esempio di DetToolChain applicato al rilevamento di bersagli rotanti (set di dati HRSC2016)

Esperimento: puoi superare i metodi di perfezionamento senza formazione



Come mostrato nella Tabella 2, abbiamo valutato il nostro metodo sul rilevamento del vocabolario aperto (OVD), testando i risultati AP50 di 17 nuove classi, 48 classi base e tutte le classi nel benchmark COCO OVD. I risultati mostrano che utilizzando il nostro DetToolChain, le prestazioni sia di GPT-4V che di Gemini sono notevolmente migliorate.



Per dimostrare l'efficacia del nostro metodo sulla comprensione dell'espressione referenziale, confrontiamo il nostro metodo con altri metodi zero-shot sui set di dati RefCOCO, RefCOCO+ e RefCOCOg (Tabella 5). Su RefCOCO, DetToolChain ha migliorato le prestazioni della linea di base GPT-4V rispettivamente del 44,53%, 46,11% e 24,85% su val, test-A e test-B, dimostrando la comprensione e le prestazioni superiori dell'espressione referenziale di DetToolChain in condizioni di posizionamento zero-shot.