Le mie informazioni di contatto
Posta[email protected]
2024-08-14
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
La rubrica AIxiv è una rubrica in cui Machine Heart pubblica contenuti accademici e tecnici. Negli ultimi anni, la rubrica Heart of the Machine AIxiv ha ricevuto più di 2.000 segnalazioni, riguardanti i migliori laboratori delle principali università e aziende di tutto il mondo, promuovendo efficacemente gli scambi accademici e la divulgazione. Se hai un lavoro eccellente che desideri condividere, non esitare a contribuire o contattarci per segnalarlo. E-mail di presentazione: [email protected] [email protected];
Chen Qiguang, il primo autore dell'articolo, sta attualmente studiando nel Laboratorio Sier dell'Harbin Institute of Technology. Le sue principali direzioni di ricerca includono grandi catene di pensiero, grandi modelli multilingue, ecc.
Negli ultimi anni, i Large Language Models (LLM) hanno compiuto progressi rivoluzionari nel campo dell’elaborazione del linguaggio naturale (NLP). Questi modelli non solo possono comprendere contesti complessi, ma anche generare testi coerenti e logicamente rigorosi.
Tuttavia, con lo sviluppo della scienza e della tecnologia e la diversificazione degli scenari applicativi, la capacità di un’unica modalità testuale non è ovviamente più in grado di soddisfare le esigenze moderne. Le persone attendono sempre più con ansia sistemi intelligenti in grado di elaborare e comprendere molteplici informazioni modali (come immagini, video, audio, ecc.) per far fronte a compiti e scenari più complessi. I ricercatori hanno iniziato a provare ad estendere le capacità del CoT testuale al campo del ragionamento sulla catena di pensiero multimodale per far fronte a requisiti di compiti più complessi e diversificati.
Uno dei primi studi sulla catena di pensiero multimodale è il benchmark ScienceQA introdotto da Lu et al [1], che combina informazioni visive e linguistiche per promuovere lo sviluppo della catena di pensiero multimodale (MCoT). L'emergere del set di dati ScienceQA consente ai ricercatori di valutare le capacità di ragionamento della catena di pensiero dei modelli multimodali in un quadro unificato.
Inoltre, la ricerca di Zhang et al. [2] ha spinto le prestazioni di MCoT a un nuovo massimo, facendo sì che le prestazioni del modello sul set di dati ScienceQA superino il livello umano (93%>88%). Tuttavia, l’attuale ricerca sulla catena di pensiero multimodale affronta davvero tutte le sfide? Mentre i risultati dei test benchmark come ScienceQA continuano ad aggiornarsi, possiamo pensare che il problema del ragionamento multimodale sia stato risolto?
Attraverso un'analisi approfondita, i ricercatori hanno scoperto che l'attuale punto di riferimento della catena di pensiero multimodale presenta ancora seri problemi, che portano a una sovrastima delle effettive capacità del modello. L’attuale punto di riferimento della catena di pensiero multimodale deve ancora affrontare i seguenti tre gravi problemi:Ragionamento modale visivo mancante、Solo ragionamento modale visivo in un unico passaggiocosì comeCopertura dell'area insufficiente。
Questi problemi limitano seriamente lo sviluppo del campo della catena di pensiero multimodale. Pertanto, i ricercatori hanno proposto un nuovo punto di riferimento
(Multi-Domain Multi-step Multi-modal Chain-of-Thought), mira a risolvere i problemi di cui sopra e promuovere il progresso di catene di pensiero multi-dominio, multi-step e multi-modali. I ricercatori hanno inoltre condotto una valutazione completa che coinvolge ricchi metodi e impostazioni di inferenza multimodale.
I ricercatori hanno anche scoperto che gli attuali grandi modelli multimodali hanno
Ci sono enormi carenze prestazionali nelle loro prestazioni, nonostante le loro prestazioni superiori rispetto ai precedenti benchmark tradizionali della catena di pensiero multimodale. In definitiva, spera il gruppo di ricerca
Può diventare una risorsa preziosa e fornire una base innovativa per la ricerca su catene di pensiero multi-campo, multi-fase e multi-modali.
Indirizzo dell'elenco: https://lightchen233.github.io/M3CoT.github.io/leaderboard.html
Indirizzo del documento: https://arxiv.org/abs/2405.16473
Indirizzo del codice: https://github.com/LightChen233/M3CoT
motivazione
Nonostante i progressi significativi nel campo della ricerca MCoT, i parametri di riferimento esistenti presentano ancora molte carenze:
1.Ragionamento modale visivo mancante: I modelli possono spesso generare ragionamenti e risposte basati solo su modalità testuali, il che non riflette veramente le capacità dei modelli CoT multimodali.
2.Ragionamento modale visivo in un unico passaggio: Ad esempio, basta vedere la "piuma" nell'immagine solo una volta per ottenere la risposta diretta. Nelle applicazioni pratiche, il ragionamento in più fasi è più comune e necessario e richiede al modello di combinare dinamicamente informazioni multimodali più volte durante il processo di ragionamento per eseguire un ragionamento completo.
3.Dominio mancante: Per la catena del pensiero, il ragionamento basato sul buon senso e il ragionamento matematico sono componenti importanti in questo campo, ma i parametri di riferimento esistenti non coprono aree importanti come il buon senso e la matematica, limitando la valutazione completa delle capacità CoT multimodali.
Per affrontare i problemi di cui sopra, i ricercatori hanno sviluppato un nuovo punto di riferimento
e spera di promuovere la ricerca e lo sviluppo di catene di pensiero multi-campo, multi-fase e multi-modali.
Processo di costruzione dei dati
La costruzione di prevede le seguenti quattro fasi chiave:
Streaming dei risultati della valutazione del modello linguistico multimodale di grandi dimensioni
I ricercatori hanno condotto esperimenti approfonditi su più modelli di linguaggio visivo (VLLM) su larga scala, tra cui Kosmos-2, InstructBLIP, LLaVA-V1.5, CogVLM, Gemini e GPT4V. I ricercatori hanno anche esplorato alcune strategie di suggerimento, come l'invio diretto del campione, la catena di suggerimenti di pensiero (CoT) [3] e il suggerimento descrittivo (Desp-CoT) [4] e la strategia di suggerimento della catena di pensiero del diagramma di scena (CCoT) [5].
analizzare
esplorare
Su questa base, i ricercatori hanno esplorato ulteriormente vari metodi e impostazioni multimodali comunemente utilizzati per verificare se possono risolvere efficacemente il problema
problemi dentro.
Esplorazione dell'utilizzo degli strumenti
Nell'inferenza multimodale, l'utilizzo degli strumenti è considerato una strategia efficace per migliorare le prestazioni del modello. I ricercatori hanno valutato l'uso di più strumenti negli esperimenti, inclusi modelli come HuggingGPT, VisualChatGPT, IdealGPT e Chameleon.
Testo di modelli di grandi dimensioni utilizzando strumenti multimodali in
Scarse prestazioni su: i risultati sperimentali mostrano che, sebbene questi strumenti funzionino bene su attività monomodali, essi
C'è ancora un divario significativo nelle prestazioni rispetto al benchmark. Ad esempio, quando HuggingGPT gestisce compiti complessi di ragionamento in più fasi, le sue prestazioni sono relativamente inferiori a causa della mancanza di un uso efficace delle informazioni visive. Inoltre, anche VisualChatGPT e IdealGPT non sono riusciti a soddisfare le aspettative nella gestione di attività che richiedevano un'interazione multimodale. Questi risultati suggeriscono che gli attuali quadri di utilizzo degli strumenti necessitano di ulteriori miglioramenti per integrare e utilizzare meglio le informazioni multimodali.
Esplorazione dell'apprendimento contestuale
Comanda l'ottimizzazione dell'esplorazione
Conclusione e prospettive
Riferimenti:
[1] Lu et al. Impara a spiegare: ragionamento multimodale tramite
Catene di pensiero per rispondere alle domande scientifiche. In Proc. di NeurIPS 2022.
[2] Zhang et al. Ragionamento multimodale con grafico di conoscenza multimodale. ACL 2024.
[3] Kojima et al. I modelli linguistici di grandi dimensioni sono ragionatori zero-shot. In Proc. di NeurIPS 2022.
[4] Wu et al. Il ruolo della catena di pensiero nel compito complesso di ragionamento linguaggio-visione. Arxiv 2023.
[5] Mitra et al. Sollecitazione della catena di pensiero composizionale per grandi modelli multimodali. CVPR 2024.