Le mie informazioni di contatto
Posta[email protected]
2024-08-16
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Contributo del gruppo di ricerca di Wang Dequan presso l’Università Jiao Tong di Shanghai
Qubit |. Account pubblico QbitAI
Il gruppo di ricerca del professor Wang Dequan presso l’Università Jiao Tong di Shanghai ha sollevato questa domanda nell’ultima ricerca.
Immagina questo scenario: un bambino all'asilo tiene in mano l'immagine di una tigre e ti chiede: "Questo gattino è molto carino. È una gatta?"
Potresti non rispondere direttamente a "sì" o "no", ma prima sottolinea la "contraddizione" in questa domanda——Questa foto raffigura una tigre, non un gatto。
Tuttavia, c’è stata poca ricerca sistematica precedente su come risponderanno i modelli di grandi dimensioni.
Devi sapere che un modello di intelligenza artificiale che non è in grado di rilevare "conflitti di istruzioni" genererà risultati per "domande che non dovrebbero avere risposte" e, indipendentemente da quale lato del conflitto sono distorti i risultati generati, causerà potenziali disastri e influenzerà l'intelligenza artificiale. sicurezza e superallineamento (Super Allineamento).
In questo ultimo studio, il team ha propostoBenchmark multimodali——insieme di istruzioni contraddittorie, e ha progettato un innovativoFramework di creazione automatica di set di dati, nominatoCreazione automatica。
Il team ha scoperto che il modello multimodale di grandi dimensioni era molto carente nel rilevamento di istruzioni utente contraddittorie, quindi ha propostoMetodo di stimolazione dell'eccitazione cognitiva(CAP), che inietta capacità cognitive dal mondo esterno migliorando così la capacità di individuare le contraddizioni.
Il documento sarà pubblicato alla 18a Conferenza europea sulla visione artificiale (ECCV) nell'ottobre di quest'anno.
Allo stato attuale, i grandi modelli multimodali hanno fatto grandi progressi nella ricerca scientifica e nei campi di applicazione. Possono elaborare una varietà di tipi di dati tra cui testo e immagini, mostrando capacità simili alla cognizione umana.
Il team ritiene che il successo di questi modelli sia dovuto al vasto lavoro di ricerca e sviluppo che consente loro di seguire da vicino le istruzioni umane, anche un po' "sottomesse".
Inoltre, questi modelli sono particolarmente efficaci in contesti lunghi. I modelli multimodali di grandi dimensioni come Claude 3 e Gemini 1.5 Pro hanno dimostrato potenti capacità. I modelli della serie Claude 3 offrono una finestra di contesto di 200.000 token, la dimensione della finestra di contesto standard di Gemini 1.5 Pro è 128.000 e può persino raggiungere 1 milione di token durante la fase di anteprima privata.
Questi progressi consentono ai modelli multimodali di grandi dimensioni di funzionare bene nella gestione di compiti complessi e di soddisfare le esigenze degli esseri umani per interazioni a lungo termine.
Tuttavia, con l’approfondimento dell’interazione multimodale e l’aumento della lunghezza del contesto, il problema delle istruzioni utente contraddittorie diventa sempre più evidente.
Come mostrato di seguito, quando gli utenti (come bambini o principianti di lingua) utilizzano questi modelli, spesso non sono consapevoli dei potenziali conflitti multimodali.
Allo stesso tempo, man mano che il numero dei turni di dialogo aumenta e la finestra di contesto si espande, diventa difficile per gli utenti ricordare tutti i dettagli, portando a conflitti tra le istruzioni.
Inoltre, con l’aumento del numero di modalità, possono verificarsi anche conflitti tra le modalità. Una volta che questi modelli mancano di autoconsapevolezza e di capacità di discernere le contraddizioni, la loro performance ne risente.
Per affrontare queste sfide, il gruppo di ricerca di questo articolo ha proposto un test di riferimento multimodale-"insieme di istruzioni contraddittorie” (Self-Contradictory instructions, SCI), utilizzato per valutare la capacità di grandi modelli multimodali di rilevare istruzioni contrastanti.
La SCI contiene20.000 istruzioni contrastantiE8 compiti, uniformemente distribuito inlingua - linguaEvisivo-verbalein due paradigmi.
Nella parte superiore del diagramma, il paradigma linguistico-linguistico implica conflitti tra contesti e direttive, come regole di progettazione contrastanti, proprietà degli oggetti in conflitto, direttive esclusive e vocabolario proibito.
Nella parte inferiore della figura: il paradigma visivo-linguistico copre conflitti multimodali, come conflitti di riconoscimento del testo OCR, conflitti di diagrammi, conflitti geometrici e conflitti semantici. Tra gli otto compiti, solo i conflitti semantici coinvolgono altri set di dati (ImageNet).
Per fare un esempio specifico, quando costruiscono conflitti semantici, i ricercatori genereranno prima il testo corrispondente basato su immagini, quindi sostituiranno le informazioni semantiche chiave nel testo con una nuova semantica simile ma diversa.
Nell'immagine sotto, l'immagine contiene uno struzzo (Struzzo). L'autore aggiunge la domanda "L'immagine raffigura le dimensioni dello struzzo?" per il significato semantico dell'immagine "struzzo".
Successivamente, la chiave semantica del testo della domanda "struzzo" è stata sostituita con "Kiwi". In questo modo viene costruita una coppia contraddittoria di istruzioni multimodali.
Durante l'intero processo di costruzione del SCI, l'autore ha progettato un innovativo framework per la creazione automatica di set di dati——Creazione automatica。
Costruisce un circuito multimodale attraverso programmi e modelli linguistici di grandi dimensioni. Il framework sfrutta programmi e modelli linguistici di grandi dimensioni per consentire la creazione automatizzata di set di dati.
AutoCreate inizia con diversi dati seed relativi alle attività e mantiene un pool di seed. All'interno di ogni ciclo, AutoCreate include due rami:ramo linguistico(a sinistra) eramo visivo(Giusto). Ogni ramo è composto da generatori e decoratori.
Infine, il pulitore escluderà i dati che non soddisfano i criteri. Dopo aver superato i controlli di qualità da parte di esperti umani, questi dati verranno reinseriti nel pool di semi per essere utilizzati nel ciclo successivo.
AutoCreate migliora notevolmente la velocità di costruzione e l'ampiezza dei contenuti dei set di dati SCI.
Utilizzando il set di dati SCI, i ricercatori hanno valutato in modo completo le prestazioni di modelli di grandi dimensioni nella gestione di istruzioni contraddittorie.
I risultati sperimentali mostrano che gli attuali modelli di grandi dimensioni spesso mostrano alcune carenze di fronte a istruzioni contraddittorie.
Possono elaborare informazioni e conoscenze, maMancanza di capacità di valutare la ragionevolezza delle istruzioni, ciò che il gruppo di ricerca chiama un'abilità "cognitiva".
Questa carenza deriva da una mancanza di autoconsapevolezza e dall’incapacità di riconoscere le incoerenze nelle istruzioni.
Pertanto, i ricercatori hanno proposto un semplice metodo di suggerimento chiamato "Suggerimenti per il risveglio cognitivo”(Stimolo al Risveglio Cognitivo, CAP)。
Passaggio CAP in ingressoAggiungi un semplice promemoria, le capacità cognitive possono essere introdotte dal mondo esterno, migliorando così la capacità di rilevamento delle contraddizioni del modello di grandi dimensioni, e sostanzialmente non ci sarà alcun impatto negativo.
Questa scoperta suggerisce che gli attuali modelli multimodali di grandi dimensioni richiedono maggiore consapevolezza di sé e capacità cognitive per gestire meglio i conflitti di istruzioni complessi.
Per maggiori dettagli, i bambini interessati possono visionare il documento originale.
Il primo autore dell'articolo è un dottorando presso l'Università Jiao Tong di ShanghaiGao Jin。
I suoi interessi di ricerca includono la visione artificiale, i grandi modelli multimodali, le scienze della vita potenziate dall'intelligenza artificiale, ecc.
L'autore corrispondente dell'articolo è un professore assistente di ruolo e supervisore del dottorato presso l'Università Jiao Tong di ShanghaiWang Dequan, si è laureato alla Fudan University con una laurea e un dottorato di ricerca presso l'Università della California, Berkeley, dove ha studiato con il professor Trevor Darrell.
Il suo lavoro di ricerca è stato pubblicato nelle principali conferenze internazionali come CVPR, ICCV, ECCV, ICLR, ICML, ICRA, IROS, ecc. I suoi articoli sono stati citati più di 10.000 volte in Google Scholar negli ultimi cinque anni, con un H- indice di 20.
Link al documento: https://arxiv.org/abs/2408.01091
Collegamento al progetto: https://selfcontradiction.github.io/