L'Università di Tsinghua è in prima linea nel rilasciare la valutazione multimodale MultiTrust: quanto è affidabile GPT-4?

2024-07-24

La rubrica AIxiv è una rubrica in cui Machine Heart pubblica contenuti accademici e tecnici. Negli ultimi anni, la rubrica Heart of the Machine AIxiv ha ricevuto più di 2.000 segnalazioni, riguardanti i migliori laboratori delle principali università e aziende di tutto il mondo, promuovendo efficacemente gli scambi accademici e la divulgazione. Se hai un lavoro eccellente che desideri condividere, non esitare a contribuire o contattarci per segnalarlo. E-mail di presentazione: [email protected] [email protected];

Questo lavoro è stato avviato dal team di innovazione della teoria di base guidato dal professor Zhu Jun dell'Università di Tsinghua. Per molto tempo il team si è concentrato sugli attuali problemi legati ai colli di bottiglia nello sviluppo dell’intelligenza artificiale, ha esplorato le teorie originali sull’intelligenza artificiale e le tecnologie chiave ed è leader a livello internazionale nella ricerca sulle teorie della sicurezza avversaria e sui metodi degli algoritmi intelligenti. Ha inoltre condotto una ricerca approfondita sulla robustezza degli avversari e sull’efficacia del deep learning. Problemi comuni di base come l’efficienza nell’utilizzo dei dati. Il lavoro pertinente ha vinto il primo premio del Wu Wenjun Artificial Intelligence Natural Science Award, ha pubblicato più di 100 articoli CCF di classe A, ha sviluppato la piattaforma open source di algoritmi di attacco e difesa di contrattacco ARES (https://github.com/thu-ml/ares) e ha realizzato alcuni prodotti brevettati Trasformare l'apprendimento e la ricerca in applicazioni pratiche.

I modelli multimodali di grandi linguaggi (MLLM) rappresentati da GPT-4o hanno attirato molta attenzione grazie alle loro eccellenti prestazioni in molteplici modalità come linguaggio e immagini. Non solo sono diventati assistenti destri degli utenti nel lavoro quotidiano, ma sono progressivamente penetrati anche in importanti campi di applicazione come la guida autonoma e la diagnosi medica, dando il via ad una rivoluzione tecnologica.

Tuttavia, i grandi modelli multimodali sono sicuri e affidabili?

Figura 1 Esempio di attacco avversario GPT-4o

Come mostrato nella Figura 1, modificando i pixel dell'immagine attraverso attacchi avversari, GPT-4o ha identificato erroneamente la statua Merlion a Singapore come la Torre Eiffel a Parigi o il Big Ben a Londra. Il contenuto di tali obiettivi di errore può essere personalizzato a piacimento, anche oltre i confini sicuri dell'applicazione del modello.

Figura 2 Esempio di jailbreak di Claude3

Nello scenario di attacco jailbreak, sebbene Claude abbia rifiutato con successo la richiesta dannosa in forma di testo, quando l'utente inserisce un'immagine aggiuntiva non correlata a colori solidi, il modello emette notizie false in base alla richiesta dell'utente. Ciò significa che i grandi modelli multimodali presentano più rischi e sfide rispetto ai grandi modelli linguistici.

Oltre a questi due esempi, i grandi modelli multimodali presentano anche varie minacce alla sicurezza o rischi sociali come illusioni, pregiudizi e fughe di privacy, che influenzeranno seriamente la loro affidabilità e credibilità nelle applicazioni pratiche. Questi problemi di vulnerabilità si verificano per caso o sono diffusi? Quali sono le differenze nella credibilità dei diversi grandi modelli multimodali e da dove provengono?

Recentemente, ricercatori dell’Università Tsinghua, dell’Università Beihang, dell’Università Jiao Tong di Shanghai e della Ruilai Intelligence hanno scritto congiuntamente un articolo di un centinaio di pagine e pubblicato un benchmark completo chiamato MultiTrust, che per la prima volta valuta in modo completo l’affidabilità dei principali modelli multimodali di grandi dimensioni da più dimensioni e prospettive, dimostrando molteplici rischi potenziali per la sicurezza e ispirando il prossimo sviluppo di grandi modelli multimodali.

Titolo dell'articolo: Benchmarking dell'affidabilità dei modelli linguistici multimodali di grandi dimensioni: uno studio completo

Link al documento: https://arxiv.org/pdf/2406.07057

Home page del progetto: https://multi-trust.github.io/

Repository del codice: https://github.com/thu-ml/MMTrustEval

Quadro di riferimento MultiTrust

Dal lavoro di valutazione del modello di grandi dimensioni esistente, MultiTrust ha estratto cinque dimensioni di valutazione della credibilità (veridicità, sicurezza, robustezza, equità e protezione della privacy) e conduce una classificazione secondaria e costruisce compiti, indicatori e set di dati in modo mirato da fornire una valutazione complessiva.

Figura 4Diagramma del framework MultiTrust

Concentrandosi su 10 sottodimensioni di valutazione affidabili, MultiTrust ha creato 32 diversi scenari di attività, coprendo attività di discriminazione e generazione, spaziando da attività di puro testo a attività multimodali. I set di dati corrispondenti alle attività non vengono solo trasformati e adattati sulla base di set di dati di testo o immagini pubblici, ma anche alcuni dati più complessi e impegnativi vengono costruiti attraverso la raccolta manuale o la sintesi di algoritmi.

Figura 5 Elenco attività MultiTrust

Diversamente dalla valutazione credibile dei modelli linguistici di grandi dimensioni (LLM), le caratteristiche multimodali del MLLM offrono scenari e possibilità di rischio più diversificati e complessi. Al fine di condurre una migliore valutazione sistematica, il benchmark MultiTrust non solo parte dalla tradizionale dimensione della valutazione comportamentale, ma introduce anche in modo innovativo le due prospettive di valutazione del rischio multimodale e dell’impatto crossmodale, coprendo in modo completo le nuove problematiche portate dalle nuove modalità . nuova sfida.

Figura 6 Diagramma dei rischi multimodali e degli impatti intermodali

Nello specifico, i rischi multimodali si riferiscono a nuovi rischi indotti in scenari multimodali, come possibili risposte errate quando i modelli elaborano informazioni visive fuorvianti e valutazioni errate nel ragionamento multimodale che coinvolgono problemi di sicurezza. Sebbene il modello possa identificare correttamente l'alcol nell'immagine, in un ulteriore ragionamento, alcuni modelli non sono consapevoli del potenziale rischio di condividerlo con farmaci a base di cefalosporine.

Figura 7 Il modello commette errori di valutazione nel ragionamento che coinvolge questioni di sicurezza

L'impatto intermodale si riferisce all'impatto dell'aggiunta di nuove modalità sulla credibilità della modalità originale. Ad esempio, l'input di immagini irrilevanti può modificare il comportamento credibile della grande rete dorsale del modello linguistico nelle scene di testo semplice, portando a ulteriori risultati. imprevedibilità. Negli attacchi di jailbreak e nelle attività di fuga contestuale della privacy comunemente utilizzate per la valutazione della credibilità del modello linguistico di grandi dimensioni, se al modello viene fornita un'immagine che non ha nulla a che fare con il testo, il comportamento di sicurezza originale potrebbe essere distrutto (Figura 2).

Analisi dei risultati e conclusioni principali

Figura 8 Elenco di credibilità aggiornato in tempo reale (parte)

I ricercatori mantengono un elenco di credibilità dei modelli multimodali di grandi dimensioni regolarmente aggiornato e hanno aggiunto i modelli più recenti come GPT-4o e Claude3.5. Nel complesso, i modelli commerciali closed-source sono più sicuri dei tradizionali modelli open-source. Tra questi, GPT-4 di OpenAI e Claude di Anthropic si sono classificati al primo posto in termini di credibilità, mentre Microsoft Phi-3, che ha aggiunto l'allineamento alla sicurezza, si è classificato al primo posto tra i modelli open source, ma c'è ancora un certo divario con il modello closed source.

Modelli commerciali come GPT-4, Claude e Gemini hanno implementato molte tecnologie di rinforzo per la sicurezza e l’affidabilità, ma esistono ancora alcuni rischi per la sicurezza e l’affidabilità. Ad esempio, mostrano ancora vulnerabilità agli attacchi avversari, agli attacchi jailbreak multimodali, ecc., che interferiscono notevolmente con l’esperienza e la fiducia dell’utente.

Figura 9 Gemini produce contenuti rischiosi in caso di attacchi jailbreak multimodali

Sebbene i punteggi di molti modelli open source negli elenchi generali tradizionali siano equivalenti o addirittura migliori di GPT-4, nei test a livello di affidabilità, questi modelli mostrano ancora punti deboli e vulnerabilità in diversi aspetti. Ad esempio, l'enfasi sulle capacità generali (come l'OCR) durante la fase di formazione rende l'incorporamento di testo jailbroken e informazioni sensibili nell'input di immagini una fonte di rischio più minacciosa.

Sulla base dei risultati sperimentali sugli effetti intermodali, gli autori hanno scoperto che l'addestramento e l'inferenza multimodali indeboliscono il meccanismo di allineamento sicuro di grandi modelli linguistici. Molti modelli multimodali di grandi dimensioni utilizzeranno modelli linguistici di grandi dimensioni allineati come rete dorsale e verranno perfezionati durante il processo di formazione multimodale. I risultati mostrano che questi modelli presentano ancora grandi vulnerabilità di sicurezza e rischi credibili. Allo stesso tempo, in molteplici compiti di valutazione dell’affidabilità del testo puro, anche l’introduzione di immagini durante il ragionamento avrà un impatto e un’interferenza sul comportamento affidabile del modello.

Figura 10 Dopo aver introdotto le immagini, il modello è più propenso a far trapelare contenuti privati nel testo

I risultati sperimentali mostrano che esiste una certa correlazione tra la credibilità dei grandi modelli multimodali e le loro capacità generali, ma ci sono ancora differenze nelle prestazioni del modello nelle diverse dimensioni di valutazione della credibilità. Gli algoritmi attualmente comuni multimodali relativi ai grandi modelli, come la messa a punto di set di dati generati con l'aiuto di GPT-4V, RLHF per allucinazioni, ecc., non sono sufficienti per migliorare completamente la credibilità del modello. Le conclusioni esistenti mostrano inoltre che i grandi modelli multimodali presentano sfide uniche, diverse dai grandi modelli linguistici, e che sono necessari algoritmi innovativi ed efficienti per ulteriori miglioramenti.

Consultare il documento per risultati e analisi dettagliati.

direzione futura

I risultati indicano che il miglioramento della credibilità dei grandi modelli multimodali richiede un'attenzione speciale da parte dei ricercatori. Attingendo a soluzioni di allineamento di modelli linguistici di grandi dimensioni, dati e scenari di formazione diversificati e paradigmi come Retrieval Enhanced Generation (RAG) e Constitutional AI (Costituzionale AI) è possibile contribuire a migliorare in una certa misura. Ma il miglioramento della credibilità dei grandi modelli multimodali va oltre. Anche l’allineamento tra le modalità e la robustezza dei codificatori visivi sono fattori chiave influenti. Inoltre, anche il miglioramento delle prestazioni dei modelli nelle applicazioni pratiche attraverso la valutazione e l’ottimizzazione continue in ambienti dinamici rappresenta una direzione importante per il futuro.

Insieme al rilascio del benchmark MultiTrust, il team di ricerca ha anche rilasciato il toolkit di valutazione dell’affidabilità dei modelli multimodali di grandi dimensioni MMTrustEval. Le sue caratteristiche di integrazione del modello e modularità di valutazione forniscono uno strumento importante per la ricerca sulla credibilità dei modelli multimodali di grandi dimensioni. Sulla base di questo lavoro e di questo kit di strumenti, il team ha organizzato una competizione multimodale su dati e algoritmi relativi alla sicurezza dei modelli di grandi dimensioni [1,2] per promuovere una ricerca affidabile su modelli di grandi dimensioni. In futuro, con il continuo progresso della tecnologia, i grandi modelli multimodali mostreranno il loro potenziale in più campi, ma la questione della loro credibilità richiede ancora attenzione continua e ricerca approfondita.

[1] CCDM2024 Multimodal Large Language Model Red Team Security Challenge http://116.112.3.114:8081/sfds-v1-html/main

[2] Il 3° concorso per algoritmi di Pazhou: tecnologia multimodale di rinforzo della sicurezza per algoritmi di modelli di grandi dimensioni https://iacc.pazhoulab-huangpu.com/contestdetail?id=668de7357ff47da8cc88c7b8&award=1,000,000

notizia

L'Università di Tsinghua è in prima linea nel rilasciare la valutazione multimodale MultiTrust: quanto è affidabile GPT-4?

introduzione

le mie informazioni di contatto