A Universidade de Tsinghua assume a liderança no lançamento da avaliação multimodal MultiTrust: Quão confiável é o GPT-4?

2024-07-24

A coluna AIxiv é uma coluna onde a Machine Heart publica conteúdo acadêmico e técnico. Nos últimos anos, a coluna Heart of the Machine AIxiv recebeu mais de 2.000 relatórios, abrangendo os principais laboratórios das principais universidades e empresas de todo o mundo, promovendo efetivamente o intercâmbio e a divulgação acadêmica. Se você tem um trabalho excelente que deseja compartilhar, sinta-se à vontade para contribuir ou entre em contato conosco para reportar. E-mail de envio: [email protected]; [email protected];

Este trabalho foi iniciado pela equipe de inovação da teoria básica liderada pelo professor Zhu Jun da Universidade de Tsinghua. Durante muito tempo, a equipe concentrou-se nos atuais gargalos no desenvolvimento da inteligência artificial, explorou teorias originais de inteligência artificial e tecnologias-chave e está no nível de liderança internacional na pesquisa sobre teorias de segurança adversárias e métodos de algoritmos inteligentes. Também conduziu pesquisas aprofundadas sobre a robustez adversária e a eficácia do aprendizado profundo. Questões comuns básicas, como eficiência na utilização de dados. Trabalhos relevantes ganharam o primeiro prêmio do Wu Wenjun Artificial Intelligence Natural Science Award, publicaram mais de 100 artigos CCF Classe A, desenvolveram a plataforma de algoritmo de defesa e ataque de contra-ataque de código aberto ARES (https://github.com/thu-ml/ares) e realizou alguns produtos patenteados para transformar o aprendizado e a pesquisa em aplicações práticas.

Os Modelos Multimodais de Grandes Linguagens (MLLMs) representados pelo GPT-4o têm atraído muita atenção devido ao seu excelente desempenho em múltiplas modalidades, como linguagem e imagens. Eles não só se tornaram assistentes direitos dos utilizadores no trabalho diário, mas também penetraram gradualmente em grandes campos de aplicação, como a condução autónoma e o diagnóstico médico, desencadeando uma revolução tecnológica.

No entanto, os grandes modelos multimodais são seguros e confiáveis?

Figura 1 Exemplo de ataque adversário GPT-4o

Conforme mostrado na Figura 1, ao modificar os pixels da imagem por meio de ataques adversários, o GPT-4o identificou erroneamente a estátua de Merlion em Cingapura como a Torre Eiffel em Paris ou o Big Ben em Londres. O conteúdo de tais alvos de erro pode ser personalizado à vontade, mesmo além dos limites seguros da aplicação do modelo.

Figura 2 Exemplo de jailbreak do Claude3

No cenário de ataque de jailbreak, embora Claude tenha rejeitado com sucesso a solicitação maliciosa em formato de texto, quando o usuário insere uma imagem adicional não relacionada em cor sólida, o modelo gera notícias falsas de acordo com a solicitação do usuário. Isto significa que grandes modelos multimodais apresentam mais riscos e desafios do que grandes modelos linguísticos.

Além destes dois exemplos, os grandes modelos multimodais também apresentam várias ameaças à segurança ou riscos sociais, tais como ilusões, preconceitos e fugas de privacidade, o que afectará seriamente a sua fiabilidade e credibilidade em aplicações práticas. Esses problemas de vulnerabilidade ocorrem por acaso ou são generalizados? Quais são as diferenças na credibilidade dos diferentes modelos multimodais de grande porte e de onde elas vêm?

Recentemente, pesquisadores da Universidade Tsinghua, da Universidade Beihang, da Universidade Shanghai Jiao Tong e da Ruilai Intelligence escreveram em conjunto um artigo de cem páginas e lançaram um benchmark abrangente chamado MultiTrust, que pela primeira vez avalia de forma abrangente a confiabilidade dos grandes modelos multimodais convencionais de vários dimensões e perspectivas, demonstrando múltiplos riscos potenciais de segurança e inspirando o próximo desenvolvimento de grandes modelos multimodais.

Título do artigo: Comparando a confiabilidade de modelos multimodais de grandes linguagens: um estudo abrangente

Link do artigo: https://arxiv.org/pdf/2406.07057

Página inicial do projeto: https://multi-trust.github.io/

Repositório de código: https://github.com/thu-ml/MMTrustEval

Estrutura de referência MultiTrust

Do grande trabalho de avaliação de modelos existente, a MultiTrust extraiu cinco dimensões de avaliação de credibilidade - veracidade, segurança, robustez, justiça e proteção de privacidade), e conduz classificação secundária e constrói tarefas, indicadores e conjuntos de dados de maneira direcionada para fornecer. uma avaliação abrangente.

Figura 4Diagrama da estrutura MultiTrust

Concentrando-se em 10 subdimensões de avaliação confiáveis, o MultiTrust construiu 32 cenários de tarefas diversos, abrangendo tarefas de discriminação e geração, abrangendo tarefas de texto puro e tarefas multimodais. Os conjuntos de dados correspondentes às tarefas não são apenas transformados e adaptados com base em conjuntos de dados públicos de texto ou imagem, mas também alguns dados mais complexos e desafiadores são construídos através de coleta manual ou síntese de algoritmos.

Figura 5 Lista de tarefas MultiTrust

Diferente da avaliação confiável de grandes modelos de linguagem (LLMs), os recursos multimodais do MLLM trazem cenários e possibilidades de risco mais diversos e complexos. Para melhor conduzir a avaliação sistemática, o benchmark MultiTrust não só parte da dimensão tradicional de avaliação comportamental, mas também introduz de forma inovadora as duas perspectivas de avaliação de risco multimodal e impacto intermodal, cobrindo de forma abrangente as novas questões trazidas pelas novas modalidades. . novo desafio.

Figura 6 Diagrama de riscos multimodais e impactos intermodais

Especificamente, os riscos multimodais referem-se a novos riscos provocados em cenários multimodais, tais como possíveis respostas incorretas quando os modelos processam informações visuais enganosas e erros de julgamento no raciocínio multimodal envolvendo questões de segurança. Embora o modelo possa identificar corretamente o álcool na imagem, em um raciocínio mais aprofundado, alguns modelos não estão cientes do risco potencial de compartilhá-lo com medicamentos cefalosporínicos.

Figura 7 O modelo comete erros de julgamento no raciocínio envolvendo questões de segurança

O impacto intermodal refere-se ao impacto da adição de novas modalidades na credibilidade da modalidade original. Por exemplo, a entrada de imagens irrelevantes pode alterar o comportamento confiável da rede principal do modelo de linguagem grande em cenas de texto simples, levando a mais. imprevisibilidade. Em ataques de jailbreak e tarefas contextuais de vazamento de privacidade comumente usadas para avaliação de credibilidade de modelos de linguagem grande, se o modelo receber uma imagem que não tem nada a ver com o texto, o comportamento de segurança original pode ser destruído (Figura 2).

Análise de resultados e principais conclusões

Figura 8 Lista de credibilidade atualizada em tempo real (parte)

Os pesquisadores mantêm uma lista de credibilidade de grandes modelos multimodais atualizada regularmente e adicionam os modelos mais recentes, como GPT-4o e Claude3.5. Em geral, os modelos comerciais de código fechado são mais seguros do que os modelos de código aberto convencionais. Entre eles, GPT-4 da OpenAI e Claude da Anthropic obtiveram a maior credibilidade, enquanto o Microsoft Phi-3, que adicionou alinhamento de segurança, obteve a melhor classificação entre os modelos de código aberto, mas ainda há uma certa lacuna com o modelo de código fechado.

Modelos comerciais como GPT-4, Claude e Gemini implementaram muitas tecnologias de reforço para segurança e confiabilidade, mas ainda existem alguns riscos de segurança e confiabilidade. Por exemplo, eles ainda apresentam vulnerabilidade a ataques adversários, ataques de jailbreak multimodais, etc., o que interfere muito na experiência e na confiança do usuário.

Figura 9 Gemini exibe conteúdo arriscado sob ataques de jailbreak multimodais

Embora as pontuações de muitos modelos de código aberto nas listas gerais convencionais sejam equivalentes ou até melhores que o GPT-4, em testes de nível de confiança, estes modelos ainda mostram fraquezas e vulnerabilidades em diferentes aspectos. Por exemplo, a ênfase em recursos gerais (como OCR) durante a fase de treinamento torna a incorporação de texto desbloqueado e informações confidenciais na entrada de imagem uma fonte de risco mais ameaçadora.

Com base em resultados experimentais sobre efeitos intermodais, os autores descobriram que o treinamento e a inferência multimodal enfraquecem o mecanismo de alinhamento seguro de grandes modelos de linguagem. Muitos grandes modelos multimodais usarão grandes modelos de linguagem alinhados como rede principal e serão ajustados durante o processo de treinamento multimodal. Os resultados mostram que estes modelos ainda apresentam grandes vulnerabilidades de segurança e riscos credíveis. Ao mesmo tempo, em múltiplas tarefas de avaliação de confiabilidade de texto puro, a introdução de imagens durante o raciocínio também terá impacto e interferência no comportamento confiável do modelo.

Figura 10 Após a introdução de imagens, o modelo fica mais propenso a vazar conteúdo privado no texto

Os resultados experimentais mostram que existe uma certa correlação entre a credibilidade dos grandes modelos multimodais e as suas capacidades gerais, mas ainda existem diferenças no desempenho do modelo em diferentes dimensões de avaliação da credibilidade. Atualmente, os algoritmos multimodais comuns relacionados a grandes modelos, como conjuntos de dados de ajuste fino gerados com a ajuda de GPT-4V, RLHF para alucinações, etc., não são suficientes para aumentar totalmente a credibilidade do modelo. As conclusões existentes também mostram que grandes modelos multimodais apresentam desafios únicos que são diferentes dos grandes modelos de linguagem, e são necessários algoritmos inovadores e eficientes para melhorias adicionais.

Consulte o artigo para resultados e análises detalhadas.

Direção futura

As conclusões indicam que melhorar a credibilidade dos grandes modelos multimodais requer atenção especial dos investigadores. Ao recorrer a grandes soluções de alinhamento de modelos de linguagem, dados e cenários de treinamento diversificados e paradigmas como Retrieval Enhanced Generation (RAG) e IA Constitucional (IA Constitucional) podem ajudar a melhorar até certo ponto. Mas a melhoria da credibilidade dos grandes modelos multimodais vai além disso. O alinhamento entre as modalidades e a robustez dos codificadores visuais também são fatores de influência importantes. Além disso, melhorar o desempenho dos modelos em aplicações práticas através da avaliação e otimização contínuas em ambientes dinâmicos também é uma direção importante no futuro.

Junto com o lançamento do benchmark MultiTrust, a equipe de pesquisa também lançou o kit de ferramentas de avaliação de confiabilidade de modelos multimodais de grande porte MMTrustEval. Suas características de integração de modelo e modularidade de avaliação fornecem uma ferramenta importante para a pesquisa de credibilidade de grandes modelos multimodais. Com base neste trabalho e kit de ferramentas, a equipe organizou uma competição multimodal de algoritmos e dados relacionados à segurança de grandes modelos [1,2] para promover pesquisas confiáveis em grandes modelos. No futuro, com o avanço contínuo da tecnologia, os grandes modelos multimodais mostrarão o seu potencial em mais domínios, mas a questão da sua credibilidade ainda requer atenção contínua e investigação aprofundada.

[1] CCDM2024 Multimodal Large Language Model Red Team Security Challenge http://116.112.3.114:8081/sfds-v1-html/main

[2] A 3ª Competição de Algoritmos de Pazhou - Tecnologia de reforço de segurança de algoritmo de modelo grande multimodal https://iacc.pazhoulab-huangpu.com/contestdetail?id=668de7357ff47da8cc88c7b8&award=1.000.000

notícias

A Universidade de Tsinghua assume a liderança no lançamento da avaliação multimodal MultiTrust: Quão confiável é o GPT-4?

Introdução

minhas informações de contato