Minhas informações de contato
Correspondênciaadmin@informação.bz
2024-08-16
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Contribuição do grupo de pesquisa de Wang Dequan da Universidade Jiao Tong de Xangai
Qubits | Conta pública QbitAI
O grupo de pesquisa do professor Wang Dequan da Universidade Jiao Tong de Xangai levantou essa questão nas pesquisas mais recentes.
Imagine este cenário: uma criança no jardim de infância segura a foto de um tigre e pergunta: "Essa gatinha é muito fofa. É uma gata?"
Você não pode responder "sim" ou "não" diretamente, mas primeiro aponte a "contradição" nesta questão——Esta foto é de um tigre, não de um gato。
Mas tem havido pouca investigação sistemática anterior sobre como os grandes modelos responderão.
Você deve saber que um modelo de IA que não consegue detectar "conflitos de instrução" gerará resultados para "perguntas que não deveriam ter respostas" e, não importa para qual lado do conflito os resultados gerados sejam tendenciosos, causará desastres potenciais e afetará a IA. segurança e Superalinhamento (Super Alinhamento).
Neste último estudo, a equipe propôsBenchmarks multimodais——conjunto de instruções contraditóriase projetou um inovadorEstrutura de criação automática de conjunto de dados, nomeadoAutoCriação。
A equipe descobriu que o grande modelo multimodal carecia de detecção de instruções de usuário contraditórias, então eles propuseramMétodo de estímulo de excitação cognitiva(CAP), que injeta capacidades cognitivas do mundo externo, melhorando assim a capacidade de detectar contradições.
O artigo será publicado na 18ª Conferência Europeia sobre Visão Computacional (ECCV) em outubro deste ano.
Atualmente, os grandes modelos multimodais têm feito grandes progressos na investigação científica e nos campos de aplicação. Eles podem processar uma variedade de tipos de dados, incluindo texto e imagens, mostrando capacidades semelhantes à cognição humana.
A equipa acredita que o sucesso destes modelos se deve ao extenso trabalho de investigação e desenvolvimento que lhes permite seguir de perto as instruções humanas, mesmo um tanto “submissas”.
Além disso, esses modelos são particularmente bons em contextos longos. Grandes modelos multimodais, como Claude 3 e Gemini 1.5 Pro, demonstraram capacidades poderosas. Os modelos da série Claude 3 oferecem uma janela de contexto de 200 mil tokens, o tamanho padrão da janela de contexto do Gemini 1.5 Pro é de 128K e pode até atingir 1 milhão de tokens durante a fase de visualização privada.
Esses avanços permitem que grandes modelos multimodais tenham um bom desempenho no tratamento de tarefas complexas e atendam às necessidades dos seres humanos para interações de longo prazo.
No entanto, com o aprofundamento da interacção multimodal e o aumento da extensão do contexto, o problema das instruções contraditórias do utilizador torna-se cada vez mais proeminente.
Conforme mostrado abaixo, quando os usuários (como crianças ou iniciantes em idiomas) usam esses modelos, muitas vezes não têm consciência de potenciais conflitos multimodais.
Ao mesmo tempo, à medida que o número de diálogos aumenta e a janela de contexto se expande, torna-se difícil para os utilizadores lembrarem-se de todos os detalhes, levando a conflitos entre as instruções.
Além disso, à medida que aumenta o número de modalidades, também podem ocorrer conflitos entre modalidades. Uma vez que estes modelos carecem de autoconsciência e de capacidade de discernir contradições, o seu desempenho é prejudicado.
Para enfrentar esses desafios, a equipe de pesquisa deste artigo propôs um teste de benchmark multimodal - "conjunto de instruções contraditórias”(Instruções autocontraditórias, SCI), usado para avaliar a capacidade de grandes modelos multimodais de detectar instruções conflitantes.
SCI contém20.000 instruções conflitantese8 tarefas, distribuído uniformemente emidioma - idiomaevisual-verbalem dois paradigmas.
Na parte superior do diagrama, o paradigma linguístico-linguístico envolve conflitos entre contextos e diretivas, como regras de design conflitantes, propriedades de objetos conflitantes, diretivas exclusivas e vocabulário proibido.
Na parte inferior da figura: o paradigma visual-linguístico abrange conflitos multimodais, tais como conflitos de reconhecimento de texto OCR, conflitos de diagramas, conflitos geométricos e conflitos semânticos. Dentre as oito tarefas, apenas os conflitos semânticos envolvem outros conjuntos de dados (ImageNet).
Para dar um exemplo específico, ao construir conflitos semânticos, os investigadores irão primeiro gerar o texto correspondente com base em imagens e, em seguida, substituir a informação semântica chave no texto por uma nova semântica que seja semelhante, mas diferente.
Na imagem abaixo, a imagem contém um avestruz (Avestruz). O autor acrescenta a pergunta “A imagem retrata o tamanho do avestruz para o significado semântico da imagem “avestruz”.
Posteriormente, a semântica chave deste texto questionável "avestruz" foi substituída por "Kiwi". Desta forma, é construído um par contraditório de instruções multimodais.
Ao longo de todo o processo de construção do SCI, o autor projetou uma estrutura inovadora de criação automática de conjuntos de dados——AutoCriação。
Ele constrói um ciclo multimodal por meio de programas e grandes modelos de linguagem. A estrutura aproveita programas e grandes modelos de linguagem para permitir a criação automatizada de conjuntos de dados.
O AutoCreate começa com vários dados iniciais relacionados à tarefa e mantém um pool de sementes. Dentro de cada ciclo, o AutoCreate inclui duas ramificações:ramo de linguagem(esquerda) eramo visual(certo). Cada filial consiste em geradores e decoradores.
Finalmente, o faxineiro excluirá os dados que não atendem aos critérios. Depois de passarem pelas verificações de qualidade realizadas por especialistas humanos, esses dados serão reintroduzidos no pool de sementes para uso na próxima rodada.
O AutoCreate melhora muito a velocidade de construção e a amplitude do conteúdo dos conjuntos de dados SCI.
Usando o conjunto de dados SCI, os pesquisadores avaliaram de forma abrangente o desempenho de grandes modelos no tratamento de instruções contraditórias.
Resultados experimentais mostram que os grandes modelos atuais muitas vezes apresentam certas deficiências quando confrontados com instruções contraditórias.
Eles podem processar informações e conhecimento, masFalta de capacidade de avaliar a razoabilidade das instruções, o que a equipe de pesquisa chama de habilidade “cognitiva”.
Essa deficiência decorre da falta de autoconsciência e da incapacidade de reconhecer inconsistências nas instruções.
Portanto, os pesquisadores propuseram um método simples de aviso chamado "Dicas para o despertar cognitivo”(Incitação ao Despertar Cognitivo, CAP)。
Passagem CAP na entradaAdicione um lembrete simples, as capacidades cognitivas podem ser injetadas do mundo externo, melhorando assim a capacidade de detecção de contradições do grande modelo e, basicamente, não haverá impacto negativo.
Esta descoberta sugere que os atuais grandes modelos multimodais requerem mais autoconsciência e habilidades cognitivas para lidar melhor com conflitos de instrução complexos.
Para mais detalhes, as crianças interessadas podem ver o artigo original.
O primeiro autor do artigo é doutorando na Shanghai Jiao Tong UniversityGao Jin。
Seus interesses de pesquisa incluem visão computacional, grandes modelos multimodais, ciências da vida potencializadas pela inteligência artificial, etc.
O autor correspondente do artigo é professor assistente titular e supervisor de doutorado na Shanghai Jiao Tong UniversityWang Dequan, ele se formou na Fudan University com bacharelado e doutorado pela Universidade da Califórnia, Berkeley, onde estudou com o professor Trevor Darrell.
Seu trabalho de pesquisa foi publicado nas principais conferências internacionais, como CVPR, ICCV, ECCV, ICLR, ICML, ICRA, IROS, etc. Seus artigos foram citados mais de 10.000 vezes no Google Scholar nos últimos cinco anos, com um H- índice de 20.
Link do artigo: https://arxiv.org/abs/2408.01091
Link do projeto: https://selfcontradiction.github.io/