notícias

Universidade de Pequim Wangxuan: Deixe que grandes modelos multimodais entendam melhor o que os humanos estão fazendo |

2024-08-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Usando apenas palavras imediatas, o grande modelo multimodal pode compreender melhor a relação entre os personagens da cena.

A Universidade de Pequim propôs recentemente o método Conditional Multi-Modal Prompt (CMMP), que usaTecnologia de engenharia de palavras imediatasEnsine grandes modelos multimodais para compreender as relações de interação de caráter em nível regional.



Neste processo, a parte mais difícil é ensinar o modelo a reconhecerTipos de interação de personagens invisíveis

Você sabe, a maioria das pesquisas existentes concentra-se em ambientes fechados. Uma vez que se torne um ambiente aberto e mais próximo da realidade, o modelo ficará confuso!

Por exemplo, na figura abaixo, os detectores anteriores encontraram dificuldades em equilibrar categorias visíveis e invisíveis,resultando em uma média harmônica mais baixae apresentam pior desempenho em categorias não vistas.

Em contraste, o método CMMP resolve eficazmente este problema de equilíbrio, melhora significativamente o desempenho e estabelece um novo desempenho de última geração para categorias invisíveis.



Quanto à forma como o método CMMP resolve categorias invisíveis,uma palavra

Dicas visuais-espaciais são usadas no processo de extração de recursos para ajudar a identificar conceitos de interação pessoa-objeto invisíveis e melhorar a generalização para categorias invisíveis por meio de aprendizagem de dicas condicionais.



Em resumo, o método CMMP fornece um novo paradigma para o ajuste fino de grandes modelos multimodais para torná-losgeneralizadoCapacidades de detecção de relacionamento de interação de personagens em nível regional.

A pesquisa acima vem do Instituto Wangxuan de Tecnologia da Computação da Universidade de Pequim, e os artigos relevantes foram aceitos pela principal conferência ECCV 2024.

Uma nova estrutura para detecção de interação humana sem amostra

A equipe propôs uma nova estrutura para detecção de HOI (Interação Humano-Objeto) de amostra zero usando CMMP.



Especificamente, o CMMP detectará interação humana com amostra zeroDividido em duas subtarefas

  • Extração de recursos visuais para percepção de interatividade
  • Classificação de interação generalizável

Então, para cada subtarefaproposto separadamenteDicas visuais e textuais dissociadas para eliminar dependências entre elas e mitigar a propagação de erros.

Dicas visuais condicionais (Pv) são usadas para injetar conhecimento de percepção espacial e de interatividade no codificador de imagem, limitado por antecedentes visuais em nível de instância (Cins) e padrões espaciais globais de interações (Cgsp). As dicas de linguagem condicional (PL) são restringidas por dicas projetadas por humanos (CL) por meio de uma perda de regularização.

Extração de recursos visuais para percepção de interatividade

O codificador de imagem do modelo multimodal adotado pela equipe foi inicialmente treinado por pré-treinamento de aprendizagem contrastiva (CLIP) em pares imagem-texto em grande escala, e sua capacidade pode ser limitada à compreensão da semântica de primeira ordem no nível da imagem.

Para permitir que o codificador de imagem distinga toda a interatividade humana na imagem, a equipe propôs integrar o conhecimento prévio de diferentes granularidades em pistas visuais condicionais para entendê-las de forma personalizada para a tarefa de detecção de relacionamento de interação humana.Semântica regional de segunda ordem

Especificamente, pesquisadoresUse informações em nível de instância como conhecimento prévioIncorpore dicas visuais condicionais.

Dada uma imagem de entrada, um detector de objetos pré-treinado é usado primeiro para obter todo o conhecimento prévio em nível de instância, incluindo caixas delimitadoras, pontuações de confiança e codificações semânticas de instâncias detectadas.

Além disso, para incentivar cada instância a estar ciente de seus possíveis objetos de interação, a equipe combinou o padrão espacial global de interações no conjunto de treinamento com o visual anterior em nível de instância.

Especificamente, para cada par de pessoas interagindo anotado, os pesquisadoresPrimeiro calcule suas características espaciais univariadas e binárias.

Posteriormente, o algoritmo de agrupamento K-means é usado para determinar os centros do agrupamento e usá-los como padrões espaciais representativos de pares de caracteres em interação.

O padrão de interação espacial global fornece uma configuração espacial representacional independente de categoria como uma ponte para a compreensão da interatividade entre conceitos de interação de personagens vistos e invisíveis.

Finalmente, os pesquisadores integraram o conhecimento combinado em um codificador de imagem por meio de um adaptador leve.

Classificação de interação generalizável

A fim de reter o conhecimento geral generalizável do CLIP enquanto aprende representações específicas de tarefas para detecção de interação humana, a equipe adotouAprendizagem imediata com reconhecimento de idioma e restrições de consistência

Esta restrição garante que os protótipos aprendidos de categorias visíveis e invisíveis mantenham limites de separação razoáveis ​​e não se desviem excessivamente uns dos outros.

Especificamente, para cada categoria de ação, os pesquisadoresPrimeiro usoPrompts projetados manualmente formatam-no. Aproveite palavras de contexto que podem ser aprendidas para servir como pontes entre a semântica de categorias visíveis e invisíveis.

A representação final da categoria é obtida concatenando as palavras do contexto que podem ser aprendidas com os vetores de palavras das sentenças acima e, em seguida, passando-as por um codificador de texto.

A fim de utilizar ainda mais o espaço de recursos aprendido pelo próprio codificador de texto do modelo multimodal e melhorar a capacidade de generalização para categorias invisíveis, os pesquisadores propuseramDicas para usar design humanopara orientar o espaço de recursos das dicas de linguagem que podem ser aprendidas.

Esta restrição garante que os protótipos das categorias visíveis e invisíveis mantenham limites de separação razoáveis ​​e não se desviem muito uns dos outros.

Aplicativo de equipeRegularização versus perda de aprendizagempara reduzir a diferença entre representações de recursos e representações de recursos de pistas de linguagem projetadas artificialmente.

Treinamento CMMP

Com base no mapa de recursos com reconhecimento de interatividade e nas caixas delimitadoras de pessoas e objetos extraídos pelo detector de objetos pré-treinado, a equipe primeiro aplicou o ROI-Pooling para extrair recursos em diferentes áreas.

Em seguida, as características extraídas de diferentes regiões são fundidas e a predição final da classe de interação é feita através de um classificador de interação.

Todo o modelo usa perda focal no treinamento de classificação interativo e também aplica perda de regularização de linguagem.

Resultados experimentais

Durante a fase de verificação dos resultados, a equipe utilizouHICO-DET, um conjunto de dados comumente usado para detecção de interação humana, as categorias de interação de 600 caracteres são compostas por 80 categorias de objetos e 117 categorias de verbos.

Para verificar o desempenho de amostra zero do modelo, os pesquisadores avaliaram no HICO-DETCinco configurações de amostra zero

Para conseguir uma comparação justa com os métodos existentes, estudamosViT-B/16 é usado por padrãocomo rede backbone.

Conforme mostrado na tabela abaixo, os resultados experimentais mostram que o CMMP tem um bom desempenho em todas as configurações de amostra zero.Todos obtiveram o melhor desempenho em aulas invisíveis, o que comprova a eficácia da introdução de pistas multimodais condicionais.



Conforme mostrado na tabela para cada tipo deA última linha mostra, ao aproveitar o backbone ViT-L/14 para estender o CMMP para corresponder aos FLOPs do CLIP4HOI, o novo método atinge o melhor desempenho em todas as partições.

Isso demonstra que o modelo da equipe possui excelentes capacidades na extração de relações espaciais de características visuais e aprendizagem de protótipos para classificação interativa.

Além disso, os métodos anteriores mostram sérias diferenças de desempenho entre categorias vistas e não vistas, indicando a sua falta de capacidade de generalização.

O modelo deste estudo pode aliviar esse problema em grande medida, egeneralizarO elevado potencial para alcançar categorias de interação nunca antes vistas confirma a eficácia das pistas multimodais com restrições.

Consulte o artigo original para obter mais detalhes.