notícias

Equipe de Li Xi da Universidade de Zhejiang: Um novo método para se referir à compreensão de expressões, o ScanFormer elimina a redundância de grosseiro para fino

2024-08-20

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

A coluna AIxiv é uma coluna onde a Machine Heart publica conteúdo acadêmico e técnico. Nos últimos anos, a coluna Heart of the Machine AIxiv recebeu mais de 2.000 relatórios, abrangendo os principais laboratórios das principais universidades e empresas de todo o mundo, promovendo efetivamente o intercâmbio e a divulgação acadêmica. Se você tem um trabalho excelente que deseja compartilhar, sinta-se à vontade para contribuir ou entre em contato conosco para reportar. E-mail de envio: [email protected]; [email protected];

Os autores deste artigo são todos da equipe do Professor Li Xi da Universidade de Zhejiang. O primeiro autor do artigo é o estudante de doutorado Su Wei, e o autor correspondente é o Professor Li Xi (IET Fellow, National Distinguished Young Scholar). Nos últimos anos, a equipe do professor Li Xi publicou mais de 180 trabalhos de pesquisa relacionados ao CV/AIGC em periódicos internacionais de renome (como TPAMI, IJCV, etc.) e nas principais conferências acadêmicas internacionais (ICCV, CVPR, ECCV, etc.), e tem cooperado com universidades e instituições de pesquisa científica conhecidas no país e no exterior. As instituições cooperam extensivamente.

Como uma tarefa básica de linguagem visual, a compreensão de expressão de referência (REC) localiza o alvo referido na imagem com base na descrição da linguagem natural. O modelo REC geralmente consiste em três partes: codificador visual, codificador de texto e interação intermodal, que são usados ​​para extrair recursos visuais, recursos de texto e interação e aprimoramento de recursos intermodais, respectivamente.

A maioria das pesquisas atuais concentra-se no projeto de módulos de interação intermodal eficientes para melhorar a precisão das tarefas, e há uma falta de exploração de codificadores visuais. Uma abordagem comum é usar extratores de recursos pré-treinados em tarefas de classificação e detecção, como ResNet, DarkNet, Swin Transformer ou ViT, etc. Esses modelos percorrem todas as localizações espaciais da imagem para extrair recursos em uma janela deslizante ou em patch dividido. Sua complexidade computacional aumentará rapidamente com a resolução da imagem, o que é mais óbvio em modelos baseados em Transformer.

Devido às características de redundância espacial das imagens, há um grande número de áreas de fundo com baixo conteúdo de informação e áreas que são irrelevantes para a expressão referencial na imagem. Extrair características nessas áreas da mesma forma aumentará a complexidade computacional, mas aumenta. não contribuem para a extração eficaz de recursos. Uma maneira mais eficiente é prever antecipadamente a relevância do texto e a riqueza do conteúdo da área da imagem, extrair totalmente os recursos da área de primeiro plano relacionada ao texto e extrair aproximadamente os recursos da área de fundo. Para previsão regional, uma maneira mais intuitiva é usar a pirâmide de imagens para identificar antecipadamente a área de fundo na imagem de granulação grossa no topo da pirâmide e, em seguida, adicionar gradualmente áreas de primeiro plano de granulação fina de alta resolução.

Com base na análise acima, propusemosScanFormer, uma estrutura com reconhecimento de iteração grosseira a fina, escaneie camada por camada na pirâmide de imagens, começando com imagens de baixa resolução em escala grosseira, e filtre gradualmente áreas irrelevantes/de fundo que se referem a expressões para reduzir o desperdício computacional, permitindo que o modelo se concentre mais em áreas de primeiro plano/relacionadas à tarefa .



  • Título do artigo: ScanFormer: Referindo-se à Compreensão de Expressões por Varredura Iterativa
  • Link do artigo: https://arxiv.org/pdf/2406.18048

Introdução ao método

1. Estrutura de percepção de iteração grosseira a fina

Para simplificar a estrutura, adotamos o modelo ViLT [1] que unifica as modalidades textual e visual, e o divide em duas partes, Encoder1 e Encoder2, ao longo da dimensão de profundidade para diferentes tarefas.

Primeiro, extraia recursos de texto e armazene-os no KV Cache; em seguida, construa uma pirâmide de imagens e itere para baixo a partir do topo da pirâmide. Em cada iteração, o patch selecionado na escala atual é inserido e o Encoder1 é usado para prever a próxima etapa. correspondente a cada patch. A seleção de patches de granulação fina em uma escala, em particular, todos os patches da imagem de nível superior são selecionados para garantir que o modelo possa obter informações de imagem completa de granulação grossa. O Encoder2 extrai ainda mais recursos e prevê a caixa delimitadora desta escala com base no token [cls] da escala atual.

Ao mesmo tempo, os recursos intermediários do Encoder1 e Encoder2 serão armazenados no KV Cache para facilitar o uso padrão subsequente. À medida que a escala aumenta, recursos refinados são introduzidos, a previsão de posição será mais precisa e a maioria dos patches irrelevantes serão descartados para economizar muitos cálculos.

Além disso, os patches dentro de cada escala possuem atenção bidirecional, prestando atenção a todos os patches e características de texto das escalas anteriores. Essa atenção causal entre escalas pode reduzir ainda mais os requisitos computacionais.



2. Seleção dinâmica de patches

A seleção de cada patch é determinada pelo fator de seleção gerado pela escala anterior. Existem duas opções de localização de aplicação. Uma é utilizada em todos os cabeçotes de cada camada do MHSA no Encoder. H cabeças, é muito difícil obter informações de gradiente efetivas para atualização, então o fator de seleção aprendido não é ideal, o segundo é usado diretamente como entrada do codificador, ou seja, incorporação de patch. usado nesta posição, é mais fácil de aprender. Finalmente, este artigo Esta solução também foi adotada.

Além disso, deve-se notar que mesmo que a incorporação do patch de entrada seja definida como 0, devido à existência de MHSA e FFN, os recursos do patch nas camadas subsequentes ainda se tornarão diferentes de 0 e afetarão os recursos de outros patches. Felizmente, quando há muitos tokens idênticos na sequência de tokens, o cálculo do MHSA pode ser simplificado e a aceleração real da inferência pode ser alcançada. Além disso, para aumentar a flexibilidade do modelo, este artigo não define diretamente a incorporação do patch como 0, mas o substitui por um token constante que pode ser aprendido.

Portanto, o problema de seleção de patches é transformado em um problema de substituição de patches. O processo de seleção de patches pode ser decomposto em duas etapas: substituição constante de tokens e fusão de tokens. Os patches não selecionados serão substituídos pelo mesmo token constante. Como esses tokens não selecionados são iguais, de acordo com o método de cálculo da atenção do produto escalar em escala, esses tokens podem ser combinados em um token e multiplicados pelo número total, o que equivale a adicionar à dimensão, então o método de atenção do produto escalar é calculado Sem alteração, métodos de aceleração comuns ainda estão disponíveis.



Resultados experimentais

Este método atinge desempenho semelhante ao estado da arte em quatro conjuntos de dados: RefCOCO, RefCOCO+, RefCOCOg e ReferItGame. Através do pré-treinamento em conjuntos de dados de grande escala e do ajuste fino em conjuntos de dados específicos, o desempenho do modelo pode ser ainda melhorado e alcançar resultados semelhantes aos modelos pré-treinados, como MDETR [2] e OFA [3].





Em termos de velocidade de raciocínio, o método proposto atinge velocidade de raciocínio em tempo real, garantindo alta precisão da tarefa.



Além disso, a parte experimental também fez estatísticas sobre a seleção de patches do modelo e a distribuição da precisão de posicionamento em cada escala (escala1 e escala2).

Conforme mostrado na figura à esquerda, à medida que a escala aumenta, recursos de imagem refinados são adicionados e a precisão do modelo melhora gradualmente. Portanto, você pode tentar adicionar um mecanismo de saída antecipada para sair a tempo quando a precisão do posicionamento atender aos requisitos, evitando cálculos adicionais em imagens de alta resolução e obtendo o efeito de selecionar adaptativamente uma resolução apropriada com base em amostras. Este artigo também fez algumas tentativas preliminares, incluindo a adição de ramos de previsão, como IoU, GIoU e incerteza, e o retorno de indicadores de saída antecipada. No entanto, descobriu-se que o efeito não era ideal. continuou a explorar.

A figura à direita mostra a situação de seleção de patches em diferentes escalas. Em todas as escalas, os patches selecionados representam uma proporção relativamente pequena e a maioria dos patches pode ser eliminada, para que os recursos de computação possam ser efetivamente economizados. Para cada amostra (imagem + expressão referencial), o número de patches efetivamente selecionados é relativamente pequeno, aproximadamente 65% do total.



Finalmente, a parte experimental mostra alguns resultados de visualização À medida que a escala aumenta (vermelho → verde → azul), a precisão de posicionamento do modelo melhora gradualmente. Além disso, de acordo com a imagem reconstruída a partir do patch selecionado, pode-se observar que o modelo só presta atenção às informações de escala grosseira para a área de fundo, e para a área de primeiro plano relevante, o modelo pode prestar atenção aos detalhes de granulação fina Informação.



Literatura relacionada:

[1].Kim W, Son B, Kim I. Vilt: Transformador de visão e linguagem sem supervisão de convolução ou região [C]//Conferência internacional sobre aprendizado de máquina. PMLR, 2021: 5583-5594.

[2].Kamath A, Singh M, LeCun Y, et al. Detecção modulada por MDETr para compreensão multimodal de ponta a ponta [C]//Anais da conferência internacional IEEE/CVF sobre visão computacional. 2021: 1780-1790.

[3].Wang P, Yang A, Men R, et al. Ofa: Unificando arquiteturas, tarefas e modalidades por meio de uma estrutura simples de aprendizado de sequência para sequência [C]//Conferência internacional sobre aprendizado de máquina. PMLR, 2022: 23318-23340.