Minhas informações de contato
Correspondênciaadmin@informação.bz
2024-08-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Novo Relatório de Sabedoria
Editor: LRST Tão sonolento
[Introdução à Nova Sabedoria]Mini-Monkey é um modelo de linguagem multimodal leve e de grande escala que alivia efetivamente o efeito de aliasing causado pelas estratégias tradicionais de segmentação de imagens usando estratégia de segmentação adaptativa multiescala (MSAC) e mecanismo de compressão de escala (SCM). Melhor desempenho do modelo em alta. - tarefas de processamento de imagens de resolução e compreensão de documentos. Alcança resultados líderes em múltiplos benchmarks, demonstrando seu potencial nas áreas de compreensão multimodal e inteligência documental.
Recentemente, melhorar a capacidade de grandes modelos multimodais de processar imagens de alta resolução tem atraído cada vez mais atenção neste campo.
A maioria dos métodos concentra-se em melhorar a capacidade de grandes modelos multimodais de compreender os detalhes da imagem através da estratégia de segmentação e refusão de imagens.
Porém, devido à operação de segmentação da imagem, é inevitável causar fragmentação do alvo e das áreas conectadas, o que afeta a capacidade de reconhecimento dos MLMMs para alvos pequenos ou de formato irregular. Este fenômeno é extremamente óbvio em tarefas de compreensão de documentos, porque o lado do texto é frequentemente interrompido.
Em resposta a este desafio, a Universidade de Ciência e Tecnologia Huazhong e a Universidade de Tecnologia do Sul da China lançaram recentemente em conjunto um grande modelo multimodal Mini-Monkey, que usa uma estratégia adaptativa multiescala conectável (MSAC) para tornar grandes modelos multimodais leves. .
O Mini-Monkey gera representações multiescala de forma adaptativa, permitindo que o modelo selecione objetos não segmentados de várias escalas, e seu desempenho atinge o novo SOTA de grandes modelos multimodais 2B.
Endereço do artigo: https://arxiv.org/pdf/2408.02034
Endereço do projeto: https://github.com/Yuliang-Liu/Monkey
A fim de aliviar a sobrecarga computacional causada pelo MSAC, propomos um mecanismo de compressão de escala (SCM) para compactar efetivamente os tokens de imagem.
O Mini-Monkey não apenas alcançou desempenho líder em múltiplas tarefas de inteligência de documentos, mas também obteve melhorias consistentes de desempenho em tarefas gerais de compreensão de modelos multimodais, alcançando desempenho SOTA de 2B.
No OCRBench, o Mini-Monkey marcou 802 pontos, o que é melhor que modelos com parâmetros maiores, como o GLM-4v-9B.
Figura 3 Diagrama de blocos do método: H-Attn representa alto peso de atenção; L-Attn representa tokens de baixo peso de atenção com menor peso de atenção serão filtrados;
Histórico de pesquisa
Os modelos multimodais de grandes linguagens (MLMM) têm atraído muita atenção nos últimos anos. Os pesquisadores estão explorando ativamente maneiras eficazes de integrar codificadores visuais ao LLM.
Alguns métodos, como Flamingo, BLIP-2, MiniGPT4 e Qwen-VL e LLaVA, alcançaram essas conquistas, mas os modelos anteriores de grandes linguagens multimodais não alcançaram uma boa compreensão detalhada da cena devido à resolução de processamento limitada.
Figura 1 O efeito de aliasing causado pela segmentação em objetos universais: (a) imagem de entrada; (b) estratégia de expansão de segmentação; (c) estratégia de expansão de segmentação sobreposta;
Os pesquisadores começaram a resolver esse problema expandindo a resolução de entrada da imagem. A estratégia de fatiamento é um dos métodos mais comumente usados. Por exemplo, Monkey, LLaVA 1.6, InternVL 1.5 e LLama3-V, etc.
Apesar do progresso significativo nos modelos de linguagem multimodais em grande escala, permanecem desafios na compreensão detalhada da cena devido às estratégias de segmentação.
As operações de segmentação em imagens inevitavelmente segmentam objetos e regiões conectadas, enfraquecendo assim a capacidade do MLLM de identificar objetos pequenos ou de formato irregular, especialmente no contexto da compreensão de documentos.
Esta estratégia introduzirá dois tipos de incoerência semântica:
1. Se um objeto ou personagem estiver segmentado, ele poderá não ser reconhecido. Por exemplo, o nariz segmentado se parece muito com o de um macaco, conforme mostrado na Figura 1(b);
2. Se uma palavra ou frase for segmentada, causará danos semânticos à palavra segmentada. Por exemplo, a palavra “Salas de aula” pode ser dividida em “Aula” e “salas”, o que causaria danos semânticos às palavras segmentadas.
Para simplificar, os autores chamam esse problema de efeito dente de serra. Uma ideia muito simples é usar uma estratégia de segmentação sobreposta para resolver este problema, conforme mostrado na Figura 1(c).
No entanto, os autores descobriram que a estratégia de segmentação sobreposta introduziu certas ilusões que resultaram na degradação do desempenho em vez de melhoria.
Ideias de método
O autor propõe o Mini-Monkey, um modelo leve de linguagem multimodal em grande escala projetado para aliviar o efeito dente de serra causado por estratégias de segmentação. O diagrama de blocos do método é mostrado na Figura 2.
Figura 2 O efeito irregular causado pelo corte em imagens de texto.
Ao contrário dos métodos existentes que segmentam diretamente a imagem de entrada, o Mini-Monkey adota uma abordagem plug-and-play chamada Estratégia de Segmentação Adaptativa Multiescala (MSAC).
O MSAC pode complementar efetivamente recursos em diferentes escalas, conforme mostrado na Figura 1(d).
Estratégia de segmentação adaptativa multiescala (MSAC)
O MSAC primeiro executa uma operação de estratificação nessas malhas, dividindo-as em três grupos com base em sua proporção. O autor escolherá uma proporção para cada camada. Diferentes camadas fornecem informações diferentes ao modelo.
A camada de detalhes é responsável por fornecer informações detalhadas. Limita a resolução máxima e mínima da imagem, tornando a imagem o maior possível e tornando os objetos na imagem mais nítidos. Devido à estratégia de segmentação utilizada para recortar a imagem, as imagens geradas por esta camada podem apresentar inconsistências semânticas.
Portanto, os autores utilizam camadas adaptativas em conjunto com camadas de detalhes para permitir que o modelo selecione objetos não segmentados de várias escalas. A camada adaptativa gerará de forma adaptativa a proporção de aspecto de acordo com a camada de detalhe, garantindo que a linha de segmentação na camada de detalhe não se sobreponha à linha de segmentação na camada adaptativa, evitando assim que o mesmo objeto seja segmentado duas vezes em camadas diferentes. Este processo garante que a camada de detalhe e a camada de adaptação forneçam diferentes informações semânticas e recursos visuais ao modelo.
mecanismo de compressão de escala
O MSAC pode introduzir alguma sobrecarga computacional adicional. Portanto, o autor propõe um mecanismo de compressão de escala (SCM) para situações onde há restrições de sobrecarga computacional. SCM é um mecanismo que não requer treinamento nem parâmetros para reduzir a sobrecarga computacional.
O autor seleciona os tokens visuais da camada adaptativa, os tokens visuais da camada global e os tokens de texto para focar nos marcadores visuais da camada de detalhe e, em seguida, gera o mapa de atenção e extrai os recursos visuais do K superior do mapa de atenção.
Um LLM bem treinado pode selecionar com eficiência os recursos visuais necessários com base no problema de entrada. Portanto, o SCM utiliza a primeira e a segunda camadas do LLM para selecionar tokens visuais sem gerar quaisquer parâmetros adicionais.
O modelo grande multimodal 2B mais forte do Mini-Monkey
Os autores testaram seu método na compreensão multimodal geral e na compreensão de documentos. Os resultados experimentais mostram que o Mini-Monkey alcançou o melhor desempenho na compreensão multimodal geral e na compreensão de documentos ao mesmo tempo com parâmetros 2B.
Tabela 1 Resultados sobre compreensão multimodal geral
Tabela 2 Resultados sobre compreensão de documentos
O autor compara o MSAC proposto com os métodos existentes. A primeira linha é um método de segmentação dinâmica, a segunda linha é um método de segmentação de resolução fixa, a terceira linha é uma segmentação sobreposta e a quarta linha é uma estratégia S2 multiescala.
A Tabela 3 compara com diferentes estratégias de segmentação
O MSAC pode ser aplicado a diferentes arquiteturas multimodais, estabilizando e melhorando
Ao mesmo tempo, o autor também aplicou o MSAC a outros métodos de comparação, e pode-se observar que há melhorias consistentes na compreensão multimodal geral e nas tarefas de compreensão de documentos.
A Tabela 4 aplica o MSAC a diferentes estruturas
Aliviar efetivamente as "sequelas" causadas pela segmentação para aumentar a resolução
Ao mesmo tempo, o autor também fornece algumas análises qualitativas, conforme mostrado na Figura 4. O autor faz perguntas sobre os locais segmentados, como “salas de aula” e “escola” que são segmentados.
Pode-se observar que o Mini-Monkey pode efetivamente aliviar as “sequelas” causadas pelo aumento da resolução da segmentação através do MSAC.
Figura 4 Resultados qualitativos: (a) imagem de entrada e Ground Truth; (b) resultados usando estratégia de segmentação sobreposta, OSC representa estratégia de segmentação sobreposta;
Comparação visual
O Mini-Monkey pode extrair com precisão o conteúdo do texto em livros antigos ambíguos, enquanto o MiniCPM-V 2.6 e o InternVL2-2B perderam muito texto:
(a) Imagem de entrada
(b)Mimi-Monkey: reconhece com precisão todo o texto
(c)MiniCPM-V 2.6: Muito texto é perdido.
(d)EstagiárioVL2-2B: Falta uma frase inteira de texto relativamente vago
(e)GPT-4o: Recuse-se a responder
Resumir
Os métodos que usam segmentação para expandir a resolução geralmente segmentam objetos e regiões conectadas, o que limita o reconhecimento de objetos e textos pequenos ou de formato irregular. Esse problema é especialmente óbvio no MLLM leve.
Neste estudo, o autor propõe o Mini-Monkey, um grande modelo multimodal 2B que atinge desempenho SOTA, visando resolver as limitações das estratégias de segmentação existentes para melhorar a capacidade do MLLM de processar imagens de alta resolução.
O Mini-Monkey adota uma estratégia de segmentação adaptativa multiescala (MSAC) para gerar representações multiescala, permitindo ao modelo selecionar objetos não segmentados em diferentes escalas, aliviando assim este problema.
Ao mesmo tempo, o autor também verificou a eficácia da estratégia de segmentação adaptativa multiescala em grandes modelos multimodais de outras arquiteturas, fornecendo uma solução simples e eficaz para aliviar as "sequelas" causadas pelo aumento da resolução do plano de segmentação. .
Referências:
[1] Chen Z, Wang W, Tian H, et al. Quão longe estamos do gpt-4v? fechando a lacuna para modelos multimodais comerciais com suítes de código aberto[J]. arXiv pré-impressão arXiv:2404.16821, 2024.
[2] Li J, Li D, Savarese S, et al. Blip-2: Bootstrapping pré-treinamento de linguagem-imagem com codificadores de imagem congelada e grandes modelos de linguagem[C]//Conferência internacional sobre aprendizado de máquina. PMLR, 2023: 19730-19742.
[3] Liu Y, Yang B, Liu Q, et al. Textmonkey: Um grande modelo multimodal sem ocr para entender o documento[J]. arXiv pré-impressão arXiv:2403.04473, 2024.
[4] Bai J, Bai S, Yang S, et al. Qwen-vl: Um modelo de visão-linguagem de fronteira com habilidades versáteis[J]. arXiv pré-impressão arXiv:2308.12966, 2023.
[5] Dubey A, Jauhri A, Pandey A, et al. O rebanho de modelos Llama 3[J]. arXiv pré-impressão arXiv:2407.21783, 2024.