Minhas informações de contato
Correspondênciaadmin@informação.bz
2024-08-19
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Depois de assistir a um filme de 2 horas em 4 segundos, as novas conquistas da equipe Alibaba foram oficialmente reveladas——
sair da camaModelo grande multimodal universal mPLUG-Owl3, usado especialmente para entender várias fotos e vídeos longos.
Especificamente, tomando LLaVA-Next-Interleave como referência, mPLUG-Owl3A latência do primeiro token diminuiu 6 vezes, e o número de imagens que podem ser modeladas por um único A100 aumentou 8 vezes, atingindo400 fotos, de acordo com o teste real, você pode assistir a um filme de 2 horas em 4 segundos.
Em outras palavras, a eficiência do raciocínio do modelo foi bastante melhorada.
eSem sacrificar a precisão do modelo。
mPLUG-Owl3 também alcançou muitos benchmarks em vários cenários envolvidos em grandes modelos multimodais, incluindo campos de imagem única, multiimagem e vídeo.SOTA。
O autor do artigo é deEquipe Alibaba mPLUG, eles estiveram profundamente envolvidos em grandes bases de modelos multimodais e, antes disso, também propuseram:
Vamos dar uma olhada na tecnologia preta que esta versão do mPLUG-Owl3 traz.
Jogabilidade desbloqueada
A equipe demonstrou vários usos comuns do mPLUG-Owl3.
Aprimoramento de recuperação multimodal
De modo geral, é prática comum complementar o conhecimento que o modelo não aprendeu por meio do sistema de recuperação. Isto exige que o modelo compreenda com precisão o conhecimento multimodal recebido e o utilize para responder a perguntas.
No exemplo a seguir, mPLUG-Owl3 pode não apenas responder corretamente com base no conhecimento recuperado, mas também fornecerEm que conhecimento se baseia o julgamento?e fornecer base de julgamento detalhada. Isso é muito amigável para o pessoal de P&D downstream para desenvolvimento e depuração.
Parte de pesquisa: Abaixo estão vários conhecimentos multimodais recuperados para você tomar uma decisão.
Faça uma pergunta: Com base em suas observações das quatro fotos de cachorro acima, você consegue classificar o cachorro da foto 5? Dê razões.
responder: Com base nas observações das quatro fotos do cachorro, o cachorro da foto 5 pode ser classificado como Terrier Irlandês. O cachorro da foto 1 é descrito como um Irish Terrier e o cachorro da foto 5 possui características físicas semelhantes às do cachorro da foto 1…
Raciocínio multigráfico
Situações como essa ocorrem frequentemente na vida——
Muitos usuários não conversam apenas em torno de uma imagem, mas o usuário pode ter vários materiais, e o modelo precisa ser capaz de entender corretamente a relação entre o conteúdo dos diferentes materiais.
No exemplo abaixo, mPLUG-Owl3 pode ativar o conhecimento de senso comum do modelo de linguagem por meio do que vê em duas imagens e raciocinar em torno das duas imagens.
Faça uma pergunta: O animal da esquerda pode sobreviver no ambiente da direita? Respostas e explicações são necessárias.
responder(A resposta correta está marcada em verde): A ideia geral é que ele não pode sobreviver porque o ambiente é muito frio.
Em outro exemplo, mPLUG-Owl3 pode não apenas detectar a diferença de estilo entre duas imagens, mas também perceber que embora os personagens nas duas imagens tenham estilos diferentes, eles são na verdade o mesmo personagem.
pergunta da primeira vez: Quais estilos de arte são representados na imagem e como eles são diferentes?
responder: A primeira foto está no estilo pixel, a segunda foto está no estilo cartoon... (dê os motivos)
segunda pergunta: Quem aparece nas duas pinturas? Quais são suas características?
responder: Em ambas as pinturas aparece um homem com chapéu de cowboy, retratado em dois estilos diferentes.
Compreensão de vídeo longo
Assistir a vídeos muito longos é uma tarefa que a maioria dos modelos atuais não consegue realizar de ponta a ponta. Se for baseado no framework Agent, é difícil garantir a velocidade de resposta.
mPLUG-Owl3 pode assistir a um filme de 2 horas eComece a responder às perguntas dos usuários em 4 segundos。
Quer o usuário esteja fazendo perguntas sobre clipes muito detalhados no início, meio e final do filme, o mPLUG-Owl3 pode respondê-las com fluência.
Como você fez isso?
Ao contrário dos modelos tradicionais, mPLUG-Owl3Não há necessidade de unir antecipadamente a sequência visual na sequência de texto do modelo de linguagem。
Em outras palavras, não importa o que seja inserido (dezenas de fotos ou horas de vídeo), ele não ocupa a capacidade de sequência do modelo de linguagem, o que evita a enorme sobrecarga computacional e uso de memória de vídeo causada por longas sequências visuais.
Alguém pode perguntar: como a informação visual é integrada ao modelo de linguagem?
Para conseguir isso, a equipe propôs umMódulo leve de hiperatenção, que pode estender um Transformer Block existente que só pode modelar texto em um novo módulo que pode fazer interação de recursos gráficos e de texto e modelagem de texto.
Ao se espalhar esparsamente por todo o modelo de linguagem4Transformer Block, mPLUG-Owl3 pode atualizar LLM para LLM multimodal a um custo muito pequeno.
Depois que os recursos visuais são extraídos do codificador visual, as dimensões são alinhadas às dimensões do modelo de linguagem por meio de um mapeamento linear simples.
Posteriormente, os recursos visuais interagirão apenas com o texto nessas quatro camadas do Transformer Block. Como o token visual não sofreu nenhuma compactação, informações refinadas podem ser preservadas.
Dê uma olhada abaixoComo é projetada a Hiper Atenção?。
Para permitir que o modelo de linguagem perceba características visuais, a Hiper Atenção introduz umAtenção cruzadaNa operação, os recursos visuais são utilizados como Chave e Valor, e o estado oculto do modelo de linguagem é utilizado como Consulta para extrair os recursos visuais.
Nos últimos anos, outras pesquisas consideraram o uso de Atenção Cruzada para fusão multimodal, como Flamingo e IDEFICS, mas esses trabalhos não conseguiram alcançar um bom desempenho.
Em um relatório técnico sobre o mPLUG-Owl3, a equipeComparando o design do Flamingo, para explicar melhor a Hiper AtençãoPrincipais pontos técnicos:
Em primeiro lugar, a Hiper Atenção não adota o design da cascata de Atenção Cruzada e Autoatenção, mas está incorporada no bloco de Autoatenção.
Sua vantagem é que reduz bastante o número de novos parâmetros adicionais introduzidos, tornando o modelo mais fácil de treinar, e a eficiência do treinamento e da inferência pode ser melhorada ainda mais.
Em segundo lugar, seleção de hiperatençãoLayerNorm para modelos de linguagem compartilhada, porque a saída de distribuição do LayerNorm é a distribuição estável que foi treinada pela camada de Atenção. O compartilhamento desta camada é crucial para o aprendizado estável da recém-introduzida Atenção Cruzada.
Na verdade, a Hiper Atenção adota uma estratégia paralela de Atenção Cruzada e Autoatenção, usando uma Consulta compartilhada para interagir com recursos visuais e integrando os dois recursos por meio de um Portal Adaptativo.
Isso permite que o Query selecione seletivamente recursos visuais relevantes com base em sua própria semântica.
Descoberta de equipe, imagemposição relativa ao texto no contexto originalÉ muito importante que o modelo compreenda melhor a entrada multimodal.
Para modelar esta propriedade, eles introduziram uma codificação de posição de rotação intercalada multimodal MI-Rope para modelar informações de posição para a chave visual.
Especificamente, eles pré-gravaram as informações de posição de cada imagem no texto original e usaram essa posição para calcular a incorporação correspondente da corda, e cada pedaço da mesma imagem compartilharia essa incorporação.
Além disso, eles também estão fazendo atenção cruzadaMáscara de atenção é introduzida, de modo que o texto antes da imagem no contexto original não possa ver os recursos correspondentes às imagens subsequentes.
Em resumo, esses pontos de design de Hiper Atenção trouxeram melhorias adicionais de eficiência ao mPLUG-Owl3 e garantiram que ele ainda pudesse ter capacidades multimodais de primeira classe.
Resultados experimentais
Ao conduzir experimentos em uma ampla gama de conjuntos de dados, mPLUG-Owl3A maioria dos benchmarks multimodais de imagem únicaTodos podem alcançar resultados SOTA, e muitos testes podem até superar modelos com tamanhos de modelo maiores.
ao mesmo tempo,Na avaliação multi-imagem, o mPLUG-Owl3 também superou o LLAVA-Next-Interleave e o Mantis, que são especialmente otimizados para cenas com várias imagens.
Além disso, no LongVideoBench (52,1 pontos), um modelo de avaliação especializadoCompreendendo vídeos longosSupera os modelos existentes na lista.
A equipe de P&D também propôs um interessanteMétodo de avaliação de sequência visual longa。
Como todos sabemos, em cenários reais de interação humano-computador, nem todas as imagens servem aos problemas do usuário. O contexto histórico será preenchido com conteúdo multimodal que é irrelevante para o problema.
Para avaliar o desempenho do modelo em entradas de sequência visual longaCapacidade anti-interferência, eles construíram um baseado no MMBench-devNovo conjunto de dados de avaliação。
Ao introduzir imagens irrelevantes para cada amostra de avaliação do ciclo MMBench e interromper a ordem das imagens, são feitas perguntas sobre as imagens originais para ver se o modelo pode responder correta e estável. (Para a mesma pergunta, serão construídas quatro amostras com diferentes ordens de opções e imagens de interferência, e apenas uma resposta correta será registrada se todas forem respondidas corretamente.)
O experimento é dividido em vários níveis de acordo com o número de imagens de entrada.
Pode-se observar que modelos sem treinamento multigráfico, como Qwen-VL e mPLUG-Owl2, falharam rapidamente.
LLAVA-Next-Interleave e Mantis, que foram treinados com múltiplas imagens, podem manter uma curva de atenuação semelhante à do mPLUG-Owl3 no início, mas à medida que o número de imagens atinge50Nessa magnitude, esses modelos não conseguem mais responder corretamente.
E mPLUG-Owl3 persistiu400 fotosAinda pode manter40% de precisão。
No entanto, há uma coisa a dizer: embora o mPLUG-Owl3 supere os modelos existentes, a sua precisão está longe de atingir um nível excelente. Só se pode dizer que este método de avaliação revela a capacidade anti-interferência de todos os modelos em longas sequências necessárias. a ser melhorado ainda mais no futuro.
Para mais detalhes, consulte o artigo e o código.