notícias

A IA também pode “atualizar o TikTok”! Universidade de Tsinghua assume a liderança no lançamento de um novo modelo para compreensão completa de vídeos curtos ICML 2024 |

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Novo Relatório de Sabedoria

Editor: LRST Tão sonolento

[Introdução à Nova Sabedoria] Os modelos de linguagem extensa de áudio e vídeo muitas vezes não conseguem desempenhar plenamente o papel da fala no processamento de conteúdo de vídeo. O modelo video-SALMONN inova através de três partes: codificação de áudio e vídeo e alinhamento temporal, Q-Former causal multi-resolução, função de perda de diversidade e treinamento misto de dados de áudio e vídeo não pareados. O modelo não só tem um bom desempenho em tarefas de modalidade única, mas também demonstra excelente desempenho em tarefas audiovisuais conjuntas, comprovando a sua abrangência e precisão.

Se você deseja compreender vídeos curtos, além do conteúdo visual, informações auditivas como voz e áudio, como música de vídeo, efeitos sonoros, conteúdo de voz, etc., também desempenham um papel fundamental na compreensão de vídeos curtos.

Os modelos audiovisuais de grandes línguas (av-LLMs) fizeram progressos significativos nos últimos anos, mas a fala, como principal portador da linguagem humana em vídeos, ainda não foi totalmente explorada nestes modelos. A fala não apenas fornece informações linguísticas e semânticas ricas, mas também ajuda a compreender a emoção e o significado subjacente do vídeo.

Ao mesmo tempo, os sinais de fala também contêm informações paralinguísticas ricas, como altura e altura, bem como diversos atributos do falante (como idade, sexo, sotaque e identidade), que são elementos indispensáveis ​​na compreensão do vídeo.

No entanto, melhorar as capacidades de fala de modelos audiovisuais de grande linguagem de uso geral é extremamente desafiador, exigindo modelagem temporalmente precisa e interações complexas com outras modalidades em escalas de tempo grosseiras (por exemplo, assunto de vídeo) e finas (por exemplo, movimentos labiais).

Recentemente, o artigo "video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models" publicado no ICML 2024 tornou-se o primeiro modelo em grande escala a integrar todos os elementos de áudio e vídeo em vídeo (imagens naturais, texto, fala, eventos de áudio, música) Modelo.


link do artigo vídeo-SALMONN: https://openreview.net/pdf?id=nYsh5GFIqX

Link do artigo SALMONN: https://arxiv.org/abs/2310.13289

Página do Github: https://github.com/bytedance/SALMONN

Através dos exemplos a seguir, vamos dar uma olhada em como o video-SALMONN interpreta o conteúdo do vídeo por meio de informações de voz, áudio e vídeo!

Primeiro, aqui está um clipe clássico de “Titanic”

Deixe o video-SALMONN falar sobre por que este vídeo é tão romântico:


pergunta:

Combine o vídeo, o áudio e o diálogo dos personagens para explicar por que o vídeo é romântico

responder:

O vídeo mostra uma cena romântica entre um homem e uma mulher em um barco. O homem segurou a mulher nos braços e eles assistiram juntos ao pôr do sol. A música de fundo é uma música que contribui para a atmosfera romântica. As mulheres dizem “Estou voando” e “Jack”, o que mostra que estão felizes e aproveitando o momento. O fundo do barco e do pôr do sol cria um ambiente lindo e tranquilo que realça o sentimento romântico do vídeo. A linguagem corporal e as expressões faciais de homens e mulheres também transmitem amor e carinho um pelo outro. No geral, o vídeo captura perfeitamente um momento romântico e íntimo entre os dois.

Além de descrever as cenas que viu, o vídeo-SALMONN também integrou em sua descrição a música que ouviu e os diálogos dos personagens.

O que é ainda mais surpreendente é que o video-SALMONN também pode saber que foi uma mulher que disse “Estou voando”.

Além disso, o video-SALMONN também pode deduzir que o nome do homem é “Jack”.

Todos nós sabemos que foram essas duas linhas de diálogo que criaram esta cena clássica, e o vídeo-SALMONN capturou a essência desta cena!

Aqui está outro clipe animado de “Zootopia”:

Dê uma olhada em como o video-SALMONN entende as coisas engraçadas sobre as preguiças:


pergunta:

Há um coelho, uma raposa e uma preguiça na cena. O que a preguiça disse? Por que as preguiças são interessantes?

responder:

A preguiça diz “Nick” no final do vídeo. A preguiça é engraçada porque é um animal lento e aparece muito preguiçoso no vídeo, demorando muito para fazer as coisas. Isso contrasta com a natureza ativa e energética de outros animais, como coelhos e raposas, destacando a preguiça e aumentando o humor. Além disso, a câmera lenta e as expressões faciais da preguiça no vídeo aumentam o efeito cômico.

Este exemplo mostra o reconhecimento do locutor através da combinação de áudio e vídeo. Somente com audição, não sabemos se a preguiça está falando. Somente com visão, não sabemos o que a preguiça disse. combinação podemos realmente entender o vídeo!

E este meme muito popular:

Pergunte ao video-SALMONN por que este vídeo é engraçado:


pergunta:

Você pode explicar por que esse vídeo é engraçado?

responder:

O vídeo é engraçado porque mostra um homem fazendo uma careta e depois dizendo “legal”. O contraste entre sua expressão séria e a palavra “legal” cria humor e uma sensação de surpresa. Além disso, os efeitos sonoros de um homem arrotando e estalos altos aumentam o valor de entretenimento do vídeo.

Vamos dar outra olhada em um documentário da National Geographic para ver como a compreensão da fala pode ajudar:

Deixe-me perguntar que tipo de tubarão está no vídeo-SALMONN:


pergunta:

Que tipo de tubarão é aquele no vídeo?

Responder com entrada de áudio:

O tubarão do vídeo é um tubarão-baleia

Responder sem entrada de áudio:

O tubarão no vídeo é um grande tubarão branco

Só de assistir ao vídeo, realmente não sei que tipo de tubarão é sem nenhum conhecimento profissional, então a modelo só pode adivinhar, que é propenso a alucinações.


Mas depois de ouvir a explicação em áudio, o video-SALMONN pode saber com precisão que o vídeo é sobre tubarões-baleia, então não há necessidade de adivinhar.

Há também um videoclipe da conversa entre os marmanjos:

Além de compreender o conteúdo da conversa, o video-SALMONN também conecta o orador e o conteúdo da conversa:


Pergunta:

Com base no vídeo e na voz, no vídeo foi um homem ou uma mulher que voou para Florença?

responder:

Foi uma mulher que voou para Florença‍‍

Este exemplo demonstra ainda mais a compreensão abrangente da fala em vídeos pelo video-SALMONN.

Se você inserir diretamente o texto da transcrição do discurso, será impossível para o modelo saber quem voou para Florença, mas o video-SALMONN pode combinar de perto o conteúdo do discurso e as informações do orador.

A seguir vem a parte prática: vamos dar uma olhada em como o video-SALMONN alcança uma compreensão abrangente de voz-áudio-vídeo!

Tecnologia essencial


modelo vídeo-SALMONN

Enfrentando o desafio da compreensão da fala em grandes modelos de áudio e vídeo, o video-SALMONN possui as seguintes três partes de inovação para permitir que ele lide com vários elementos básicos de vídeo, como imagens naturais, sequências de quadros visuais, fala, eventos de áudio e elementos musicais:

Parte 1: Codificação de áudio e vídeo e alinhamento de tempo

video-SALMONN usa o codificador de fala Whisper e o codificador de áudio BEATs para obter as sequências vetoriais de codificação de fala e áudio respectivamente (50 vetores para cada segundo de áudio), e também usa o codificador visual InstructBLIP para obter o visual com uma taxa de amostragem de vídeo de 2 FPS de sequência vetorial de codificação (2 quadros por 1 segundo de vídeo, correspondendo a 64 vetores).

Na dimensão de tempo, as três sequências são alinhadas e unidas a cada 0,5 segundos com base no quadro de vídeo (sincronização temporal refinada), porque a sequência de áudio da fala é ligeiramente mais curta que a sequência visual e o preenchimento zero é adicionado ao parte curta.

Parte 2: Q-Former causal multi-resolução

A estrutura Q-Former causal multi-resolução (MRC) é o núcleo inovador do vídeo-SALMONN, que não apenas alinha espacialmente recursos de entrada audiovisual sincronizados no tempo com representações textuais em múltiplas escalas de tempo diferentes, satisfazendo tarefas que dependem de diferentes vídeos requisitos de elementos, e para fortalecer a causalidade temporal de eventos entre quadros de vídeo consecutivos, é introduzida uma estrutura causal de autoatenção com uma máscara causal especial.


Estrutura anterior do MRC Q

Primeiro, o MRC Q-Former divide a sequência de entrada em janelas de diferentes comprimentos. Então, dentro de cada janela, o Q-Former é usado para mapear a representação multimodal emendada para o espaço de representação semântica. Finalmente, os vetores gerados por cada janela Q-Former em cada nível de resolução são concatenados para formar uma sequência vetorial no espaço semântico.

Ao garantir que o número de vetores de saída e a proporção do comprimento da janela sejam constantes, o MRC Q-Former garante que as sequências de saída em diferentes níveis de resolução possam ser emendadas diretamente na dimensão do recurso. Os vetores emendados são mapeados por meio de uma camada linear. e usado como entrada para o modelo de linguagem grande.

Através do treinamento, o Q-Former de alta resolução pode capturar informações refinadas, como o conteúdo da fala e a conexão entre a fala e os movimentos dos lábios. O Q-Former de baixa resolução pode extrair com eficácia informações em nível de vídeo e o conteúdo geral do. o vídeo e Melhor compreensão das relações entre vários quadros.

(Nota: A estrutura MRC Q-Former também é adequada para multi-resolução no espaço. O artigo propõe pela primeira vez o método de holofote de imagem, que pode dividir a imagem em sequências de subimagem de diferentes precisões como entrada, melhorando muito o desempenho da compreensão da imagem)

Parte 3: Função de perda de diversidade e treinamento em dados mistos de áudio e vídeo não pareados

Além disso, para evitar a dominância de um quadro específico no vídeo, o video-SALMONN propõe e utiliza uma nova função de perda de diversidade baseada na entropia cruzada, que incentiva o modelo a explorar diferentes partes de toda a sequência.

Ao mesmo tempo, a fim de evitar o domínio de uma única modalidade em dados de áudio e vídeo emparelhados (por exemplo, o áudio não falado em vídeos geralmente fornece apenas uma quantidade muito pequena de informações auxiliares e é facilmente ignorado), o vídeo-SALMONN utiliza uma estratégia de mixagem de áudio e vídeo não pareados O treinamento é realizado para que o vídeo-SALMONN tenha que prestar atenção às informações de duas modalidades ao mesmo tempo.

Resultados principais

O artigo Video-SALMONN propõe o benchmark de avaliação de fala-audiovisual (SAVE) para testes e mostra excelente desempenho em tarefas de fala, áudio não falado, imagem e vídeo.

As tarefas de teste do SAVE incluem reconhecimento de fala (ASR), descrição de áudio (AAC), descrição de imagem (IC), reconhecimento de texto visual (OCR), pergunta e resposta de imagem (VQA), pergunta e resposta de vídeo (QA de vídeo) e outros recursos visuais e auditivos modalidades de entrada única As tarefas também incluem reconhecimento de fala audiovisual (AVSR), resposta a perguntas de áudio e vídeo (AVQA), detecção de fonte de som de áudio e vídeo (AVSSD) e correspondência de áudio e vídeo (AVM), quatro entradas comuns de áudio e vídeo. tarefas de percepção.

Entre eles, AVQA é um conjunto de testes proposto recentemente e AVM é uma tarefa proposta recentemente, que exige que o modelo determine se o áudio e o vídeo correspondem.


Em primeiro lugar, o video-SALMONN alcança resultados iguais ou até melhores em tarefas de entrada modal única do que modelos que só podem processar entrada modal visual ou auditiva.

Comparado com o Video-LLaMA, um modelo grande que também pode processar áudio e vídeo, o video-SALMONN não apenas aumenta sua capacidade de compreender a entrada de fala, mas também excede em muito seu desempenho em várias tarefas monomodais.


Na tarefa de compreensão da entrada conjunta de áudio e vídeo, o video-SALMONN mostrou desempenho muito superior a outros modelos.


Graças à sua capacidade de compreender a fala, o video-SALMONN supera significativamente o grande modelo Video-LLaMA semelhante no AVQA.

Mais importante ainda, o video-SALMONN demonstra excelentes capacidades de emergência de amostra zero para raciocínio conjunto de fala-audiovisual em AVM e AVSSD, duas tarefas completamente não treinadas.


O surgimento dessas capacidades de raciocínio conjunto exige que o modelo preste atenção igual às informações visuais e auditivas de entrada simultaneamente e possa compreender as conexões complexas entre áudio e visual.


No entanto, os modelos de código aberto existentes não conseguem compreender completamente o áudio ou apenas podem descrever cada modalidade de entrada separadamente.

Conclusão

O lançamento do video-SALMONN ajudará a melhorar a abrangência e a precisão da tecnologia de compreensão de vídeo e trará novas oportunidades para análise de conteúdo de vídeo, reconhecimento de emoções, interação multimodal e outros campos.


Este modelo não é apenas de grande importância na investigação académica, mas também fornece um forte suporte técnico para aplicações práticas.

Referências:

https://openreview.net/pdf?id=nYsh5GFIqX