nouvelles

L’IA peut aussi « rafraîchir TikTok » ! L'Université Tsinghua prend l'initiative de publier un nouveau modèle pour la compréhension entièrement modale de courtes vidéos ICML 2024 |

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Nouveau rapport de sagesse

Editeur : LRST Tellement endormi

[Introduction à la nouvelle sagesse] Les grands modèles de langage audio et vidéo ne parviennent souvent pas à faire jouer pleinement le rôle de la parole lors du traitement du contenu vidéo. Le modèle vidéo-SALMONN innove à travers trois parties : codage audio et vidéo et alignement temporel, Q-Former causal multi-résolution, fonction de perte de diversité et entraînement mixte de données audio et vidéo non appariées. Le modèle fonctionne non seulement bien dans les tâches à modalité unique, mais démontre également d'excellentes performances dans les tâches audiovisuelles conjointes, prouvant ainsi son exhaustivité et sa précision.

Si vous souhaitez comprendre de courtes vidéos, en plus du contenu visuel, les informations auditives telles que la voix et l'audio, telles que la musique vidéo, les effets sonores, le contenu vocal, etc., jouent également un rôle clé dans la compréhension des courtes vidéos.

Les grands modèles de langage audiovisuel (av-LLM) ont fait des progrès significatifs ces dernières années, mais la parole, en tant que principal vecteur du langage humain dans les vidéos, n'a pas encore été pleinement explorée dans ces modèles. La parole fournit non seulement de riches informations linguistiques et sémantiques, mais aide également à comprendre l'émotion et le sens sous-jacent de la vidéo.

Dans le même temps, les signaux vocaux contiennent également de riches informations paralinguistiques, telles que la hauteur et la hauteur, ainsi que divers attributs du locuteur (tels que l'âge, le sexe, l'accent et l'identité), qui sont des éléments indispensables à la compréhension vidéo.

Cependant, l’amélioration des capacités vocales de grands modèles de langage audiovisuels à usage général est extrêmement difficile, nécessitant une modélisation temporellement fine et des interactions complexes avec d’autres modalités à des échelles de temps grossières (par exemple, sujet vidéo) et fines (par exemple, mouvements des lèvres).

Récemment, l'article "video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models" publié dans ICML 2024 est devenu le premier modèle à grande échelle à intégrer tous les éléments audio et vidéo dans la vidéo (images naturelles, texte, parole, événements audio, musique) Modèle.


lien vidéo-article SALMONN : https://openreview.net/pdf?id=nYsh5GFIqX

Lien vers l'article SALMONN : https://arxiv.org/abs/2310.13289

Page Github : https://github.com/bytedance/SALMONN

A travers les exemples suivants, voyons comment video-SALMONN interprète le contenu vidéo à travers les informations voix-audio-vidéo !

Tout d’abord, voici un extrait classique de « Titanic »

Laissez video-SALMONN expliquer pourquoi cette vidéo est si romantique :


question:

Veuillez combiner la vidéo, l'audio et le dialogue des personnages pour expliquer pourquoi la vidéo est romantique.

répondre:

La vidéo montre une scène romantique entre un homme et une femme sur un bateau. L'homme tenait la femme dans ses bras et ils regardaient ensemble le coucher du soleil. La musique de fond est une chanson qui ajoute à l'atmosphère romantique. Les femmes disent "Je vole" et "Jack", ce qui montre qu'elles sont heureuses et profitent du moment. L'arrière-plan du bateau et du coucher de soleil crée un environnement magnifique et paisible qui renforce l'atmosphère romantique de la vidéo. Le langage corporel et les expressions faciales des hommes et des femmes transmettent également leur amour et leur affection les uns envers les autres. Dans l’ensemble, la vidéo capture parfaitement un moment romantique et intime entre les deux.

En plus de décrire les scènes qu'il a vues, vidéo-SALMONN a également intégré dans sa description la musique qu'il a entendue et les dialogues des personnages.

Ce qui est encore plus surprenant c'est que vidéo-SALMONN peut aussi savoir que c'est une femme qui a dit "Je vole".

De plus, vidéo-SALMONN peut également en déduire que le nom de l'homme est "Jack".

Nous savons tous que ce sont ces deux lignes de dialogue qui ont créé cette scène classique, et la vidéo-SALMONN vient de capturer l'essence de cette scène !

Voici un autre clip animé de « Zootopia » :

Jetez un œil à la façon dont video-SALMONN comprend les choses amusantes concernant les paresseux :


question:

Il y a un lapin, un renard et un paresseux dans la scène. Qu'a dit le paresseux ? Pourquoi les paresseux sont-ils intéressants ?

répondre:

Le paresseux dit « Nick » à la fin de la vidéo. Le paresseux est drôle car c'est un animal lent et apparaît très paresseux dans la vidéo, mettant beaucoup de temps à faire les choses. Cela contraste avec la nature active et énergique d’autres animaux, comme les lapins et les renards, ce qui fait ressortir le paresseux et ajoute à l’humour. De plus, le ralenti et les expressions faciales du paresseux dans la vidéo ajoutent à son effet comique.

Cet exemple montre la reconnaissance de l'orateur grâce à la combinaison de l'audio et de la vidéo. Avec seulement l'audition, nous ne savons pas que le paresseux parle. Seulement avec la vision, nous ne savons pas ce que le paresseux a dit. Seulement avec l'audio et le visuel. combinaison, pouvons-nous vraiment comprendre la vidéo !

Et ce mème très populaire :

Demandez à video-SALMONN pourquoi cette vidéo est drôle :


question:

Pouvez-vous expliquer pourquoi cette vidéo est drôle ?

répondre:

La vidéo est drôle car elle montre un homme faisant une drôle de tête puis disant « gentil ». Le contraste entre son expression sérieuse et le mot « sympa » crée de l'humour et un sentiment de surprise. De plus, les effets sonores d'un homme rotant et de bruits forts ajoutent à la valeur divertissante de la vidéo.

Jetons un autre regard sur un extrait documentaire du National Geographic pour voir comment la compréhension de la parole peut aider :

Laissez-moi vous demander quel genre de requin est dans la vidéo vidéo-SALMONN :


question:

Quel genre de requin est celui dans la vidéo ?

Réponse avec entrée audio :

Le requin dans la vidéo est un requin baleine

Réponse sans entrée audio :

Le requin dans la vidéo est un grand requin blanc

Rien qu'en regardant la vidéo, je ne sais vraiment pas de quel type de requin il s'agit sans aucune connaissance professionnelle, donc le modèle ne peut que deviner, ce qui est sujet aux hallucinations.


Mais après avoir écouté l'explication audio, video-SALMONN peut savoir avec précision que la vidéo concerne les requins baleines, il n'est donc pas nécessaire de deviner.

Il y a aussi un clip vidéo de la conversation entre les grands :

Non seulement il comprend le contenu de la conversation, video-SALMONN connecte également l'orateur et le contenu de la conversation :


Question:

D'après la vidéo et la voix, s'agissait-il d'un homme ou d'une femme qui s'est envolé pour Florence dans la vidéo ?

répondre:

C'était une femme qui s'est envolée pour Florence‍‍

Cet exemple démontre en outre la compréhension globale de video-SALMONN de la parole dans les vidéos.

Si vous saisissez directement le texte de la transcription du discours, il est impossible pour le modèle de savoir qui s'est envolé pour Florence, mais video-SALMONN peut combiner étroitement le contenu du discours et les informations sur le locuteur.

Vient ensuite la partie pratique : voyons comment vidéo-SALMONN parvient à une compréhension globale de la voix-audio-vidéo !

Technologie de base


vidéo-modèle SALMONN

Face au défi de la compréhension de la parole dans les grands modèles audio et vidéo, video-SALMONN dispose des trois éléments d'innovation suivants pour lui permettre de gérer divers éléments vidéo de base tels que des images naturelles, des séquences d'images visuelles, la parole, des événements audio et des éléments musicaux :

Partie 1 : Encodage audio et vidéo et alignement temporel

video-SALMONN utilise l'encodeur vocal Whisper et l'encodeur audio BEATs pour obtenir respectivement les séquences vectorielles de codage de la parole et de l'audio (50 vecteurs pour chaque seconde d'audio), et utilise également l'encodeur visuel InstructBLIP pour obtenir le visuel avec un taux d'échantillonnage vidéo de 2 FPS Séquence vectorielle d’encodage (2 images par seconde de vidéo, correspondant à 64 vecteurs).

Dans la dimension temporelle, les trois séquences sont alignées et épissées toutes les 0,5 secondes en fonction de l'image vidéo (synchronisation temporelle à granularité fine), car la séquence audio vocale est légèrement plus courte que la séquence visuelle, et un remplissage nul est ajouté au partie courte.

Partie 2 : Q-Former causal multi-résolution

La structure Q-Former multi-résolution causale (MRC) est le noyau innovant de vidéo-SALMONN, qui non seulement aligne spatialement les fonctionnalités d'entrée audiovisuelles synchronisées dans le temps avec des représentations textuelles à plusieurs échelles de temps différentes, satisfaisant ainsi les tâches qui reposent sur différentes vidéos. exigences des éléments, et afin de renforcer la causalité temporelle des événements entre des images vidéo consécutives, une structure causale d'auto-attention avec un masque causal spécial est introduite.


Structure MRC Q-Ancienne

Premièrement, MRC Q-Former divise la séquence d'entrée en fenêtres de différentes longueurs. Ensuite, dans chaque fenêtre, Q-Former est utilisé pour mapper la représentation multimodale épissée à l'espace de représentation sémantique. Enfin, les vecteurs générés par chaque fenêtre Q-Former dans chaque niveau de résolution sont concaténés pour former une séquence vectorielle dans l'espace sémantique.

En garantissant que le nombre de vecteurs de sortie et le rapport de longueur de fenêtre sont constants, MRC Q-Former garantit que les séquences de sortie à différents niveaux de résolution peuvent être directement épissées dans la dimension caractéristique. Les vecteurs épissés sont cartographiés via une couche linéaire. et utilisé comme entrée dans le grand modèle de langage.

Grâce à la formation, le Q-Former haute résolution peut capturer des informations fines, telles que le contenu de la parole et le lien entre la parole et les mouvements des lèvres. Le Q-Former basse résolution peut extraire efficacement les informations au niveau vidéo et le contenu global de la parole. la vidéo et une meilleure compréhension des relations entre plusieurs images.

(Remarque : la structure MRC Q-Former convient également à la multi-résolution dans l'espace. L'article propose pour la première fois la méthode de projecteur d'image, qui peut diviser l'image en séquences de sous-images de différentes précisions en entrée, améliorant ainsi considérablement la performance de la compréhension des images)

Partie 3 : Fonction de perte de diversité et formation sur des données audio et vidéo mixtes non appariées

De plus, afin d'éviter la domination d'une image spécifique dans la vidéo, video-SALMONN propose et utilise une nouvelle fonction de perte de diversité basée sur l'entropie croisée, qui encourage le modèle à explorer différentes parties de la séquence entière.

Dans le même temps, afin d'éviter la domination d'une seule modalité dans les données audio et vidéo appariées (par exemple, l'audio non vocal dans les vidéos ne fournit souvent qu'une très petite quantité d'informations auxiliaires et est facilement ignoré), video-SALMONN utilise une stratégie de mélange d'audio et de vidéo non appariés. La formation est effectuée de sorte que vidéo-SALMONN doive prêter attention aux informations de deux modalités en même temps.

Principaux résultats

L'article Vidéo-SALMONN propose le référentiel d'évaluation vocale-audiovisuelle (SAVE) pour les tests et montre d'excellentes performances dans les tâches vocales, audio non vocales, image et vidéo.

Les tâches de test de SAVE comprennent la reconnaissance vocale (ASR), la description audio (AAC), la description d'image (IC), la reconnaissance visuelle de texte (OCR), les questions et réponses d'images (VQA), les questions et réponses vidéo (Video QA) et d'autres tâches visuelles et auditives. modalités d'entrée unique. Les tâches comprennent également la reconnaissance vocale audiovisuelle (AVSR), la réponse aux questions audio et vidéo (AVQA), la détection de source sonore audio et vidéo (AVSSD) et la correspondance audio et vidéo (AVM), quatre entrées communes audio et vidéo. tâches de perception.

Parmi eux, AVQA est un ensemble de tests nouvellement proposé et AVM est une tâche nouvellement proposée, qui nécessite que le modèle détermine si l'audio et la vidéo correspondent.


Tout d'abord, video-SALMONN obtient des résultats identiques, voire meilleurs, dans les tâches de saisie monomodale que les modèles qui ne peuvent traiter que les saisies modales visuelles ou auditives.

Comparé à Video-LLaMA, un grand modèle capable également de traiter l'audio et la vidéo, video-SALMONN augmente non seulement sa capacité à comprendre la saisie vocale, mais dépasse également de loin ses performances dans diverses tâches monomodales.


Dans la tâche de compréhension de l'entrée conjointe audio et vidéo, le vidéo-SALMONN a montré des performances bien supérieures à celles des autres modèles.


Grâce à sa capacité à comprendre la parole, Video-SALMONN surpasse largement le modèle similaire Video-LLaMA en AVQA.

Plus important encore, vidéo-SALMONN démontre d'excellentes capacités d'émergence sans échantillon pour le raisonnement conjoint parole-audiovisuel sur AVM et AVSSD, deux tâches totalement non entraînées.


L’émergence de ces capacités de raisonnement conjointes nécessite que le modèle accorde simultanément une attention égale aux informations visuelles et auditives d’entrée et puisse comprendre les connexions complexes entre l’audio et le visuel.


Cependant, les modèles open source existants ne peuvent pas comprendre pleinement l'audio ou ne peuvent décrire chaque modalité d'entrée que séparément.

Conclusion

Le lancement de video-SALMONN contribuera à améliorer l'exhaustivité et la précision de la technologie de compréhension vidéo et offrira de nouvelles opportunités dans l'analyse du contenu vidéo, la reconnaissance des émotions, l'interaction multimodale et d'autres domaines.


Ce modèle revêt non seulement une grande importance pour la recherche universitaire, mais fournit également un solide support technique pour des applications pratiques.

Les références:

https://openreview.net/pdf?id=nYsh5GFIqX