notizia

L'intelligenza artificiale può anche "aggiornare TikTok"! L'Università di Tsinghua è in prima linea nel rilasciare un nuovo modello per la comprensione modale di brevi video ICML 2024

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Nuovo rapporto sulla saggezza

Redattore: LRST Che sonno

[Introduzione alla Nuova Saggezza] I modelli linguistici di grandi dimensioni audio e video spesso non riescono a sfruttare appieno il ruolo del parlato durante l'elaborazione dei contenuti video. Il modello video-SALMONN innova attraverso tre parti: codifica audio e video e allineamento temporale, Q-Former causale multi-risoluzione, funzione di perdita di diversità e addestramento misto di dati audio e video non accoppiati. Il modello non solo funziona bene nei compiti in modalità singola, ma dimostra anche prestazioni eccellenti in compiti audiovisivi congiunti, dimostrando la sua completezza e accuratezza.

Se vuoi comprendere video brevi, oltre al contenuto visivo, anche le informazioni uditive come voce e audio, come musica video, effetti sonori, contenuto vocale, ecc., svolgono un ruolo chiave nella comprensione dei video brevi.

I modelli audiovisivi di grande linguaggio (av-LLM) hanno compiuto progressi significativi negli ultimi anni, ma il parlato, in quanto principale vettore del linguaggio umano nei video, non è stato ancora completamente esplorato in questi modelli. Il parlato non solo fornisce ricche informazioni linguistiche e semantiche, ma aiuta anche a comprendere l'emozione e il significato sottostante nel video.

Allo stesso tempo, i segnali vocali contengono anche ricche informazioni paralinguistiche, come tono e tono, nonché diversi attributi del parlante (come età, sesso, accento e identità), che sono elementi indispensabili nella comprensione del video.

Tuttavia, migliorare le capacità vocali dei modelli linguistici audiovisivi di grandi dimensioni è estremamente impegnativo, poiché richiede una modellazione temporalmente fine e interazioni complesse con altre modalità su scale temporali sia grossolane (ad esempio, soggetto video) che fini (ad esempio, movimenti delle labbra).

Recentemente, il documento "video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models" pubblicato nell'ICML 2024 è diventato il primo modello su larga scala a integrare tutti gli elementi audio e video nel video (immagini naturali, testo, parlato, eventi audio, musica) Modello.


Link al documento video-SALMONN: https://openreview.net/pdf?id=nYsh5GFIqX

Link al documento SALMONN: https://arxiv.org/abs/2310.13289

Pagina Github: https://github.com/bytedance/SALMONN

Attraverso i seguenti esempi, diamo un’occhiata a come video-SALMONN interpreta i contenuti video attraverso informazioni voce-audio-video!

Innanzitutto, ecco una clip classica di “Titanic”

Lascia che video-SALMONN parli del perché questo video è così romantico:


domanda:

Combina il video, l'audio e il dialogo dei personaggi per spiegare perché il video è romantico

risposta:

Il video mostra una scena romantica tra un uomo e una donna su una barca. L'uomo tenne la donna tra le braccia e guardarono insieme il tramonto. La musica di sottofondo è una canzone che aggiunge atmosfera romantica. Le donne dicono "Sto volando" e "Jack", il che dimostra che sono felici e si godono il momento. Lo sfondo della barca e del tramonto crea un ambiente bellissimo e tranquillo che esalta l'atmosfera romantica del video. Anche il linguaggio del corpo e le espressioni facciali di uomini e donne trasmettono il loro amore e affetto reciproco. Nel complesso, il video cattura perfettamente un momento romantico e intimo tra i due.

Oltre a descrivere le scene che ha visto, il video-SALMONN ha integrato nella sua descrizione anche la musica che ha ascoltato e i dialoghi dei personaggi.

Ciò che è ancora più sorprendente è che il video-SALMONN può anche sapere che è stata una donna a dire "Sto volando".

Inoltre, il video-SALMONN può anche dedurre che il nome dell'uomo è "Jack".

Sappiamo tutti che sono state queste due linee di dialogo a creare questa scena classica, e il video-SALMONN ha catturato l'essenza di questa scena!

Ecco un’altra clip animata da “Zootropolis”:

Dai un'occhiata a come video-SALMONN capisce le cose divertenti sui bradipi:


domanda:

Nella scena ci sono un coniglio, una volpe e un bradipo. Cosa ha detto il bradipo? Perché i bradipi sono interessanti?

risposta:

Il bradipo dice "Nick" alla fine del video. Il bradipo è divertente perché è un animale lento e nel video appare molto pigro e impiega molto tempo per fare le cose. Ciò contrasta con la natura attiva ed energica di altri animali, come conigli e volpi, facendo risaltare il bradipo e aggiungendo umorismo. Inoltre, il rallentatore e le espressioni facciali del bradipo nel video si aggiungono al suo effetto comico.

Questo esempio mostra il riconoscimento di chi parla attraverso la combinazione di audio e video. Solo con l'udito non sappiamo che il bradipo sta parlando, solo con la vista non sappiamo cosa ha detto il bradipo combinazione possiamo veramente capire il video!

E questo meme molto popolare:

Chiedi a video-SALMONN perché questo video è divertente:


domanda:

Potete spiegare perché questo video è divertente?

risposta:

Il video è divertente perché mostra un uomo che fa una faccia buffa e poi dice "carino". Il contrasto tra la sua espressione seria e la parola "carino" crea umorismo e senso di sorpresa. Inoltre, gli effetti sonori di un uomo che rutta e di forti schiocchi aumentano il valore di intrattenimento del video.

Diamo un'altra occhiata a un clip documentario del National Geographic per vedere come la comprensione del parlato può aiutare:

Lascia che ti chieda che tipo di squalo è nel video-SALMONN video:


domanda:

Che tipo di squalo è quello nel video?

Rispondi con l'ingresso audio:

Lo squalo nel video è uno squalo balena

Risposta senza ingresso audio:

Lo squalo nel video è un grande squalo bianco

Solo guardando il video, non so davvero che tipo di squalo sia senza alcuna conoscenza professionale, quindi il modello può solo indovinare, che è incline alle allucinazioni.


Ma dopo aver ascoltato la spiegazione audio, il video-SALMONN può sapere con precisione che il video riguarda gli squali balena, quindi non è necessario indovinare.

C'è anche un videoclip della conversazione tra i grandi:

Non solo comprende il contenuto della conversazione, video-SALMONN collega anche l'oratore e il contenuto della conversazione:


Domanda:

In base al video e alla voce, nel video era un uomo o una donna quello che volava a Firenze?

risposta:

Era una donna che volò a Firenze‍‍

Questo esempio dimostra ulteriormente la comprensione completa del parlato nei video da parte di video-SALMONN.

Se inserisci direttamente il testo della trascrizione del discorso, è impossibile per il modello sapere chi è volato a Firenze, ma video-SALMONN può combinare strettamente il contenuto del discorso e le informazioni sul relatore.

Poi c’è la parte pratica: diamo un’occhiata a come video-SALMONN raggiunge una comprensione completa di voce-audio-video!

Tecnologia di base


video-modello SALMONN

Affrontando la sfida della comprensione del parlato in modelli audio e video di grandi dimensioni, video-SALMONN presenta le seguenti tre parti innovative che gli consentono di gestire vari elementi video di base come immagini naturali, sequenze di fotogrammi visivi, parlato, eventi audio ed elementi musicali:

Parte 1: Codifica audio e video e allineamento temporale

video-SALMONN utilizza il codificatore vocale Whisper e il codificatore audio BEATs per ottenere rispettivamente le sequenze vettoriali di codifica del parlato e dell'audio (50 vettori per ogni secondo di audio) e utilizza anche il codificatore visivo InstructBLIP per ottenere l'immagine con una frequenza di campionamento video di 2 FPS Sequenza vettoriale di codifica (2 fotogrammi per 1 secondo di video, corrispondenti a 64 vettori).

Nella dimensione temporale, le tre sequenze vengono allineate e unite ogni 0,5 secondi in base al fotogramma video (sincronizzazione temporale a grana fine), poiché la sequenza audio del parlato è leggermente più breve della sequenza visiva e non viene aggiunto alcun riempimento alla sequenza parte breve.

Parte 2: Q-Former causale multi-risoluzione

La struttura Q-Former causale multi-risoluzione (MRC) è il nucleo innovativo di video-SALMONN, che non solo allinea spazialmente le caratteristiche di input audiovisivo sincronizzato nel tempo con rappresentazioni testuali su più scale temporali diverse, soddisfacendo compiti che si basano su video diversi. requisiti degli elementi e al fine di rafforzare la causalità temporale degli eventi tra fotogrammi video consecutivi, viene introdotta una struttura causale di autoattenzione con una speciale maschera causale.


Struttura MRC Q-Former

Innanzitutto, MRC Q-Former divide la sequenza di input in finestre di diversa lunghezza. Quindi, all'interno di ciascuna finestra, Q-Former viene utilizzato per mappare la rappresentazione multimodale spliced ​​allo spazio di rappresentazione semantica. Infine, i vettori in uscita da ciascuna finestra Q-Former in ciascun livello di risoluzione vengono concatenati per formare una sequenza vettoriale nello spazio semantico.

Garantendo che il numero di vettori di output e il rapporto di lunghezza della finestra siano costanti, MRC Q-Former garantisce che le sequenze di output a diversi livelli di risoluzione possano essere giuntate direttamente nella dimensione della caratteristica. I vettori giuntati vengono mappati attraverso uno strato lineare e utilizzato come input per il modello linguistico di grandi dimensioni.

Attraverso l'addestramento, il Q-Former ad alta risoluzione può acquisire informazioni a grana fine, come il contenuto del parlato e la connessione tra il parlato e i movimenti delle labbra. Il Q-Former a bassa risoluzione può estrarre in modo efficace informazioni a livello video e il contenuto complessivo il video e una migliore comprensione delle relazioni tra più fotogrammi.

(Nota: la struttura MRC Q-Former è adatta anche per la multi-risoluzione nello spazio. L'articolo propone per la prima volta il metodo image Spotlight, che può dividere l'immagine in sequenze di sotto-immagini di diversa precisione come input, migliorando così notevolmente le prestazioni di comprensione delle immagini)

Parte 3: Funzione di perdita di diversità e formazione su dati audio e video misti non accoppiati

Inoltre, per evitare la dominanza di un fotogramma specifico nel video, video-SALMONN propone e utilizza una nuova funzione di perdita di diversità basata sull'entropia incrociata, che incoraggia il modello a esplorare diverse parti dell'intera sequenza.

Allo stesso tempo, per evitare la predominanza di una singola modalità nei dati audio e video accoppiati (ad esempio, l'audio non vocale nei video spesso fornisce solo una quantità molto piccola di informazioni ausiliarie e viene facilmente ignorato), video-SALMONN utilizza una strategia di mixaggio di audio e video non accoppiati. La formazione viene eseguita in modo che video-SALMONN debba prestare attenzione alle informazioni di due modalità contemporaneamente.

Risultati principali

Il documento Video-SALMONN propone il benchmark di valutazione vocale-audiovisiva (SAVE) per i test e mostra prestazioni eccellenti nelle attività audio, di immagini e video vocali e non vocali.

Le attività di test di SAVE includono il riconoscimento vocale (ASR), la descrizione audio (AAC), la descrizione dell'immagine (IC), il riconoscimento visivo del testo (OCR), domande e risposte con immagini (VQA), domande e risposte video (Video QA) e altri test visivi e uditivi. modalità di input singolo Le attività includono anche il riconoscimento vocale audiovisivo (AVSR), la risposta a domande audio e video (AVQA), il rilevamento della sorgente sonora audio e video (AVSSD) e la corrispondenza audio e video (AVM), quattro ingressi comuni audio e video. compiti di percezione.

Tra questi, AVQA è un set di test recentemente proposto e AVM è un'attività recentemente proposta, che richiede al modello di determinare se audio e video corrispondono.


Innanzitutto, video-SALMONN ottiene risultati uguali o addirittura migliori in compiti di input monomodali rispetto ai modelli che possono elaborare solo input modali visivi o uditivi.

Rispetto a Video-LLaMA, un modello di grandi dimensioni in grado anche di elaborare audio e video, video-SALMONN non solo aumenta la sua capacità di comprendere l'input vocale, ma supera anche di gran lunga le sue prestazioni in vari compiti monomodali.


Nel compito di comprendere l'input congiunto audio e video, il video-SALMONN ha mostrato prestazioni di gran lunga superiori rispetto ad altri modelli.


Grazie alla sua capacità di comprendere il parlato, il video-SALMONN supera significativamente il modello simile Video-LLaMA in AVQA.

Ancora più importante, video-SALMONN dimostra eccellenti capacità di emergenza a campione zero per il ragionamento vocale-audiovisivo congiunto su AVM e AVSSD, due compiti completamente non addestrati.


L'emergere di queste capacità di ragionamento congiunto richiede che il modello presti contemporaneamente la stessa attenzione alle informazioni visive e uditive in ingresso e sia in grado di comprendere le complesse connessioni tra audio e video.


Tuttavia, i modelli open source esistenti non sono in grado di comprendere appieno l'audio o possono solo descrivere separatamente ogni singola modalità di input.

Conclusione

Il lancio di video-SALMONN contribuirà a migliorare la completezza e l'accuratezza della tecnologia di comprensione dei video e offrirà nuove opportunità all'analisi dei contenuti video, al riconoscimento delle emozioni, all'interazione multimodale e ad altri campi.


Questo modello non è solo di grande importanza nella ricerca accademica, ma fornisce anche un forte supporto tecnico per le applicazioni pratiche.

Riferimenti:

https://openreview.net/pdf?id=nYsh5GFIqX