Le mie informazioni di contatto
Posta[email protected]
2024-08-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Dal rilascio di Sora, il campo della generazione di video AI è diventato più "occupato". Negli ultimi mesi abbiamo visto Jimeng, Runway Gen-3, Luma AI e Kuaishou Keling esplodere a turno.
A differenza del passato, dove si capiva a colpo d’occhio che i modelli sono generati dall’intelligenza artificiale, questa serie di modelli video di grandi dimensioni potrebbe essere la “migliore” che abbiamo mai visto.
Tuttavia, le straordinarie prestazioni dei modelli LLM (Large Language Model) video sono inseparabili da un set di dati video ampio e finemente annotato, che richiede un costo molto elevato. Recentemente, nel campo della ricerca sono emersi numerosi metodi innovativi che non richiedono formazione aggiuntiva: l'utilizzo di modelli linguistici di grandi dimensioni con immagini addestrate per elaborare direttamente compiti video, aggirando così il processo di formazione "costoso".
Inoltre, la maggior parte dei LLM video esistenti soffrono di due importanti limiti: (1) possono gestire solo input video con un numero limitato di fotogrammi, il che rende difficile per il modello catturare il sottile contenuto spaziale e temporale nel video (2 ) non dispongono di una progettazione di modellazione temporale, ma inseriscono semplicemente le funzionalità video in LLM, affidandosi completamente alla capacità di LLM di modellare il movimento.
In risposta alle questioni di cui sopra,I ricercatori Apple hanno proposto SlowFast-LLaVA (SF-LLaVA in breve). Questo modello si basa sull'architettura LLaVA-NeXT sviluppata dal team Byte. Non richiede ulteriori regolazioni e può essere utilizzato immediatamente.. Ispirandosi al successo della rete a due flussi nel campo del riconoscimento delle azioni, il gruppo di ricerca ha progettato un nuovo meccanismo di input SlowFast per video LLM.
In poche parole, SF-LLaVA comprenderà i dettagli e il movimento nei video attraverso due diverse velocità di visualizzazione (Lenta e Veloce).
Percorso lento: estrai le funzionalità con un frame rate basso mantenendo il maggior numero di dettagli spaziali possibile (ad esempio, conservando 24×24 token ogni 8 fotogrammi)
Percorso veloce: esegui a un frame rate elevato, ma riduci la risoluzione del video con un passaggio di pooling spaziale più ampio per simulare un contesto temporale più ampio e concentrarti maggiormente sulla comprensione della coerenza delle azioni.
Ciò equivale a che la modella abbia due "occhi": uno guarda lentamente e presta attenzione ai dettagli; l'altro guarda velocemente e presta attenzione ai movimenti. Ciò risolve i punti critici della maggior parte dei LLM video esistenti e può catturare sia la semantica spaziale dettagliata che il contesto temporale più lungo.
Link al documento: https://arxiv.org/pdf/2407.15841
I risultati sperimentali mostrano che SF-LLaVA supera i metodi esistenti senza formazione con vantaggi significativi in tutti i test di riferimento. Rispetto al modello SFT attentamente messo a punto, SF-LLaVA può ottenere le stesse prestazioni o addirittura migliori.
Architettura del modello
Come mostrato nella figura seguente, SF-LLaVA segue il processo LLM video standard senza formazione. Prende il video V e la domanda Q come input e restituisce la risposta corrispondente A.
Per l'input, N fotogrammi vengono campionati uniformemente da ciascun video di qualsiasi dimensione e lunghezza, I = {I_1, I_2, ..., I_N} e non è richiesta alcuna combinazione o disposizione speciale dei fotogrammi video selezionati. La caratteristica di frequenza estratta in modo indipendente nell'unità frame è F_v ∈ R^N×H×W, dove H e W sono rispettivamente l'altezza e la larghezza della caratteristica frame.
Risultati sperimentali
Il gruppo di ricerca ha condotto una valutazione completa delle prestazioni di SF-LLaVA, confrontandolo con gli attuali modelli SOTA senza formazione (come IG-VLM e LLoVi) in molteplici attività di risposta a domande video. Inoltre, lo hanno confrontato con LLM video come VideoLLaVA e PLLaVA che sono stati supervisionati e ottimizzati (SFT) su set di dati video.
Apri domande e risposte video
Come mostrato nella tabella seguente, nell'attività di risposta alle domande video a risposta aperta, SF-LLaVA offre prestazioni migliori rispetto ai metodi esistenti senza formazione in tutti i benchmark. Nello specifico, se dotato di LLM con dimensioni dei parametri rispettivamente 7B e 34B, SF-LLaVA è superiore del 2,1% e del 5,0% rispetto a IGVLM su MSRVTT-QA, superiore del 5,7% e dell'1,5% su TGIF-QA e superiore del 5,7% e dell'1,5% su ActivityNet -2,0% e 0,8% in più sul QA.
Anche rispetto al metodo SFT perfezionato, SF-LLaVA mostra prestazioni comparabili nella maggior parte dei benchmark, solo sul benchmark ActivityNet-QA, PLLaVA e LLaVA-NeXT-VideoDPO sono leggermente migliori.
Domande e risposte video a scelta multipla
Come si può vedere dalla tabella seguente, SF-LLaVA supera gli altri metodi senza formazione nelle risposte alle domande video a scelta multipla in tutti i benchmark. Nel set di dati EgoSchema che richiede un ragionamento complesso a lungo termine, le versioni SF-LLaVA7B e 34B hanno ottenuto rispettivamente un punteggio superiore dell’11,4% e del 2,2% rispetto al modello IG-VLM.
Sebbene VideoTree sia in testa nel test benchmark, poiché è un modello proprietario basato su GPT-4, le sue prestazioni sono molto più elevate rispetto al LLM open source. Rispetto al metodo SFT, il modello SF-LLaVA 34B ottiene risultati migliori anche su EgoSchema, il che conferma la forte capacità del design SlowFast di gestire video lunghi.
Generazione di testo
Vincenzo Video
Come mostrato nella Tabella 3, SF-LLaVA mostra anche alcuni vantaggi per il compito di generazione di testo video. L'SF-LLaVA-34B ha superato tutti i parametri di riferimento senza formazione in termini di prestazioni complessive. Sebbene in termini di orientamento dei dettagli, SF-LLaVA sia leggermente inferiore a LLaVA-NeXT-Image. Basato sul design SlowFast, SF-LLaVA può coprire un contesto temporale più lungo con meno token visivi, quindi funziona particolarmente bene nelle attività di comprensione temporale.
Inoltre, SF-LLaVA-34B supera anche la maggior parte dei metodi SFT in termini di prestazioni video Vincent.
Per maggiori dettagli si rimanda al documento originale.