notizia

Apprendimento contestuale video! Il modello grande impara a "imitare un gatto e disegnare una tigre", da MSRA

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Contributo del team Vid-ICL
Qubit |. Account pubblico QbitAI

La generazione video può riferirsi anche al "contesto"? !

MSRA proponeApprendimento del contesto video(Video In-Context Learning, Vid-ICL), lascia che il modello grande impari a "imitare il gatto e disegnare la tigre" in stilegenerazione d'imitazione

Vid-ICL utilizza un video di esempio per guidare la generazione del modello in nuovi scenari, in modo che i risultati generati possano "imitare" le attività completate nei video di esempio in nuovi scenari.

Ad esempio, la prospettiva della videocamera di esempio si sposta verso il basso (a sinistra) e anche il video generato sposta la prospettiva verso il basso (a destra):



L'oggetto video di esempio si sposta verso l'alto (a sinistra) e anche il video generato si sposta verso l'alto (a destra):



È inoltre possibile simulare la cattura di oggetti:



△Sinistra: video di esempio, il braccio del robot afferra gli oggetti. Destra: video generato

L'apertura del cassetto può essere eseguita anche come mostrato nell'esempio:



△Sinistra: video di esempio, apri il cassetto centrale. Destra: genera video

Nello stesso scenario del ventilatore elettrico, utilizza diversi video di esempio per guidare il modello a generare effetti come:



△Sinistra: video di esempio, telecamera spostata a sinistra: video generato



△Sinistra: video di esempio, telecamera spostata a destra: video generato

Devi sapere che in un modello di mondo ideale, l'interazione tra il modello e l'ambiente esterno dovrebbe essere diversa.La maggior parte del lavoro esistente si concentra sull’utilizzoIl testo come modalità principale di interazione, il che rende difficile controllare il dettaglio e la diversità dei risultati generati.

EIl video è altamente concreto e universale, in grado di trasmettere un'ampia gamma di informazioni come esempi di completamento di una varietà di compiti, incluso spostare o afferrare oggetti.

Il metodo Vid-ICL proposto dal gruppo di ricerca fornisce un'alternativa al linguaggio e alle immagini.nuova interfaccia, rendendo più diversificata l'interazione tra il modello e il mondo reale.



Oltre al video generato mostrato sopra,Vid-ICL può anche essere combinato con emulatori, utilizza il video generato e lo stato attuale per prevedere le azioni corrispondenti per una corretta interazione con l'ambienteRealizzare l'interazione con l'ambiente reale

La figura seguente mostra Vid-ICL che interagisce con l'ambiente reale A partire dallo stato t=0, interagisce con il simulatore RoboDesk per completare l'attività "Push_red". Vid-ICL fornisce un controllo più preciso sulle interazioni con l'ambiente:



Bravo ragazzo, il film "Iron Armor" è diventato realtà.

Come funziona esattamente Vid-ICL?

Interpretazione del quadro Vid-ICL

Vid-ICL funziona con il video come unità di base.

Nello specifico, dato un video clip di query e k video clip di esempio, l'obiettivo di Vid-ICL è generare un video clip che dovrebbe primaMantieni la coerenza percettiva con i videoclip di queryAllo stesso tempo nella semantica(come movimento della telecamera, azione)Quanto sopra è coerente con il video di esempio



  • Addestramento del modello autoregressivo

Vid-ICL utilizza Transformer come struttura del modello.

Come architettura di base di modelli di testo di grandi dimensioni, Transformer ha dimostrato potenti capacità nel ragionamento nel contesto linguistico e nelle attività di generazione. L'addestramento del Generative Transformer delle informazioni visive consiste in due fasi:

Innanzitutto, addestra un codificatore visivo, come VQ-VAE, per convertire ogni immagine in un token discreto;

In secondo luogo, ogni campione di addestramento viene costruito come una sequenza di token e l'obiettivo del decodificatore Transformer è recuperare questa sequenza di token.

In termini di implementazione specifica, Vid-ICLUtilizzando l'architettura Llama,utilizzoNormalizzazione RMSNormEIncorporamento della posizione di rotazione (RoPE), addestrare il decoder Transformer in modo autoregressivo. Durante la fase di training, ogni sequenza viene campionata da un video grezzo senza unire clip video di video diversi.

  • Capacità di campionamento zero

Il gruppo di ricerca fa un’osservazione chiave in questo articolo:

Il modello può iniziare da dati video senza modulo di contesto esplicito, ad es.Capacità di ragionamento contestuale apprese spontaneamente da videoclip consecutivi, ovvero la "capacità di campionamento zero" per l'apprendimento video nel contesto.

Ciò può essere attribuito a due fattori chiave. Innanzitutto, non vengono inseriti delimitatori speciali tra ciascun fotogramma video, il che consente al modello di trattare implicitamente sequenze video continue come video di esempio + video di query durante l'addestramento. Ciò significa che il modello ha imparato a elaborare sequenze di strutture di query di esempio simili.

In secondo luogo, le caratteristiche autoregressive di Transformer gli consentono di estendere la capacità di previsione della sequenza video di una singola scena a scene in cui esempi e domande provengono da video diversi e di generalizzare senza soluzione di continuità il paradigma dell'apprendimento dal contesto testuale all'apprendimento del contesto video.

  • Integrare altre modalità

Sebbene Vid-ICL si concentri sul video come esempio, può essere esteso ad altre modalità come il testo.

Per fare ciò, basta convertire la descrizione testuale originale in una rappresentazione latente attraverso un modello linguistico pre-addestrato, quindi utilizzare questa rappresentazione latente come prefisso durante l'addestramento del Transformer e l'esecuzione del ragionamento contestuale, e allinearla nello spazio latente del Transformer attraverso lo strato di proiezione.

Gli esperimenti dimostrano che Vid-ICLPuò ricevere sia testo che video come esempioe l'aggiunta di testo può migliorare ulteriormente la qualità dei risultati generati.

  • Dati e dimensioni del modello

Si può vedere che Vid-ICL può apprendere le informazioni semantiche contenute nei video di esempio e migrarle in nuove scene per la generazione. Ciò richiede che i dati di addestramento contengano principalmente video con chiare relazioni causali e forte interattività.

Pertanto, i ricercatori hanno selezionato due set di dati come principali fonti di dati di addestramento: Ego4d e Kinetics-600.

Inoltre, per aumentare la varietà dei contenuti video, al set di formazione viene aggiunta anche una piccola parte dei dati di Webvid.

Il team ha inoltre verificato che, poiché le informazioni semantiche contenute nei video Internet sono relativamente vaghe e divergenti, la dimensione dei dati può essere aumentata semplicemente aggiungendo più video Internet.non aiuta a migliorare le prestazioni contestuali del modello

In termini di dimensioni del modello, il team ha addestrato modelli di tre dimensioni: 300M, 700M e 1.1B, e ha scoperto che la qualità e le prestazioni contestuali dei video generati dal modello seguivano la legge di scaling.

Risultati sperimentali

Vid-ICL passa principalmenteFornisci video di esempio con semantica diversa per lo stesso video di query, per valutare l'efficacia e l'accuratezza dell'apprendimento del contesto video.

Ad esempio, per un video di query sullo spostamento di un oggetto a sinistra, è possibile generare video diversi fornendo video di esempio di spostamento a sinistra, movimento casuale e movimento nella direzione opposta e può essere utilizzata la valutazione dei risultati generati per determinare se il modello ha effettivamente generato esempi di video correlati.

In termini di risultati qualitativi, la figura seguente mostra i video generati sotto diversi video di esempio (per ulteriori esempi, fare riferimento al testo originale del documento).

Si può osservare:

1) PerGenerazione video singolaLa qualità, Vid-ICL mantiene la coerenza del video generato e del video interrogato ed entrambi hanno una buona qualità di generazione;

2) PerCoerenza semantica tra i video generati e quelli di esempio, si può osservare che i video generati seguono tutti il ​​processo del video di esempio, il che dimostra che Vid-ICL ha la capacità di ottenere spontaneamente le informazioni semantiche del video di esempio e generare il video corrispondente.

Come mostrato nella figura seguente, per la stessa query video clip, Vid-ICL sceglie di spostare il video generato di conseguenza in base al movimento dell'obiettivo nel video di esempio.



In termini di risultati quantitativi, il gruppo di ricerca ha proposto indicatori di valutazione automatica in due aspetti:

1)Qualità videoVengono invece utilizzati indicatori basati sulla corrispondenza o sulla distribuzione dei pixel su compiti visivi tradizionali, come PSNR, FID, ecc.;

2)coerenza semanticasopra, vengono utilizzati due indicatori basati sull'accuratezza della classificazione: accuratezza della classificazione video e accuratezza della classificazione della sonda.

Su diversi indicatori, Vid-ICL mostra risultati migliori rispetto al modello di base. Si può vedere che sotto la guida di video di esempio simili, Vid-ICL genera video più realistici e semanticamente coerenti.



Si prega di fare riferimento al documento originale per maggiori dettagli.

Home page del progetto: https://aka.ms/vid-icl
Link al documento: https://arxiv.org/abs/2407.0735