Le mie informazioni di contatto
Posta[email protected]
2024-08-14
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Rapporto sul cuore della macchina
Dipartimento editoriale di Machine Heart
Ci sono ancora buone notizie nel campo dell'open source.
I modelli linguistici di grandi dimensioni (LLM) hanno subito un’evoluzione significativa e recentemente abbiamo assistito anche a un boom di modelli linguistici di grandi dimensioni multimodali (MLLM), che mostrano sorprendenti capacità multimodali.
In particolare, l’emergere di GPT-4o ha promosso in modo significativo lo sviluppo del campo MLLM. Tuttavia, i modelli open source corrispondenti a questi modelli sono significativamente insufficienti. L'urgente necessità che la comunità open source promuova ulteriormente lo sviluppo di questo campo non può essere sopravvalutata.
In questo articolo, i ricercatori del Tencent Youtu Lab e di altre istituzioni propongono VITA, che è il primo modello multimodale di linguaggio di grandi dimensioni (MLLM) open source, in grado di elaborare e analizzare contemporaneamente modalità video, immagini, testo e audio allo stesso tempo, ha un'esperienza interattiva multimodale avanzata.
I ricercatori hanno utilizzato Mixtral 8×7B come base linguistica, quindi hanno ampliato il vocabolario cinese e perfezionato le istruzioni bilingue. Inoltre, i ricercatori hanno ulteriormente dotato il modello linguistico di capacità visive e audio attraverso l'apprendimento multi-task in due fasi di allineamento multimodale e la messa a punto delle istruzioni.
VITA dimostra forti capacità di comprensione multilingue, visiva e audio, come evidenziato dalle sue eccellenti prestazioni su benchmark monomodali e multimodali.
Oltre alle capacità di base, questa ricerca ha fatto grandi progressi anche nel miglioramento dell'esperienza di interazione multimodale naturale uomo-computer. Per quanto ne sappiamo, questo è il primo studio a sfruttare le interazioni non-veglia e le interruzioni audio in MLLM. I ricercatori hanno inoltre progettato ulteriori token di stato e corrispondenti dati e strategie di addestramento per percepire vari scenari di interazione.
VITA viene distribuito utilizzando un approccio duplex, con un modello responsabile della generazione di risposte alle domande degli utenti e un altro modello che monitora continuamente l'input ambientale. Ciò conferisce a VITA impressionanti capacità di interazione uomo-computer.
VITA è il primo passo per la comunità open source per esplorare l'integrazione perfetta della comprensione e dell'interazione multimodale. Anche se c'è ancora molto lavoro da fare su VITA per avvicinarsi alle sue controparti closed-source, lo studio spera che il ruolo pionieristico di VITA possa fungere da pietra angolare per la ricerca successiva.
Testo:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==∣=2650930230&idx=4&sn=9438b7c9c53ffa71dc7b3aa78ffaf348&chksm=84e43848b393b15ede 2b21d694dde6ee5d90c364b94e53f09728faef1db5b5524cd4dbe49dee&token=2010422951⟨=zh_CN#rd
Nel video sopra, gli utenti possono comunicare senza barriere con VITA. Dopo aver visto la maglietta bianca che indossa, gli verrà dato il colore dei pantaloni da abbinare; quando gli verrà posta una domanda di matematica, potrà visualizzare il tipo di domanda in tempo reale e fare deduzioni, e poi dare risposte precise; quando parli con gli altri, VITA non interromperà, perché sa che l'utente non sta comunicando con lui mentre viaggia, VITA darà anche alcuni suggerimenti durante il processo; dell'output VITA, puoi anche interrompere una conversazione in tempo reale e iniziare un altro argomento.
Testo:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==∣=2650930230&idx=4&sn=9438b7c9c53ffa71dc7b3aa78ffaf348&chksm=84e43848b393b15ede 2b21d694dde6ee5d90c364b94e53f09728faef1db5b5524cd4dbe49dee&token=2010422951⟨=zh_CN#rd
In questo video, l'utente tiene in mano un biscotto e chiede a VITA cosa sta mangiando. VITA gli dice che sta mangiando biscotti e suggerisce che i biscotti hanno un sapore migliore con il latte o il tè.
Quando ti alleni, funge da partner di chat:
Testo:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==∣=2650930230&idx=4&sn=9438b7c9c53ffa71dc7b3aa78ffaf348&chksm=84e43848b393b15ede 2b21d694dde6ee5d90c364b94e53f09728faef1db5b5524cd4dbe49dee&token=2010422951⟨=zh_CN#rd
Nota: i video sopra indicati vengono riprodotti in tempo reale a velocità 1x e non sono stati accelerati.
In base al diagramma di flusso fornito dall'utente, VITA può scrivere il codice:
Fornisci un'immagine e VITA può anche rispondere a domande in base al contenuto dell'immagine:
Puoi anche guardare video e rispondere alle domande Quando gli utenti pongono la domanda "Descrivi dettagliatamente i movimenti del cane", VITA può anche dare risposte precise:
Introduzione al metodo
Come mostrato nella Figura 3, il processo di formazione complessivo di VITA comprende tre fasi: messa a punto dell'istruzione LLM, allineamento multimodale e messa a punto dell'istruzione multimodale.
Messa a punto delle istruzioni LLM
Le prestazioni di Mixtral 8x7B sono tra le migliori LLM open source, quindi è stato utilizzato come base per questo studio. Tuttavia, i ricercatori hanno osservato che il modello Mixtral ufficiale ha una capacità limitata di comprendere il cinese. Per iniettare capacità di comprensione bilingue (cinese e inglese), lo studio ha ampliato il vocabolario cinese al modello base, aumentando il vocabolario da 32.000 a 51.747. Dopo aver ampliato il vocabolario, i ricercatori hanno utilizzato un corpus bilingue sintetico di 5 milioni di persone per mettere a punto le istruzioni in testo semplice.
Allineamento multimodale
Colmare il divario di rappresentazione tra il testo e altre modalità, ponendo così le basi per la comprensione multimodale. I connettori visivi vengono addestrati solo durante la fase di allineamento visivo. La Tabella 1 riassume i dati di training utilizzati, ad eccezione della parte di testo semplice.
modalità visiva
Il primo è il codificatore visivo. I ricercatori hanno utilizzato InternViT-300M-448px come codificatore visivo, che ha acquisito un'immagine con una risoluzione di 448×448 come input e ha generato 256 token dopo aver utilizzato un connettore visivo come semplice MLP a due strati. Per l'input di immagini ad alta risoluzione, i ricercatori utilizzano strategie di patching dinamico per acquisire dettagli locali.
Il video è considerato un caso d'uso speciale per le immagini. Se la durata del video è inferiore a 4 secondi, verranno campionati uniformemente 4 fotogrammi al secondo. Se la durata del video è compresa tra 4 e 16 secondi, viene campionato un fotogramma ogni secondo. Per i video di durata superiore a 16 secondi, vengono campionati uniformemente 16 fotogrammi.
Il secondo è l'allineamento visivo. Abbiamo addestrato il connettore visivo solo durante la fase di allineamento visivo e non abbiamo utilizzato domande audio durante questa fase.
Infine, c’è la cascata di dati. Per i dati di testo semplice e i dati di immagine, questa ricerca mira a concatenare la lunghezza del contesto a token di 6K, come mostrato nella Figura 4. Vale la pena notare che i dati video non sono concatenati.
La sovrapposizione di dati disparati presenta due vantaggi:
Inoltre, lo studio ha rilevato che i modelli addestrati utilizzando dati a cascata hanno funzionato in modo paragonabile ai modelli addestrati utilizzando dati grezzi.
modalità audio
Da un lato c'è il codificatore audio. L'audio in ingresso viene inizialmente elaborato attraverso un blocco filtro Mel, che scompone il segnale audio in singole bande di frequenza all'interno della gamma di frequenze mel, imitando la percezione umana non lineare del suono. Successivamente, i ricercatori hanno utilizzato uno strato di downsampling 4×CNN e un trasformatore a 24 strati, con un totale di 341 milioni di parametri, per elaborare le caratteristiche di input. Inoltre utilizzano un semplice MLP a due strati come connettore modale audio-testo. Infine, ogni 2 secondi di input audio viene codificato in 25 token.
Un altro aspetto è l'allineamento audio. Per l'attività di allineamento, i ricercatori hanno utilizzato il riconoscimento vocale automatico (ASR). I set di dati includono Wenetspeech (con oltre 10.000 ore di dati di riconoscimento vocale multidominio, focalizzati principalmente su attività di riconoscimento vocale in cinese) e Gigaspeech (con 10.000 ore di dati audio di alta qualità, la maggior parte dei quali orientati verso attività di riconoscimento vocale in inglese). Per l'attività dei sottotitoli audio, i ricercatori hanno utilizzato il sottoinsieme AudioSet SL di Wavcaps, che contiene 400.000 clip audio con i sottotitoli audio corrispondenti. Durante il processo di allineamento, vengono addestrati codificatori e connettori audio.
Messa a punto delle istruzioni multimodali
Lo studio ha adattato il modello per migliorare la sua capacità di seguire le istruzioni, siano esse testuali o audio.
Costruzione dei dati. Le origini dati per la fase di ottimizzazione delle istruzioni sono le stesse di quelle per la fase di allineamento nella Tabella 1, ma questo studio ha apportato i seguenti miglioramenti:
Le domande vengono sostituite in modo casuale (circa la metà) con le loro versioni audio (utilizzando la tecnologia TTS, come GPT-SoVITS6), con l'obiettivo di migliorare la comprensione del modello delle query audio e la sua capacità di seguire le istruzioni.
Impostare diverse richieste di sistema per evitare conflitti tra diversi tipi di dati, come mostrato nella Tabella 2. Ad esempio, è possibile rispondere ad alcune domande sulla base di informazioni visive o sulla base delle conoscenze del modello, il che porta a conflitti. Inoltre, i dati dell'immagine sono stati modificati, in modo simile ai dati video multi-frame, il che potrebbe confondere il modello. Il prompt del sistema distingue esplicitamente diversi tipi di dati, il che aiuta a comprendere in modo più intuitivo.
Per realizzare due funzioni interattive, vale a dire l'interazione senza risveglio e l'interazione con interruzione audio, questo studio propone un quadro di distribuzione duplex, ovvero due modelli VITA vengono implementati contemporaneamente, come mostrato nella Figura 1.
In genere, un modello di generazione risponde alle domande degli utenti. Allo stesso tempo, il modello di Monitoraggio rileva i suoni ambientali durante il processo di generazione. Ignora le voci degli utenti non query ma interrompe l'avanzamento della generazione del modello quando viene riconosciuto l'audio della query. Il modello di monitoraggio integra quindi il contesto storico e risponde alle ultime domande degli utenti, e le identità dei modelli di generazione e monitoraggio vengono scambiate.
Valutazione sperimentale
prestazione linguistica. Per verificare l'efficacia del processo di formazione del modello linguistico, i ricercatori hanno utilizzato quattro set di dati, vale a dire C-EVAL, AGIEVAL, MMLU e GSM8K. Questi set di dati coprono una varietà di scenari, tra cui domande generali a scelta multipla, quiz multidisciplinari e compiti di ragionamento matematico e logico, coprendo sia il contesto cinese che quello inglese.
I risultati nella Tabella 3 di seguito mostrano che la formazione in questo articolo migliora significativamente la capacità del modello linguistico sul set di valutazione cinese (C-EVAL e AGIEVAL), pur mantenendo il livello di prestazione originale sul benchmark relativo all'inglese (MMLU) e miglioramento del ragionamento matematico È stato ottenuto un miglioramento significativo nel compito (GSM8K).
prestazione audio. Per verificare la robustezza della rappresentazione vocale appresa dal modello, i ricercatori hanno condotto test su due set di dati: Wenetspeech e Librispeech.
Tra questi, Wenetspeech ha due indicatori di valutazione, vale a dire test_net e test_meeting. La prima fonte di dati è più coerente con i dati di addestramento, quindi la seconda rappresenta una sfida maggiore. Come set di dati del modello, Librispeech valuta la capacità di generalizzazione del modello su set di dati invisibili. Ha quattro set di valutazione. Quello che inizia con "dev" è il set di verifica e quello che inizia con "test". è l'insieme di test, "Pulito" rappresenta un insieme meno impegnativo e "altro" rappresenta un insieme più impegnativo.
Come si può vedere dai risultati nella Tabella 4 di seguito, VITA ha ottenuto ottimi risultati nel test benchmark ASR.
Prestazioni multimodali. Per valutare le capacità multimodali, lo studio ha valutato VITA su quattro parametri di riferimento, tra cui MME, OCRBench, HallusionBench e Video-MME. I risultati sono mostrati nella Figura 5.
In termini di comprensione delle immagini, VITA è migliore del modello open source specifico per l'immagine LLaVA-Next e vicino al modello closed source Gemini 1.5 Pro.
In termini di comprensione del video, VITA supera Video-CCAM, un modello video open source. Sebbene esista un divario tra VITA e LLaVA-Next-Video specifico per il video, ciò è accettabile dato che VITA supporta una gamma più ampia di modalità e dà priorità all'interattività.
Infine, vale la pena notare che esiste ancora un ampio divario nelle capacità di comprensione dei video tra i modelli open source e i modelli proprietari.