Le mie informazioni di contatto
Posta[email protected]
2024-08-13
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Usando solo parole immediate, il grande modello multimodale può comprendere meglio la relazione tra i personaggi nella scena.
L'Università di Pechino ha recentemente proposto il metodo Conditional Multi-Modal Prompt (CMMP), che utilizzaTecnologia di ingegneria delle parole rapideInsegnare modelli multimodali di grandi dimensioni per comprendere le relazioni di interazione dei personaggi a livello regionale.
In questo processo, la parte più difficile è insegnare al modello a riconoscersiTipi di interazione dei personaggi invisibili。
Sapete, la maggior parte delle ricerche esistenti si concentra sugli ambienti chiusi. Una volta che diventa un ambiente aperto più vicino alla realtà, il modello sarà confuso!
Ad esempio, nella figura seguente, i rilevatori precedenti hanno riscontrato difficoltà nel bilanciare le categorie visto e invisibile,risultando in una media armonica più bassae ottengono risultati peggiori nelle categorie invisibili.
Al contrario, il metodo CMMP risolve efficacemente questo problema di bilanciamento, migliora significativamente le prestazioni e stabilisce nuove prestazioni all’avanguardia per le categorie invisibili.
Per quanto riguarda il modo in cui il metodo CMMP risolve le categorie invisibili,una parola:
I segnali visuo-spaziali vengono utilizzati nel processo di estrazione delle caratteristiche per aiutare a identificare i concetti di interazione persona-oggetto invisibili e migliorare la generalizzazione a categorie invisibili attraverso l'apprendimento di segnali condizionali.
In sintesi, il metodo CMMP fornisce un nuovo paradigma per mettere a punto modelli multimodali di grandi dimensioni per realizzarligeneralizzatoFunzionalità di rilevamento delle relazioni di interazione dei personaggi a livello regionale.
La ricerca di cui sopra proviene dal Wangxuan Institute of Computer Technology dell’Università di Pechino e i documenti pertinenti sono stati accettati dalla conferenza ECCV 2024.
Un nuovo framework per il rilevamento delle interazioni umane a campione zero
Il team ha proposto un nuovo quadro per il rilevamento HOI (interazione uomo-oggetto) a campione zero utilizzando CMMP.
Nello specifico, CMMP rileverà l'interazione umana a campione zeroDiviso in due sottoattività:
Quindi per ogni sottoattivitàproposto separatamenteSegnali visivi e testuali disaccoppiati per eliminare le dipendenze tra loro e mitigare la propagazione degli errori.
I segnali visivi condizionali (Pv) vengono utilizzati per iniettare la conoscenza della percezione spaziale e dell'interattività nel codificatore di immagini, vincolato da priori visivi a livello di istanza (Cins) e modelli spaziali globali di interazioni (Cgsp). I segnali linguistici condizionali (PL) sono vincolati dai segnali progettati dall'uomo (CL) attraverso una perdita di regolarizzazione.
Estrazione di caratteristiche visive per la percezione dell'interattività
Il codificatore di immagini del modello multimodale adottato dal team è stato inizialmente addestrato mediante pre-addestramento all'apprendimento contrastivo (CLIP) su coppie immagine-testo su larga scala e la sua capacità potrebbe essere limitata alla comprensione della semantica di primo ordine a livello di immagine.
Per consentire al codificatore di immagini di distinguere tutta l'interattività umana nell'immagine, il team ha proposto di integrare la conoscenza precedente di diverse granularità in segnali visivi condizionali per comprenderli personalizzati per il compito di rilevamento delle relazioni di interazione umana.Semantica regionale del secondo ordine。
Nello specifico, i ricercatoriUtilizzare le informazioni a livello di istanza come conoscenza preliminareIncorpora segnali visivi condizionali.
Data un'immagine di input, un rilevatore di oggetti preaddestrato viene prima utilizzato per ottenere tutta la conoscenza precedente a livello di istanza, inclusi riquadri di delimitazione, punteggi di confidenza e codifiche semantiche delle istanze rilevate.
Inoltre, per incoraggiare ciascuna istanza a essere consapevole dei suoi potenziali oggetti interagenti, il team ha combinato il modello spaziale globale delle interazioni nel set di addestramento con una precedenza visiva a livello di istanza.
Nello specifico, per ciascuna coppia di persone interagenti annotate, i ricercatoriPer prima cosa calcola le sue caratteristiche spaziali univariate e binarie.
Successivamente, l'algoritmo di clustering K-means viene utilizzato per determinare i centri dei cluster e utilizzarli come modelli spaziali rappresentativi di coppie di caratteri interagenti.
Il modello di interazione spaziale globale fornisce una configurazione spaziale rappresentazionale indipendente dalla categoria come un ponte per comprendere l'interattività tra concetti di interazione umana visti e invisibili.
Infine, i ricercatori hanno integrato le conoscenze combinate in un codificatore di immagini tramite un adattatore leggero.
Classificazione delle interazioni generalizzabili
Al fine di conservare la conoscenza generale generalizzabile di CLIP mentre apprendeva rappresentazioni specifiche del compito per il rilevamento dell'interazione umana, il team ha adottatoApprendimento rapido sensibile al linguaggio con vincoli di coerenza。
Questo vincolo garantisce che i prototipi appresi delle categorie viste e invisibili mantengano ragionevoli confini di separazione e non si discostino eccessivamente l'uno dall'altro.
Nello specifico, per ciascuna categoria di azione, i ricercatoriPrimo utilizzoI prompt progettati manualmente lo formattano. Sfruttare le parole contestuali apprendibili per fungere da ponti tra la semantica delle categorie viste e invisibili.
La rappresentazione finale della categoria si ottiene concatenando le parole di contesto apprendibili con i vettori di parole delle frasi precedenti e quindi facendole passare attraverso un codificatore di testo.
Per utilizzare ulteriormente lo spazio delle funzionalità appreso dallo stesso codificatore di testo del modello multimodale e migliorare la capacità di generalizzazione a categorie invisibili, i ricercatori hanno propostoSuggerimenti per l'utilizzo del design umanoper guidare lo spazio delle caratteristiche dei segnali linguistici apprendibili.
Questo vincolo garantisce che i prototipi delle categorie viste e invisibili mantengano ragionevoli confini di separazione e non si discostino troppo l'uno dall'altro.
Applicazione di squadraRegolarizzazione versus perdita di apprendimentoridurre la differenza tra rappresentazioni di caratteristiche e rappresentazioni di caratteristiche di segnali linguistici progettati artificialmente.
Formazione CMMP
Sulla base della mappa delle caratteristiche sensibili all'interattività e dei riquadri di delimitazione di persone e oggetti estratti dal rilevatore di oggetti pre-addestrati, il team ha prima applicato il ROI-Pooling per estrarre caratteristiche in diverse aree.
Quindi, le caratteristiche estratte da diverse regioni vengono fuse e la previsione della classe di interazione finale viene effettuata tramite un classificatore di interazione.
L'intero modello utilizza la perdita focale nell'addestramento alla classificazione interattiva e applica anche la perdita di regolarizzazione della lingua.
Risultati sperimentali
Durante la fase di verifica dei risultati, il team ha utilizzatoHICO-DET, un set di dati comunemente utilizzato per il rilevamento dell'interazione umana, le 600 categorie di interazione dei caratteri sono composte da 80 categorie di oggetti e 117 categorie di verbi.
Per verificare le prestazioni a campione zero del modello, i ricercatori hanno valutato HICO-DETCinque impostazioni a campione zero。
Per ottenere un confronto equo con i metodi esistenti, studiamoPer impostazione predefinita viene utilizzato ViT-B/16come rete dorsale.
Come mostrato nella tabella seguente, i risultati sperimentali mostrano che CMMP funziona bene con tutte le impostazioni a campione zero.Tutti hanno ottenuto le migliori prestazioni in classi mai viste, che dimostra l'efficacia dell'introduzione di segnali multimodali condizionali.
Come mostrato nella tabella per ciascuna tipologia diL'ultima riga mostra, sfruttando il backbone ViT-L/14 per estendere CMMP in modo che corrisponda ai FLOP di CLIP4HOI, il nuovo metodo raggiunge le migliori prestazioni in tutte le partizioni.
Ciò dimostra che il modello del team ha eccellenti capacità nell’estrazione delle relazioni spaziali delle caratteristiche visive e nell’apprendimento dei prototipi per la classificazione interattiva.
Inoltre, i metodi precedenti mostrano gravi differenze di prestazione tra le categorie viste e quelle invisibili, indicando la loro mancanza di capacità di generalizzazione.
Il modello di questo studio può alleviare questo problema in larga misura egeneralizzareL'alto potenziale per raggiungere categorie di interazione mai viste prima conferma l'efficacia dei segnali multimodali con vincoli.
Si prega di fare riferimento al documento originale per maggiori dettagli.