Non concentrarti solo sulla versione ChatGPT di Her, i giocatori nazionali sono interessati anche all'interazione antropomorfa con intelligenza artificiale multimodale

Non concentrarti solo sulla versione ChatGPT di Her. Anche i giocatori nazionali sono interessati all'interazione antropomorfa dell'IA multimodale.

2024-07-31

Macchina Cuore Originale

Autore: Du Wei

Quanto è avanzata oggi l’intelligenza artificiale nell’identificazione delle emozioni umane? All'inizio di questo mese si è conclusa una competizione di alto profilo che sfidava un'IA più emotiva!

Questo èLa seconda sfida multimodale di riconoscimento delle emozioni (MER24), è stato sponsorizzato congiuntamente dal professor Tao Jianhua dell'Università di Tsinghua, Lian Zheng dell'Istituto di automazione dell'Accademia cinese delle scienze, Björn W. Schuller dell'Imperial College, Zhao Guoying dell'Università di Oulu ed Erik Cambra della Nanyang Technological University alla conferenza IJCAI2024 sull'intelligenza artificiale per esplorare come utilizzare il testo, utilizzare dati multimodali come audio e video per eseguire il riconoscimento delle emozioni dell'intelligenza artificiale e promuovere l'applicazione delle tecnologie correlate in scenari reali di interazione uomo-computer.

Sito ufficiale del concorso: https://zeroqiaoba.github.io/MER2024-website/#organization

Questa sfida ha un totale di tre percorsi, vale a dire Semi (percorso di apprendimento semi-supervisionato), Noise (percorso di robustezza del rumore) e Ov (percorso di riconoscimento delle emozioni del vocabolario aperto), tra cuiLa pista Semi ha il maggior numero di squadre partecipanti, è la più difficile e prevede la competizione più intensa.。

Prendendo come esempio il percorso Semi, i team partecipanti devono utilizzare una piccola quantità di dati video etichettati e una grande quantità di dati video senza etichetta per addestrare i propri modelli e valutare le prestazioni del modello e la capacità di generalizzazione sul set di dati senza etichetta. La chiave per vincere questo percorso è migliorare le prestazioni di riconoscimento delle emozioni del modello migliorando la tecnologia di apprendimento semi-supervisionato, come l’accuratezza della previsione delle categorie di emozioni.

Dal lancio della competizione a maggio, nell'arco di due mesi, hanno gareggiato quasi un centinaio di squadre provenienti da tutto il mondo, tra cui rinomate università e aziende innovative.InIl primo posto nella classifica Semi è stato vinto dalla piattaforma social Soul App, il suo team dedicato alla tecnologia vocale si è distinto grazie alle sue soluzioni tecniche fattibili e innovative.

Tuttavia, prima di rivelare la soluzione tecnica del team Soul, dobbiamo prima comprendere le capacità di riconoscimento delle emozioni dell’intelligenza artificiale in molteplici modalità.

Il prossimo passo nell’interazione uomo-computer

Lascia che l’IA comprenda le emozioni

L'intelligenza artificiale di oggi sembra essere onnipotente, compresa la comunicazione conversazionale, la generazione di immagini o video, la risoluzione di problemi matematici, ecc. È in grado di svolgere compiti a diversi livelli come percezione, apprendimento, ragionamento e processo decisionale. Grazie alla benedizione di modelli di grandi dimensioni, si può dire che l’intelligenza artificiale sia abbastanza intelligente, ma manca di aspetti emotivi come l’empatia.

Nell’interazione uomo-computer, gli utenti a volte non solo hanno bisogno dell’intelligenza artificiale per seguire istruzioni e completare compiti, ma hanno anche bisogno che fornisca un valore emotivo sufficiente per soddisfare i bisogni emotivi. Dalle “competenze di base” funzionali alle “competenze avanzate” emotive, le competenze che l’intelligenza artificiale deve padroneggiare devono essere potenziate.

Pertanto, il riconoscimento multimodale delle emozioni è diventato un argomento di ricerca attivo nel campo dell’intelligenza artificiale. L’intelligenza artificiale in grado di leggere e trasmettere emozioni è diventata un nuovo tema caldo nel settore ed è considerata il prossimo importante passo avanti nel campo dell’intelligenza artificiale. Negli ultimi sei mesi, alcune startup di intelligenza artificiale e giganti del settore hanno svelato per noi nuove forme di interazione immersiva uomo-macchina.

All’inizio di aprile, Hume AI, una startup straniera, ha rilasciato un robot per la conversazione vocale, l’Empathetic Voice Interface (EVI), che analizza e identifica il tono e l’emozione dell’interlocutore attraverso la comunicazione vocale e può rilevare fino a 53 emozioni. Inoltre, può simulare diversi stati emotivi, rendendo l'interazione più vicina a quella delle persone reali. Le scoperte a livello emotivo dell’intelligenza artificiale hanno inoltre consentito alla startup di ricevere rapidamente 50 milioni di dollari in finanziamenti di serie B.

Successivamente, OpenAI ha fatto un grande passo. Il modello di punta GPT-4o ha dimostrato le funzioni di chiamata audio e video in tempo reale e ha risposto immediatamente alle emozioni e al tono dell'utente. Si chiama la versione ChatGPT "Her". utenti nel prossimo futuro. Da allora, l’intelligenza artificiale ha sviluppato una potente eloquenza e la capacità di percepire le emozioni, facendo sì che la gente lo definisse l’arrivo dell’era della fantascienza.

Anche aziende nazionali come Microsoft Xiaoice e Lingxin Intelligence sono impegnate nella creazione di prodotti di intelligenza artificiale emotiva. Possiamo vedere una tendenza: le capacità di riconoscimento delle emozioni stanno diventando sempre più coinvolte nelle applicazioni IA multimodali come testo, audio e video. Tuttavia, se vogliamo andare oltre nel campo del riconoscimento emozionale antropomorfo, dobbiamo ancora risolvere problemi come la scarsità di dati etichettati e l’instabilità e l’imprecisione del riconoscimento soggettivo delle emozioni.

Pertanto, è diventato particolarmente necessario promuovere la comunità accademica e l’industria a prestare maggiore attenzione al campo del riconoscimento emozionale multimodale e ad accelerare l’innovazione e il progresso delle tecnologie correlate. Attualmente, le principali conferenze accademiche sull'intelligenza artificiale come ACM MM e AAAI considerano l'informatica affettiva un importante argomento di ricerca. Anche le principali conferenze come CVPR e ACL hanno affrontato sfide legate all'informatica affettiva. Soprattutto di fronte all’avvento dell’era dei big data e dei grandi modelli, come utilizzare una grande quantità di dati non etichettati ed elaborare e integrare in modo efficace diverse informazioni modali nel riconoscimento delle emozioni multimodali è una delle principali sfide attualmente affrontate dal settore. Si è tenuta questa sfida MER24. Questo è anche il motivo e il significato di.

Il team Soul ha vinto il primo posto nel percorso Semi. Dietro di esso c'è la sua capacità di accumulo e innovazione nella comprensione dei dati multimodali, algoritmi di riconoscimento delle emozioni, strumenti della piattaforma di ottimizzazione dei modelli, costruzione del flusso di lavoro interno, ecc., nonché l'efficiente collaborazione del gruppo. team tecnico.

Ha vinto il primo posto sulla pista più difficile

Cosa ha fatto il team Soul?

Dato che viene detto che il percorso Semi è il più difficile, quali sono gli aspetti difficili? E come ha fatto il Team Soul ad arrivare al primo posto? Guardiamo in basso.

I dati sono uno dei tre elementi principali dell’intelligenza artificiale. Senza una formazione dei dati sufficiente e soprattutto di alta qualità, il modello non può garantire buone prestazioni. Di fronte alle varie sfide derivanti dalla scarsità di dati, l’industria deve non solo espandere tutti i tipi di dati, compresi quelli generati dall’intelligenza artificiale, ma anche concentrarsi sul miglioramento delle capacità di generalizzazione dei modelli in scenari di dati sparsi. Lo stesso vale per le attività di riconoscimento delle emozioni multimodali. Il suo nucleo risiede nel supporto di enormi dati di etichette. Diversi tipi di contenuti come testo, audio e video possono essere etichettati con emozioni come gioia, rabbia, dolore, gioia e tristezza. La realtà è che i dati etichettati emotivamente su Internet sono molto scarsi.

La pista semi di questa competizioneVengono forniti solo 5030 dati etichettati e i restanti 115595 dati non etichettati. . Pertanto, la scarsità di dati etichettati è diventata il primo problema riscontrato da tutti i team partecipanti, compreso il team Soul.

Fonte immagine: documento di base MER24: https://arxiv.org/pdf/2404.17113

D'altra parte, rispetto ai percorsi Noise e Ov, il percorso Semi si concentra sul test delle principali tecnologie di backbone, prestando cioè maggiore attenzione alla selezione dell'architettura del modello e alle capacità di generalizzazione dell'estrazione delle caratteristiche, e all'accumulo e all'innovazione di multi- tecnologia del modello modale di grandi dimensioni. I requisiti sessuali sono relativamente elevati.

In considerazione delle caratteristiche del tracciato con meno dati di etichetta e elevati requisiti tecnici, il team Soul ha effettuato sufficienti preparativi pre-gara sulla base di alcuni moduli del modello di grandi dimensioni auto-sviluppato accumulati in precedenza e ha determinato una serie di soluzioni tecniche innovative fattibili. L'idea generale è quella di adottare la strategia di "prima corpo principale e poi messa a punto", concentrandosi prima sul miglioramento della generalizzazione di ciascun modello di estrazione delle caratteristiche principali, e poi integrandoli insieme durante il processo di implementazione specifico, i seguenti aspetti del lavoro; sono state fatte. Questi costituiscono i loro punti di forza principali.

Innanzitutto, concentrati sull’estrazione delle funzionalità multimodali nella fase iniziale. Nell'architettura del modello end-to-end, i modelli pre-addestrati vengono utilizzati per estrarre rappresentazioni emotive in diverse modalità di testo, discorso e visione, prestando attenzione ai punti in comune e alle differenze nelle emozioni, migliorando così l'effetto di riconoscimento delle emozioni. Successivamente, viene proposto un metodo di fusione efficace basato sulle caratteristiche di ciascuna modalità di più modalità e questi moduli vengono fusi per formare un'architettura modello. Al fine di migliorare le prestazioni di generalizzazione del modello pre-addestrato, il team Soul ha proposto per la prima volta EmoVCLIP nel campo del riconoscimento delle emozioni specificamente per le modalità video. EmoVCLIP è un modello basato sul modello CLIP di grandi dimensioni combinato con la tecnologia di apprendimento rapido migliori prestazioni di generalizzazione nel campo del riconoscimento delle emozioni video.

Inoltre, al fine di migliorare le capacità di riconoscimento delle emozioni delle modalità di testo, il team Soul utilizza GPT-4 per creare pseudo-etichette emotive per le modalità di testo, sfruttando appieno le capacità di attenzione emotiva di GPT-4 per migliorare l'accuratezza del riconoscimento delle emozioni in modalità testuali, per il futuro Sono state gettate basi migliori per un'ulteriore fusione modale.

In secondo luogo, in termini di fusione di funzionalità multimodali, il team Soul ha utilizzato per la prima volta la strategia Modality Dropout nella direzione del riconoscimento emozionale multimodale e ha studiato l'impatto sulle prestazioni di diversi tassi di abbandono al fine di alleviare il problema della concorrenza tra modalità, durante il processo di training del modello Sopprimi in modo casuale una determinata modalità (modalità testo, parlato o video) per ottenere una maggiore robustezza e migliorare la capacità di generalizzazione del modello su dati invisibili oltre i dati etichettati forniti.

Infine, entra in gioco la tecnologia di apprendimento semi-supervisionato. L'idea di base è quella di utilizzare dati etichettati per addestrare un modello, quindi prevedere i dati senza etichetta e generare pseudo etichette per i dati senza etichetta in base ai risultati della previsione. Queste pseudo-etichette vengono utilizzate per addestrare il modello e migliorarne continuamente l'effetto. Il team Soul ha utilizzato la strategia di auto-addestramento nell'apprendimento semi-supervisionato per aggiungere ciclicamente pseudo-etichette a più di 110.000 dati senza etichetta sulla traccia Semi e aggiungerli al set di addestramento, e ha aggiornato iterativamente il modello per ottenere il modello finale.

Il piano tecnico del Soul Team per la competizione.

Dall'idea generale alla fusione di funzionalità multimodali, all'apprendimento contrastivo e all'autoapprendimento dei dati senza etichetta, le soluzioni tecniche del team Soul hanno portato buoni risultati.FinalmenteIn termini di accuratezza del riconoscimento emozionale multimodale nella voce, nella visione e nel testo, il sistema proposto dal team Soul è migliorato del 3,7% rispetto al sistema di base, raggiungendo oltre il 90% . Allo stesso tempo, il Soul Team può anche distinguere meglio le emozioni che hanno confini confusi nel campo del riconoscimento delle emozioni (come preoccupazione e preoccupazione).

Fonte immagine: documento di base MER24: https://arxiv.org/pdf/2404.17113

Da una prospettiva più profonda, il successo del team Soul nella MER24 Challenge è un'espressione concentrata della sua profonda coltivazione della tecnologia dei grandi modelli di intelligenza artificiale nel campo sociale, in particolare delle sue capacità di interazione emotiva multimodale.

Interazione antropomorfa multimodale innovativa

L’intelligenza artificiale sociale è il livello successivo

Il campo sociale richiede naturalmente l’intelligenza artificiale con le emozioni. Una visione tradizionale sostiene che l’essenza dell’interazione sociale è lo scambio di valori emotivi e le emozioni sono diverse. Ciò significa che se l’intelligenza artificiale vuole integrarsi perfettamente nelle scene sociali e funzionare in modo efficiente, deve fornire un ricco feedback emotivo ed esperienza come le persone reali.

La base per realizzare un’intelligenza artificiale empatica è possedere potenti capacità di riconoscimento delle emozioni multimodali e evolversi da un semplice “esecutore di compiti” a un “compagno che soddisfa i bisogni emotivi umani”. Tuttavia, è ancora molto difficile per l’intelligenza artificiale comprendere efficacemente le emozioni, poiché è fondamentalmente diversa dagli esseri umani in termini di comprensione del contesto, percezione delle emozioni degli utenti, feedback emotivo e pensiero. Pertanto, l’innovazione continua delle tecnologie e degli algoritmi correlati è importante.

Per Soul, che è radicato nel campo sociale, concentrarsi sulla costruzione di un’intelligenza artificiale con capacità emotive è diventata una proposta importante che deve essere presa in considerazione. Quando è stata lanciata nel 2016, Soul ha pensato per la prima volta a come utilizzare tecnologie e prodotti innovativi per soddisfare meglio le esigenze degli utenti. L'introduzione dell'intelligenza artificiale per risolvere la necessità delle persone di connettersi è diventata la chiave per il suo punto d'appoggio nel campo sociale e il suo sviluppo. Il "Lingxi Engine" lanciato in precedenza utilizza algoritmi di raccomandazione intelligenti per estrarre e analizzare le mappe degli interessi degli utenti e le funzionalità di tutti gli scenari sul sito, rendendo loro più facile trovare le persone con cui possono chattare e il contenuto di cui hanno più bisogno, formando un ecologia degli utenti e dei contenuti altamente appiccicosa. Finora, gli scenari di abbinamento in cui viene applicato questo algoritmo più "intelligente" sono anche una delle funzionalità molto attive degli utenti Soul.

Con l'esperienza di successo delle prime interazioni sociali assistite dall'intelligenza artificiale, in questa ondata tecnologica di rapido sviluppo di modelli di grandi dimensioni, Soul esplora ulteriormente nuove possibilità di interazione uomo-computer basate sul coinvolgimento dell'intelligenza artificiale nell'interazione sociale e nelle reti di relazioni assistite.

Dal lancio della ricerca e dello sviluppo di algoritmi relativi all'AIGC nel 2020, Soul ha preso la multimodalità come direzione e ha accumulato capacità all'avanguardia nel dialogo intelligente, nella generazione di immagini, nella generazione di voce e musica, ecc.Rispetto alle nuove forze imprenditoriali basate sull’intelligenza artificiale puramente orientate alla tecnologia, una caratteristica importante di Soul è l’adozione di una strategia “modello-risposta integrata” per promuovere contemporaneamente modelli di grandi dimensioni e applicazioni AIGC sul lato C.Concentrati sulla creazione di un'intelligenza artificiale con capacità di riconoscimento delle emozioni per ottenere davvero un feedback caloroso in ricchi scenari di interazione antropomorfa。

Si può vedere dalle azioni di Soul negli ultimi due anni che ha accelerato il ritmo dell'AIGC dando potere agli scenari sociali. Nel 2023 verrà lanciato Soul X, un grande modello linguistico autosviluppato, che diventerà un'importante infrastruttura per il layout sociale AIGC+. Con la guida rapida del modello, la generazione controllabile condizionale, la comprensione del contesto, la comprensione multimodale e altre funzionalità, il dialogo sul posto non è solo fluido e naturale, ma ha anche calore emotivo.

Il testo è diventato il primo passo nell'implementazione delle capacità di riconoscimento delle emozioni dell'Anima e si è gradualmente esteso da una singola modalità a più modalità. Quest'anno, Soul ha lanciato un modello di generazione del parlato di grandi dimensioni e ha aggiornato ufficialmente il modello di parlato di grandi dimensioni auto-sviluppato, coprendo la generazione del parlato, il riconoscimento vocale, il dialogo vocale, la generazione di musica e altre suddivisioni. Supporta anche la generazione di toni reali, il fai-da-te vocale e altre funzioni avere capacità di dialogo in tempo reale immersive multi-emotive.

Naturalmente, oltre ai continui sforzi di Soul per sviluppare un'intelligenza artificiale più emotiva a livello di modello, li ha anche utilizzati nei diversi scenari sociali della sua piattaforma per arricchire e migliorare ulteriormente l'esperienza interattiva dell'intelligenza artificiale degli utenti.

Prendiamo ad esempio il robot dialogante antropomorfo di Soul "AI Goudan". Si basa sul grande modello linguistico autosviluppato di Soul. Durante diversi cicli di comunicazione, abbiamo inviato loro assistenza in modo proattivo in base alla scena della conversazione, come se fossero una persona reale. l'altro capo della conversazione. Allo stesso tempo, gli utenti possono anche personalizzare le proprie uova e sperimentare un'interazione umana virtuale unica.

AI Goudan ha anche dimostrato le sue capacità di integrazione nell'antropomorfismo, nella conoscenza, nella multimodalità, nella percezione del tempo e in altri aspetti. Molti utenti sul sito Soul si sono meravigliati delle sue potenti capacità di interazione antropomorfica. Questo è il motivo per cui ci sono molti utenti sulla piattaforma Soul prendi l'iniziativa di postare e lamentarti: "Temo che Goudan non sia una persona reale".

Inoltre, anche Soul si affida a Soul. Non c'è alcun senso di disobbedienza nel discorso su Werewolf.

Un altro esempio è che Soul ha lanciato la sua prima nuova applicazione indipendente al di fuori del sito principale, "Echo of Another World". Essendo una piattaforma sociale AI, gli utenti possono impegnarsi in una comunicazione coinvolgente in tempo reale con personaggi umani virtuali in più scene e stili. Questi personaggi hanno tutti capacità di dialogo con immagini, voce e personalità. Naturalmente, gli utenti possono personalizzare i personaggi virtuali e le impostazioni personali (come esperienza di background, personalità, ecc.) in base alle loro preferenze, il che è molto giocabile.

Allo stesso modo, il grande modello vocale autosviluppato gioca un ruolo anche in scene come AI Goudan, Werewolf Phantom e Echoes of Another World. Ad esempio, la funzione di chiamata vocale è supportata in Echoes of Another World. I personaggi virtuali con voci reali possono comunicare con gli utenti in modo naturale e in tempo reale, arricchendo l'esperienza interattiva.

Funzione di chiamata vocale in tempo reale "Echo from Another World".

Oltre a continuare ad approfondire le interazioni antropomorfe dell'IA in scenari sociali come dialoghi intelligenti, giochi e voce, Soul sta anche sviluppando la capacità di generare diversi stili di pittura in linea con la propria estetica nel campo della generazione visiva, creando avatar digitali AI. e l'ulteriore spostamento verso un'esperienza globale multidimensionale.

Si può vedere che il layout di Soul nel campo del riconoscimento delle emozioni dell'intelligenza artificiale ha coperto multimodalità linguistiche, vocali e visive, lavorando insieme in testo, immagini, scene audio e video che sono strettamente correlate all'interazione sociale, consentendo agli utenti di interagire in un interazione uomo-computer tridimensionale e multisensoriale. Sperimenta l'intelligenza artificiale calda durante l'interazione.

Conclusione

Il 2024 è definito da molti operatori del settore il primo anno di applicazione dell'AIGC. L'attenzione di tutti non è più concentrata solo sui parametri e sulle capacità di base. Con la tendenza a passare dal livello del modello al livello dell’applicazione, solo essendo i primi a implementare l’intelligenza artificiale in campi e scenari verticali possiamo conquistare più utenti e mercati. Soprattutto per l'interazione uomo-computer per il binario del lato C, è più naturale concentrarsi sulle esigenze degli utenti. Ciò si riflette bene nel campo sociale.

In precedenza, molte app di appuntamenti come AlienChat erano state interrotte e l'argomento di discussione "Il primo gruppo di giovani che si innamorò dell'intelligenza artificiale si disinnamorò" divenne un argomento di ricerca caldo. Dietro a ciò, l'omogeneità funzionale è parte della ragione, ma anche perché l'esperienza non cambia dal ruolo di assistente/NPC a quello di compagno che fornisce veramente supporto emotivo. Ciò richiede l’arricchimento dei metodi e degli scenari di interazione uomo-computer nel campo sociale, consentendo all’intelligenza artificiale di partecipare pienamente a tutti i collegamenti sociali, comunicare profondamente con gli utenti e fornire loro valore emotivo.

Questo potrebbe anche essere uno dei prossimi punti competitivi fondamentali nella direzione sociale dell’IA. Non è difficile capire perché Soul, come livello di applicazione, pone così tanta enfasi sull'accumulo di capacità tecniche autosviluppate. Negli ultimi tempi, da un lato, si è impegnata a creare capacità di intelligenza artificiale personalizzate, antropomorfe e diversificate, dall'altro ha accelerato l'implementazione di applicazioni AI native da più dimensioni, incluso il miglioramento dell'esperienza sociale; Social networking AI, giochi AI, ecc., che formano Una catena completa di prodotti AI offre agli utenti il divertimento dell'interazione AI in vari scenari sociali.

Si può dire che negli ultimi anni, Soul ha dato vita a una serie di risultati di prodotto basati sui suoi grandi modelli linguistici e vocali autosviluppati e ha accumulato ricche tecnologie innovative ed esperienza pratica nel processo di miglioramento dell'esperienza di interazione emotiva tra intelligenza artificiale e intelligenza artificiale. utenti, che hanno contribuito al suo successo in MER24. La conquista del primo posto nella sfida ha aperto la strada alla competizione con team partecipanti di alta qualità provenienti da tutto il mondo.

Negli ultimi anni ci sono state sempre più sfide di questo tipo, come la NTIRE 2024 AIGC Quality Evaluation Challenge al workshop CVPR 2024 e le due MER Challenge consecutive nel 2023 e nel 2024. Le aziende nazionali hanno ripetutamente ottenuto buoni risultati facendo affidamento sulla tecnologia accumulato in pratica. Ad esempio, SenseTime, che si è classificata al primo posto nel MER23 lo scorso anno, e Soul, che si è classificata al primo posto quest’anno, hanno ottenuto risultati notevoli nella loro attenzione e investimenti nella tecnologia e nelle applicazioni AIGC.

È prevedibile che in futuro piattaforme come Soul che insistono sull'innovazione tecnologica e di prodotto continueranno a creare valore per gli utenti nel processo di rilascio delle capacità dell'intelligenza artificiale. Solo in questo modo potranno ottenere contenuti più duraturi e più sostenibili e un'ecologia della comunità. valore aziendale diversificato.

notizia

Non concentrarti solo sulla versione ChatGPT di Her. Anche i giocatori nazionali sono interessati all'interazione antropomorfa dell'IA multimodale.

introduzione

le mie informazioni di contatto