Ne vous concentrez pas uniquement sur la version ChatGPT de Her, les acteurs nationaux s'intéressent également à l'interaction anthropomorphique de l'IA multimodale.

Ne vous concentrez pas uniquement sur la version ChatGPT de Her. Les joueurs nationaux sont également intéressés par l’interaction anthropomorphique multimodale de l’IA.

2024-07-31

Coeur de machine original

Auteur : Du Wei

Dans quelle mesure l’IA est-elle aujourd’hui avancée dans l’identification des émotions humaines ? Au début de ce mois, une compétition très médiatisée mettant au défi une IA plus émotionnelle a pris fin !

C'estLe 2ème Challenge Multimodal de Reconnaissance des Émotions (MER24), il a été parrainé conjointement par le professeur Tao Jianhua de l'Université Tsinghua, Lian Zheng de l'Institut d'automatisation de l'Académie chinoise des sciences, Björn W. Schuller de l'Imperial College, Zhao Guoying de l'Université d'Oulu et Erik Cambra de l'Université technologique de Nanyang. à la conférence sur l'IA IJCAI2024 pour explorer comment utiliser le texte, utiliser des données multimodales telles que l'audio et la vidéo pour effectuer la reconnaissance des émotions par l'IA et promouvoir l'application des technologies associées dans de véritables scénarios d'interaction homme-machine.

Site officiel du concours : https://zeroqiaoba.github.io/MER2024-website/#organization

Ce défi comporte au total trois parcours, à savoir Semi (parcours d'apprentissage semi-supervisé), Noise (parcours de robustesse au bruit) et Ov (parcours de reconnaissance des émotions de vocabulaire ouvert), parmi lesquelsLe semi-piste compte le plus grand nombre d’équipes participantes, est le plus difficile et présente la compétition la plus intense.。

En prenant la piste Semi comme exemple, les équipes participantes doivent utiliser une petite quantité de données vidéo étiquetées et une grande quantité de données vidéo non étiquetées pour former leurs propres modèles, et évaluer les performances et la capacité de généralisation du modèle sur l'ensemble de données non étiquetées. La clé pour remporter cette piste est d'améliorer les performances de reconnaissance des émotions du modèle en améliorant la technologie d'apprentissage semi-supervisé, telle que la précision de la prédiction des catégories d'émotions.

Depuis le lancement du concours en mai, en deux mois, près d'une centaine d'équipes du monde entier se sont affrontées, parmi lesquelles des universités de renom et des entreprises innovantes.dansLa première place dans la piste Semi a été remportée par la plateforme sociale Soul App, son équipe de technologie vocale s'est imposée grâce à ses solutions techniques réalisables et innovantes.

Cependant, avant de révéler la solution technique de l’équipe Soul, nous devons d’abord comprendre les capacités de reconnaissance des émotions de l’IA dans de multiples modalités.

La prochaine étape de l'interaction homme-machine

Laissez l’IA comprendre les émotions

L'IA d'aujourd'hui semble être toute-puissante, y compris la communication conversationnelle, la génération d'images ou de vidéos, la résolution de problèmes mathématiques, etc. Elle est capable d'accomplir des tâches à différents niveaux tels que la perception, l'apprentissage, le raisonnement et la prise de décision. Grâce à la bénédiction des grands modèles, l’IA peut être considérée comme suffisamment intelligente, mais elle manque d’aspects émotionnels tels que l’empathie.

Dans l’interaction homme-machine, les utilisateurs ont parfois non seulement besoin de l’IA pour suivre des instructions et accomplir des tâches, mais ils ont également besoin qu’elle fournisse une valeur émotionnelle suffisante pour satisfaire leurs besoins émotionnels. Des « compétences de base » fonctionnelles aux « compétences avancées » émotionnelles, les compétences que l'IA doit maîtriser doivent être améliorées.

La reconnaissance multimodale des émotions est donc devenue un sujet de recherche actif dans le domaine de l’IA. L’IA capable de lire et de transmettre des émotions est devenue un nouveau sujet brûlant dans l’industrie et est considérée comme la prochaine avancée majeure dans le domaine de l’IA. Au cours des six derniers mois, certaines startups de l’IA et géants de l’industrie ont dévoilé pour nous de nouvelles formes d’interaction immersive homme-machine.

Début avril, Hume AI, une startup étrangère, a lancé un robot de conversation vocale, l'Empathetic Voice Interface (EVI), qui analyse et identifie le ton et l'émotion de l'interlocuteur grâce à la communication vocale, et peut détecter jusqu'à 53 émotions. De plus, il peut simuler différents états émotionnels, rendant l’interaction plus proche des personnes réelles. Les percées au niveau émotionnel de l’IA ont également permis à la startup de recevoir rapidement 50 millions de dollars en financement de série B.

Ensuite, OpenAI a fait un grand pas en avant. Le modèle phare GPT-4o a démontré des fonctions d'appel audio et vidéo en temps réel et a répondu instantanément aux émotions et au ton de l'utilisateur. Il s'appelle la version ChatGPT "Her". utilisateurs dans un avenir proche. Depuis lors, l’IA a développé une puissante éloquence et la capacité de percevoir les émotions, ce qui fait que les gens l’appellent l’arrivée de l’ère de la science-fiction.

Des entreprises nationales telles que Microsoft Xiaoice et Lingxin Intelligence s'engagent également à créer des produits d'IA émotionnelle. Nous observons une tendance : les capacités de reconnaissance des émotions sont de plus en plus impliquées dans les applications d’IA multimodales telles que le texte, l’audio et la vidéo. Cependant, si nous voulons aller plus loin dans le domaine de la reconnaissance anthropomorphique des émotions, nous devons encore résoudre des problèmes tels que la rareté des données étiquetées et l’instabilité et l’imprécision de la reconnaissance subjective des émotions.

Par conséquent, il est devenu particulièrement nécessaire d’inciter la communauté universitaire et l’industrie à accorder davantage d’attention au domaine de la reconnaissance multimodale des émotions et à accélérer l’innovation et les progrès des technologies associées. Actuellement, les principales conférences universitaires sur l'IA telles que ACM MM et AAAI considèrent toutes l'informatique affective comme un sujet de recherche important, telles que CVPR et ACL, qui ont également abordé des défis liés à l'informatique affective. Face à l’avènement de l’ère du Big Data et des Big Models, comment utiliser une grande quantité de données non étiquetées et traiter et intégrer efficacement différentes informations modales dans la reconnaissance multimodale des émotions constitue un défi majeur auquel l’industrie est actuellement confrontée. Ce Challenge MER24 a eu lieu. C'est aussi la raison et l'importance de.

L'équipe Soul a remporté la première place dans la piste Semi. Derrière cela se cachent ses capacités d'accumulation et d'innovation dans la compréhension des données multimodales, les algorithmes de reconnaissance des émotions, les outils de plateforme d'optimisation de modèles, la construction de flux de travail internes, etc., ainsi que la collaboration efficace des équipes. équipe technique.

A remporté la première place sur la piste la plus difficile

Qu'a fait l'équipe Soul ?

Puisqu’il est mentionné que la piste Semi est la plus difficile, quels sont les aspects difficiles ? Et comment Team Soul a-t-elle obtenu la première place ? Regardons en bas.

Les données sont l’un des trois éléments majeurs de l’IA. Sans une formation suffisante et de haute qualité sur les données, le modèle ne peut garantir de bonnes performances. Face aux divers défis posés par la rareté des données, l'industrie doit non seulement développer tous les types de données, y compris les données générées par l'IA, mais également se concentrer sur l'amélioration des capacités de généralisation des modèles dans des scénarios de données clairsemées. Il en va de même pour les tâches de reconnaissance d'émotions multimodales. Son cœur réside dans la prise en charge de données d'étiquettes massives, tels que le texte, l'audio et la vidéo, qui peuvent être étiquetées avec des émotions telles que la joie, la colère, le chagrin et la joie. chagrin. La réalité est que les données émotionnellement étiquetées sur Internet sont très rares.

Le Semi piste de cette compétitionSeuls 5 030 éléments de données étiquetés sont fournis, et les 115 595 éléments restants sont des données non étiquetées. . Par conséquent, la rareté des données étiquetées est devenue le premier problème rencontré par toutes les équipes participantes, y compris l'équipe Soul.

Source de l'image : document de référence MER24 : https://arxiv.org/pdf/2404.17113

D'autre part, par rapport aux pistes Noise et Ov, la piste Semi se concentre sur le test des technologies de base, c'est-à-dire en accordant plus d'attention à la sélection de l'architecture du modèle et aux capacités de généralisation de l'extraction de fonctionnalités, ainsi qu'à l'accumulation et à l'innovation de multi- technologie modale de grand modèle. Les exigences sexuelles sont relativement élevées.

Compte tenu des caractéristiques de la piste avec moins de données d'étiquette et des exigences techniques élevées, l'équipe Soul a effectué des préparatifs d'avant-course suffisants sur la base de certains modules du grand modèle auto-développé accumulé précédemment et a déterminé un ensemble de solutions techniques innovantes réalisables. L'idée générale est d'adopter la stratégie « d'abord le corps principal, puis le réglage fin », en se concentrant d'abord sur l'amélioration de la généralisation de chaque modèle d'extraction de fonctionnalités de base, puis en les intégrant ensemble au cours du processus de mise en œuvre spécifique, les aspects de travail suivants ; avaient fini. Ce sont là leurs principaux atouts.

Tout d’abord, concentrez-vous sur l’extraction de fonctionnalités multimodales dès le début. Dans l'architecture de modèle de bout en bout, des modèles pré-entraînés sont utilisés pour extraire des représentations émotionnelles dans différentes modalités de texte, de parole et de vision, en prêtant attention aux points communs et aux différences d'émotions, améliorant ainsi l'effet de reconnaissance des émotions. Plus tard, une méthode de fusion efficace est proposée sur la base des caractéristiques de chaque modalité de plusieurs modalités, et ces modules sont fusionnés pour former une architecture modèle. Afin d'améliorer les performances de généralisation du modèle pré-entraîné, l'équipe Soul a proposé pour la première fois EmoVCLIP dans le domaine de la reconnaissance des émotions spécifiquement pour les modalités vidéo. EmoVCLIP est un modèle basé sur un grand modèle CLIP combiné à une technologie d'apprentissage rapide. de meilleures performances de généralisation dans le domaine de la reconnaissance vidéo des émotions.

De plus, afin d'améliorer les capacités de reconnaissance des émotions des modalités textuelles, l'équipe Soul utilise GPT-4 pour créer des pseudo-étiquettes émotionnelles pour les modalités textuelles, en utilisant pleinement les capacités d'attention émotionnelle de GPT-4 pour améliorer la précision de la reconnaissance des émotions dans modalités de texte, pour l'avenir Une meilleure base a été posée pour une fusion modale plus poussée.

Deuxièmement, en termes de fusion de fonctionnalités multimodales, l'équipe Soul a utilisé pour la première fois la stratégie Modality Dropout dans le sens de la reconnaissance multimodale des émotions et a étudié l'impact sur les performances des différents taux d'abandon afin d'atténuer le problème de concurrence entre les deux. modalités, pendant le processus de formation du modèle Supprimez aléatoirement une certaine modalité (modalité texte, parole ou vidéo) pour obtenir une meilleure robustesse et améliorer la capacité de généralisation du modèle sur des données invisibles au-delà des données étiquetées fournies.

Enfin, la technologie d'apprentissage semi-supervisé entre en jeu. L'idée de base est d'utiliser des données étiquetées pour former un modèle, puis de prédire les données non étiquetées et de générer des pseudo-étiquettes pour les données non étiquetées en fonction des résultats de la prédiction. Ces pseudo-étiquettes sont utilisées pour entraîner le modèle et améliorer continuellement l'effet du modèle. L'équipe Soul a utilisé la stratégie d'auto-formation dans l'apprentissage semi-supervisé pour ajouter cycliquement des pseudo-étiquettes à plus de 110 000 données non étiquetées sur la piste Semi et les ajouter à l'ensemble d'entraînement, et a mis à jour le modèle de manière itérative pour obtenir le modèle final.

Plan technique de l’équipe Soul pour la compétition.

De l'idée globale à la fusion de fonctionnalités multimodales, en passant par l'apprentissage contrastif et l'auto-formation sur les données non étiquetées, les solutions techniques de l'équipe Soul leur ont apporté de bons résultats.enfinEn termes de précision de reconnaissance multimodale des émotions dans la voix, la vision et le texte, le système proposé par l'équipe Soul s'est amélioré de 3,7 % par rapport au système de base, atteignant plus de 90 % . Dans le même temps, l'équipe Soul peut également mieux distinguer les émotions qui ont des frontières confuses dans le domaine de la reconnaissance des émotions (telles que l'inquiétude et l'inquiétude).

Source de l'image : document de référence MER24 : https://arxiv.org/pdf/2404.17113

D'un point de vue plus profond, le succès de l'équipe Soul dans le défi MER24 est une expression concentrée de sa profonde culture de la technologie des grands modèles d'IA dans le domaine social, en particulier de ses capacités d'interaction émotionnelle multimodale.

Interaction anthropomorphique multimodale innovante

L'IA sociale est le prochain niveau

Le domaine social nécessite naturellement une IA avec des émotions. Une vision dominante soutient que l’essence de l’interaction sociale est l’échange de valeurs émotionnelles et que les émotions sont diverses. Cela signifie que si l’IA veut s’intégrer de manière transparente dans les scènes sociales et fonctionner efficacement, elle doit fournir un retour émotionnel riche et une expérience comme de vraies personnes.

La base pour réaliser une IA empathique est de disposer de puissantes capacités de reconnaissance multimodale des émotions et d'évoluer d'un simple « exécutant de tâches » à un « compagnon qui répond aux besoins émotionnels humains ». Cependant, il est encore très difficile pour l’IA de comprendre efficacement les émotions. Elle est fondamentalement différente des humains en termes de compréhension du contexte, de détection des émotions des utilisateurs, de retour émotionnel et de réflexion. Par conséquent, l’innovation continue des technologies et des algorithmes associés est importante.

Pour Soul, qui est enracinée dans le domaine social, se concentrer sur la construction d’une IA dotée de capacités émotionnelles est devenu une proposition importante qui doit être prise en compte. Lors de son lancement en 2016, Soul a d'abord réfléchi à la manière d'utiliser des technologies et des produits innovants pour mieux répondre aux besoins des utilisateurs. L'introduction de l'IA pour répondre au besoin de connexion des personnes est devenue la clé de son implantation dans le domaine social et de son développement. Le "Lingxi Engine", lancé précédemment, utilise des algorithmes de recommandation intelligents pour extraire et analyser les cartes d'intérêt des utilisateurs et les fonctionnalités tous scénarios sur le site, ce qui leur permet de trouver plus facilement les personnes avec lesquelles ils peuvent discuter et le contenu dont ils ont davantage besoin, formant ainsi un une écologie d’utilisateur et de contenu très collante. Jusqu'à présent, les scénarios de correspondance dans lesquels cet algorithme plus "intelligent" est appliqué sont également l'une des fonctionnalités les plus actives des utilisateurs de Soul.

Fort de l'expérience réussie des premières interactions sociales assistées par l'IA, dans cette vague technologique de développement rapide de grands modèles, Soul explore davantage de nouvelles possibilités d'interaction homme-machine basées sur l'implication de l'IA dans l'interaction sociale et les réseaux de relations assistées.

Depuis le lancement de la recherche et du développement d'algorithmes liés à l'AIGC en 2020, Soul a pris la multimodalité comme direction et a accumulé des capacités de pointe en matière de dialogue intelligent, de génération d'images, de génération de voix et de musique, etc.Par rapport aux nouvelles forces entrepreneuriales de l'IA purement orientées vers la technologie, une caractéristique majeure de Soul est l'adoption d'une stratégie de « modèle-réponse-intégrée » pour promouvoir simultanément les grands modèles et les applications AIGC du côté C.Concentrez-vous sur la création d'une IA dotée de capacités de reconnaissance des émotions afin d'obtenir un retour véritablement chaleureux dans de riches scénarios d'interaction anthropomorphique.。

Il ressort des actions de Soul au cours des deux dernières années qu'elle a accéléré le rythme des scénarios sociaux d'autonomisation de l'AIGC. En 2023, Soul X, un grand modèle de langage auto-développé, sera lancé, devenant une infrastructure importante pour la mise en page sociale AIGC +. Grâce au lecteur Prompt du modèle, à la génération contrôlable conditionnelle, à la compréhension du contexte, à la compréhension multimodale et à d'autres capacités, le dialogue sur site est non seulement fluide et naturel, mais il dégage également une chaleur émotionnelle.

Le texte est devenu la première étape dans la mise en œuvre des capacités de reconnaissance des émotions de Soul, et il s'est progressivement étendu d'une modalité unique à plusieurs modalités. Cette année, Soul a lancé un grand modèle de génération vocale et a officiellement mis à niveau le grand modèle vocal auto-développé, couvrant la génération vocale, la reconnaissance vocale, le dialogue vocal, la génération de musique et d'autres subdivisions. Il prend en charge la génération de sons réels, le bricolage vocal et d'autres fonctions tout en prenant également en charge. avoir des capacités de dialogue immersif multi-émotionnel en temps réel.

Bien entendu, en plus des efforts continus de Soul pour développer une IA plus émotionnelle au niveau des modèles, elle les a également utilisés dans les divers scénarios sociaux de sa plate-forme pour enrichir et améliorer davantage l'expérience interactive de l'IA des utilisateurs.

Prenons l'exemple du robot de dialogue anthropomorphe "AI Goudan" de Soul. Il s'appuie sur le grand modèle de langage Soul développé par Soul. Au cours de plusieurs cycles de communication, nous leur avons envoyé des soins de manière proactive en fonction de la scène de conversation, comme s'il s'agissait d'une personne réelle. l'autre bout de la conversation. Dans le même temps, les utilisateurs peuvent également personnaliser leurs propres œufs et vivre une interaction humaine virtuelle unique.

AI Goudan a également démontré ses capacités d'intégration en matière d'anthropomorphisme, de connaissance, de multimodalité, de perception du temps et d'autres aspects. De nombreux utilisateurs du site Soul se sont émerveillés devant ses puissantes capacités d'interaction anthropomorphique. prenez l'initiative de poster et de vous plaindre : "J'ai bien peur que Goudan ne soit pas une vraie personne."

De plus, Soul s'appuie également sur Soul. Il n'y a aucun sentiment de désobéissance dans le discours sur Werewolf.

Un autre exemple est que Soul a lancé sa première nouvelle application indépendante en dehors du site Web principal, "Echo of Another World". En tant que plate-forme sociale d'IA, les utilisateurs peuvent s'engager dans une communication immersive en temps réel avec des personnages humains virtuels dans plusieurs scènes et styles. Ces personnages ont tous des capacités de dialogue d'image, de voix et de personnalité. Bien entendu, les utilisateurs peuvent personnaliser les personnages virtuels et les paramètres personnels (tels que l'expérience d'arrière-plan, la personnalité, etc.) en fonction de leurs préférences, ce qui est très jouable.

De même, le grand modèle vocal auto-développé joue également un rôle dans des scènes telles que AI Goudan, Werewolf Phantom et Echoes of Another World. Par exemple, la fonction d'appel vocal est prise en charge dans Echoes of Another World. Les personnages virtuels dotés de voix réelles peuvent communiquer avec les utilisateurs de manière naturelle et en temps réel, enrichissant ainsi l'expérience interactive.

Fonction d'appel vocal en temps réel "Echo from Another World".

En plus de continuer à approfondir les interactions anthropomorphiques de l'IA dans des scénarios sociaux tels que les dialogues intelligents, les jeux et la voix, Soul développe également la capacité de générer divers styles de peinture en accord avec sa propre esthétique dans le domaine de la génération visuelle, en créant des avatars numériques IA. , et progresser vers une expérience d’interaction complète multidimensionnelle.

On peut voir que la disposition de Soul dans le domaine de la reconnaissance des émotions par l'IA a couvert les multimodalités linguistiques, vocales et visuelles, travaillant ensemble dans des scènes de texte, d'images, audio et vidéo étroitement liées à l'interaction sociale, permettant aux utilisateurs d'interagir de manière Interaction homme-machine tridimensionnelle et multisensorielle. Faites l'expérience d'une IA chaleureuse pendant l'interaction.

Conclusion

2024 est considérée par de nombreux acteurs de l'industrie comme la première année d'application de l'AIGC. L'attention de tous n'est plus uniquement portée sur les paramètres et les capacités de base. Avec la tendance à passer de la couche modèle à la couche application, ce n'est qu'en étant les premiers à mettre en œuvre l'IA dans des domaines et des scénarios verticaux que nous pourrons gagner plus d'utilisateurs et de marchés. En particulier pour l'interaction homme-machine pour la piste côté C, il est plus naturel de se concentrer sur les besoins des utilisateurs. Cela se reflète bien dans le domaine social.

Auparavant, de nombreuses applications de rencontres telles qu'AlienChat ont été abandonnées et le sujet de discussion « Le premier groupe de jeunes tombés amoureux de l'IA est tombé amoureux » est devenu un sujet de recherche brûlant. Derrière cela, l'homogénéité fonctionnelle est en partie responsable, mais aussi parce que l'expérience ne change pas du rôle d'assistant/PNJ à celui de compagnon qui apporte véritablement un soutien émotionnel. Cela nécessite d’enrichir les méthodes et les scénarios d’interaction homme-machine dans le domaine social, permettant à l’IA de participer pleinement à tous les liens sociaux, de communiquer en profondeur avec les utilisateurs et de leur apporter une valeur émotionnelle.

Cela pourrait également être l’un des prochains points de concurrence clés dans la direction sociale de l’IA. Il n'est pas difficile de comprendre pourquoi Soul, en tant que couche d'application, accorde autant d'importance à l'accumulation de capacités techniques auto-développées. Au cours de la dernière période, d'une part, elle s'est engagée à créer des capacités d'IA personnalisées, anthropomorphiques et diversifiées, d'autre part, elle a accéléré la mise en œuvre d'applications d'IA natives dans de multiples dimensions, notamment l'amélioration de l'expérience sociale ; Réseaux sociaux IA, jeux IA, etc., formant une chaîne complète de produits IA offrant aux utilisateurs le plaisir de l'interaction IA dans divers scénarios sociaux.

On peut dire qu'au cours des dernières années, Soul a élaboré une série de résultats de produits basés sur ses grands modèles de langage et de parole auto-développés, et a accumulé de riches technologies innovantes et une expérience pratique dans le processus d'amélioration de l'expérience d'interaction émotionnelle entre l'IA et utilisateurs, qui ont tous contribué à son succès au MER24. Gagner la première place du défi lui a ouvert la voie pour rivaliser avec des équipes participantes de haute qualité du monde entier.

Ces dernières années, de tels défis ont été de plus en plus nombreux, tels que le défi d'évaluation de la qualité AIGC NTIRE 2024 lors de l'atelier CVPR 2024 et les deux défis MER consécutifs en 2023 et 2024. Les entreprises nationales ont obtenu à plusieurs reprises de bons résultats en s'appuyant sur la technologie. accumulé dans la pratique. Par exemple, SenseTime, qui s'est classé premier au MER23 l'année dernière, et Soul, qui s'est classé premier cette année, ont obtenu des résultats remarquables en termes d'attention et d'investissement dans la technologie et les applications AIGC.

Il est prévisible qu'à l'avenir, des plates-formes comme Soul qui insistent sur l'innovation technologique et produit continueront à créer de la valeur pour les utilisateurs dans le processus de libération des capacités d'IA. Ce n'est qu'ainsi qu'elles pourront obtenir un contenu et une écologie communautaire plus durables. valeur commerciale diversifiée.

nouvelles

Ne vous concentrez pas uniquement sur la version ChatGPT de Her. Les joueurs nationaux sont également intéressés par l’interaction anthropomorphique multimodale de l’IA.

Introduction

mes coordonnées