noticias

No te concentres únicamente en la versión ChatGPT de Her. Los jugadores nacionales también están interesados ​​en la interacción antropomórfica de IA multimodal.

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Máquina Corazón Original

Autor: Du Wei

¿Qué tan avanzada está hoy la IA en la identificación de las emociones humanas? ¡A principios de este mes, llegó a su fin una competencia de alto perfil que desafiaba a una IA más emocional!

Esto esEl segundo desafío de reconocimiento de emociones multimodal (MER24), fue patrocinado conjuntamente por el profesor Tao Jianhua de la Universidad de Tsinghua, Lian Zheng del Instituto de Automatización de la Academia de Ciencias de China, Björn W. Schuller del Imperial College, Zhao Guoying de la Universidad de Oulu y Erik Cambra de la Universidad Tecnológica de Nanyang. en la principal conferencia de IA IJCAI2024 para explorar cómo usar texto, utilizar datos multimodales como audio y video para realizar el reconocimiento de emociones de IA y promover la aplicación de tecnologías relacionadas en escenarios reales de interacción persona-computadora.



Sitio web oficial del concurso: https://zeroqiaoba.github.io/MER2024-website/#organization

Este desafío tiene un total de tres pistas, a saber, Semi (pista de aprendizaje semisupervisado), Noise (pista de robustez del ruido) y Ov (pista de reconocimiento de emociones de vocabulario abierto), entre las cualesLa Semipista tiene la mayor cantidad de equipos participantes, es la más difícil y la competencia más intensa.

Tomando Semi Track como ejemplo, los equipos participantes deben utilizar una pequeña cantidad de datos de video etiquetados y una gran cantidad de datos sin etiquetar para entrenar sus propios modelos y evaluar el rendimiento del modelo y la capacidad de generalización en el conjunto de datos sin etiquetar. La clave para ganar esta pista es mejorar el rendimiento del reconocimiento de emociones del modelo mediante la mejora de la tecnología de aprendizaje semisupervisado, como la precisión de la predicción de categorías de emociones.

Desde el lanzamiento del concurso en mayo, en dos meses han competido casi un centenar de equipos de todo el mundo, entre ellos universidades de renombre y empresas innovadoras.enEl primer lugar en la pista Semi lo obtuvo la plataforma social Soul App, su equipo de tecnología de voz se impuso con sus soluciones técnicas viables e innovadoras.



Sin embargo, antes de revelar la solución técnica del equipo de Soul, primero debemos comprender las capacidades de reconocimiento de emociones de la IA en múltiples modalidades.

El siguiente paso en la interacción persona-computadora

Deje que la IA comprenda las emociones

La IA actual parece ser omnipotente, incluida la comunicación conversacional, la generación de imágenes o vídeos, la resolución de problemas matemáticos, etc. Es capaz de realizar tareas en diferentes niveles, como la percepción, el aprendizaje, el razonamiento y la toma de decisiones. Gracias a la bendición de los modelos grandes, se puede decir que la IA es lo suficientemente inteligente, pero carece de aspectos emocionales como la empatía.

En la interacción persona-computadora, los usuarios a veces no solo necesitan que la IA siga instrucciones y complete tareas, sino que también necesitan que proporcionen suficiente valor emocional para satisfacer sus necesidades emocionales. Desde las "habilidades básicas" funcionales hasta las "habilidades avanzadas" emocionales, las habilidades que la IA necesita dominar deben mejorarse.

Por lo tanto, el reconocimiento de emociones multimodal se ha convertido en un tema de investigación activo en el campo de la IA. La IA que puede leer y transmitir emociones se ha convertido en un nuevo tema candente en la industria y se considera el próximo gran avance en el campo de la IA. En los últimos seis meses, algunas nuevas empresas de inteligencia artificial y gigantes de la industria nos han revelado nuevas formas de interacción inmersiva entre humanos y máquinas.

A principios de abril, Hume AI, una nueva empresa extranjera, lanzó un robot de conversación por voz, el Empathetic Voice Interface (EVI), que analiza e identifica el tono y las emociones del interlocutor a través de la comunicación por voz y puede detectar hasta 53 emociones. Además, puede simular diferentes estados emocionales, acercando la interacción a personas reales. Los avances en el nivel emocional de la IA también permitieron a la startup recibir rápidamente 50 millones de dólares en financiación Serie B.

A continuación, OpenAI hizo un gran movimiento: el modelo insignia GPT-4o demostró funciones de llamadas de audio y video en tiempo real y respondió instantáneamente a las emociones y el tono del usuario. Se llama versión ChatGPT "Her". usuarios en un futuro próximo. Desde entonces, la IA ha desarrollado una poderosa elocuencia y la capacidad de percibir emociones, lo que ha hecho que la gente lo llame la llegada de la era de la ciencia ficción.

Empresas nacionales como Microsoft Xiaoice y Lingxin Intelligence también están comprometidas con la creación de productos de IA emocional. Podemos ver una tendencia: las capacidades de reconocimiento de emociones se están involucrando cada vez más en aplicaciones de IA multimodales como texto, audio y video. Sin embargo, si queremos ir más allá en el campo del reconocimiento de emociones antropomórficas, todavía necesitamos resolver problemas como la escasez de datos etiquetados y la inestabilidad e inexactitud del reconocimiento de emociones subjetivas.

Por lo tanto, se ha vuelto particularmente necesario promover que la comunidad académica y la industria presten más atención al campo del reconocimiento de emociones multimodal y aceleren la innovación y el progreso de las tecnologías relacionadas. Actualmente, las principales conferencias académicas de IA, como ACM MM y AAAI, consideran la computación afectiva como un tema de investigación importante. Las principales conferencias, como CVPR y ACL, también han planteado desafíos relacionados con la computación afectiva. Especialmente frente al advenimiento de la era de los grandes datos y los grandes modelos, cómo utilizar una gran cantidad de datos sin etiquetar y procesar e integrar de manera efectiva diferente información modal en el reconocimiento de emociones multimodal es un desafío importante al que se enfrenta actualmente la industria. Se llevó a cabo este Desafío MER24 Esta es también la razón y el significado de.

El equipo de Soul ganó el primer lugar en la pista Semi. Detrás de esto está su capacidad de acumulación e innovación en comprensión de datos multimodales, algoritmos de reconocimiento de emociones, herramientas de plataforma de optimización de modelos, construcción de flujo de trabajo interno, etc., así como la colaboración eficiente del equipo. Equipo técnico.

Ganó el primer lugar en la pista más difícil.

¿Qué hizo el equipo Soul?

Ya que se menciona que la Semipista es la más difícil, ¿cuáles son los aspectos difíciles? ¿Y cómo consiguió Team Soul el primer lugar? Miremos hacia abajo.

Los datos son uno de los tres elementos principales de la IA. Sin una capacitación de datos suficiente, especialmente de alta calidad, el modelo no puede garantizar un buen rendimiento. Ante los diversos desafíos provocados por la escasez de datos, la industria no solo debe expandir todos los tipos de datos, incluidos los datos generados por IA, sino también centrarse en mejorar las capacidades de generalización de modelos en escenarios de escasez de datos. Lo mismo ocurre con las tareas de reconocimiento de emociones multimodales. Su núcleo radica en el soporte de datos de etiquetas masivas. Se pueden etiquetar diferentes tipos de contenido, como texto, audio y video, con emociones como alegría, ira, tristeza y alegría. pena. La realidad es que los datos etiquetados emocionalmente en Internet son muy escasos.

La Semi pista de esta competición.Solo se proporcionan 5030 datos etiquetados y los 115595 datos restantes son datos sin etiquetar. . Por tanto, la escasez de datos etiquetados se ha convertido en el primer problema que han encontrado todos los equipos participantes, incluido el equipo Soul.



Fuente de la imagen: documento de referencia de MER24: https://arxiv.org/pdf/2404.17113

Por otro lado, en comparación con las pistas de Ruido y Ov, la pista Semi se centra en probar las tecnologías troncales centrales, es decir, prestar más atención a la selección de la arquitectura del modelo y las capacidades de generalización de extracción de características, y a la acumulación e innovación de múltiples La tecnología de modelo grande modal tiene requisitos sexuales relativamente altos.



En vista de las características de la pista con menos datos de etiquetas y altos requisitos técnicos, el equipo Soul hizo suficientes preparativos previos a la carrera basándose en algunos módulos del gran modelo de desarrollo propio acumulados previamente y determinó un conjunto de soluciones técnicas innovadoras factibles. La idea general es adoptar la estrategia de "primer cuerpo principal y luego ajuste", enfocándose primero en mejorar la generalización de cada modelo de extracción de características centrales y luego integrarlos durante el proceso de implementación específico, los siguientes aspectos del trabajo; estaban hechos. Éstas constituyen sus principales fortalezas.

Primero, concéntrese en la extracción de características multimodales en la etapa inicial. En la arquitectura del modelo de un extremo a otro, se utilizan modelos previamente entrenados para extraer representaciones emocionales en diferentes modalidades de texto, habla y visión, prestando atención a las similitudes y diferencias de las emociones, mejorando así el efecto de reconocimiento de emociones. Posteriormente, se propone un método de fusión eficaz basado en las características de cada modalidad de múltiples modalidades, y estos módulos se fusionan para formar una arquitectura modelo. Para mejorar el rendimiento de generalización del modelo previamente entrenado, el equipo de Soul propuso EmoVCLIP por primera vez en el campo del reconocimiento de emociones específicamente para modalidades de video. EmoVCLIP es un modelo basado en un modelo CLIP grande combinado con tecnología de aprendizaje rápido que tiene. Mejor rendimiento de generalización en el campo del reconocimiento de emociones en vídeo.

Además, para mejorar las capacidades de reconocimiento de emociones de las modalidades de texto, el equipo de Soul utiliza GPT-4 para crear pseudoetiquetas emocionales para las modalidades de texto, aprovechando al máximo las capacidades de atención emocional de GPT-4 para mejorar la precisión del reconocimiento de emociones en Modalidades de texto, para el futuro Se han sentado mejores bases para una mayor fusión modal.

En segundo lugar, en términos de fusión de características multimodales, el equipo de Soul utilizó por primera vez la estrategia Modality Dropout en la dirección del reconocimiento de emociones multimodal y estudió el impacto en el rendimiento de diferentes tasas de abandono para aliviar el problema de competencia entre ellos. modalidades, durante el proceso de entrenamiento del modelo Suprima aleatoriamente una determinada modalidad (modalidad de texto, voz o video) para lograr una mayor solidez y mejorar la capacidad de generalización del modelo en datos invisibles más allá de los datos etiquetados proporcionados.

Finalmente, entra en juego la tecnología de aprendizaje semisupervisado. La idea básica es utilizar datos etiquetados para entrenar un modelo, luego predecir los datos no etiquetados y generar pseudoetiquetas para los datos no etiquetados en función de los resultados de la predicción. Estas pseudoetiquetas se utilizan para entrenar el modelo y mejorar continuamente el efecto del modelo. El equipo de Soul utilizó la estrategia de autoentrenamiento en el aprendizaje semisupervisado para agregar cíclicamente pseudoetiquetas a más de 110,000 datos sin etiquetar en la pista Semi y agregarlos al conjunto de entrenamiento, y actualizó iterativamente el modelo para obtener el modelo final.



Plan técnico del equipo Soul para la competición.

Desde la idea general hasta la fusión de funciones multimodales, el aprendizaje contrastivo y el autoentrenamiento de datos sin etiquetar, las soluciones técnicas del equipo de Soul les han brindado buenos resultados.finalmenteEn términos de precisión del reconocimiento de emociones multimodal en voz, visión y texto, el sistema propuesto por el equipo de Soul mejoró un 3,7% en comparación con el sistema base, alcanzando más del 90%. . Al mismo tiempo, el equipo de Soul también puede distinguir mejor las emociones que tienen límites confusos en el campo del reconocimiento de emociones (como la preocupación y la preocupación).



Fuente de la imagen: documento de referencia de MER24: https://arxiv.org/pdf/2404.17113

Desde una perspectiva más profunda, el éxito del equipo Soul en el Desafío MER24 es una expresión concentrada de su profundo cultivo de la tecnología de modelos grandes de IA en el campo social, especialmente sus capacidades de interacción emocional multimodal.

Innovadora interacción antropomórfica multimodal

La IA social es el siguiente nivel

El campo social, naturalmente, requiere IA con emociones. Una visión generalizada sostiene que la esencia de la interacción social es el intercambio de valores emocionales y que las emociones son diversas. Esto significa que si la IA quiere integrarse perfectamente en las escenas sociales y funcionar de manera eficiente, debe proporcionar una rica retroalimentación emocional y una experiencia como la de las personas reales.

La base para realizar una IA empática es tener poderosas capacidades multimodales de reconocimiento de emociones y evolucionar de un simple "ejecutor de tareas" a un "compañero que satisface las necesidades emocionales humanas". Sin embargo, todavía es muy difícil para la IA comprender las emociones de manera efectiva. Es fundamentalmente diferente de los humanos en términos de comprender el contexto, sentir las emociones del usuario, brindar retroalimentación emocional y pensar. Por lo tanto, la innovación continua de tecnologías y algoritmos relacionados es importante.

Para Soul, que tiene sus raíces en el campo social, centrarse en desarrollar una IA con capacidades emocionales se ha convertido en una propuesta importante que debe tenerse en cuenta. Cuando se lanzó en 2016, Soul pensó por primera vez en cómo utilizar tecnologías y productos innovadores para satisfacer mejor las necesidades de los usuarios. La introducción de la IA para resolver la necesidad de que las personas se conecten se ha convertido en la clave para su presencia en el campo social y su desarrollo. El "Lingxi Engine", lanzado anteriormente, utiliza algoritmos de recomendación inteligentes para extraer y analizar los mapas de interés de los usuarios y las características de todos los escenarios en el sitio, lo que les facilita encontrar personas con las que puedan chatear y el contenido que más necesitan, formando un Ecología de usuario y contenido altamente pegajosa. Hasta ahora, los escenarios de coincidencia donde se aplica este algoritmo más "inteligente" también son una de las características más activas de los usuarios de Soul.

Con la experiencia exitosa de la interacción social temprana asistida por IA, en esta ola tecnológica de rápido desarrollo de modelos grandes, Soul explora aún más nuevas posibilidades para la interacción humano-computadora basadas en la participación de la IA en la interacción social y las redes de relaciones asistidas.

Desde el lanzamiento de la investigación y el desarrollo de algoritmos relacionados con AIGC en 2020, Soul ha tomado la multimodalidad como dirección y ha acumulado capacidades de vanguardia en diálogo inteligente, generación de imágenes, generación de voz y música, etc.En comparación con las nuevas fuerzas empresariales de IA puramente tecnológicas, una característica importante de Soul es la adopción de una estrategia de "modelo-respuesta-integrada" para promover simultáneamente grandes modelos y aplicaciones AIGC en el lado C.Centrarse en construir IA con capacidades de reconocimiento de emociones para lograr realmente una retroalimentación cálida en escenarios de interacción antropomórfica rica.

Se puede ver en las acciones de Soul en los últimos dos años que ha acelerado el ritmo de AIGC para potenciar escenarios sociales. En 2023, se lanzará Soul X, un gran modelo de lenguaje de desarrollo propio, que se convertirá en una infraestructura importante para el diseño social AIGC+. Con el impulso rápido, la generación controlable condicional, la comprensión del contexto, la comprensión multimodal y otras capacidades del modelo, el diálogo en el sitio no solo es fluido y natural, sino que también tiene calidez emocional.

El texto se ha convertido en el primer paso en la implementación de las capacidades de reconocimiento de emociones del Alma y se ha extendido gradualmente de una única modalidad a más modalidades. Este año, Soul lanzó un modelo de generación de voz grande y actualizó oficialmente el modelo de voz grande de desarrollo propio, que cubre generación de voz, reconocimiento de voz, diálogo de voz, generación de música y otras subdivisiones. Admite generación de tonos reales, bricolaje de voz y otras funciones. tener capacidades de diálogo inmersivo multiemocional en tiempo real.

Por supuesto, además de los continuos esfuerzos de Soul para desarrollar más IA emocional a nivel de modelo, también los ha utilizado en los diversos escenarios sociales de su plataforma para enriquecer y mejorar aún más la experiencia interactiva de IA de los usuarios.

Tomemos como ejemplo el robot de diálogo antropomórfico de Soul "AI Goudan". Se basa en el modelo de lenguaje grande desarrollado por Soul. Durante múltiples rondas de comunicación, les enviamos atención de forma proactiva en función de la escena de la conversación, como si fueran una persona real. el otro extremo de la conversación. Al mismo tiempo, los usuarios también pueden personalizar sus propios huevos y experimentar una interacción humana virtual única.



AI Goudan también ha demostrado sus capacidades de integración en antropomorfismo, conocimiento, multimodalidad, percepción del tiempo y otros aspectos. Muchos usuarios del sitio Soul se maravillaron de sus poderosas capacidades de interacción antropomórfica. Tome la iniciativa de publicar y quejarse: "Me temo que Goudan no es una persona real".

Además, Soul también confía en Soul. No hay ningún sentido de desobediencia en el discurso sobre el hombre lobo.

Otro ejemplo es que Soul lanzó su primera nueva aplicación independiente fuera del sitio web principal, "Echo of Another World". Como plataforma social de IA, los usuarios pueden participar en una comunicación inmersiva en tiempo real con personajes humanos virtuales en múltiples escenas y estilos. Todos estos personajes tienen capacidades de diálogo de imagen, voz y personalidad. Por supuesto, los usuarios pueden personalizar personajes virtuales y configuraciones personales (como experiencia de fondo, personalidad, etc.) según sus preferencias, lo cual es muy jugable.

Del mismo modo, el modelo grande de voz de desarrollo propio también juega un papel en escenas como AI Goudan, Werewolf Phantom y Echoes of Another World. Por ejemplo, la función de llamada de voz es compatible con Echoes of Another World. Los personajes virtuales con voces de personas reales pueden comunicarse con los usuarios de forma natural y en tiempo real, enriqueciendo la experiencia interactiva.



Función de llamada de voz en tiempo real "Eco de otro mundo".

Además de seguir profundizando las interacciones antropomórficas de la IA en escenarios sociales como el diálogo inteligente, los juegos y la voz, Soul también está desarrollando la capacidad de generar diversos estilos de pintura acordes con su propia estética en el campo de la generación visual, creando avatares digitales de IA. y avanzar hacia una experiencia de interacción integral multidimensional.

Se puede ver que el diseño de Soul en el campo del reconocimiento de emociones de IA ha cubierto multimodalidades de lenguaje, voz y visual, trabajando juntos en escenas de texto, imágenes, audio y video que están estrechamente relacionadas con la interacción social, permitiendo a los usuarios interactuar en un Interacción tridimensional y multisensorial entre humanos y computadoras. Experimente una cálida IA ​​durante la interacción.

Conclusión

Muchas personas en la industria consideran que 2024 es el primer año de la aplicación AIGC. El foco de atención de todos ya no está solo en los parámetros y las capacidades básicas. Con la tendencia de pasar de la capa de modelo a la capa de aplicación, solo siendo los primeros en implementar la IA en campos y escenarios verticales podremos ganar más usuarios y mercados. Especialmente en la interacción persona-computadora para la pista del lado C, es más natural centrarse en las necesidades del usuario. Esto se refleja bien en el ámbito social.

Anteriormente, muchas aplicaciones de citas como AlienChat se suspendieron y el tema de discusión "El primer grupo de jóvenes que se enamoraron de la IA se desenamoró" se convirtió en un tema de búsqueda candente. Detrás de esto, la homogeneidad funcional es parte de la razón, pero también porque la experiencia no cambia del rol de asistente/NPC a un compañero que realmente brinda apoyo emocional. Esto requiere métodos y escenarios enriquecedores de interacción persona-computadora en el campo social, que permitan a la IA participar plenamente en todos los vínculos sociales, comunicarse profundamente con los usuarios y brindarles valor emocional.

Este también puede ser uno de los próximos puntos competitivos centrales en la dirección social de la IA. No es difícil entender por qué Soul, como capa de aplicación, pone tanto énfasis en la acumulación de capacidades técnicas de desarrollo propio. En el último período, por un lado, se ha comprometido a crear capacidades de IA personalizadas, antropomórficas y diversificadas, por otro lado, ha acelerado la implementación de aplicaciones nativas de IA desde múltiples dimensiones, incluida la mejora de la experiencia social; Redes sociales de IA, juegos de IA, etc., formando una cadena completa de productos de IA que brinda a los usuarios la diversión de la interacción de IA en varios escenarios sociales.

Se puede decir que en los últimos años, Soul ha ideado una serie de resultados de productos basados ​​en sus grandes modelos de lenguaje y habla de desarrollo propio, y ha acumulado ricas tecnologías innovadoras y experiencia práctica en el proceso de mejorar la experiencia de interacción emocional entre IA y usuarios, todo lo cual ha contribuido a su éxito en MER24. Ganar el primer lugar en el desafío le abrió el camino para competir con equipos participantes de alta calidad de todo el mundo.

En los últimos años, ha habido cada vez más desafíos de este tipo, como el Desafío de Evaluación de Calidad AIGC NTIRE 2024 en el Taller CVPR 2024 y los dos Desafíos MER consecutivos en 2023 y 2024. Las empresas nacionales han logrado repetidamente buenos resultados confiando en la tecnología. acumulado en la práctica. Por ejemplo, SenseTime, que ocupó el primer lugar en MER23 el año pasado, y Soul, que ocupó el primer lugar este año, han logrado resultados notables en su atención e inversión en tecnología y aplicaciones AIGC.

Es previsible que en el futuro, plataformas como Soul que insisten en la innovación tecnológica y de productos continúen creando valor para los usuarios en el proceso de liberación de capacidades de IA. Solo así podrán lograr contenidos y ecología comunitaria más duraderos y sostenibles. valor empresarial diversificado.