En comparación con GPT-4o, la versión Her de iFlytek Spark ya está aquí y estará completamente abierta para su uso a finales de agosto

En comparación con GPT-4o, la versión iFlytek Spark de Her ya está aquí y estará completamente abierta para su uso a finales de agosto.

2024-08-19

Noticias del 19 de agosto, HKUSTiFlytekAnunciarchispaActualización del modelo de voz grande, lanzada oficialmente en SparkVelocidad extremaadelantarpersonificacióninteractuar y aplicar sus capacidades a la función "XiaoXing Chat" de la aplicación iFlytek Spark, que estará abierta al público a finales de agosto.

A juzgar por los resultados de la exhibición oficial, Spark Extreme Super Anthropomorphic Interaction ha logrado avances en cuatro aspectos: velocidad de respuesta e interrupción, percepción de emociones y resonancia emocional, expresión controlable por voz y juegos de roles humanos.

En términos de velocidad de respuesta, Spark Extremely Fast Super Anthropomorphic Interaction admite múltiples rondas de interacción y la velocidad de respuesta es tan rápida comoGPT-4oBastante, casi consistente con el ritmo normal de conversación de los humanos. Los usuarios pueden interrumpir o intervenir en cualquier momento durante la conversación y el sistema puede responder rápidamente, logrando una experiencia de conversación verdaderamente fluida.

En términos de percepción de emociones y resonancia emocional, Xinghuo Extreme Super Anthropomorphic Interaction puede reconocer las diversas emociones del usuario, como alegría, ira, tristeza, alegría, etc., no solo juzgando por el contenido del sonido, sino también respondiendo con las emociones apropiadas. Además, el sistema también puede reconocer sonidos no verbales, como toses y sonidos de mascotas, y dar las respuestas correspondientes.

En términos de expresión controlable por voz, en comparación con la situación anterior en la que la voz de la máquina no se podía ajustar en la interacción de voz, ahora, siempre que la voz emita instrucciones, el superantropomórfico se puede controlar para realizar cambios en expresiones como emoción, estilo, dialecto, intensidad, etc.

En términos de "juego de roles", admite una variedad de simulaciones de roles y puede cambiar roles según las necesidades del usuario, lo que hace que la conversación sea más interesante e interactiva.

Se informa que iFlytek utiliza una red neuronal unificada para implementar el modelado de voz a voz de extremo a extremo, simplificando la interacción de voz tradicional de voz a texto, la respuesta de generación de modelos grandes y los procesos de síntesis de voz, acortando así significativamente la respuesta. tiempo y mejorando la personificación y fluidez de la interacción. Además, a través del entrenamiento de representación de desacoplamiento de atributos de voz multidimensional, el sistema puede controlar de manera más flexible el contenido, el timbre, las emociones y otros elementos para satisfacer diferentes escenarios y necesidades.

iFlytek dijo que Spark Extreme Super Anthropomorphic Interaction estará completamente abierto para su uso a fines de agosto y planea continuar expandiendo las funciones y modos interactivos en el futuro para brindar a los usuarios servicios de voz inteligentes más ricos y prácticos. A medida que la tecnología continúa madurando y los escenarios de aplicación se expanden, se espera que la tecnología de voz inteligente marque el comienzo de un crecimiento explosivo en muchos campos, como los teléfonos inteligentes y los automóviles inteligentes. Según las predicciones de IDC, para 2030, el mercado mundial de servicios de voz inteligentes alcanzará aproximadamente los 73.160 millones de dólares, con una tasa de crecimiento anual compuesta del 27%. (salado)

Este artículo proviene de NetEase Technology Report. Para obtener más información y contenido detallado, síganos.

noticias

En comparación con GPT-4o, la versión iFlytek Spark de Her ya está aquí y estará completamente abierta para su uso a finales de agosto.

Introducción

Mi información de contacto