2024-08-19
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Nouvelles du 19 août, HKUSTiFlytekAnnoncerétincelleGrande mise à jour du modèle vocal, officiellement lancée sur SparkVitesse extrêmedépasserpersonnificationinteragir et appliquer ses capacités à la fonction « XiaoXing Chat » de l'application iFlytek Spark, qui sera ouverte au public fin août.
À en juger par les résultats officiels de l'affichage, Spark Extreme Super Anthropomorphic Interaction a réalisé des percées dans quatre aspects : la vitesse de réponse et d'interruption, la perception des émotions et la résonance émotionnelle, l'expression contrôlable par la voix et le jeu de rôle humain.
En termes de vitesse de réponse, Xinghuo Extremely Fast Super Anthropomorphic Interaction prend en charge plusieurs cycles d'interaction, et la vitesse de réponse est aussi rapide queGPT-4oTout à fait, presque conforme au rythme de discussion normal des humains. Les utilisateurs peuvent interrompre ou intervenir à tout moment pendant la conversation, et le système peut répondre rapidement, offrant ainsi une expérience de conversation véritablement transparente.
En termes de perception des émotions et de résonance émotionnelle, Xinghuo Extreme Super Anthropomorphic Interaction peut reconnaître les diverses émotions de l'utilisateur telles que la joie, la colère, la tristesse, la joie, etc., non seulement à en juger par le contenu du son, mais également en répondant avec des émotions appropriées. De plus, le système peut également reconnaître les sons non verbaux, tels que la toux et les bruits d'animaux, et donner les réponses correspondantes.
En termes d'expression contrôlable par la voix, par rapport à la situation précédente où la voix de la machine ne pouvait pas être ajustée dans l'interaction vocale, désormais, tant que la voix donne des instructions, le super-anthropomorphe peut être contrôlé pour apporter des modifications aux expressions telles que l'émotion, style, dialecte, intensité, etc.
En termes de « jeu de rôle », il prend en charge une variété de simulations de rôles et peut changer de rôle en fonction des besoins de l'utilisateur, rendant la conversation plus intéressante et interactive.
Il est rapporté qu'iFlytek utilise un réseau neuronal unifié pour mettre en œuvre une modélisation parole-parole de bout en bout, simplifiant ainsi les processus traditionnels d'interaction vocale parole-texte, de génération de grands modèles de réponse et de synthèse vocale, raccourcissant ainsi considérablement la réponse. temps et améliorer la personnification et la fluidité de l'interaction. De plus, grâce à la formation à la représentation par découplage des attributs vocaux multidimensionnels, le système peut contrôler de manière plus flexible le contenu, le timbre, l'émotion et d'autres éléments pour répondre à différents scénarios et besoins.
iFlytek a déclaré que Spark Extreme Super Human Interaction sera entièrement ouvert à l'utilisation d'ici la fin août et prévoit de continuer à étendre les fonctions et les modes interactifs à l'avenir pour fournir aux utilisateurs des services vocaux intelligents plus riches et plus pratiques. À mesure que la technologie continue de mûrir et que les scénarios d'application se multiplient, la technologie vocale intelligente devrait inaugurer une croissance explosive dans de nombreux domaines tels que les smartphones et les voitures intelligentes. Selon les prévisions d'IDC, d'ici 2030, le marché mondial des services vocaux intelligents atteindra environ 73,16 milliards de dollars, avec un taux de croissance annuel composé de 27 %. (salé)
Cet article provient de NetEase Technology Report. Pour plus d'informations et un contenu approfondi, suivez-nous.