nouvelles

« Premier modèle chinois doté des capacités vocales de GPT-4o », le modèle d'IA vocale Xinchen Lingo est ouvert aux réservations de tests internes

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

IT House a rapporté le 24 août que Xihu Xinchen, investi par Jinke Tomcat, avait lancé le grand modèle vocal Xinchen Lingo en août de cette année. Il s'agit du premier grand modèle vocal de bout en bout en Chine. Il a été lancé aujourd'hui (24 août). Rendez-vous ouvert pour les tests bêta.

Dans l'annonce publiée le 21 août, l'introduction officielle indiquait que par rapport au TTS traditionnel, le grand modèle vocal de bout en bout est une technologie plus complète.Il prend non seulement en charge la reconnaissance vocale, mais intègre également de multiples liens tels que le traitement du langage naturel, la reconnaissance d'intention, la gestion des dialogues et la synthèse vocale, réalisant ainsi un processus d'interaction complet depuis l'entrée vocale jusqu'au retour vocal, qui enrichit considérablement la profondeur et l'étendue de l'interaction humaine. interaction informatique.

Citant un communiqué de presse officiel, IT Home a déclaré que le modèle vocal Xinchen Lingo est le premier modèle en Chine capable de rattraper les capacités vocales du GPT-4o. Il présente les trois caractéristiques importantes suivantes en termes de capacités techniques :

Compréhension de la parole native :En tant que modèle de bout en bout, Xinchen Lingo peut non seulement reconnaître les informations textuelles dans la parole, mais également capturer avec précision d'autres caractéristiques importantes, telles que l'émotion, le ton, la hauteur et même les sons environnementaux, aidant ainsi le modèle à comprendre le contenu de la parole de manière plus complète. , offrant ainsi une expérience interactive plus naturelle et plus vivante.

Plusieurs expressions de style de voix :Xinchen Lingo peut ajuster de manière adaptative la vitesse, la hauteur et l'intensité du bruit de la parole en fonction du contexte et des instructions de l'utilisateur, et peut générer des réponses vocales dans différents styles tels que le dialogue, le chant, la diaphonie, etc., améliorant efficacement la flexibilité du modèle dans différents styles. scénarios d’application et adaptabilité.

Super compression modale vocale :Xinchen Lingo utilise un codec vocal avec un taux de compression des centaines de fois supérieur, qui peut compresser la parole à une longueur extrêmement courte, réduisant considérablement les coûts de calcul et de stockage tout en aidant le modèle à générer un contenu vocal de haute qualité.