nouvelles

le premier modèle chinois de génération audio à grande échelle a été déposé avec succès

2024-09-20

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

ifeng.com technology news, le 20 septembre, l'administration chinoise du cyberespace de shanghai a publié la dernière liste des listes d'approbation d'enregistrement des grands modèles génératifs de shanghai. le grand modèle audio himalayen a été rejoint par des modèles de texte tels que mihoyo et dream island de china literature. le modèle a réussi conjointement le processus d'enregistrement et est devenu le premier modèle de génération audio à grande échelle du pays à recevoir des services d'intelligence artificielle générative de l'administration du cyberespace de chine.

le modèle audio himalayen est le premier modèle de génération audio de quatrième génération au monde avec une interprétation multi-émotionnelle et une expression surnaturelle.ce modèle mènera l'évolution de l'aigc dans l'ensemble de l'industrie audio, du modèle de génération audio de troisième génération au grand modèle de génération audio de quatrième génération.

le modèle audio himalayen est un cadre llm basé sur la modélisation conjointe du texte et de l'audio auto-développée par l'équipe everest ai. il réalise une formation à la modélisation conjointe de l'audio et du texte sous la même représentation vectorielle spatiale.cette méthode de modélisation conjointe dote pleinement la tâche de génération audio d'informations sémantiques puissantes et exploite pleinement les connexions inhérentes et les informations complémentaires entre elles., améliorant considérablement les performances et les capacités de généralisation du modèle. il s'agit également de l'avancée technologique principale permettant à la quatrième génération de grands modèles audio de surpasser la génération précédente.

au cours du processus de formation, himalayan everest ai prétraite d'abord les données audio et les données texte respectivement, les convertit en formes de jetons adaptées à la saisie du modèle et mappe les jetons audio et les jetons texte dans la même représentation vectorielle spatiale afin que le modèle puisse mieux comprendre et traiter le relation entre l'audio et le texte. le processus de formation global comprend plusieurs processus principaux : pré-formation (pretraining), réglage fin supervisé (sft), réglage fin supervisé par domaine (domain sft), réglage fin supervisé par le locuteur (speaker sft) et apprentissage par renforcement (rl). grâce à la formation de ces processus, lele modèle présente les caractéristiques suivantes : (1) capacité de clonage de tonalité de 15 s et capacité de conversion du son. (2) génération de parole hyper-anthropomorphe, multi-émotionnelle et alignée sur les préférences humaines. (3) style hautement contrôlable et capacité paralinguistique.

l'équipe r&d de l'himalayan everest ai a évalué le modèle formé et a constaté que dans le contexte de contenus audio longs tels que des romans audio, la contrôlabilité du style d'interprétation des caractères, la stabilité de l'exécution des phonèmes et le naturel du flux de parole et des pauses rythmiques étaient considérablement améliorés. plus haut le modèle de génération audio de troisième génération au pays et à l'étranger.

le grand modèle audio himalaya met en œuvre le paradigme de « combinaison de production et de modèle », combinant l'industrie avec le modèle pour former une boucle de rétroaction positive entre les entreprises, les données et les algorithmes. il est largement utilisé dans des scénarios commerciaux tels que les livres audio aigc et l'interaction conversationnelle par chat. par exemple, le livre audio récemment populaire « my altay » a été généré par le grand modèle audio himalayen. himalaya everest ai a déclaré que la capacité de grand modèle audio peut être directement expérimentée sur le site officiel d'everest ai et que les utilisateurs peuvent directement créer leur propre contenu audio.