nouvelles

Le premier modèle TTS à grande échelle prenant en charge la langue mixte du mandarin et des dialectes : le dialecte du Henan et le dialecte de Shanghai parlent couramment

2024-08-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



La rubrique AIxiv est une rubrique dans laquelle Machine Heart publie du contenu académique et technique. Au cours des dernières années, la rubrique Heart of the Machine AIxiv a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : [email protected] ; [email protected] ;

Depuis l’émergence du GPT-4o en 2024, les entreprises du secteur ont investi d’énormes ressources dans la recherche et le développement de grands modèles TTS. Ces derniers mois, de grands modèles chinois de synthèse vocale ont vu le jour, comme les chattts, seedtts, cosyvoice, etc.

Bien que le modèle actuel de synthèse vocale à grande échelle ait presque le même effet que de vraies personnes en chinois mandarin, face aux dialectes chinois complexes, les modèles TTS à grande échelle ont rarement été impliqués dans la formation d'un modèle unifié de synthèse vocale chinoise à grande échelle. divers dialectes est une tâche difficile. Mission extrêmement difficile.

Points faibles de l’industrie et goulots d’étranglement techniques

Actuellement, la technologie de synthèse vocale sur grand modèle a fait des progrès significatifs dans le domaine du mandarin, mais son développement dans le domaine des dialectes est très lent. La Chine compte des dizaines de dialectes majeurs, chacun avec des caractéristiques phonétiques et des structures grammaticales uniques, ce qui rend extrêmement complexe la formation d'un grand modèle TTS couvrant divers dialectes.

La plupart des grands modèles TTS existants se concentrent sur le mandarin et ne peuvent pas répondre aux divers besoins de synthèse vocale. De plus, la rareté des corpus dialectaux et le manque de données d’annotation de haute qualité augmentent encore la difficulté technique.

Innovation technologique et percées du Giant Network AI Lab

Afin de résoudre les problèmes ci-dessus, des experts en algorithmes et des linguistes de l'équipe Giant Network AI Lab ont travaillé ensemble pour créer un ensemble de données en mandarin et en dialecte couvrant 20 dialectes et plus de 200 000 heures basées sur le système de dialecte chinois. Avec cet énorme ensemble de données, nous avons forméLe premier modèle TTS à grande échelle prenant en charge plusieurs dialectes mandarin : Bailing-TTS. Bailing-TTS peut non seulement générer un discours en mandarin de haute qualité, mais également générer une variété de discours dialectaux, notamment le henanais, le shanghaïen, le cantonais, etc.



ArXiv : https://arxiv.org/pdf/2408.00284

Page d'accueil : https://giantailab.github.io/bailingtts_tech_report/index.html

Titre de l'article : Bailing-TTS : Synthèse vocale dialectale chinoise vers une représentation spontanée à l'image de l'humain

Le lien d'écoute audio suivant : https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==∣=2650930007&idx=5&sn=383cf581d916b0802b940366bd4b9d5f&chksm=84e43f29b393b63f434ae60d4 6 33694cd0362cec7590badfae2b0b683a5bd0c112e725c1f80d&token=2010422951⟨=zh_CN#rd

Voici l'effet de synthèse du Bailing-TTS dans le dialecte du Henan :



Permettez-moi d'écouter l'effet du clonage sans échantillon en mandarin :





Nous avons adopté un certain nombre de technologies innovantes pour atteindre cet objectif :

1.Spécification du jeton de dialecte unifié: Nous avons unifié les spécifications des jetons de divers dialectes et chevauché partiellement les jetons du mandarin et de divers dialectes pour utiliser le mandarin afin de fournir des capacités de prononciation de base. Cela nous permet de réaliser une synthèse vocale dialectale de haute qualité dans des conditions de données limitées.

2.Technologie raffinée d'alignement des jetons: Nous proposons une technologie raffinée d'alignement par jeton basée sur une pré-formation multimodale à grande échelle.

3.Structure experte hybride hiérarchique: Nous concevons une architecture experte hybride hiérarchique pour l'apprentissage de représentations unifiées pour plusieurs dialectes chinois et de représentations spécifiques pour chaque dialecte.

4.Stratégie d'amélioration de l'apprentissage par renforcement hiérarchique: Nous avons proposé une stratégie d'apprentissage par renforcement hiérarchique pour améliorer davantage la capacité d'expression dialectale du modèle TTS en combinant des stratégies de formation de base et des stratégies de formation avancées.

Détails de mise en œuvre



Figure 1 : Architecture globale de Bailing-TTS

1. Alignement raffiné des jetons basé sur une pré-formation multimodale à grande échelle

Afin de parvenir à un alignement raffiné des jetons de texte et de parole, nous proposons un cadre d'apprentissage pré-formation multi-étapes et multimodal.

Dans la première étape, nous utilisons une stratégie d'échantillonnage non supervisé pour effectuer un entraînement approximatif sur un ensemble de données à grande échelle. Dans la deuxième étape, nous adoptons une stratégie d'échantillonnage raffinée pour effectuer une formation fine sur des ensembles de données dialectales de haute qualité. Cette méthode peut capturer efficacement la corrélation fine entre le texte et la parole et favoriser l’alignement des deux modalités.

2. Basé sur la structure du réseau de transformateurs experts hybrides hiérarchiques

Afin de former un modèle TTS unifié adapté à plusieurs dialectes chinois, nous avons conçu une structure de réseau d'experts hybride hiérarchique et une stratégie d'apprentissage de jetons multi-dialectes en plusieurs étapes.

Premièrement, nous proposons une architecture experte hybride spécialement conçue pour apprendre des représentations unifiées pour plusieurs dialectes chinois et des représentations spécifiques pour chaque dialecte. Ensuite, nous injectons des jetons de dialecte dans différents niveaux du modèle TTS via un mécanisme de fusion basé sur l'attention croisée pour améliorer les capacités d'expression multi-dialectes du modèle.

3. Stratégie d'amélioration de l'apprentissage par renforcement hiérarchique

Nous proposons une stratégie d'apprentissage par renforcement hiérarchique pour améliorer davantage la capacité d'expression dialectale du modèle TTS en combinant une formation stratégique de base et des stratégies de formation avancées. La stratégie de formation de base soutient l'exploration d'expressions vocales dialectales de haute qualité, et la stratégie de formation avancée renforce les caractéristiques vocales de différents dialectes sur cette base, permettant ainsi d'obtenir une synthèse vocale de haute qualité dans plusieurs dialectes.



Figure 2 Structure du dialecte MoE

Résultats expérimentaux

Bailing-TTS a atteint un niveau plus proche des personnes réelles en termes de robustesse, de qualité de génération et de naturel en mandarin et dans plusieurs dialectes.



Tableau 1 : Résultats des tests de Bailing-TTS sur le chinois mandarin et ses dialectes

Dans l'évaluation réelle des scénarios d'application, Baling-TTS a obtenu de bons résultats.



Tableau 2 Résultats des tests de Bailing-TTS sur le réglage fin du locuteur et le clonage sans échantillon sur le chinois mandarin et ses dialectes

Mise en œuvre de la technologie et perspectives d’avenir

Actuellement, ce grand modèle TTS multidialecte a été appliqué dans plusieurs scénarios pratiques. Par exemple, le doublage de PNJ dans les jeux, le doublage de dialectes dans la création vidéo, etc. Grâce à cette technologie, les contenus de jeux et de vidéos peuvent se rapprocher de la culture régionale, améliorant ainsi le sentiment d’immersion et d’expérience des utilisateurs.

À l'avenir, avec le développement ultérieur de grands modèles d'interaction vocale de bout en bout, cette technologie montrera un plus grand potentiel dans des domaines tels que la protection de la culture dialectale et l'interaction dialectale des PNJ avec l'IA du jeu. Dans le scénario de protection des dialectes, en prenant en charge l'interaction vocale dans plusieurs dialectes, la prochaine génération peut facilement apprendre, hériter et protéger les dialectes chinois, permettant ainsi à la culture dialectale chinoise d'avoir une longue histoire. Dans la scène du jeu, des PNJ intelligents capables de parler des dialectes et d'interagir avec la voix amélioreront encore l'expressivité du contenu du jeu.

Giant Network AI Lab continuera de s'engager à promouvoir l'innovation et l'application de cette technologie pour offrir aux utilisateurs une expérience d'interaction vocale plus intelligente et plus pratique.

Présentation de l'équipe

Fondé en 2022, Giant AI Laboratory est une institution d'application et de recherche technologique en intelligence artificielle affiliée à Giant Network. Engagé dans le domaine de la génération de contenu AIGC (image/texte/audio/vidéo/modèle 3D, etc.), réalisant une production et une création de contenu intelligent complet et promouvant l'innovation en matière de jeu. À l'heure actuelle, le laboratoire a construit un pipeline de production industrielle d'IA à liaison complète au sein de Giant. Parallèlement, il a finalisé l'enregistrement du premier grand modèle vertical (GiantGPT) dans l'industrie du jeu et est le premier à être commercialisé. application.