Nachricht

Das erste groß angelegte TTS-Modell, das das gemischte Sprechen von Mandarin und Dialekten unterstützt: Henan-Dialekt und Shanghai-Dialekt sind fließend

2024-08-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Die AIxiv-Kolumne ist eine Kolumne, in der Machine Heart akademische und technische Inhalte veröffentlicht. In den letzten Jahren hat die Kolumne „Heart of the Machine AIxiv“ mehr als 2.000 Berichte erhalten, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail-Adresse: [email protected]; [email protected]

Seit der Einführung von GPT-4o im Jahr 2024 haben Unternehmen der Branche enorme Ressourcen in die Forschung und Entwicklung von TTS-Großmodellen investiert. In den letzten Monaten sind große chinesische Sprachsynthesemodelle wie Chattts, Seedtts, Cosyvoice usw. entstanden.

Obwohl das aktuelle groß angelegte Sprachsynthesemodell fast die gleiche Wirkung hat wie echte Menschen auf Chinesisch (Mandarin), waren TTS-Großmodelle angesichts der komplizierten chinesischen Dialekte selten involviert Verschiedene Dialekte zu lernen ist eine äußerst anspruchsvolle Aufgabe.

Schwachstellen in der Branche und technische Engpässe

Derzeit hat die Sprachsynthese-Großmodelltechnologie im Bereich Mandarin erhebliche Fortschritte gemacht, ihre Entwicklung im Bereich der Dialekte ist jedoch sehr langsam. In China gibt es Dutzende wichtiger Dialekte, jeder mit einzigartigen phonetischen Merkmalen und grammatikalischen Strukturen, was das Training eines großen TTS-Modells, das verschiedene Dialekte abdeckt, äußerst komplex macht.

Die meisten der vorhandenen großen TTS-Modelle konzentrieren sich auf Mandarin und können die unterschiedlichen Anforderungen an die Sprachsynthese nicht erfüllen. Darüber hinaus erhöhen die Knappheit an Dialektkorpora und der Mangel an qualitativ hochwertigen Annotationsdaten die technischen Schwierigkeiten zusätzlich.

Technologische Innovation und Durchbrüche des Giant Network AI Lab

Um die oben genannten Probleme zu lösen, arbeiteten Algorithmenexperten und Linguisten des Giant Network AI Lab-Teams zusammen, um einen Mandarin- und Dialektdatensatz zu erstellen, der 20 Dialekte und mehr als 200.000 Stunden auf der Grundlage des chinesischen Dialektsystems abdeckt. Mit diesem riesigen Datensatz haben wir trainiertDas erste groß angelegte TTS-Modell, das mehrere Mandarin-Dialekte unterstützt – Bailing-TTS. Bailing-TTS kann nicht nur qualitativ hochwertige Mandarin-Sprache erzeugen, sondern auch eine Vielzahl von Dialektsprachen, einschließlich Henanesisch, Shanghainisch, Kantonesisch usw.



ArXiv: https://arxiv.org/pdf/2408.00284

Homepage: https://giantailab.github.io/bailingtts_tech_report/index.html

Titel des Papiers: Bailing-TTS: Chinesisch-dialektale Sprachsynthese zur menschenähnlichen spontanen Darstellung

Der folgende Audio-Hörlink: https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==∣=2650930007&idx=5&sn=383cf581d916b0802b940366bd4b9d5f&chksm=84e43f29b393b63f434ae60d 46 33694cd0362cec7590badfae2b0b683a5bd0c112e725c1f80d&token=2010422951⟨=zh_CN#rd

Das Folgende ist der Syntheseeffekt von Bailing-TTS im Henan-Dialekt:



Lassen Sie mich mir die Wirkung des Null-Proben-Klonens auf Mandarin anhören:





Um dieses Ziel zu erreichen, haben wir eine Reihe innovativer Technologien eingesetzt:

1.Einheitliche Dialekt-Token-Spezifikation: Wir haben die Token-Spezifikationen verschiedener Dialekte vereinheitlicht und die Tokens von Mandarin und verschiedenen Dialekten teilweise überlappt, um Mandarin zur Bereitstellung grundlegender Aussprachefunktionen zu verwenden. Dies ermöglicht es uns, unter begrenzten Datenbedingungen eine qualitativ hochwertige Dialekt-Sprachsynthese zu erreichen.

2.Verfeinerte Token-Ausrichtungstechnologie: Wir schlagen eine verfeinerte tokenweise Ausrichtungstechnologie vor, die auf einem groß angelegten multimodalen Vortraining basiert.

3.Hierarchische hybride Expertenstruktur: Wir entwerfen eine hierarchische hybride Expertenarchitektur zum Erlernen einheitlicher Darstellungen für mehrere chinesische Dialekte und spezifischer Darstellungen für jeden Dialekt.

4.Strategie zur Verbesserung des hierarchischen Verstärkungslernens: Wir haben eine hierarchische Verstärkungslernstrategie vorgeschlagen, um die Dialektausdrucksfähigkeit des TTS-Modells durch die Kombination grundlegender Trainingsstrategien und fortgeschrittener Trainingsstrategien weiter zu verbessern.

Details zur Implementierung



Abbildung 1 Gesamtarchitektur von Bailing-TTS

1. Verfeinerte Token-Ausrichtung basierend auf groß angelegtem multimodalem Vortraining

Um eine verfeinerte Ausrichtung von Text- und Sprachtokens zu erreichen, schlagen wir einen mehrstufigen, multimodalen Lernrahmen vor dem Training vor.

In der ersten Phase verwenden wir eine unbeaufsichtigte Stichprobenstrategie, um ein grobes Training an einem großen Datensatz durchzuführen. In der zweiten Phase wenden wir eine verfeinerte Stichprobenstrategie an, um ein feinkörniges Training für hochwertige Dialektdatensätze durchzuführen. Diese Methode kann die feinkörnige Korrelation zwischen Text und Sprache effektiv erfassen und die Ausrichtung der beiden Modalitäten fördern.

2. Basierend auf der hierarchischen Hybrid-Experten-Transformer-Netzwerkstruktur

Um ein einheitliches TTS-Modell zu trainieren, das für mehrere chinesische Dialekte geeignet ist, haben wir eine hierarchische hybride Expertennetzwerkstruktur und eine mehrstufige Multidialekt-Token-Lernstrategie entworfen.

Zunächst schlagen wir eine hybride Expertenarchitektur vor, die speziell dafür entwickelt wurde, einheitliche Darstellungen für mehrere chinesische Dialekte und spezifische Darstellungen für jeden Dialekt zu lernen. Anschließend injizieren wir Dialekt-Tokens über einen auf Kreuzaufmerksamkeit basierenden Fusionsmechanismus in verschiedene Ebenen des TTS-Modells, um die Multidialekt-Ausdrucksfähigkeiten des Modells zu verbessern.

3. Strategie zur Verbesserung des hierarchischen Verstärkungslernens

Wir schlagen eine hierarchische Verstärkungslernstrategie vor, um die Dialektausdrucksfähigkeit des TTS-Modells durch die Kombination von grundlegendem Strategietraining und fortgeschrittenen Trainingsstrategien weiter zu verbessern. Die Basistrainingsstrategie unterstützt die Erforschung qualitativ hochwertiger Dialekt-Sprachausdrücke, und die Fortgeschrittenen-Trainingsstrategie stärkt auf dieser Basis die Spracheigenschaften verschiedener Dialekte und erreicht so eine qualitativ hochwertige Sprachsynthese in mehreren Dialekten.



Abbildung 2 Dialekt-MoE-Struktur

Experimentelle Ergebnisse

Bailing-TTS hat in Bezug auf Robustheit, Generationsqualität und Natürlichkeit in Mandarin und mehreren Dialekten ein Niveau erreicht, das echten Menschen näher kommt.



Tabelle 1 Testergebnisse von Bailing-TTS für chinesisches Mandarin und Dialekte

Bei der Bewertung tatsächlicher Anwendungsszenarien hat Baling-TTS gute Ergebnisse erzielt.



Tabelle 2 Testergebnisse von Bailing-TTS zur Lautsprecher-Feinabstimmung und zum Klonen ohne Stichproben bei Chinesisch-Mandarin und Dialekten

Technologieimplementierung und Zukunftsaussichten

Derzeit wurde dieses große Multidialekt-TTS-Modell in mehreren praktischen Szenarien angewendet. Zum Beispiel das Synchronisieren von NPCs in Spielen, das Synchronisieren von Dialekten bei der Videoerstellung usw. Durch diese Technologie können Spiel- und Videoinhalte näher an der regionalen Kultur sein und das Eintauchen und Erleben der Benutzer verbessern.

In Zukunft wird diese Technologie mit der Weiterentwicklung großer End-to-End-Sprachinteraktionsmodelle ein größeres Potenzial in Bereichen wie dem Schutz der Dialektkultur und der NPC-Dialektinteraktion von Spiel-KI zeigen. Im Dialektschutzszenario kann die nächste Generation durch die Unterstützung der Sprachinteraktion in mehreren Dialekten problemlos chinesische Dialekte erlernen, erben und schützen, wodurch die chinesische Dialektkultur eine lange Geschichte haben kann. In der Spielszene werden intelligente NPCs, die Dialekte sprechen und mit der Stimme interagieren können, die Ausdruckskraft von Spielinhalten weiter steigern.

Giant Network AI Lab wird sich weiterhin dafür einsetzen, die Innovation und Anwendung dieser Technologie zu fördern, um Benutzern ein intelligenteres und bequemeres Sprachinteraktionserlebnis zu bieten.

Teamvorstellung

Das im Jahr 2022 gegründete Giant AI Laboratory ist eine mit Giant Network verbundene Einrichtung für Anwendungen und Forschung im Bereich der Technologie künstlicher Intelligenz. Engagiert im Bereich der Generierung von AIGC-Inhalten (Bild/Text/Audio/Video/3D-Modell usw.), um eine umfassende Produktion und Erstellung intelligenter Inhalte zu realisieren und Spielinnovationen zu fördern. Derzeit hat das Labor eine voll vernetzte KI-Industrieproduktionspipeline innerhalb von Giant aufgebaut. Gleichzeitig hat es die Registrierung des ersten großen vertikalen Modells (GiantGPT) in der Spielebranche abgeschlossen und ist das erste, das kommerziell eingeführt wird Anwendung.