私の連絡先情報
郵便管理者@information.bz
2024-08-13
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
AIxivコラムは、マシンハートが学術的・技術的な内容を掲載するコラムです。過去数年間で、Heart of the Machine AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。送信メール: [email protected]; [email protected]
2024 年に GPT-4o が登場して以来、業界企業は TTS 大型モデルの研究開発に莫大なリソースを投資してきました。ここ数カ月で、chattts、seedtts、cosyvoice などの大規模な中国語音声合成モデルが登場しました。
現在の大規模音声合成モデルは、中国語の実際の人々とほぼ同じ効果を持っていますが、中国の複雑な方言に直面して、TTS 大規模モデルが統合された大規模中国語音声合成モデルのトレーニングに関与することはほとんどありません。さまざまな方言を使うのは非常に難しい任務です。
業界の問題点と技術的なボトルネック
現在、音声合成ラージモデル技術は中国語の分野では大きな進歩を遂げていますが、方言の分野ではその発展が非常に遅れています。中国には数十の主要な方言があり、それぞれが独自の音声特性と文法構造を持っているため、さまざまな方言をカバーする大規模な TTS モデルのトレーニングが非常に複雑になります。
既存の大規模な TTS モデルのほとんどは中国語に焦点を当てており、多様な音声合成のニーズを満たすことができません。さらに、方言コーパスの不足と高品質の注釈データの不足により、技術的な困難がさらに高まります。
Giant Network AI Labの技術革新と躍進
上記の問題を解決するために、Giant Network AI Lab チームのアルゴリズム専門家と言語学者が協力して、中国語の方言システムに基づいて 20 の方言をカバーし、200,000 時間を超える北京語と方言のデータ セットを構築しました。この膨大なデータセットを使用して、私たちはトレーニングを行いました複数の北京語方言の混合発話をサポートする初の大規模 TTS モデル - Bailing-TTS。 Bailing-TTS は、高品質の中国語音声を生成できるだけでなく、河南語、上海語、広東語などを含むさまざまな方言音声も生成できます。
出典: https://arxiv.org/pdf/2408.00284
ホームページ: https://giantailab.github.io/bailingtts_tech_report/index.html
論文タイトル: Bailing-TTS: 人間らしい自発的表現に向けた中国語の方言音声合成
次の音声視聴リンク: https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==∣=2650930007&idx=5&sn=383cf581d916b0802b940366bd4b9d5f&chksm=84e43f29b393b63f434ae60d 46 33694cd0362cec7590badfae2b0b683a5bd0c112e725c1f80d&token=2010422951⟨=zh_CN#rd
以下は、河南方言における Bailing-TTS の合成効果です。
北京語でのゼロサンプル クローン作成の効果を聞いてみましょう。
この目標を達成するために、私たちはいくつかの革新的なテクノロジーを採用しました。
1.統一された方言トークン仕様: さまざまな方言のトークン仕様を統一し、中国語とさまざまな方言のトークンを部分的に重複させて、中国語を使用して基本的な発音機能を提供します。これにより、限られたデータ条件下でも高品質な方言音声合成を実現できます。
2.洗練されたトークンアライメント技術: 大規模なマルチモーダル事前トレーニングに基づいて洗練されたトークン単位のアライメント技術を提案します。
3.階層型ハイブリッドエキスパート構造: 複数の中国語の方言の統一表現と各方言の特定の表現を学習するための階層型ハイブリッド エキスパート アーキテクチャを設計します。
4.階層型強化学習の強化戦略: 基本的なトレーニング戦略と高度なトレーニング戦略を組み合わせることにより、TTS モデルの方言表現能力をさらに強化するための階層型強化学習戦略を提案しました。
実装の詳細
図 1 Bailing-TTS の全体的なアーキテクチャ
1. 大規模なマルチモーダル事前トレーニングに基づいた洗練されたトークン調整
テキストと音声トークンの洗練された配置を実現するために、多段階、マルチモーダルな事前トレーニング学習フレームワークを提案します。
最初の段階では、教師なしサンプリング戦略を使用して、大規模なデータセットに対して大まかなトレーニングを実行します。第 2 段階では、洗練されたサンプリング戦略を採用して、高品質の方言データセットに対してきめの細かいトレーニングを実施します。この方法は、テキストと音声の間のきめ細かい相関関係を効果的に捕捉し、2 つのモダリティの調整を促進します。
2.階層型ハイブリッドエキスパートTransformerネットワーク構造に基づく
複数の中国語の方言に適した統一 TTS モデルをトレーニングするために、階層的なハイブリッド エキスパート ネットワーク構造と多段階のマルチ方言トークン学習戦略を設計しました。
まず、複数の中国語の方言の統一表現と各方言の特定の表現を学習するために特別に設計されたハイブリッド エキスパート アーキテクチャを提案します。次に、相互注意に基づく融合メカニズムを通じて TTS モデルのさまざまなレベルに方言トークンを注入し、モデルの複数方言表現機能を向上させます。
3. 階層型強化学習の強化戦略
基本戦略トレーニングと高度なトレーニング戦略を組み合わせることにより、TTS モデルの方言表現能力をさらに強化するための階層型強化学習戦略を提案します。基本トレーニング戦略は高品質な方言音声表現の探索をサポートし、高度なトレーニング戦略はこれに基づいてさまざまな方言の音声特徴を強化し、それによって複数の方言で高品質な音声合成を実現します。
図2 方言MoEの構造
実験結果
Bailing-TTS は、堅牢性、生成品質、中国語および複数の方言の自然さの点で、実際の人間に近いレベルに達しています。
表 1 中国北京語と方言に対する Bailing-TTS のテスト結果
実際のアプリケーションシナリオの評価において、Baling-TTS は良好な結果を達成しました。
表 2 中国語の北京語と方言に対する話者の微調整とゼロサンプル クローン作成に関する Bailing-TTS のテスト結果
技術導入と今後の展望
現在、この大規模な複数方言 TTS モデルは、複数の実際的なシナリオに適用されています。例えば、ゲームのNPCの吹き替え、映像制作での方言の吹き替えなどです。この技術により、ゲームや映像コンテンツを地域文化に近づけることができ、ユーザーの没入感や体験感が向上します。
将来的には、エンドツーエンドの音声インタラクション大規模モデルのさらなる開発により、この技術は方言文化保護やゲームAI NPC方言インタラクションなどの分野で大きな可能性を示すでしょう。方言保護シナリオでは、複数の方言での音声インタラクションをサポートすることで、次世代が中国の方言を簡単に学習、継承、保護することができ、中国の方言文化に長い歴史を持たせることができます。ゲームシーンでは、方言を話したり、音声でインタラクトしたりできる知的なNPCがゲームコンテンツの表現力をさらに高めます。
Giant Network AI Lab は、ユーザーによりスマートで便利な音声対話エクスペリエンスを提供するために、このテクノロジーの革新と応用を促進することに引き続き取り組んでいきます。
チーム紹介
2022 年に設立された Giant AI Laboratory は、Giant Network に所属する人工知能技術の応用および研究機関です。 AIGC コンテンツ (画像/テキスト/オーディオ/ビデオ/3D モデルなど) 生成の分野に注力し、包括的なインテリジェントなコンテンツ制作と作成を実現し、ゲームプレイの革新を推進します。現在、同研究所はGiant社内にフルリンクAI産業生産パイプラインを構築しており、ゲーム業界初の大型垂直モデル(GiantGPT)の登録も完了しており、初めて商用利用されることになる。