ニュース

中国初の大規模音声生成モデルが出願を通過

2024-09-20

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

ifeng.com technology news、9 月 20 日、中国の上海サイバースペース管理局は、上海の生成大型モデル登録承認リストの最新リストを発表し、これに mihoyo や china literature の dream island などのテキスト モデルが加わりました。このモデルは共同で登録プロセスを通過し、中国サイバースペース局から生成人工知能サービスを受ける国内初の大規模音声生成モデルとなった。

ヒマラヤン オーディオ モデルは、多感情的な解釈と超自然的な表現を備えた世界初の第 4 世代オーディオ世代モデルです。このモデルは、第3世代オーディオ世代モデルから第4世代オーディオ世代の大型モデルまで、オーディオ業界全体におけるaigcの進化をリードするモデルとなります。

himalayan オーディオ モデルは、everest ai チームが独自に開発したテキストと音声の共同モデリングに基づく llm フレームワークで、同じ空間ベクトル表現の下で音声とテキストの共同モデリング トレーニングを実現します。この共同モデリング方法は、オーディオ生成タスクに強力なセマンティック情報を完全に与え、それらの間の固有の接続と補完的な情報を最大限に活用します。、モデルのパフォーマンスと汎用性が大幅に向上しました。これは、前世代を超える第 4 世代の大型オーディオ モデルの中核となる技術的進歩でもあります。

トレーニング プロセス中、himalayan everest ai はまず音声データとテキスト データをそれぞれ前処理し、モデル入力に適したトークン形式に変換し、音声トークンとテキスト トークンを同じ空間ベクトル表現にマッピングして、モデルがデータをよりよく理解して処理できるようにします。音声とテキストの関係。全体的なトレーニング プロセスには、事前トレーニング (pretraining)、教師あり微調整 (sft)、ドメイン教師あり微調整 (ドメイン sft)、話者教師あり微調整 (スピーカー sft)、および強化学習 (rl) といういくつかの主要なプロセスが含まれます。これらのプロセスのトレーニングを通じて、このモデルは以下の特徴を持っています: (1) 15s トーンクローン機能とサウンド変換機能。 (2) 超擬人化、多感情、人間の好みに合わせた音声生成。 (3) 高度に制御可能なスタイルとパラ言語能力。

himalayan everest ai r&d チームはトレーニングされたモデルを評価し、オーディオ ノベルなどの長いオーディオ コンテンツのコンテキストにおいて、文字解釈スタイルの制御性、音素パフォーマンスの安定性、音声の流れとリズムの休止の自然さが大幅に向上していることを発見しました。国内外の第3世代オーディオ世代モデル。

ヒマラヤオーディオの大型モデルは「制作とモデルの組み合わせ」のパラダイムを実現します。、業界とモデルを組み合わせて、ビジネス、データ、アルゴリズムの正のフィードバック ループを形成します。 aigc オーディオ ブックやチャットの会話対話などのビジネス シナリオで広く使用されています。たとえば、最近人気のあるオーディオ ブック「my altay」は、himalayan オーディオ ラージ モデルによって生成されました。 himalaya everest ai は、オーディオ ラージ モデルの機能は everest ai 公式 web サイトで直接体験でき、ユーザーは独自のオーディオ コンテンツを直接作成できると述べました。