ニュース

音声クローン作成は人間のレベルに達し、マイクロソフトの新しい VALL-E 2 モデルによりディープフェイクは声優と同等に

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


新しい知恵のレポート

編集者:喬楊

【新しい知恵の紹介】昨年初めの第 1 世代 VALL-E モデルに続き、マイクロソフトは最近新しい VALL-E 2 モデルを発表し、合成音声モデルの堅牢性、類似性、自然さの点で人間のレベルに達する初のテキスト読み上げを実現しました。 。

最近、Microsoft は、初めて人間と同等のレベルを達成したゼロサンプルの音声合成 (TTS) モデル VALLE-2 をリリースしました。これは、TTS の分野におけるマイルストーンと言えます。


論文アドレス: https://arxiv.org/pdf/2406.05370

近年のディープラーニングの急速な進歩により、レコーディングスタジオ環境でのきれいな一人人の音声を用いたトレーニングモデルは人間と同等の品質に達していますが、ゼロサンプルTTSは依然として難しい問題です。

「ゼロサンプル」とは、推論プロセス中にモデルが、リアルタイムで模倣できる腹話術師のように、短い見慣れない音声サンプルのみを参照し、同じ声でテキストの内容を話すことができることを意味します。

これを聞いて、あなたは突然警告を受けるでしょうか。この機能を備えたモデルはディープフェイクに最適なツールです。

MSRA がこれを考慮に入れてくれたことは喜ばしいことです。現在、VALL-E シリーズは研究プロジェクトとしてのみ使用されており、製品に組み込んだり、用途を拡大したりする予定はありません。

VALL-E 2 は強力なゼロサンプル学習機能を備えており、声優のように声を模倣することができますが、類似性と自然さは音声プロンプトの長さと品質、背景雑音、その他の要因によって異なります。

プロジェクト ページと論文で、著者は倫理的声明を発表しました。VALL-E を現実世界のアプリケーションに推進したい場合は、少なくとも強力な合成音声検出モデルが必要であり、それを確実にするための認可メカニズムを設計する必要があります。モデルは音声を合成できます。サウンド所有者によって事前に承認されています。

一部のネチズンは、製品ではなく論文のみを出版するマイクロソフトの慣行に大きな失望を表明した。


結局のところ、デモを見るだけではまったく信頼できない、自分で試す方法がない=何もないということは、最近のさまざまな製品のひっくり返りによって私たちに深く理解させられました。


しかし、Redditの一部の人々は、Microsoftは単に「最初にカニを食べる」ことを望んでいなかっただけであり、批判や否定的な世論の可能性を懸念してこのモデルをリリースしなかったのではないかと推測した。

VALL-E を製品化する方法が確立したり、他の競合製品が市場に登場したりしても、Microsoft が儲かるかどうかを心配するでしょうか?



実際、ネチズンが言っているように、現在プロジェクトページで公開されているデモから判断すると、VALL-Eの真のレベルを判断するのは困難です。


プロジェクトページ: https://www.microsoft.com/en-us/research/project/vall-ex/vall-e-2/

合計 5 つのテキストは 10 単語以内の短い英語の文章です。音声プロンプトの音声は非常に似ており、英語のアクセントは十分に多様ではありません。

デモはそれほど多くありませんが、モデルがイギリスとアメリカのアクセントを模倣するのが非常に上手であることは漠然と感じられます。ただし、プロンプトにわずかにインドまたはスコットランドのアクセントが含まれている場合、本物のレベルに達するのは困難です。

方法

モデルの前身である VALL-E は 2023 年初頭にリリースされ、すでにゼロサンプルで TTS にとって大きな進歩を遂げています。 VALL-E は、話者の声、感情、音響環境を維持しながら、3 秒間の録音からパーソナライズされた音声を合成できます。

ただし、VALL-E には 2 つの重要な制限があります。

1) 安定性: 推論プロセスで使用されるランダム サンプリングにより出力が不安定になる可能性があり、top-p 値が小さいカーネル サンプリングにより無限ループの問題が発生する可能性があります。複数のサンプリングとその後の並べ替えによって軽減できますが、計算コストが増加します。

2) 効率: VALL-E の自己回帰アーキテクチャは、既製のオーディオ コーデック モデルと同じ高いフレーム レートに制限されており、調整できないため、推論が遅くなります。

VALL-E のこれらの問題を改善するための研究は数多く行われていますが、多くの場合、モデルの全体的なアーキテクチャが複雑になり、データ サイズをスケールアップする負担が増大します。

この以前の成果に基づいて、VALL-E 2 には、反復を意識したサンプリングとグループ化されたコード モデリングという 2 つの重要な革新が含まれています。

繰り返し認識サンプリングは、VALL-E のランダム サンプリングを改良したもので、過去のトークンの繰り返しに基づいてランダム サンプリングまたは核サンプリングを適応的に採用できるため、VALL-E の無限ループの問題が大幅に改善されます。安定性。


繰り返される知覚サンプリングのアルゴリズム記述

グループ化コード モデリングでは、コーデック コードが複数のグループに分割され、自動回帰中に各グループが単一のフレームでモデル化されます。シーケンスの長さを短縮して推論を高速化するだけでなく、長いコンテキスト モデリングの問題を軽減することでパフォーマンスも向上します。

VALL-E 2 はトレーニングに単純な音声文字起こしテキスト データのみを必要とし、追加の複雑なデータを必要としないことは注目に値します。これにより、データの収集と処理プロセスが大幅に簡素化され、潜在的なスケーラビリティが向上します。

具体的には、データ セット内の音声テキスト データごとに、オーディオ コーデック エンコーダーとテキスト トークナイザーを使用して、それをコーデック コード = [0,1,…,(−1 )] およびテキスト シーケンス = [0] として表します。 ,1,…,(−1)] 自己回帰 (AR) モデルと非自己回帰 (NAR) モデルのトレーニング用。


AR モデルと NAR モデルは両方とも Transformer アーキテクチャを使用しており、その後の比較評価実験用に 4 つのバリアントが設計されました。これらは同じ NAR モデルを共有しますが、AR モデルのグループ サイズはそれぞれ 1、2、4、8 です。

推論プロセスも AR モデルと NAR モデルを組み合わせたものです。テキスト シーケンスとコード ヒント <',0 に基づいて、ターゲット コード ≥',0 を持つ最初のコード シーケンスが生成され、その後、自己回帰法を使用して各グループのターゲット コードが生成されます。


シーケンス ≥',0 が与えられると、NAR モデルはテキスト条件と音響条件 '' を使用して推論され、残りのターゲット コード シーケンス ≥',≥1 が生成されます。

モデルのトレーニングでは、Libriheavy コーパスのデータを使用します。このコーパスには、英語のオーディオブックを読んだ 7,000 人の 50,000 時間の音声が含まれています。テキストと音声の単語分割には、それぞれ BPE とオープンソースの事前トレーニング済みモデル EnCodec が使用されます。

さらに、オープンソースの事前トレーニング済みモデル Vocos も音声生成用のオーディオ デコーダとして使用されます。

評価する

モデルの音声合成効果が人間と同等のレベルに達するかどうかを検証するために、評価では SMOS と CMOS という 2 つの主観指標を使用し、実際の人間の音声をグランド トゥルースとして使用します。

SMOS (Similarity Mean Opinion Score) は、音声と元のプロンプトの間の類似性を評価するために使用されます。スコアの範囲は 1 ~ 5 (0.5 ポイント刻み) です。

CMOS (Comparative Mean Opinion Score) は、指定された基準音声と比較して合成音声の自然さを評価するために使用されます。スケール範囲は -3 ~ 3 で、増分は 1 です。


表 2 の結果によると、VALL-E 2 の主観スコアは、初代 VALL-E の主観スコアを上回っているだけでなく、実際の人間の音声よりも優れています。

さらに、この論文では、SIM、WER、DNSMOS などの客観的な指標を使用して、合成音声の類似性、堅牢性、全体的な知覚品質を評価しています。


これら 3 つの客観的指標では、VALL-E 2 のグループ サイズがどのように設定されていても、VALL-E と比較して全体的な改善が見られます。WER および DNSMOS スコアも実際の人間の音声よりも優れていますが、まだ改善されています。 SIM スコアに一定のギャップがある。

また、表3の結果から、VALL−E2のARモデルグループサイズが2の場合に最適な効果が得られることが分かる。

VCTK データセットの評価からも同様の結論が得られます。プロンプトの長さが増加すると、グループ化されたコード モデリング手法によりシーケンスの長さが短縮され、Transformer アーキテクチャ内の誤ったアテンション メカニズムによって引き起こされる生成エラーが軽減され、それによって WER スコアが向上します。


著者について

この記事の筆頭著者である Chen Sanyuan は、ハルビン工業大学と Microsoft Research Asia によって共同トレーニングを受けた博士号であり、2020 年から MSRA Natural Language Computing Group のインターン研究員を務めています。彼の研究関心は主に事前トレーニングを受けています。音声および音声処理のための言語モデル。


参考文献:

https://arxiv.org/abs/2406.05370