ニュース

世界で最も注目のAIオーディオモデル、最新技術詳細が明らかに

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


賢いもの
孟強編纂
編集者のユンペン

7 月 24 日の Zhixixi News によると、Satbility AI は 7 月 19 日に Arxiv で Stable Audio Open 研究論文を共有し、モデルの背後にある技術的な詳細を明らかにしました。

Stable Audio Open は、StabilityAI が今年 6 月に発表したオープンソースのテキスト音声変換モデルで、最大 47 秒のサンプルとサウンドエフェクトを無料で生成でき、44.1kHz の高品質ステレオオーディオを生成できます。コンシューマーグレードのGPU。このモデルは、無料でオープンソースであることに加えて、作成者の著作権の保護にも注意を払い、データ トレーニング中に倫理的および道徳的問題を回避するために最善を尽くします。

論文によると、Stable Audio Openは、StabilityAIが今年3月に発売した商用版Stable Audio 2のバリアントモデルであり、全体的なアーキテクチャは変わっていないが、トレーニングデータの使用とアーキテクチャの一部に調整が加えられていることが明らかになった。キー アーキテクチャは、T5 のテキスト埋め込みおよび拡散モデル (DiT) に基づくオートエンコーダで構成されます。

論文アドレス: https://arxiv.org/html/2407.14358v1

1. 3 つの主要なアーキテクチャにより、44.1kHz の高品質ステレオショートオーディオを無料で生成するサポートを提供

Stable Audio Open では、次の 3 つの主要なアーキテクチャを備えたテキストからオーディオへのモデルが導入されています。

  1. オートエンコーダ: 波形データを管理可能なシーケンス長に圧縮します。
  2. T5 に基づくテキスト埋め込み。
  3. トランスフォーマーベースの拡散モデル (DiT): オートエンコーダーの潜在空間で動作します。

オートエンコーダは、エンコーダとデコーダで構成されるニューラル ネットワーク アーキテクチャです。エンコーダは入力データをより小さな潜在空間表現に圧縮し、デコーダは潜在表現を解凍して復元します。 Stable Audio Open のオートエンコーダーは、後続の処理のためにオーディオ波形を短いシーケンスに圧縮します。


T5 (Text-to-Text Transfer Transformer) は、Google によって開発された自然言語処理モデルで、入力テキストを別のテキスト表現に変換できます。 Stable Audio Open では、T5 モデルはユーザーが入力したテキストをテキスト埋め込みに変換し、オーディオ生成プロセスへのテキスト情報の統合を容易にします。

DiT (Diffusion Transformer) は、オートエンコーダの潜在空間で動作し、エンコーダによって圧縮されたデータを処理および最適化し、デコーダが一貫性のある高品質のオーディオを復元できるようにする拡散モデルです。


Stable Audio Open は、Stable Audio 2 のバリアント モデルとして、トレーニング データの使用とアーキテクチャの一部が調整されています。まったく異なるデータセットが使用され、CLAP (Contrastive Language-Audio Pretraining) の代わりに T5 が使用されました。前者は Google によって開発され、さまざまな自然言語処理タスクを実行するためにテキスト データに重点​​を置いています。一方、後者は OpenAI によって開発され、言語データと音声データの両方を処理できます。

オープンソースの無料モデルである Stable Audio Open は、一貫した完全なトラックを生成せず、完全なトラック、メロディー、またはボーカル用に最適化されていません。

Stability AIによると、Stable Audio Openはオーディオデモとサウンドエフェクトの制作に焦点を当てており、最大47秒の44.1kHzの高品質ステレオオーディオを無料で生成できるという。専門的にトレーニングされた場合、このモデルは、音楽制作やサウンド デザインで使用するドラム ビート、楽器のリフ、アンビエント サウンド、フォーリー録音、その他のオーディオ サンプルの作成に最適です。

このオープンソース バージョンの主な利点は、ユーザーが独自のカスタム オーディオ データに基づいてモデルを微調整できることです。これにより、ユーザーは独自のドラム録音を使用してモデルをトレーニングし、独自のスタイルで独自のリズムを生成できます。

2. トレーニング プロセスは著作権保護に重点を置いています

生成型 AI の急速な発展を背景に、音楽業界における人工知能の使用、特に著作権問題をめぐる議論がますます激しくなっています。 Stability AI の元オーディオ担当副社長である Ed Newton-Rex 氏は、Stability AI がモデルをトレーニングする際に著作権で保護されたオーディオを使用することに同意せず、これは倫理に反すると考え、2023 年末に辞任しました。彼は Stable Audio の開発に携わりました。

生成AIのデータトレーニングはブラックボックスのようなもので、トレーニングに使用されたデータが著作権で保護されているかどうかは開発者以外にはわかりません。 「数十億ドル規模のハイテク企業の多くは、クリエイターの作品を利用して生成AIモデルを無断でトレーニングし、そのモデルを使って新しいコンテンツを生成している」と辞任したニュートン・レックス氏は公開書簡で述べた。クリエイターの著作権を侵害して利益を得ようとするこのような行為を容認しません。

Stability AI は、クリエイターの著作権を尊重するため、Stable Audio Open で使用されるデータセットは Freesound および Free Music Archive (FMA) からのものであり、使用されるすべての録音は CC (クリエイティブ コモンズ) ライセンスに基づいてリリースされたオーディオ録音であると述べました。 CC は、クリエイターが自分の作品を共有し、他の人がその作品を使用する方法を規制できるようにする著作権ライセンス メカニズムです。


著作権で保護された素材の使用を確実に回避するために、Stability AI はオーディオ タガーを使用して Freesound 内の音楽サンプルを識別し、識別されたサンプルは Audible Magic のコンテンツ検出会社に送信され、著作権で保護された音楽のデータセットから潜在的なコンテンツが確実に削除されると述べています。

「これにより、クリエイターの権利を完全に尊重しながら、オープンなオーディオモデルを作成できるようになります」とStability AIは述べています。

結論: オープンソースと無料モデルが Vincent Audio の人気をさらに高める

Stable Audio Open の開始は、テキストからオーディオへのモデルの分野における Stability AI の革新と進歩を示しています。このモデルにはオーディオの長さと一貫性を生成する際に一定の制限がありますが、その利点も明らかです。高品質の 44.1kHz ステレオ オーディオを無料で生成でき、コンシューマー グレードの GPU で実行できるため、Vincent Audio を使用する敷居が低くなります。

同時に、Stable Audio Open はオーディオ生成テクノロジーを開拓すると同時に、著作権保護の新しいベンチマークを設定します。今後、技術の継続的な進歩と倫理の向上に伴い、Stable Audio Openはより多くのアプリケーションシナリオでその可能性を発揮し、オーディオ生成技術の開発と普及を促進することが期待されます。

現在、Stable Audio Open モデルの重みは、機械学習モデル プラットフォーム Hugging Face で利用できます。 スタビリティ AI は、サウンド デザイナー、ミュージシャン、開発者、その他オーディオに興味のある人がモデルの機能を探索し、フィードバックを提供することを奨励します。

出典: スタビリティAI