ニュース

スノ危機、ウディオアップデートv1.5、それは音楽作りに本気だから

2024-07-27

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Udio は厳しい戦線とも言える新バージョン v1.5 をリリースし、そろそろ危機感を感じています。
昨夜、Udio は多くの新機能とパフォーマンスの強化を含むメジャー アップデートをリリースしました。
Udioはa16zが出資して今年4月にリリースされ、発売当時はSunoの最大のライバルとして知られ、プロのミュージシャンからも認められていました。
生成音楽の応用例は数多くありますが、Udio はさまざまなスタイルや音楽ジャンルを理解し、制御することに特に優れていると言えます。「音楽の才能」
1 つのコマンドで 2 つの完成品を取得できます。 プロンプトは質素な方法で書かれており、そのユニークな特性を考慮すると、プロンプトに必要な音楽スタイルをより明確に入力するほど、その効果はさらに大きくなります。

でも、ホームページにはおすすめの作品がたくさんあるので、プロンプトを見ると怖くなるほどで​​す。たとえば、交響曲形式のこの曲の場合、プロンプトは単に「ベートーベンの交響曲」です。

デフォルトの長さは 30 秒で、延長する方法は、開始段落、末尾段落、または途中に接続段落を追加することを選択でき、音楽初心者にも優しいです。 。

このアップデートのハイライトの 1 つである多言語サポートから始めましょう。公式デモでは、中国語でのデモが提供されます。
歌词内容是怪怪的😂 不少生成式音乐的 demo 都喜欢用「人机情感」的主题,一种奇奇怪怪的执念。
しかし、アレンジは非常に完成度が高く、北京語の歌唱も非常にスムーズで、「外国人が中国語で歌っている」というダサい感じはありません。
公式が提供する v1 と v1.5 の比較では、Udio の人間の声の処理は顕著です。「AI 風味」がこれまでにないレベルまで低減されているのがはっきりと聞こえます (ただし、大幅に削減されているとも聞こえます)。リングからカバーまでの混合が完了しました)。
また、今回のアップデートの中で一番音質の向上がすごいです、48kHzのステレオサウンドトラック、低音が特に際立っており、非常にしっかりしていて、音質はHiFiヘッドフォンに耐えることができます。
ご存知のように、音質の向上は音楽にさらなるレイヤーを与える可能性をもたらします。
たとえば、複雑なオーケストラ音楽でもステレオ効果を生み出すことができます。
しかし、今回の Udio のアップデートでは、さまざまな楽器の位置がより明確に区別できるようになり、相互に衝突したり混乱したりすることなくアンサンブルの調和が保たれます。
新バージョンではキーコントロールも導入されており、専門的な音楽知識を持つユーザー向けに操作性が向上しています。また、画像生成と同様に音声生成オーディオ(有料)にも対応しています。
音楽をベースとして使用し、モデルを生成させます。プロの (ただし下手な) ミュージシャンであっても、一般ユーザーであっても、Udio に音楽のアレンジを手伝ってもらうことができます。
Udio ユーザーからのビデオマックスバーゼル
一般ユーザーであれば、Udio の世代には特別な機能があります。
音楽のジャンルにあまり詳しくなく、プロンプトに明確に書くことができない場合、ウディオは非常に「ディズニー」スタイルから始めることがよくあります。
たとえば、オーケストラをベースにしたオーケストレーション、ミュージカル風の歌唱、さらに重要なことに、ディズニー映画音楽で特に一般的な転調方法が特徴です。
この曲が『シンデレラ』や『白雪姫』のヒロインのソロコーナーとして使われても違和感はありません。
それはやはりポップカルチャーの巨人であるディズニーとしか言えず、ユーザーの音楽美学の“最大公約数”とも言えるでしょう。
しかしディズニーの法務も非常に強力です, Udioは以前、自社のアーティストの音楽作品が収集され、モデルをトレーニングするためのデータとして使用されているのは権利侵害であるとして、Sunoとともに大手音楽レーベル3社から共同で訴訟を起こされている。
ウディオが新たな訴訟を望まないのであれば、もっと慎重になったほうがいいだろう。
ジャズにおけるウディオの演奏は非常に充実しており、ジャズはライブ演奏であれば、その場での変化や演奏も多い。したがって、モデルがジャズを明確に学習することは困難ですが、理解することもできます。
より明確なリズムを持つ他のポップ ミュージックでは、基本的には大きな問題はありません。
Udio は実際に自分自身を音楽アプリだと考えています。 Suno の公式 Web サイトのホームページがキーワードや人気度に基づいて曲を紹介する方法と比較して、Udio は主に音楽のジャンルとスタイルを使用します。

え、本当に音楽作りたいの?
Udio関係者は技術的な詳細を明らかにしていないが、大規模な言語モデルを使用して音楽を生成することは決して簡単ではなかった。
音楽の言語は言葉で説明するのが難しい、おそらくは 1 秒間の大量の情報が含まれており、すべてのビート、ノート、ボーカル、ハーモニーの有機的な統合が含まれています。
長いサウンドのシーケンスを生成する場合、AI モデルはフレーズ、歌詞、または延長されたパッセージ内で音楽の連続性を維持することが困難になります。さらに、音楽にはボーカルや楽器が含まれるため、音声よりも生成するのがはるかに困難です。
ただし、ユーザーにプッシュする場合は、シンプルかつ直接的である必要があります。ユーザーは自然言語を使用するだけでよく、各ユーザーが専門的な音楽理論の知識を習得する必要はありません。
Udio CEOのDavid Ding氏と共同創設者のCharlie Nash氏はともにDeepmindで働いており、昨年11月にリリースされ、当時世界で最も複雑な音楽モデルと言われた音楽モデルLyriaの開発に参加した。


その後、David Ding が同僚に一緒にビジネスを始めようと誘い、これが Udio の誕生です。
しかし、繰り返しになりますが、ウディオの能力にもかかわらず、それはまだ生身の人間を置き換えることができるほどではありません。
たとえば、音程とメロディーの方向性の関係はまだ非常にぎこちないです。これは、大規模なモデルには実際の「理解」機能がないという事実に関連しています。
ボーカルは言うまでもなく、いくつかの曲を聴いてみると、基本的に「歌」という要素がないことがわかります。プロの歌手のような音域の切り替えやビブラート、ブレスなどの器用さを実現したい場合、強力なモデルを使用するのは少し難しいです。
「生成音楽」の軌跡に沿って、オーディオ「音楽」という言葉にもっと注目してください、ビルドはそのための単なるツールです。
このレビューを書いている間、一時停止する必要があるときに自動的に再開させ続け、無意識のうちに NetEase Cloud に切り替えて一時停止を押したかったのですが、突然、再生されている音楽が実際には Udio であることに気づきました。
そこで思い浮かぶのが、日々の仕事や家事の合間に「聴く」だけのBGMという利用シーンです。
現在の品質では、Udio のプレイリストを使用して、既存の毎日のプッシュとランダム再生を置き換えることは完全に実現可能です。とはいえ、赤いハートを付けるほど感動する曲はなかなかありません。
本当に面白いのは、徐々に減少している「トラフィック」に関連付けられたランダムなプッシュです。ミュージシャンがクリック数や再生数に囚われる悪循環から抜け出し、音楽で自己表現をするという原点に立ち返ろう。、それが生成音楽イノベーションの貢献になります。

テキスト | セリナ