2024-09-29
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
思いがけず被害者はaiだったことが世間を騒がせた「三匹の羊事件」。
一昨日の夜、合肥市警察は「三羊集団の創設者、陸文清氏の録音事件」に関する通知を出し、広く流通した音声はaiによって生成されたものであり、容疑者は法令に従って刑事強制措置の対象となったと発表した。法律。
最後の言葉で、この通知は公式の立場を与えただけでなく、数日前にネット上で噂になった「国産aiの第一人者」を叩きのめしたのである。 「当時は、「ai voice クローン技術はまだそれほど滑らかではありませんでした。」
しかし、さらに驚くべきことは、昨日、ai企業が飛び出して「声明を発表」し、音声コンテンツは容疑者が自社開発したai吹き替え大型モデルを通じて制作したものであると述べたことだ。
ネチズンも衝撃を受けましたが、それでも宣伝を忘れませんでした。声明に記載されている企業を追跡して声明の出所を調べたところ、同名の weibo 上に関連するコンテンツが見つかりましたが、このアカウントは正式に認定されていないため、最終的な結論を出すことはできません。
しかし、この声明をめぐる議論は依然として高まっており、好奇心旺盛な一部の人々は、ai 企業の音声クローン製品が本当に強力なのかどうか、「このウェブサイトを試してみようか?」と尋ねています。 」
ぜひ試してみてください。関連する企業名と製品名を伏せて、実際のテストを実施しました。以下のテストは一般科学の目的のみであることに注意してください。ツールはユーザーがそれをどのように使用するかにかかっています。私たちは、法律の境界をテストするために ai を使用する人を決してサポートしません。
同時に、この種のaiクローン音声侵害訴訟の前例があるかどうか、また、クリエイターやプラットフォームが新しいテクノロジーを使用または宣伝する際にどのような法的問題に注意する必要があるかについて、関連する弁護士にも相談しました。ご参考までに。 。
aiが人の声を複製し、
ほんの数秒のサウンドサンプル
テキストを入力し、役割を割り当て、テキストを文ごとに自動的に分割し、ワンクリックで生成します。
製品ページに入った後、上記の手順を実行したところ、jiang wen に「let the bullets fly」の liu zi のセリフを読み上げるまでに 1 分しかかかりませんでした。
お父さん、すべて探しましたが、お金も物品も銀もありません。生き残っているのは二人だけですが、殺すべきでしょうか、殺さなくてよいのでしょうか?
このリズムと口調で、劉紫の役を姜文が演じていると思ったかどうかはわかりませんが、実際、この映画では劉紫が息子を演じ、姜文が劉紫の父親の役を演じていました。
この音声は、製品内のボイスキャラクター「ジャン・ウェン」を使用して生成されました。
現在、本作には「孫暁春」や「丁振」などのネット有名人をはじめ、「コービー・ブライアント」や「ジェイ・チョウ」といった文化界やスポーツ界のスーパースターなど、多数のボイスキャラクターが登場している。 。
これらの音声キャラクターはすべてコミュニティ ユーザーによってアップロードされ、プラットフォーム上の公式キャラクターをクリックすると、「近日公開予定ですので、ご期待ください」と表示されます。
コミュニティ ユーザーがアップロードした音声キャラクターを使用するだけでなく、プラットフォーム上で有名人の声を複製することも簡単です。
ここでは、aiマスクが「個人的に」「あなたは白鳥だ、彼はカエルだ!(ヒキガエルは白鳥の肉を食べたい)」と、海外で非常に人気のあるチングリッシュのフレーズを言ったマスクの実際のインタビュー録音をアップロードしました。
このプラットフォームでは、サンプル音声は 2 秒以上である必要があり、サンプルの長さよりも品質が重要であるため、音声クローンを実行する場合、最も時間のかかる手順は、マスクの鮮明な録音を見つけることです。
関係者によると、この録音は、声、感情、話す速度、イントネーション、リズムなど、キャラクターのデフォルトのボーカルパフォーマンスを定義するために使用されます。同じキャラクターに異なる音声スタイルが必要な場合は、音声キャラクターの異なるスタイルのサンプルを追加することもできます。
現時点では、このバージョンではオーディオ作品のみをアップロードしており、有料のプロフェッショナル クローン モードではなく、プラットフォームの高速クローン モードを引き続き使用しています (このモードの音色と感情の回復度は 99.9% と高いと公式に言われています)。短文のパフォーマンスはすでにマスク自身の声に6〜7ポイント似ています。
コンテンツ形式の観点から見ると、生成 ai はテキスト、オーディオ、ビデオ、さらには 3d コンテンツにまで「侵入」しています。その中でも、オーディオはテクノロジーの応用において最も成熟したトラックの 1 つであると言えます。
ai サウンド クローン作成は、ai オーディオ生成の一部にすぎません。他のアプリケーションには、ai によって生成された音楽や ai によって生成されたサウンド エフェクトが含まれます。
生成 ai が登場するずっと前から、ai 音声クローンは実際に存在していました。当時、私は従来の tts (text-to-speech、テキスト読み上げ) 技術に基づく音声のクローンを作成したいと考えていました。それには、ai 音声ライブラリを構築し、多数の人間の音声サンプルを収集する必要がありました。その後、人間の声でシミュレートする必要がありました。
あるいは、bert vits などのオープンソース プロジェクトに基づいた、最新の深層学習音声合成テクノロジを使用して、テキストを音声に直接変換して音色を復元することもできますが、機器と技術要件は比較的高くなります。
画像出典: station b の up マスター「henji weizi」の gpt-sovits チュートリアル
現在、aigc の波を受けて、「ロール型」ai ツールはサウンドを正確に再現するために 10 秒以下のサウンド サンプルしか必要としません。
先ほど、ライブブロードキャストにおける ai 音声クローン技術の原理を紹介しましたが、これは一般的に音声収集、特徴抽出、モデルトレーニング、音声合成などのステップに分かれています。 .、許可 音声クローン操作のしきい値が低くなりました。 (関連するライブブロードキャストのリプレイについては、「ai new list」ビデオアカウントをフォローするか、下の画像のqrコードをスキャンしてご覧ください)
したがって、「三匹の羊の記録ゲート」をaiによって生成することは技術的に可能です。特に「慎重な人」の手では、ai 生成に加えて、手動デバッグ、ポスト編集などの方法も使用して、偽の効果と本物の効果を実現できます。
言うまでもなく、流通している録音には複雑な環境騒音や話者の「酩酊状態」設定が多数含まれており、録音の信頼性を特定することが大幅に困難になっています。多くのネットユーザーが、ai は単に「臨時労働者」として機能するだけで、あらゆることに抵抗できるのではないかと推測するのも不思議ではありません。
実はこれは、ai技術の急速な進化に伴い、aiで何ができるのか、どこまでできるのかについて、私たち一般人と現場の実務者との間に情報格差が生じているという側面も反映しています。
さらに、「three sheep recording gate」事件では、プラットフォームの監督不足やクリエイターによる不適切な使用などの法的問題も露呈した。
コンテンツプラットフォームにおけるai音声侵害に関する議論
実際、ai 偽造による音声侵害のケースはこれが初めてではありません。
今年4月、北京インターネット法廷は同国初の「ai音声侵害訴訟」を審理した。
原告イン・モウモウは吹き替えアーティストであり、多くの音声作品を録音している。彼は偶然、自分の声がai化されて「マジックサウンドワークショップ」というアプリで販売されていることを発見する。裁判所は最終的に、被告が原告の許可なく原告の音声を使用したことは権利侵害に当たるとの判決を下し、原告にさまざまな損失として25万元を賠償した。
中華人民共和国民法第 1023 条によれば、自然人の声は法律によって保護されており、その保護方法は肖像権と同様です。これは、ai によって生成された音が識別可能であり、公衆が特定の自然人を連想できる場合、その自然人の許可なしにその音を使用すると侵害となる可能性があることを意味します。
中国初のai絵画著作権訴訟の原告であり、北京天源法律事務所のパートナーでもあるリー・ユンカイ氏は、「ai新リスト」に次のように語った。
現時点では法律を改正する必要はありません。 ai技術はまだ発展途上にあるため、2年以内に新たな技術が導入される可能性があり、これを法律で制定する場合、その頃には技術の形態が変化していることになります。法律は実際には紙切れになりました。
現在の法律はすでに基本的な枠組みを規定していますが、調整が必要なのは、これらの法律をどのように解釈するか、そして典型的な事件を通じて関連する司法の態度をどのように形成するかということです。技術が真に成熟して初めて、司法実務で確立されたルールを明確にするための立法を推進する必要があります。
司法実務における侵害事件に加えて、コンテンツ プラットフォームにおける ai 音声侵害はより広範囲かつ秘密裏に行われています。
現在、aiツールの絶え間ない登場により創作の敷居は大きく下がり、aigcはpgc、ugcに次ぐ人気のコンテンツ制作手法となっています。
ai音声クローン技術を利用して、ポピュラー音楽を再現したり、アニメやゲームのキャラクターにaiカバーをさせたり、亡くなった有名人に喋らせたりすることは、国内外のコンテンツプラットフォーム上で非常に一般的です。
ありきたりな二次創作に比べて、aiを活用した二次創作はより広い概念です。二次創作物は通常、ファングループ内の創作に限定されますが、二次創作物は一般の ai 技術愛好家によるものである可能性があり、ai 技術の恩恵により、適応と革新のための想像力の余地が大きくなります。
質と量の高いaiサウンドの第二世代作品は、オリジナルipや著名人自身の人気を活かしてファン層にリーチするだけでなく、そのサークルを突破する可能性も秘めています。
一般的に、現在の第二世代コンテンツの量と影響力、コンテンツプラットフォームの生態を考慮すると、著作権保護は主にクリエイター、著作権所有者の意識、公的監督に依存しています。
オリジナル作品と著作権者が二次創作物に対して請求を行わない場合、通常は法的問題は発生しません。
ほとんどのコンテンツ プラットフォームは、特定の制限を課しながら、これらのコンテンツが自由に成長できるようにすることも選択しています。結局のところ、著作権の監督が厳しすぎると、クリエイターの熱意が減退し、コンテンツの普及が妨げられることは避けられず、コンテンツプラットフォームにとっても大きな損失となります。
もちろん、コンテンツの革新を促進する一方で、コンテンツ プラットフォームは、対応するレビュー、ラベル付け、監督のメカニズムも改善する必要があります。
2024 年 9 月 14 日、中国サイバースペース局は「人工知能によって生成された合成コンテンツのラベル付けに関する措置 (コメント草案)」を発表し、aigc コンテンツ ラベルを追加するための具体的な要件をさらに明確にしました。
人間の合成音声や模倣音声などの音声を生成する編集サービスを提供する場合、または個人のアイデンティティ特性を大幅に変更する編集サービスを提供する場合は、音声プロンプトやオーディオリズムプロンプト、その他の記号を音声の先頭、最後、または中間の適切な位置に追加するか、追加する必要があります。インタラクティブなシーンインターフェイスへ。
著作権の所有権という曖昧で判断が難しい問題に加えて、現実的な倫理的および道徳的な対立から別の論争が生じています。
たとえば、温かさや追悼を装って、aiを使って亡くなった著名人の声や笑顔を「復活」させることも、故人に対する失礼かつ過剰な消費とみなされている。
コンテンツプラットフォームの第2世代ai音声作品であれ、three sheepによるai吹き替えの刑事事件であれ、ai音声クローン技術を巡る著作権、倫理、データプライバシー、違法、刑事問題は依然として多く、さらなる解明が必要である。議論しました。
著者 | 月山立花石瀬
編集者 | 張潔