ai がシャオヤンの録音を偽造する秘密を明らかに: コストはゼロ、わずか 3 秒

xiao yang の録音を ai で偽造する秘密を明らかに: コストはゼロ、所要時間はわずか 3 秒

2024-09-30

小陽事件で暴露された「盧文清の録音」は、当初その内容の規模から世間の反発を引き起こしたが、その後すべてaiによる捏造であることが判明した。

時間が経つにつれて、ai テクノロジーが再び最前線に押し上げられています。

写真/yanyu technologyからの公式返信

技術の善し悪しに関係なく、本質的に、ai合成録音は、深層学習アルゴリズムを使用して音声とビデオをシミュレートおよび偽造する、つまり人工知能技術の深層学習モデルを通じて、一種のディープフェイクとして理解できます。、人々の声、表情、体の動きが非常にリアルな偽のコンテンツにつなぎ合わされます。

技術的な観点から見ると、音声シミュレーションに加えて、同様の手法には ai 顔変更、顔合成、ビデオ生成などが含まれており、これらを総称してディープフォージェリと呼びます。

ただし、中立的なテクノロジーでは、ユーザーが悪意を持って探求するのを防ぐことはできません。

lan mediahui は、国内有数の ai デジタルヒューマン企業である fengping intelligence の創設者兼 ceo の林宏祥氏に相談しました。林宏祥氏は、この種の事件について、ai によってもたらされる生産効率の向上は包括的だが、拡大の途中にあると率直に述べました。「アプリケーション」の違反を完全に隔離するには、体系的な規制と効果的な実施が必要となる場合があります。

業界の現在の技術レベルによれば、ユーザーは ai 学習サンプルとして散在する数分間の素材を見つけるだけで、完全な ai 人間の声を迅速に複製できます。録音内の音声の一時停止、感情、イントネーションの一部は、技術的手段によって追加、削除、調整できます。

さらに、実際のアプリケーションに関して言えば、一連の ai 人間の音声をコピーするコストは「現在ではそれほど高くありません。」市場の多くのアプリケーションでは、一部の無料の入り口が提供されます。例として、reecho モデルは無料で提供されます。音声クローンサービス、よりプロフェッショナルなバージョンには追加料金が必要です。

インターネットから傍受された boss lu のライブ放送の一部が音声に変換され、わずか数秒で boss lu の ai 音声が複製されました。

次に、非常に法外な感情とテキストを含む元の事件の録音を模倣し、それを台本インポートモデルとして使用して、ルーウェンチンルイがマスクについてコメントする録音を作成し、作業は完了しました。

「シャオマーたちはもういないんですよね？私が言っているのは、私が人気者になりたい人は誰でも人気者になれるということです、理解してください。私は多くのceoを知っていますが、私は賞賛する人を賞賛しません。言及しないでください」ムスクは私に、それはうまくいきません、それはわかります、それは私たちが飲んでもうまくいきません、彼は誰ですか、三匹の羊がなければ、誰が彼に商品を売りますか、あなたはこれを理解していますか？」

率直に言って、この種のai詐欺電話を何度も聞いたことがある人、または人間の声に敏感な人であれば、実際にaiオーディオには「機械の感触」があることがわかります。最初から最後までイントネーションが安定しすぎています。人々が感情的に興奮しているときは決して鳴らないでしょう。ただし、これは最も基本的な通常バージョンのモデルとインスタントクローン作成機能にすぎません。より十分なコーパスがあり、プロフェッショナルなクローン作成機能が選択されている場合、その効果はより「本物」になります。

では、ai によって合成された音声とビデオは、嘘発見器のように直感的にデータを通じて真贋を見分けることが可能でしょうか?

技術レベルでは実現可能です。林宏祥氏は、ユーザー自身の許可に加えて、aiデジタルヒューマン業界では実際に関連規格が構築中であり、aiが生成したあらゆる種類のコンテンツに特別な識別可能な「フィーチャーマーク」を追加することが求められていると述べた。

このラベルは、隅に「generated by xx ai」というウォーターマークを追加するだけではなく、ai 合成音を例に挙げると、目に見える音の範囲内であっても、人間の話し声の周波数帯域の外側に追加のノイズ周波数帯域を追加します。特定の特徴的な周波数帯域を追加します。

この特徴的な周波数は、識別が必要な場合には機械によって識別され、これらの周波数帯域を抽出することができ、理論的には真正性を判断できます。

しかし、現時点では、この機能を普及させようとする企業は多くありません。その制限要因は、単一使用モデルのコストは高くありませんが、各オーディオおよびビデオモデルへの投資です。段階的な出力後の次世代オーディオおよびビデオモデルの開発にかかるコストは、現段階でも ai 企業に大きなプレッシャーとなっています。

現時点では、aiオーディオ・ビデオ業界はまだ初期段階にあり、プロモーション段階でコストを賄いながらいかに顧客を獲得するかは実務者にとって避けては通れないテーマです。

しかし、これらは明らかに、悪意を持った犯罪者が考慮するものではありません。花火か爆弾かは、火薬の使用方法によって異なります。

半年以上前、香港警察は総額2億香港ドルの詐欺事件を公表した。この事件では、多国籍企業の香港支店の従業員が本社の最高財務責任者（cfo）から通知を受け取り、本社が「秘密取引」を計画しており、後日のために会社資金を香港の複数の現地口座に送金する必要があると述べた。使用。

その後、本社が開始した「複数人ビデオ会議」に従業員が参加するよう招待され、会議の要件に従って、2億香港ドルが5つの銀行口座に15回にわたって振り込まれた。

出典/cctvニュース

実際、この複数人によるビデオ会議では、支店の従業員を除く他の「人々」は、詐欺師が公開音声とビデオのスライスを使用して合成した人工知能画像であり、ビデオ会議通話を使用して顔と声を変更していました。 . 詐欺チームが直接的には経営陣が主導権を握ることになります。

香港の事件では、犯人はai変面+aiボイスチェンジャーを使って現場に出頭したのに等しいが、今回のシャオヤンのai捏造録音は、ルーの関連音声資料を学習した上で大型モデルによって完全に合成されたものである。 three sheep company の wenqing の感情は、実際の人間の音声全体に近いものです。プロセスは非常にシンプルです。ai によって合成されたオーディオとビデオはすでに成熟したテクノロジーであり、関連製品も完全な産業として発展しています。

しかし、主流のai合成音声や映像は決して偽物ではありません。『流浪の地球パート 2』のプロットでは、アンディ・ラウが演じるトゥ・ヘンユーがデジタル生命の形でヤヤを復活させました。プロットの外では、故有名な映画スターのン・メンタットも ai を通じてスクリーンに登場しました。

したがって、今後、シャオヤンの録音事件のような事件が起きた場合、技術の有罪か無罪かを議論する前に、まず国民の統制に努めるべきである。

人類を大切にし、ai を救いましょう。

ニュース

xiao yang の録音を ai で偽造する秘密を明らかに: コストはゼロ、所要時間はわずか 3 秒

導入

私の連絡先情報