three sheepsのルー氏の録音aiは構築できるでしょうか?私の答えは「もちろん」です
2024-09-27
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
今朝の早朝、n人から警察に通報があったと写真が送られてきて、「three sheep」の録音がaiかどうか見分ける方法を尋ねられました。何人かの友人は、中国でナンバーワンの ai 人材であると主張する人物がいると私に言いました。彼は以前、この録音は ai によって作成されるものではなく、ai によって作成されることもできないと断言していました。では、この報道の裏には何らかの陰謀論がある可能性があるのだろうか?潮吹きしそうになった 中国初のaiは誰だ?私の最初の反応は、学者もそんなつまらないことに参加するのをやめたのか、ということでした。aiは三洋路の記録レベルを達成できるのか、という科学を普及させる必要があると思います。3匹の羊とシンバは、いったりきたりして、ただ喧嘩していて、とても賑やかでした。そして、混乱が頂点に達したとき、three sheepの会長、ルー・ウェンチンの爆発的な録音がインターネット上で拡散した。
これだけです。いくつかのカットを加え、卑猥な部分の一部を黙らせました。
内容は爆発的で衝撃的で、信頼性が高く、権力闘争、不正行為などが含まれています。要約すると、ルー氏はthree sheepのすべての女性アンカーと不適切な関係を持っていたことを明らかにしました。彼はまた張一明を名指しし、彼を軽蔑した。 。 。おそらくそれが起こったと思われますが、その後、three sheep がそれを報告し、録音は ai によって合成されたと述べました。
インターネット上では多くの議論がありますが、ほとんどの人の最大の理解は、ai がこのレベルの録音を作成できないということです。 「国産aiの第一人者」が言ったからです。この録音は非常にリアルですよね?感情、方言、ノイズが含まれているため、実際には 2 つの疑問があります。この録音は ai によって行われたのですか?そして、aiはこのレベルの録音を実現できるのでしょうか?最初の質問は今日答えられました。私は常に私たちの公安を無条件に信じます。これについては異論はありません。したがって、最初の質問に対する答えは非常に明白で、それが ai の役割です。2 番目の質問は、最も重要な質問ですが、ai がこのレベルの録音を達成できるかどうかです。まず最初に、ここで科学を普及させる必要があります。ai は広いカテゴリーであり、その細分化には多くのトラックがあります。大規模な言語モデル (gpt、claude、doubao など)、ai 描画 (mj、sd、flux など)、ai オーディオ (11labs、svc、gpt-sovtis、suno など)、ai ビデオ (runway) があります。 、keling、doubao、pixverse など)、および ai 3d(tripoai、meshy など)。
ai オーディオでは、ai が生成した音楽、ai が生成した効果音、サウンド クローンに分けられます。この録音はサウンド クローン作成のトラックに属します。ai がこれを実行できるのであれば、openai や chatgpt よりも強力であるとは言わないでください。これらは同じ軌道に乗っているわけではないので、比較することはできません。すごい、この洗濯機は洗濯が得意です。衣類、その冷蔵庫よりも優れています。 。 。音声クローンは、tts (text to speech) と svc (ai voice changing) の 2 つのタイプに分類されます。tts は、人の声に数秒から数十秒の素材を与えて ai モデルをトレーニングし、テキストを直接使用して特定の人の音声オーディオの音声合成を生成するものです。現時点で最も優れたオープンソース プロジェクトは gpt -sovits です。。svc は一般的に ai ボイスチェンジ、つまり ai 時代のボイスチェンジャーとして理解できます。現在、ai ボイスチェンジャー分野には、so-vits-svc、rvc、ddsp の 3 つの主要なサブプロジェクトがあります。さて、ai 音声クローンの分野では、音声偽造を実現するには 2 つの方法があることが明らかになりました。tts プロジェクトの利点は、データ要件が短く、音声素材が 5 秒だけで十分であること、そしてその後はテキストを提供するだけで音声を生成できること、そしてその効果が非常に低いことです。とても速いです。ただし、感情、間、臨場感の上限が非常に低いのが欠点です。数十秒聴けば、これがaiの味であることがすぐにわかります。
以前は、ai ではルー氏の音声偽造はできないと誰もが考えており、tts については先入観があり、tts で作成する必要があると考えていました。
正直に言うと、私が知る限り市場で一般に入手可能な製品(大手企業の社内研究所でのプロジェクトを除く)に基づいて、tts がルー氏のレベルのオーディオを制作するのは確かに少し困難です。しかし、よく考えてみると、tts ではこれができませんが、svc ではどうなるのでしょうか。svc の欠点は、コストが高いことです。それには 30 分の音声データ セットが必要で、その後、その人の音声モデルをトレーニングするために数時間の錬金術トレーニングが必要です。最後に、音声を録音する別の人を見つけて、svc を使用する必要があります。音声を変更します。この利点は非常に単純で、話者の感情、間、口調、方言などをすべて保持でき、モデルが優れている限り品質の上限はほぼ無限です。 aiかどうか。
歌声もシームレスに変更できます。話し声を変更するのはほんの小さなケースです。昨年話題になったai、stefanie sunはsvcで作られていました。私は svc に関するチュートリアルもいくつか書きました。svcを使って声を変えた後、自分の声に置き換えてみました。李栄豪モデルの効果です。これはまさに ai で、bgm を追加しただけです。したがって、svc を使用してルー氏の ai 音声偽造を行う手順は非常に簡単です。1. ルー氏の 30 分間のスピーチデータをインターネットから収集する。これは、有名人だから簡単に見つかる。2. svc または rvc を使用してルー氏の声をクリーンアップし、ai モデルにトレーニングします。3. 陸さんは安慶出身で、合肥には安慶人がたくさんいます。彼と似たアクセントを持つ人を見つけて、まず自分で合成する音声を読み上げます。
4. 最後に、svc の ai モデルを使用して、完成した音声を彼の声に置き換えます。それでもよりリアルに聞きたい場合は、クリッピングなどを使用して風切り音の環境音を追加してください。環境音が必要な場合は、もちろん、それを見つけることができます。環境音と一緒に使用することもできますが、これはお勧めしません。 。 。特にオリジナルビデオの方法は、録音を携帯電話に送信し、それを携帯電話で再生し、別の携帯電話を使用して録音することです。周囲の音自体が多く、背景にも混ざります。友達の笑い声、めちゃくちゃだよ。これらはすべてフィールド外の要因です。 。 。では、2 番目の質問に戻りますが、ai はルー氏のような偽造録音を作成できるのでしょうか?もちろんできます。ai を神話的すぎると考えないでください。また、ai をくだらないものだと考えないでください。人工知能は、多くの場合、人工知能 + 知能です。
現在の tts では感情的な問題を解決できないのに、なぜ ai が感情を扱わなければならないのでしょうか?手動で朗読し終わった後に音色を変えることはできないのでしょうか?これは人工知能+知能です。ai はあなたのアシスタントであり、あなたが使用するための補助ツールであり、何もせずに店主として ai にすべてを任せるためのものではありません。私がこの記事を書いているのは、このテクノロジーをみんなに知らせて、法律を破ったり、超法規的なことをしたり、超法規的な暴力団になったりしないようにするためです。その代わりに、ai オーディオに関するちょっとした一般的な科学を行って、情報格差を解消し、そのようなテクノロジーが存在し、上限がここにあることを皆さんに知ってもらいたいと考えています。ai を軽視できないとは思わないでください。 。しかし、現在のaiがどこでどのレベルに到達できるのかを知る必要があります。
科学技術の進歩は不可逆的であり、誰もがこの巨大な激流の中の一滴であり、自分自身と敵を知ることによってのみ、常に前進することができます。
私たちは多くのことを学び、ai を学びますが、それは多くの場合、自分自身を守るためです。
これを見て、良いと思っていただけましたら、お気軽にいいね、視聴、リツイートを3回ほどしていただければ早く通知が欲しい方はスターもお願いします⭐ ~私の記事を読んでいただきありがとうございます。また次回お会いしましょう。
>/ 著者: カジク