私の連絡先情報
郵便管理者@information.bz
2024-08-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
- 蒼飛寺のミンミン・クレシ
パブリックアカウント QbitAI
サイバーマジックミラーの下では、すべてのAI美女が幽霊に変わった。
歯を見に来てください。
画像の彩度を完全に上げると、AI ポートレートの歯が非常に奇妙になり、境界がぼやけます。
全体的な絵の色は普通ですが、マイク部分はさらに奇妙です。
対比実在の人物の写真、こうなるはずです。
歯は透明で、写真の色斑は均一です。
このツールは公開されており、誰でも写真付きで試すことができます。
AI が生成したビデオの特定のフレームは、この方法から逃れることはできません。
欠けている歯の写真から問題が明らかになる場合もあります。
ところで、このツールクロード著。 AI を使用して、素晴らしい閉ループである AI を解読します。
実際のところ、最近、AI のポートレートがあまりにもリアルで、多くの議論を引き起こしています。たとえば、人気のある一連の「TED スピーカーのビデオ」では、どれも実際の人物ではありません。
顔を区別することが難しいだけでなく、AI のこれまでの欠点であった文字さえも、完全に偽物になる可能性があります。
さらに重要なことは、このような AI ポートレートを生成するコストが高くないことです。所要時間はわずか 5 分、20 秒ごとに 1.5 米ドル (約 10 元) です。
今やネットユーザーたちは黙ってはいられず、次々とAI偽造対策コンテストを始めた。
5,000 人近くの人々が集まり、これら 2 枚の写真のどちらが本物であるかを議論しました。
挙げられた理由はさまざまだった。テキストやパターンの詳細が非常に抽象的であると感じる人もいれば、キャラクターの目が虚ろであると感じる人もいます...
最先端のAIがポートレートを生成するルールが徐々に解明されつつある。
要約すると、彩度を調整することが、彩度を最も早く識別する方法である可能性があります。
このようにして、AI グループのポートレートがより徹底的に露出されます。
ただし、それには問題があります。画像が JPEG アルゴリズムを使用して圧縮されている場合、この方法は機能しない可能性があります。
たとえば、写真が本物の写真であることを確認してください。
ただし、画像圧縮と照明の問題により、キャラクターの歯も少しぼやけています。
したがって、ネチズンは、肖像画がAIによって合成されたものであるかどうかを判断するための他の方法も列挙しました。
1 つ目の方法は、簡単に言えば、人間の知識と判断に頼ることです。
AIが画像を学習する方法は人間と一致していないため、人間の視点から視覚情報を100%把握できないことは避けられません。
その結果、AI によって生成された画像には多くの場合、現実世界と一致しないこれは、画像識別の開始点となります。
例として冒頭の画像を使用してください。
全体的に肌がツルツルすぎて毛穴が見えないのが、かえって非現実感を高めている。
もちろん、この「非現実感」が「偽物」と完全に一致するわけではありません。結局のところ、マイクロダーマブレーションで加工された写真では毛穴は見えません。
しかし、これが唯一の判断要素ではありません。AI によって残された常識からの逸脱は 1 つだけではない可能性があります。
実際、この写真の以下の詳細を見ると、比較的明白な特徴がわかります—銘板上のフックの独特な接続方法。
高飽和モードで欠陥が現れるマイクもあり、その手がかりは増幅後に肉眼で直接見ることができます。
さらに微妙なのは、髪の毛の先に何本かの髪の毛が非常に無理な位置にあることだが、そのような特徴を見るにはおそらくレーウェンフックレベルの視力が必要だろう。
しかし、生成技術の進歩に伴い、発見できる機能がますます隠蔽されていくのは避けられない傾向です。
もう 1 つの方法は、テキストを観察することです。AI はフォントの描画における「ゴースト文字」の問題を徐々に克服していますが、テキストを実際の正しい意味で正しくレンダリングすることにはまだいくつかの困難があります。
たとえば、一部のネチズンは、写真に写っている人物が着用しているバッジで、Google ロゴの下の最後の行にある 2 文字がカリフォルニアを意味する「CA」であり、その前の長い文字列が都市名であることを発見しました。
しかし実際には、カリフォルニアにはこれほど長い名前の都市はありません。
物体そのものの詳細に加え、光や影などの情報も真贋判定に利用できます。
この画像はビデオから抽出されたもので、ビデオ内のその位置にそのようなフレームがあります。
マイクの右側に非常に奇妙な影があります。この影は明らかに AI 処理が不足しています。
動画の場合、前後のコンテンツの一貫性により、AI は静止画像よりも欠陥を明らかにする可能性が高くなります。
「常識的な誤り」ではなく、画像生成時の AI の好みを反映する機能もいくつかあります。
たとえば、これらの 4 つの写真はすべて AI によって合成された「平均的な人々」です。何か共通点は見つかりましたか?
一部のネチズンは、これら4枚の写真には笑顔の人物が一人もおらず、これはAIが生成した写真のいくつかの特徴を反映しているようだと述べた。
確かにこの絵もそうですが、やはりAI描画ツールごとに特性が異なるので、このような判断をシステム化するのは難しいです。
つまり、AIの段階的な進歩に対応するには、一方では「レーウェンフック」の強度を高めることができ、他方では彩度を上げるなどの画像処理技術を導入することもできるのです。
しかし、こうした「量的変化」がどんどん蓄積されていくと、肉眼での判断がますます困難になり、いつか画像の彩度がAIによって打破されるかもしれない。
そのため、人々はAIによって生成された画像を使用して検出モデルをトレーニングし、画像からより多くの特徴を分析する「モデルごと」の手法についても考え方を変えています。
例えば、AIが生成した画像には、スペクトルやノイズ分布などに多くの特徴があり、これらの特徴は肉眼では捉えることができませんが、AIであればはっきりと見ることができます。
もちろん、検出方法が遅れていてモデルの変更に追いつけない可能性や、モデル開発者が敵対的開発に特化している可能性も排除できません。
たとえば、上で説明した図では、AI 検出ツールが AI によって合成される確率はわずか 2% です。
しかし、AI 詐欺と AI 検出の間のゲームプロセス自体は「いたちごっこ」です。
したがって、モデル開発者は、検出に加えて、AI 詐欺が隠れ場所がないように AI で生成された画像に目に見えない透かしを追加するなど、いくつかの責任も負う必要がある場合があります。
上記のようにパニックを引き起こしたAIポートレートの多くは、最近人気のあるものであることは言及する価値があります。フラックス制作/制作に参加する。
見分けがつかないほど優れた効果は、Flux によって作られたものであると誰もが思い込み始めています。
これは Stable Diffusion のオリジナル チームによって作成され、リリースからわずか 10 日後にインターネット上で大騒ぎを引き起こしました。
偽のTEDトークのこれらの美しい写真はすべてそれによって作られたものです。
Flux と Gen-3 を併用して美しいスキンケア製品の広告を作成した企業もいます。
そして複数の角度からのさまざまな合成効果。
AI ペインターや画像内の AI 生成テキストなどの問題を非常にうまく解決します。
これは、人間が手や文字を直接見てAIの絵を区別することができなくなり、手がかりに基づいて推測することしかできないという事実に直接つながります。
Fluxは手持ちのトレーニング、テキスト、その他の指標を強化する必要がありました。
これは、現在の AI がテクスチャの詳細や色などのトレーニングに熱心に取り組み続けた場合、次世代の AI 描画モデルが登場するまでに、人間の認識方法は再び無効になる可能性があることを意味します...
さらに、Flux はオープンソースであり、ラップトップ上で実行できます。今、多くの人がミッドジャーニーを忘れています。
Stable DiffusionからFluxになるまでに2年かかりました。
「ウィル・スミスがヌードルを食べる」から「Tedxのスピーカー」になるまでに1年かかりました。
将来、人間がAIの生成を区別するためにどのようなトリックを考え出す必要があるかは本当にわかりません...
参考リンク:
[1]https://x.com/ChuckBaggett/status/1822686462044754160
[2]https://www.reddit.com/r/artificial/comments/1epjlbl/average_looking_people/
[3]https://www.reddit.com/r/ChatGPT/comments/1epeshq/these_are_all_ai/
[4]https://x.com/levelsio/status/1822751995012268062