私の連絡先情報
郵便管理者@information.bz
2024-08-10
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
新しい知恵のレポート
最近、この「TEDスピーカー」はインターネット上で非常に人気があり、バイラルとも言えます。
よく見てください。何か問題は見つかりましたか?
答えは明らかになります。この 5 人は誰一人として実在の人物ではありません。
ネットで誰かを探してる奴は泣くだろう
「誰も本物の人間ではないのですか?とても不気味です!」
ネットユーザーは「これは不気味の谷を超えて「超現実の谷」に達した」とコメントした。
この写真を共有した投稿は、わずか数時間で Twitter 上で 500 万回以上閲覧されました。
その後、著者も明らかになりました。彼は Stable Diffusion チームの元メンバーである Leo Kadieff でした。
彼は次のように明らかにしました。これらの TEDx スピーカーはすべて、LoRA の最新の Flux リアル バージョンを使用して制作されました。
従来、AI が生成した画像は人間の目と多少矛盾していましたが、今回は LoRA 技術を使用して改良されたモデルのおかげで、リアルさが大幅に向上しました。
さらに、このワークフローには複雑なプロンプトワードが大幅に簡略化されるという利点もあると著者は述べています。
このニュースはプロンプトワードマスターを単に有頂天にさせます。
この 22 MB の小さなファイルにより、各プロンプト ワードに信頼性関連のトークンを大量に書き込む手間が省けます。
「シュールな RAW 写真、UHD、8k」という一文で十分です。リアリズム愛好家は、このツールを絶対に気に入ります。
著者は率直にこう言います。「現実的なモデルを微調整する必要はまだあるのでしょうか?」
- これらの画像は、アップスケーリングや後処理を行わない Flux+LoRA からの生の出力です。
ComfuUI:https://we.tl/t-zrC5tPFG17
下の 2 つの写真を見れば、LoRA を使用した場合と使用しなかった場合の効果の比較が非常に明白であることがわかります。
ネチズンは楽しんでいます
同時に、「TED Speaker」の共有者キラニオもMidjourneyで再現しようと試みた。
最初のプロンプトの単語は次のとおりです。
ステージで話す女性、Google、白い背景、ぼかした企業ロゴ、技術カンファレンス --style raw --v 6.1
生成効果は悪くないことがわかりますが、レオ・カディエフが生成した写真とはまだ大きなギャップがあります。
その後、ブロガーはいくつかの改善を加えました。
ステージ上で笑顔で話す若い女性、Google、白い背景、ぼやけた企業ロゴ、技術カンファレンス --style raw --v 6.1
そして、複数の世代を経て、最も近い結果を試してみました。
同時に、Google Imagen 3 が一般公開されると、ネチズンもこの一連のプロンプトを初めて試しました。
一時期、AI 写真生成のブームがインターネット全体で始まりました。
Imagen 3 は誰でも利用できます
そうです、先ほど述べたように、Google の最も強力なヴィンセント グラフ モデルである Imagen 3 が正式に利用可能になりました。
プロンプト:ニューヨーク市で「Imagen は Midjourney とほぼ同じくらい良い」と書かれた看板を持っている男性の写真。
出典: リスフィア
ネチズンのクリプノトードは、アキレスの盾をこれほどうまく実行できる AI を見たことがないと述べました。
このような複雑なプロンプトを簡単に保持できるため、Imagen 3 を過小評価することはできません。
有名なブロガー「Guizang」は、この体験の後、次のように述べています。
生成されたコンテンツは正確ですが、画像の美しさは劣ります。キャラクターが絡む以上、プロンプトの書き方をしっかり考えないと絵にならない可能性が高いです。
幸いなことに、彼らは即座に言葉を使ってうまく対話することができました。
LLM はプロンプトの単語の種類を分析し、直接切り替えることができる関連単語を提供します。
出典: 貴蔵