ニュース

微調整 Flux は、外国人男性がマーベル ヒーローのチームを結成し、インターネット全体を席巻しました。

2024-08-19

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


新しい知恵のレポート

編集者:編集部

【新しい知恵の紹介】オープンソース界を席巻するAIマッピングの王者誕生!リリースから半月後、Flux は Midjourney のお気に入りの代替品になりました。あらゆる分野の開発者が自分の写真を使って LoRA を微調整し始め、一人で複数のスタイルをマスターできるようになりました。

『Midjourney』以降、AI イメージング アプリケーションにこれほど夢中になっている人を見たことがありません。

Fluxの登場は、AIによる画像生成が新たな段階に入ったことを意味します。

マスク氏自身も、もはや真実と虚偽の区別がつかないと語った。

まず、TED 講演者のリアルな写真がインターネットを席巻しました。その後、Fluxモデルを統合したGrok 2がガードレールの制限を突破し、ネチズンの間で熱狂しました。

最近では、Flux 開発者も独自の LoRA モデルを微調整し始めています。

HuggingFace Lianchuang 氏は、Flux がオープンソース AI の世界を完全に席巻したと叫び、これほど多くの派生モデル/オンライン プラットフォーム/デモが同時にホット リストを占めるモデルを見たことがありませんでした。



これを微調整した開発者は、「Flux+LoRAは生成AI市場を破壊するだろう。どこにいても、好きなものを着て、どんな服を着ても、さまざまなバージョンの自分を生成できる」と語った。


たとえば、スーパーマンに変身します。


格納式の光と影の剣を手に取り、ジェダイの騎士に変身しましょう。フォースとともにありますように。


それだけでなく、氷の彫刻、スイッチのゲーム機を持った写真、エルフの耳、ファッションショーなど、すべてが単なる言葉です。






左または右にスワイプして表示します

独自の LoRA を微調整することは、多くの開発者にとって新たな遊びとなっています。

いいえ、ネットワーク全体が Flux+LoRA によってフラッディングされます。

1人で「アベンジャーズ」を結成できる

Rundown AI の創設者である Rowan Cheung 氏は、自分の写真をデータとして使用し、Flux を使用して LoRA モデルをトレーニングし、それを Runway とリンクして動かしました。


以下に示すように、TED スピーカーに似た画像が生成されます。


ビデオを作成した後、写真の中の人物が本当に生き生きとしていて、スピーカーのように見えました。唯一の欠点は、右手から甲までの指が2〜3本しかないことです。


もう一人はスーパーマンとして世界を救う自分自身を生成しました。


アニメーションで、ついにマーベルのヒーローになれました。


おしゃれな服を着てキャットウォークを歩いている写真に再生します。


両側の観客からは熱烈な拍手が送られ、Tステージのキャットウォーク体験となった。


さらに、ローワン・チャンは自分自身のさまざまなスタイルも生み出しましたが、それらはシーンと一致しており、何の抵抗感もありません。





左または右にスワイプして表示します

AI で生成されたグラフィックスはまだ完全な映画やコマーシャルに取って代わることはできませんが、特にコンテンツ クリエーターにとって、すでに多くの重要な用途があると彼は考えています。

たとえば、これらの AI 画像は、ニュースのプレビューや付随画像、短編映画の補足資料 (B ロール) の作成に使用されます。

これを読んだネチズンのミン・チェは、「アベンジャーズ」を結成できるかもしれないと語った。


元インテル CTO は、A100 上で自身の LoRA モデルを微調整しましたが、その費用は 75 分で 7 米ドル (約 50 元) でした。





左または右にスワイプして表示します

自分自身をホラー映画に変えた開発者もいます。






左または右にスワイプして表示します

AIと現実の区別がつかない

最も人気のあるものは、「シュルレアリスム」の微調整バージョンです。想像力と現実を区別することがますます困難になっています。



それは本物の写真ですか、それともAIが描いた人物ですか?



Flux-Dev で LoRA を使用してトレーニングした後、シーンの複雑さとリアリズムの点で信じられないほどの進歩が見られました。


どんなスタイルでも微調整可能

さらに、さまざまなスタイルの微調整も登場しています。

ピクセルスタイル

開発者は、伝説的な ZX Spectrum のスタイルを例として、ピクセル風の画像生成 LoRA を微調整しました。


以下の生成された画像には、ドラゴンボールの孫悟空、マーベルのアイアンマン、伝建国(と思われる)などの画像が含まれています。












左または右にスワイプして表示します

アニメーションの落書き

PS 生成 AI プロダクト デザイナーの Davis Brown は、Flux に基づいてhalf_illustration モデルを微調整しました。

生成される画像は、一部は実際の写真のスタイルであり、一部はアニメーションの落書きのスタイルです。


各描画の前に、プロンプトの先頭に - In the style of TOK を追加するだけです。

その後、希望する効果を詳しく説明すれば、すぐにフィルムを作成できます。

将来的にはPSを使わなくてもAIで絵を生成できるような気がします。


プロンプト:TOK スタイルの写真編集アバンギャルドなドラマチックなアクションポーズ。70 年代の丸い奇抜なサングラスをかけた青いショートヘアの女性が、前を向いてメガネを下ろしている。東京で、大きな大理石の建造物と盆栽の木が夕日に照らされ、花、煙、炎、アイスクリーム、輝き、ロックンロールのイラストに囲まれた鮮やかなイラストジャケット。


プロンプト:TOK スタイルで、鋭い目、顔にタトゥー、クリエイティブなバケット ハットをかぶった人物の写真編集ドラマチックなアクション ポーズ。東京のバスケットボール コートに大きな大理石の建造物と白紫の木が立ち、活気に満ちたイラストのストリートウェアのふわふわのビンテージ ジャケット、黒いシャツ、背景に火山があり、煙、炎、花、霧、感嘆符、外側に伸びる線、ミニオン キャラクター、蝶などのイラストに囲まれています。

他にも落書き風の写真があります。






左または右にスワイプして表示します

九公閣

オープンソース データセット プラットフォーム LAION は、Flux モデルを使用して、さまざまな角度から撮影した 3x3 の 9 正方形グリッドの写真を生成できるモデルをトレーニングします。


これからは自撮りだけで十分です。




左または右にスワイプして表示します

さまざまな年齢

Flux+LoRAを通してその人の人生の姿が見えてきます。






左または右にスワイプして表示します

別の例:






左または右にスワイプして表示します

スーパープレイアビリティ

今日の主役である FLUX.1 は、新しい「フローマッチング」テクノロジーを使用しています。

以前の拡散モデルでは、ランダムな開始点からノイズを徐々に除去して画像を作成していましたが、フロー マッチングではより直接的なアプローチを採用し、ノイズを実際の画像に変換するために必要な正確な変更を学習します。

このアプローチの違いにより、独特の美しさとスピードとコントロールの点で大きな利点が生まれます。

テキスト: ほとんどのものが入手可能です

テキストから画像への生成の課題の 1 つは、テキストを視覚表現に正確に変換することです。 FLUX.1 は、ミームのような複雑なシーンであっても、これを非常にうまく処理します。

プロンプト:

これは水中の立派な犬のミームです。 テキスト: 「気候変動は大丈夫です」 これは水中の「立派な犬」のミームです。テキスト: 「気候変動は大きな問題ではありません」


プロンプト:

風変わりなフォントで「セリフを忘れたとき」というテキストで変な顔をしている有名な俳優のミーム 風変わりなフォントで「セリフを忘れたとき」というテキストで変な顔をしている有名な俳優のミーム


光りも質感も良いです

FLUX.1 は光、影、テクスチャを深く理解しており、一貫して高品質の画像を生成します。

プロンプト:

繊細なガラスで作られた花々が太陽光を美しく反射する庭園の詳細画像 繊細なガラスで作られた花々が太陽光を美しく反射する庭園の詳細画像


この画像では、ガラスの質感だけでなく、光が花びらをどのように屈折して透過し、発光効果を生み出すかにも焦点を当てています。

プロンプト:

風に吹かれて紅葉と溶け合うフクロウの羽 風に吹かれて紅葉と溶け合ったフクロウの羽


アートスタイル: 単なる模倣を超えたもの

FLUX.1 はさまざまな芸術スタイルの背後にある原則を習得しているようで、創造的な再解釈を可能にします。

プロンプト:

有名な波の絵の水彩画 有名な波の絵の水彩画


「神奈川沖浪裏」のこの「水彩」バージョンは、象徴的な波がモデルのトレーニング データの一部であったことを意味するだけでなく、「フロー」テクニックが水、紙、インクを通る絵の具の動きをどのように近似するかを強調しています。

構成: シーンを意味のあるものにする

FLUX.1 は、複雑なシーンを構築し、リアルで視覚的に魅力的な方法でオブジェクトやキャラクターを配置することに優れています。

プロンプト:

本が空中に浮かび、棚が古代のねじれた根で作られている魅惑的な図書館のリアルな画像 本が空中に浮かび、棚が古代のねじれた根で作られている魅惑的な図書館のリアルな画像


「フロー」: 新しい視覚言語

FLUX.1で使用されているフローマッチング技術は、あたかもピクセル自体が流れているかのような、有機的な動きと流動性の独特な感覚を画像に与えます。

プロンプト:

渦巻くゴッホ風の毛皮模様を持つ犬


それを助けるツールが常にあります

画像生成プロセスを次のように要約できます。いくつかの入力ピクセルを取得し、それらをノイズからわずかに遠ざけ、テキスト入力によって作成されたパターンに向かって移動し、設定されたステップ数に達するまでこのプロセスを繰り返します。

微調整プロセスでは、データセットから各画像とアノテーションのペアを取得し、その内部マッピングをわずかに更新します。

キャラクター、設定、媒体、スタイル、ジャンルなど、画像とタイトルのペアで表現できるものであれば、この方法でモデルに何でも教えることができます。


左: オリジナルの FLUX.1 モデルを使用して生成、右: 同じヒントとシードを使用して fofr/flux-bad-70s-food モデルで生成

トレーニング中に、モデルはこれらの概念を特定のテキスト文字列に関連付ける方法を学習します。この関連付けを有効にするには、プロンプトでこの文字列を追加する必要があります。

たとえば、「コミック スタイルのスーパーヒーロー」モデルを微調整したいとします。

まず、キャラクターに関する多数の画像をデータセットとして収集する必要があります。これには、さまざまなシーン、衣装、照明、さらにはさまざまなアート スタイルが含まれますが、これらに限定されません。

次に、トリガーとして機能する短くて珍しい単語やフレーズを選択します。それは、他のコンセプトや微調整と衝突しないユニークなものです。 「まずい 70 年代の食べ物」や「JELLOMOLD」などの用語を選ぶかもしれません。

トレーニング後、「サンフランシスコのパーティーでの 1970 年代のまずい料理のシーン」などのトリガー ワードを含むプロンプトを与えるだけで、モデルは微調整中に追加した特定のコンセプトを呼び出します。

それはとても簡単です。

原理を理解した後は、モデルを微調整するために任意のツールを選択できます。


左: オリジナルの FLUX.1 モデルを使用して生成、右: 同じヒントとシードを使用して fofr/flux-bad-70s-food モデルで生成

たとえば、マット・ウルフという男性は、上記のクールな世代を見て、興味を持って試してみました。

その結果、転倒してしまいました…。

生み出されるAI画像は、買い手側のショーと売り手側のショーの違いとも言えます。

これが彼が生み出したものです——


これは他人のものです -


2 つの写真は比較できます。違いは、LoRA 微調整が使用されているかどうかです。

刺激を受けた弟はすぐに調べてみましたが、LoRA モデルは 2 ~ 500 MB と非常に小さく、既存のモデルと簡単に組み合わせることができることに驚きました。


さらに驚くべきことは、AI モデルは、追加の計算能力や包括的な再トレーニングを必要とせずに、画質を向上させたり、独自のスタイルを生成したり、マリオやスポンジボブなどの特殊キャラクターを生成したりできることです。


残念ながら、私がよく使っている Glif では LoRA を Flux で使用することができません。


彼は、Flux を使用する 1 つの方法が ComfyUI を使用することであることを発見しました。


この絵をご存知の方も多いと思います。

あるいは、Replicate、HuggingFace Spaces、Fal AI などのプラットフォームを使用することもできます。


Fal プラットフォームで試したところ、1 メガピクセルあたり 0.035 米ドルのコストがかかることがわかりました。したがって、わずか 1 米ドルでモデルを 29 回実行でき、非常にコスト効率が高くなります。


ここでは、FLUX.1 dev、Flux Realism LoRA、FLUX.1 pro などがすべて利用可能です。

弟は何も言わずにFlux Realism LoRAを選択した。

慎重にデバッグした後、推論ステップ サイズを 28 に、CFG を 2 に設定しました。


出来上がった画像は素晴らしいものです。

欠点があるとすれば、額のシワのライティングがやはり不自然なことです。


次に、弟は興奮して画像を Gen-3 Alpha にインポートしました。入力したプロンプトに基づいて、Gen-3 Alpha はビデオを生成しました。

ある瞬間を除いて、私の手のマイクが突然「浮いて」しまい、ビデオの残りの部分には何の問題もありませんでした。


その男はもう一度試して、2番目のビデオを生成しました。


今度は、マイクが静止しすぎて、その場で固まったかのように見えました。


さらに、弟もインターネット上で自分を変えるトレンドに加わり、一連の陽気な写真を生み出しました。











左または右にスワイプして表示します

最後に、Gen-3 Alpha を使用してビデオに変換し、私自身とデッドプールが同じ映画のシーンを歩くことができるようにしました。


参考文献:

https://x.com/dr_cintas/status/1824480995317350401

https://x.com/Gorden_Sun/status/1824843049421484309

https://replicate.com/blog/fine-tune-flux

https://x.com/laion_ai/status/1824814210758459548

https://www.youtube.com/watch?v=_rjto4ix3rA

https://www.youtube.com/watch?v=rDu481JFwqM