ニュース

登場当初は最強と謳われていましたが、この画像AIはまさにその通りのようです。 。

2024-08-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


かつて DALL・E や Midjourney と同じくらい有名だった画像生成 AI である Stable Diffusion は、今でも誰もが覚えています。

経験豊富な上司が逃げたコア開発メンバーが辞任, かつて画像AI市場を賑わせたStability AIだが、内部的にはめちゃくちゃになってしまった。

ここ数カ月、それについて資本連鎖が壊れ、自分を売り込もうとするそのニュースは今まで一度も伝えられませんでした。


旧クラブが窮地に陥り、何とか救済策を模索していたとき、まさに年初に退団したメンバーたちがそのターゲットとなった。安定拡散新会社設立ブラックフォレストラボ(黒い森研究所)。

ちょうど今月初めに新会社設立を発表した際に、三つ異なるボリュームの Vincent ダイアグラム モデル FLUX.1。

画質に重点を置いたビッグ カップ プロ、スピードと画質の両方を考慮したミディアム カップ 開発、そして「スピード旋風」として知られるスモール カップ シュネルがあります。

公式サイトによると、大中杯のFLUXは全画像AIの目玉となっている。最も力強い存在


ビジュアル品質、サイズの可変性、出力の多様性など、分離されたさまざまな機能も他のモデルよりもはるかに優れています。


公式がそう言っているだけでなく、多くのネチズンやメディアの口でも、新しくリリースされたFLUXが登場しましたパンチ・ミッドジャーニー、キック・ダル・イー範囲。


インターネット上のコメントを読んで、Shichao さんは興味を持ちました。 FLUX は本当に皆さんが言うほど強力なのでしょうか?旅の途中と組み合わせます。FLUXのビッグカップそれらを組み合わせてテストしました。

最初はウォーミングアップとして水墨画を描いてもらう定期テスト問題からスタートします。

結果はかなり良く、漁師、山、葦など、プロンプトワードの内容がすべて描画されます。ただ、ここ『ミッドジャーニー』に描かれている太陽はちょっと大きすぎて、夕焼けという感じではありません。

即興の言葉:

中国の水墨画のスタイル、伝統的な木造船に乗った孤独な漁師が夕暮れ時の静かな湖の上を静かに漂っています。中国の水墨画のスタイル、暖かい青の色調が穏やかな水を反映し、柔らかな筆致が遠く離れた夜の静けさを捉えています。ここの山は次のとおりです。徐々に変化する光の下でシルエット、海岸の伝統的な小屋、風に揺れるアシ、8K解像度、映画のような雰囲気、懐かしくて穏やかな雰囲気

FLUX(左)、ミッドジャーニー(右)


画像AIに注目している友人は知っておくべきです「テキスト生成が貧弱すぎる」ほぼすべての AI が失敗するのはここです。 DALL・E も以前に一度この弱点を最適化しましたが、それでも時折ミスを犯します。

しかし今回は、FLUX がすでにこの分野で非常に熟練していると言われているため、テキストを生成するためのプロンプトワードを特別にいくつか選択し、FLUX と Midjorney に投げました。

まず、各自にプラダの商標が付いたバッグを生成させました。最終的な回答は、テキストに誤りがなく、非常に優れたものでした。

絵全体の効果もそれぞれに独自のメリットがあります, FLUXは文字を正確に書いただけでなく、プラダの逆三角形のロゴまで描いたのに対し、ミッドジャーニーのロゴはよりファッショナブルに見えます。

ヒント: 氷で作られ、雪と氷に囲まれた小さな人物が描かれた大きな白い「プラダ」ハンドバッグ。プラウス誌の広告、高解像度の写真、広告からインスピレーションを得たタイポグラフィ デザインからインスピレーションを得た、ファッション広告のようなスタイルです。

FLUX(左)、ミッドジャーニー(右)


次回難易度を上げる、半袖シャツにレトロなイメージをデザインさせ、英語の単語を 2 つ追加します。

今回はどちらも大きなミスはありませんでしたが、全体的な効果という点ではShichao個人的にはMidjourneyの方が優れていると感じています。

ヒント: このレトロな雰囲気の T シャツ デザインは、モノクロの背景にチェッカーフラッグと「Lagertha」と「Semper Fi」のテキストが付いたヴィンテージのドラッグ レーサーを特徴としています。旗を掲げているラゲルサにはタトゥーが入っている。このアートワークのスタイルは、彼女のアクション ポーズを捉えており、バイキングの力のスピードとパワーを示しています。これは、彼らのスポーツウェアと大胆なテキストのタイポグラフィーを強調したハイコントラストのイラストです。

FLUX(左)、ミッドジャーニー(右)


典型的な問題である画像モデルの能力を見てみましょう"画家"確かにそれは回避できません。

ミッドジャーニーはまだ少し不安定です。右の図のように、生成されたハンドは、比較すると説明がつきません。余分な小指

どちらの画像も Midjourney によって生成されました


正直に言うと、クリップアートスタイルでもリアルスタイルでも、FLUXの効果は非常に驚くべきものです。手には傷はほとんどありません。

どちらの画像も FLUX によって生成されました


これまでのところ、FLUX はいくつかの画像の詳細や小さな問題を非常にうまく処理しています。

もちろん、画像 AI はある程度、誰もが自分の想像力を実現するのに役立つツールでもあるため、Shichao はさらにいくつかのことを失いました思慮深い思い出の言葉

一言: 赤いドレスを着た若い女の子が、大きな歯と目をしたドラゴンの隣に座っています。彼女はまるで友人か優秀な警官であるかのように、この問題に正面から向き合った。このシーンは山の雪と岩の中で行われます。ジェームズ・キャメロンのスタイルで撮影された 70 年代の映画、オオカミの秘密の生活。

FLUX(左)、ミッドジャーニー(右)


うーん。 。 。 FLUX は基本的に誰が善人で誰が悪者なのかについて、みんなが結論を出すのを Shichao が手伝う必要はありません。ひと目でわかるAI『ミッドジャーニー』を振り返ると、実際の特殊効果に少し似ていると感じるほどです。

その後、Shichao は、FLUX 自身の想像力がどのようなものであるかを確認するために、「現代文明の破壊」というより単純なプロンプトを与えました。

その結果、今回は、それも『ミッドジャーニー』も失敗した。

絵の効果だけ見ると『ミッドジャーニー』のほうが壮大な雰囲気が伝わってきますが、前から見ても後ろから見ても、この建物は現代文明とは何の関係もありません。 。 。

FLUX(左)、ミッドジャーニー(右)


興味深いことに、FLUX は有名人のポートレートの誇張された似顔絵を生成するのが非常に得意です。マスク氏やジョブズ氏と同様、生成時には顔の特徴が正確にキャプチャされていました。

どちらの画像も FLUX によって生成されました


全体的な経験を経て、Shichao は FLUX の真のレベルはまだ良いと感じています。完璧なマッチングは言うまでもありません、しかしそれほど悪くはありません。

結局のところ、これは Stable Diffusion のオリジナル チームによって作成されたものであり、Midjourney とほぼ同じ階層にあります。

さらに、新会社Black Forestが今月初めにFLUXを立ち上げた際、資金調達の進捗状況も正式に発表し、現在完了している。3,100万ドル融資。

さらに重要なのは、Black Forest の全員が Stability AI を離れたにもかかわらず、彼らは依然としてオープンソースの伝統的な美点を継承しているということです。中小規模の FLUX は両方ともオープンソースです。

これはまだ終わっていないようです。画像 AI の導入は、追いつくための取り組みの一環にすぎないようです。公式ウェブサイトでは、今後の取り組みについても詳しく述べられている。ビデオAIのSOTA


そうは言っても、画像AIの実用化はほぼ議論されているテーマです。

Black Forest の元所有者である Stability AI は、商業化の問題で混乱に陥っていました。それ自体に関しては、現在オープンソースであり、有料モデルがあり、これは以前の Stability AI と基本的に同じです。

まだ出てきたばかりなので、今後商品化に向けた新たな動きが出てくるかどうかを見守るしかありません。

安定性 AI の古い道をたどらず、もう一度やり直してください。 。 。

記事を書く:リス

編集:江江省

アートエディター:シュアンシュアン

写真、ソース

FLUX、ミッドジャーニー