最も強力なオープンソースの Wensheng グラフモデルが一夜にして交代しました。 SDのオリジナルチームが制作したSOTA動画生成モデルをリリース

最も強力なオープンソースの Wensheng グラフモデルが一夜にして交代しました。 SDのオリジナルチームが制作したSOTAビデオ生成モデルが発売されます

2024-08-02

スマートなもの (公開アカウント:翻訳）
著者バニラ
編集李水清

最も強力なオープンソースの Wensheng グラフモデルが一夜にして交代しました。

Zhidongxi は 8 月 2 日、昨日の夕方、オープンソースの Wensheng グラフモデルの大君主が、安定拡散オリジナルチームが新しい画像生成モデルの発売を発表フラックス.1。

FLUX.1 の内容プロフェッショナル版、デベロッパー版、エクスプレス版3 つのモデルのうち、最初の 2 つのモデルは SD3-Ultra などの主流モデルを上回り、小型の FLUX.1 [schnell] も Midjourney v6.0 や DALL・E 3 などの大型モデルを上回りました。

▲主流モデルと比較したFLUX.1 ELOスコア

FLUX.1インチテキスト生成、複雑な命令のフォローそして手動で生成利点があります。以下は、その最も強力なプロフェッショナル版モデル FLUX.1[pro] で生成された画像の例です。大きなテキストや複数の文字が生成された場合でも、文字や人の手などの細部に誤りがないことがわかります。。

▲FLUX.1[pro]生成画像例

FLUX.1 はオープンソースプラットフォーム Replicate で利用できるようになりました。これを使用するための私のヒントは次のとおりです。黒い森の木々に囲まれた世界最小の指サイズの黒い森のケーキ」では、3 つのモデルで生成された画像をそれぞれ撮影しました17.5秒、12.2秒、1.5秒。

▲3世代のモデル比較

FLUX.1 は API (アプリケーションプログラミングインターフェイス) も開き、3 つのモデルの価格は画像の数に基づいて順番に決定されます。0.055米ドル、0.03米ドル、0.003米ドル（約0.4元、0.22元、0.022元）。

FLUX.1 の背後にある会社は次のように呼ばれます。ブラックフォレストラボ (Black Forest Laboratory)、Stable Diffusion の元のチームと安定性 AI の元研究者数名によって設立されました。Stability AI と同様に、Black Forest は高品質のマルチモーダルモデルの開発とオープンソース化に取り組んでいます。3,100万ドルシードラウンドでの資金調達（約2億2,500万人民元）。

Black Forestも間もなくリリースされることをからかっているSOTA（現行テクニカル指標No.1）ビデオモデル 。公開されたデモから判断すると、同社は滑らかさ、安定性、物理シミュレーションのいずれも第一段階のレベルに達していると思われ、ビデオ生成の分野ではダークホースとなる可能性がある。

▲ビデオ生成モデルのプレビュー

3 つのモデルのトライアルは次のことに対処します。

https://replicate.com/black-forest-labs/flux-pro

https://replicate.com/black-forest-labs/flux-dev

https://replicate.com/black-forest-labs/flux-schnell

1. テキストと人の手を生成するのが得意で、3 つのモデルを数秒で大規模に生成できます

FLUX.1 は、ビジュアル品質、画像の詳細、出力の多様性の点で優れたパフォーマンスを備えており、次の 3 つの大きな特徴があります。テキスト生成、複雑な構成、人間の手による描画。

テキストの生成は画像やビデオの生成において非常に重要であり、多くのモデルでは似ている文字を混同する傾向があります。 FLUX.1 は、文字が繰り返される難しい単語を処理できます。黒い森のフラックスシュネルケーキ：

▲ブラックフォレストフラックスシュネルケーキ

構図に関して言えば、FLUX.1 は、画像内のどこに物があるべきかなどの複雑な指示に従うことに優れています。たとえば、FLUX.1 は次のプロンプトを完全に解釈します。 3 人の魔法の魔法使いが黄色いテーブルの上に立ち、それぞれがサインを持っています。左側には黒いローブを着た魔法使いが「AI」と書かれた看板を持ち、赤いローブを着た魔女は右側に「IS」と書かれた看板を持っています。「AI」「かっこいい」という看板。

▲複雑な構成

人間の手は常に、マルチモーダル生成モデルにとって最も大きな打撃を受ける領域です。 FLUX.1 によって生成される人間の手の画像はまだ完璧ではありませんが、大きな進歩を遂げています。

▲マンパワー

FLUX.1合計プロフェッショナル版、デベロッパー版、エクスプレス版3つのバージョン。

で、FLUX.1[プロ]これは、トップレベルのインスタントトラッキング、ビジュアル品質、画像の詳細、および出力の多様性を備えた最も先進的なバージョンであり、プロフェッショナルユーザー向けにカスタマイズされたエンタープライズソリューションを提供します。

▲FLUX.1[pro]生成画像例

FLUX.1[開発]非商用アプリケーション向けに FLUX.1[pro] から改良され、同じサイズの標準モデルよりも効率的でありながら、同等の品質と機能を提供します。

▲FLUX.1[dev]生成画像例

FLUX.1[高速]3 つのモデルの中で最も高速なこのモデルは、ローカル開発および個人使用向けにカスタマイズされており、Apache 2.0 標準ライセンスに基づいて公開されています。

▲FLUX.1[schnell]生成画像例

FLUX.1 は現在、オープンソースプラットフォーム Replicate で利用可能であり、わずか 1 行のコードでクラウドで実行することも、ユーザーがモデルの重みをダウンロードしてプログラムで実行することもできます。 FLUX.1のAPIも同時に公開されており、3モデルの価格は以下の通りです。0.055米ドル、0.03米ドル、0.003米ドル（約0.4元、0.22元、0.022元）。

2. 敗北MJ V6ダルＥ３、テクニカルレポートは近日公開予定です

パフォーマンスの面では、FLUX.1 は事前トレーニングで出力の多様性全体を維持するように特別に微調整されており、指示への準拠、ビジュアル品質、サイズ/長さ、幅の変更など、多くの側面で新しい基準を設定しています。

そのうち、FLUX.1 [pro]と[dev]の2モデルは、Midjourney v6.0、DALL・E 3、SD3-Ultraなどの人気モデルを5つの評価基準で上回りました。

FLUX.1[schnell] は軽量モデルとして、同様の競合他社よりも優れているだけでなく、Midjourney v6.0 や DALL・E 3 などの強力な非蒸留モデルよりも優れています。

▲FLUX.1の主流モデルとの性能比較

さらに、すべての FLUX.1 モデルは、複数のアスペクト比と 0.1 メガピクセルと 2.0 メガピクセルの解像度をサポートしています。

▲アスペクト比・解像度の変更

このような強力なパフォーマンスはどのようにして達成されるのでしょうか?

モデルアーキテクチャに関しては、FLUX.1 はマルチモーダルおよび並列拡散トランスモジュールに基づくハイブリッドアーキテクチャを採用し、12B パラメータまで拡張しています。

チームは、フローマッチングを構築することで最先端の拡散モデルを改善し、ロータリー位置埋め込みと並列アテンションレイヤーを組み合わせることでモデルのパフォーマンスとハードウェア効率を向上させました。より詳細な技術レポートが間もなく公開される予定です。

三つ、SD元々の乗組員は、2.251億シードラウンド、送りたいソタビデオモデル

Black Forest Lab は、Stable Diffusion の創設チームによって設立されました。チームの以前の作品には、高品質画像生成モデル VQGAN、ビデオ生成モデル Stable Video Diffusion なども含まれていました。

Stable Diffusion のオリジナル著者 5 人のうち、4Stability AI に参加し、SD の後続バージョンの開発を続けたメンバー (Robin Rombach、Andreas Blattmann、Dominik Lorenz、Patrick Esser など) は全員、Black Forest Labs の創設チームに属しています。

▲Stable Diffusionの著者でありBlack Forest Labの創設チーム

同チームは、広く利用可能なモデルを開発し、研究コミュニティや学術コミュニティでのイノベーションと協力を促進し、モデルの透明性を高めることがその中心的な信念であると述べた。

Black Forest Labsが完成を発表3,100万ドル(約2億2,500万人民元)シードラウンドの資金調達有名なベンチャーキャピタル機関a16z（アンドリーセン・ホロヴィッツ）が主導し、VRメーカーOculusのCEOであるBrendan Iribe氏、スタートアップインキュベーターYCのCEOであるGarry Tan氏、NVIDIAの研究者であるTimo Aila氏、その他の専門家やAI企業も投資に参加しており、 General Catalyst などの一流ファンドからのフォローアップ投資も受けています。

チームの諮問委員会には、コンテンツ制作業界で豊富な経験を持つ元ディズニー社長のマイケル・オーヴィッツ氏と、ニューラル・スタイル転送の先駆者であるマティアス・ベスゲ教授が含まれています。

起業したばかりのAIマスターアンドレイ・カパシ(Andrej Karpathy) は Black Forest チームに祝福を送り、「オープンソースの FLUX.1 画像生成モデルは非常に強力であるように見えます」と述べました。

▲カパシさんのコメント

創設チームの元リーダー - Stability AI の元 CEOエマド・モスタク(Emad Mostaque) もお祝いのメッセージを送り、「これまで彼らと仕事ができて光栄でした。彼らは今後もあらゆるピクセルを生成する旅において限界を押し広げていくと信じています。」と述べました。

▲Mostaqコメント

次の作業段階では、Black Forest Trailer がリリースされます。SOTA ヴィンセントビデオモデル , 「みんなでテキストをビデオに変換しましょう。」同モデルはFLUX.1をベースに構築されており、「高精細かつ前例のないスピードで正確な作成と編集を可能にする」という。

▲ビデオ生成モデルのプレビュー

結論: マルチモーダル大規模モデルの分野にダークホースが出現

多くの大手メーカーや新興企業が Vincent ビデオに熱中している一方で、Vincent 写真の分野は突然ダークホースの到来を告げました。「突然生まれた」FLUX.1 は、テキスト生成、複雑な構成、手描きの困難を克服する優れたパフォーマンスを発揮するだけでなく、多様なバージョンでさまざまなユーザーのニーズに応えます。

Stable Diffusion のオリジナルチームの強力な力を頼りに、Black Forest Laboratory は寛大なシードラウンド資金を獲得し、多くの業界リーダーの注目と支援を集めました。今後リリースされるビデオモデルは、Vincent ビデオの分野に新たな活力を吹き込むでしょう。

ニュース

最も強力なオープンソースの Wensheng グラフモデルが一夜にして交代しました。 SDのオリジナルチームが制作したSOTAビデオ生成モデルが発売されます

導入

私の連絡先情報

ニュース

最も強力なオープンソースの Wensheng グラフ モデルが一夜にして交代しました。 SDのオリジナルチームが制作したSOTAビデオ生成モデルが発売されます

導入

私の連絡先情報

最も強力なオープンソースの Wensheng グラフモデルが一夜にして交代しました。 SDのオリジナルチームが制作したSOTAビデオ生成モデルが発売されます