ニュース

メンバー全員が古いクラブを離れ、Stable Diffusion がビジネスを開始し、すぐに MJ v6 を破りました。

2024-08-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

マシンハートレポート

編集者: Du Wei、Jiaqi

AI 画像およびビデオ生成の分野に、新たな強力なプレーヤーが加わりました。

今年3月末にAIスタートアップStability AIを退職した研究科学者のロビン・ロンバック氏を覚えているだろうか? Vincent グラフ モデル Stable Diffusion を開発した 2 人の主要著者のうちの 1 人として、彼は 2022 年に Stability AI に加わりました。



Stability AI を辞めてからほぼ 5 か月が経った今、Robin Rombach は自分のビジネスを始めるという良いニュースをツイートしました。

彼は、画像やビデオの SOTA 高品質生成深層学習モデルを促進し、できるだけ多くの人が利用できるようにするために「Black Forest Labs」を設立しました。



チームメンバーは優秀な AI 研究者とエンジニアで構成されており、これまでの代表的な研究には、VQGAN と潜在拡散、画像およびビデオ生成分野の安定拡散モデル (安定拡散 XL、安定ビデオ拡散、整流トランスを含む)、および敵対的拡散が含まれます。超高速リアルタイム画像合成のための蒸留。

Robin Rombach に加えて、Stable Diffusion には Andreas Blattmann、Dominik Lorenz、Patrick Esser を含む 3 人の著者が創設チームのメンバーになっている点は注目に値します。両氏は今年初めにStability AIを退職しており、一部では自分のビジネスを始めるために退職したのではないかと推測されている。



現在、同研究所はアンドリーセン・ホロヴィッツ氏率いるシードラウンドで3,100万ドルの資金調達を完了している。他の投資家には、エンジェル投資家のブレンダン・イリベ氏、マイケル・オーヴィッツ氏、ギャリー・タン氏、ティモ・アイラ氏、ヴラドレン・コルトゥン氏、および著名なAI研究および起業家精神の専門家が含まれます。さらに、General Catalyst および MätchVC からも追加投資を受けました。

同研究所は諮問委員会も設立しており、そのメンバーには、コンテンツ制作業界で豊富な経験を持つテクノロジー界の大物マイケル・オーヴィッツ氏や、ニューラルスタイル転送の先駆者でヨーロッパのオープンAI研究のトップ専門家であるマティアス・ベスゲ教授が含まれている。

もちろん、Black Forest Labs は最初のモデル シリーズ「FLUX.1」を発売しており、以下の 3 つのバリエーション モデルが含まれます。



最初のバリエーションはFLUX.1 [プロ] 、これは、非常に豊富な画像詳細、強力な即時コンプライアンス機能、および多様なスタイルを備えたまったく新しい SOTA Vincent ダイアグラム モデルです。現在API経由で利用可能です。

APIアドレス:https://docs.bfl.ml/



2つ目はFLUX.1 [開発]これは、FLUX.1 [pro] のオープンウェイトの非商用バリアントであり、後者から直接蒸留されます。このモデルは、Midjourney や Stable Diffusion 3 などの他の画像モデルよりも優れています。推論コードと重みは GitHub に公開されています。下の図は競合イメージモデルとの比較です。

GitHub アドレス: https://github.com/black-forest-labs/flux



3つ目はオープンソースですFLUX.1 [高速] 、これは、Apache 2.0 プロトコルに準拠した非常に効率的な 4 ステップ モデルです。このモデルは [dev] と [pro] のパフォーマンスに非常に近く、ハグフェイスでも使用できます。

ハグフェイス地址:https://huggingface.co/black-forest-labs/FLUX.1-schnell





一方、Black Forest Labs は自社の宣伝を始めています。



次のステップは、誰でも利用できる SOTA Vincent ビデオ モデルを発売することです。誰もがそれを楽しみにしています。



瞬く間に大ヒット:ヴィンセントのフィギュアモデルシリーズ「FLUX.1」が登場

今回Black Forest Labsが発売した3モデルはいずれもマルチモーダルと並列拡散Transformerのハイブリッドアーキテクチャを採用している。他社がパラメーターの数に応じてシリーズモデルを「ミディアムカップ」「ラージカップ」「エクストララージカップ」に分けるのとは異なり、FLUX.1ファミリーのメンバーは一律12種類という巨大なスケールに拡張されています。億のパラメータ。



研究チームは、フロー マッチング フレームワークを使用して、以前の SOTA 普及モデルをアップグレードしました。公式ブログのコメントから、研究チームはまだStability AIで働いていた頃(今年3月)に提案されたRectified flow+Transformer手法に従ったことが推測できます。



論文リンク: https://arxiv.org/pdf/2403.03206.pdf

また、回転位置の埋め込みと並列アテンション レイヤーも導入されました。これらの方法により、画像生成時のモデルのパフォーマンスが効果的に向上し、ハードウェア デバイスでの画像生成速度も高速になりました。

Black Forest Labsは今回モデルの詳細な技術については明らかにしなかったが、より詳細な技術レポートは近々公開される予定だ。

3 つのモデルはすべて、それぞれの分野で新たな基準を打ち立てています。生成された画像の美しさ、画像がテキスト プロンプトにどの程度適合するか、サイズ/アスペクト比の変動性、またはさまざまな出力形式など、FLUX.1 [pro] と FLUX.1 [dev] は、さまざまな範囲を超えています。 Midjourney v6.0、DALL・E 3 (HD)、SD3-Ultra などの人気のある画像生成モデル。

FLUX.1 [schnell] は、これまでで最も先進的な数ステップ モデルであり、競合他社だけでなく、Midjourney v6.0 や DALL・E 3 (HD) モデルなどの強力な非蒸留モデルをも上回ります。

このモデルは、事前トレーニング段階の出力の多様性を完全に維持するために特に微調整されています。 FLUX.1 シリーズ モデルには、現在の最先端テクノロジーと比較して改善の余地がたくさんあります。



FLUX.1 シリーズのすべてのモデルは、0.1 から 2 メガピクセルまでのさまざまなアスペクト比と解像度をサポートしています。



迅速に行動した一部のネチズンはすでにそれを試しているようですが、Black Forest Labsが繰り返し強調している「最強」は単なる自己宣伝ではないようです。

シンプルな言葉でこのような効果が得られます。アルパカのマットの模様をよく見てみると、歪みや変形はありません。



一言: 白いラマの上に乗ったエメラルド色のエミュー。

これはAIが生成した写真だと言わなければ、カメラマンが撮った写真なのかどうかもわかりません。



一言: 馬が川で 2 頭のワニと遊んでいます。

文字を含む画像も簡単に扱え、被写界深度も実際のレンズの質感に合わせて処理されます。



3 つのモデルのうち、パフォーマンスが若干劣る FLUX.1 [schnell] も、高速かつ強力に使用できるため、Mac 上で実行した経験を共有し、ため息をつかずにはいられませんでした。本当に価値があります。 。



Stable Diffusion と Stability AI の作者間の「不満」についてあまり知らなかったネチズンは、「ヴィンセント グラフ モデルはどこからともなく現れました。そして、それは単に恐ろしいほど強力でした」と嘆きました。



Stable Diffusion の作者と彼の以前の会社 Stability AI の物語については、Machine Heart による以前のレポートを読むことができます。Stable Diffusion の価値が 1 億ドルだったとき、Stable Diffusion の背後にあるチームは誰が本当の公式なのか互いに争い始めました。 ?

最も強力な 3 つの Vincentian モデルに加えて、Black Forest Labs もその「大きな動き」を控えています。画像生成モデルのこのような強力な機能により、Black Forest Labs はビデオ生成モデルの強固な基盤を築きました。彼らの予告どおり、コンピューター ビジョンのトップ科学者たちは、最先端のビデオ テクノロジをあらゆる人に提供するという目標を目指して前進しています。 。

会社ブログ: https://blackforestlabs.ai/payments/