ニュース

StableDiffusion新会社のオリジナルチームが正式発表!継続的な新モデルが AI 絵画の風景を刷新

2024-08-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

この家はアオフェイ寺院に由来します
パブリックアカウント QbitAI

ただ、Stable Diffusionのオリジナルチームが新会社を正式に発表

3月にStability AIからの退任を発表したRobin Rombach氏は、Stable Diffusionの主要執筆者2人のうちの1人であり、彼の元の企業パートナー十数社が、事業を開始するためのグループを結成するというニュースを正式に発表した。

新社名黒い森の研究所、黒い森の研究所 。 Kuku はデビューするとすぐに 3 つの画像生成モデル シリーズをリリースし、そのうち 2 つはオープンソースです。

そして中国語入力をサポート

効果は何ですか?これを見たネチズンは「ワイルドだ!」と言いました。

プロンプトの単語を入力し、画面効果、顔データ、その他のセキュリティ対策を一度にテストします。

スキーマスクをかぶった 10 代の少女が納屋で折り紙を作っています。画像の下部に指定された黄色のテキストがあります。背景にはオバマ大統領の写真が入ったフレームがあります。



この一連の写真とテキストを見た直後、一部のネチズンは、これが彼がこれまで見た中で最高の画像生成効果であると嘆いた。



この会社の特徴は秘密主義ではないことです。

本日設立が正式に発表され、本日一連のモデルが発売され、資金調達の進捗状況も発表された——

3,200万米ドルの資金調達を完了、a16z が主導し、Oculus VR 共同創設者のブレンダン・イリベ、元 YC パートナーのギャリー・タン、NVIDIA Research のコンピューター グラフィックス研究グループを率いるティモ・アイラ、Apple の著名な科学者 (元インテル インテリジェント システムズのチーフ サイエンティスト) ヴラドレン コルトゥンが出資しています。その他。

Black Forest は資本市場からの賭けを受けているだけでなく、業界リーダーの支持も得ていると言えます。

AIマスターのカパシ氏もオンラインで祝福のメッセージを送り、Black Forestの新型モデルを称賛した。

ウォーリーグッド!オープンソースの FLUX.1 画像生成モデルは非常に強力に見えます。



また、オープンソース契約は緩やかな Apache2.0 であることに注意してください。

黒い森イメージ生成モデルのデビュー

カパシは興奮しています。黒い森の模型効果を視覚的に体験してみましょう。

ここでは、Qubit が表示する生成エフェクトを 5 種類選択しました。写真はすべて公式から提供されたもので、どのモデルが使用されているかは明記されていません。

最初のレベルはテキストの生成です。

一言: 古い教室の黒板の写真。黒板にはチョークで「一緒に本当にかわいいものを作りましょう」と書かれており、その文字の後に赤いチョークのハートが付いています。窓からは太陽が差し込んでいます。



2 番目のレベルは、非現実シーン + テキスト生成です。

一言: 水中のシーンでは、2 羽のフクロウが美しいダイニング テーブルに座っています。テーブルの中央にはキャンドルが灯されており、2 羽のフクロウが一緒においしい夕食を楽しんでいます。左側のフクロウはタキシードを着ており、右側のフクロウは美しいドレスを着ています。背景には潜水艦が通り過ぎており、その側面には「What a Hoot」という文字が描かれています。テーブルの下の画像には、小さなクラゲが泳いでいる、映画のような美しいデジタル アートワークです。



3 番目のレベルは、現実世界の実際のシーンです。

一言: フライブルクの美しい通りの写真。路面電車が通り、人々が歩いたり自転車に乗ったりしている。



第 4 レベルは、現実のキャラクターとアニメのキャラクターの生成です。

一言: 市内中心部の通りでカメラに向かって手を伸ばしている 3 人の女性の写真。



一言: かわいい猫の女の子が落ち込んでいて、笑顔が描かれた紙を持って泣きそうな様子を描いた美しいアニメのアートワーク。



5 番目のレベルは動物画像の生成です。

一言: 森の中のボブキャット。プロの写真家が明るい光の下で撮影しました。



ヒント: 詳細な螺旋フラクタルと蔓で構成される神話上の生き物のクローズアップ レンダリング、詳細な再帰的な肌のテクスチャ



FLUX.1シリーズモデル

今回Black ForestはFLUX.1シリーズとしてpro、dev、schnellの3モデルをリリースしました。



FLUX.1 [pro]:シリーズ最強のサウンド。

FLUX.1 シリーズの本質であり、クラス最高のコマンド コンプライアンス、ビジュアル品質、画像の詳細、出力の多様性を備えた最適なパフォーマンスの画像生成を提供します。

Black Forest チームは、API の FLUX.1 [pro] の推論コンピューティング機能を徐々に改善しています。

このバージョンには、専用のカスタマイズされたエンタープライズ ソリューションを提供する Replicate および fal.ai を通じてアクセスできます。

FLUX.1 [dev]: シリーズのカップ。

非商業的使用を許可するモデルは、無重力で蒸留されます。

[dev] [pro] から直接抽出されたもので、同じサイズの標準モデルよりも効率的でありながら、同等の品質と迅速なコンプライアンスを提供します。

Huhuface で試してみることも、Replicate または fal.ai で直接試してみることもできます。

FLUX.1 [シュネル]: 小さなスピードの旋風。

ローカル開発や個人開発者向けにカスタマイズされたシリーズ最速モデル。

FLUX.1 [schnell] は、Apache2.0 ライセンスに基づいて公開されており、Huohuofian でクエリできます。推論コードは GitHub で見つけることができます。

これは ComfyUI によってサポートされており、直接使用できます。また、Replicate または fal.ai を通じて使用することもできます。

直感的に感じてみよう!

「ケーキ」をテーマに、上記の大カップ、中カップ、小カップに異なるプロンプトワードを与えてエフェクトを生成した3枚の写真を掲載します。

△左から大・中・小カップのモデルを使用しています。

多くのテストの結果、Qubit は、単純なプロンプト単語が入力された場合、プロ バージョンで画像を生成するのにかかる時間は 15 秒から 25 秒であることがわかりました (生成時間は結果グラフの下に表示されます)。



Black Forest はすべての FLUX.1 モデルを発表していますどちらもマルチモーダルおよび並列拡散 Transformer ブロックのハイブリッド アーキテクチャに基づいており、12B パラメータまで拡張されています。

3 つのモデルのうち、FLUX.1 [pro] と [dev] は、ビジュアル品質、迅速な応答性、サイズ/アスペクト比の柔軟性、組版と出力の多様性の点で Midjourney v6.0 と DALL· を上回りました。ディフュージョン 3-ウルトラ。

FLUX.1 [schnell] はチームによって「これまでで最も先進的な数ステップ モデル」と呼ばれています。

同様の競合他社の中で優れているだけでなく、Midjourney v6.0 や DALL·E 3(HD) などのより強力な非圧縮モデルよりも優れたパフォーマンスを発揮します。

FLUX.1 シリーズ全体は、事前トレーニング段階の出力の多様性を完全に維持するために特別に微調整されています。

既存のテクノロジーと比較して、FLUX.1 には次の利点があります。



あなたたちは OG の退役軍人であり、Stability AI の中心メンバーなのです、と誰かが必ず尋ねるでしょう。

それで、新しいモデルと安定拡散モデルの違いは何ですか?

創設チームのメンバーは Reddit で次のように回答しました。

最も弱いモデルである Schnell でさえ、ビルド品質が向上し、ビルド時間が短縮されます。

最大の目標は、新しい会社を設立して自分を超えることです。



SD メイン著者のチームによって作成されました

モデル関連の情報を紹介した後、この新しい会社について正式に知ることになります。

黒い森の研究所、今日発表されたばかりです。

同社の公式サイトには「新時代の創造」というスローガンが掲げられている。

同社の使命は、画像とビデオ生成のための最先端の高品質な深層学習モデルを進歩させ、それらを最も幅広い視聴者が利用できるようにすることです。

華天登場!彼らの次の野心は明らかで、ビデオ生成の分野に参入することです。

それも「SOTA」でなければなりません。



コアメンバーロビン・ロンバッハ、Stability AI の元研究員。

Stability AI で働いている間、彼は Stable Diffusion モデルの主要な開発者の 1 人であり、SDXL、SVD およびその他のプロジェクトの研究にも参加しました。

今年 3 月に、Robin は Stability AI を退職しました。

外部の世界は、彼の辞任はすでに混沌としたユニコーン企業に深刻なダメージを与えたとコメントした - 何しろ彼は SD の 2 人の主要プレーヤーの 1 人だからだ。



振り返ってみると、ロビンはハイデルベルク大学で物理学の学士号と修士号を取得しました。

2020 年に、彼はビョルン オマーの監督の下、ハイデルベルクのコンピューター ビジョン グループでコンピューター サイエンスの博士号取得の勉強を開始し、2021 年に研究グループとともにミュンヘン大学に移りました。

研究は、深層学習モデル、特にテキストから画像へのシステムの生成に焦点を当てています。

Google Scholar には約 15,000 件の引用があります。



なお、公式サイトで公開されているメンバーの中には、アンドレアス・ブラットマン、アクセル・ザウアー、ドミニク・ロレンツ、ダスティン・ポデル、フレデリック・ボーゼル、パトリック・エッサー、スミット・クラール、ティム・ドックホーン、ヤム・レヴィ、ザイオン・イングリッシュが含まれるすべては Stability AI の公開されているオリジナル メンバーです。

(アンディ・ホームズとジョナス・ミュラーはまだ正確な情報を見つけていません)



Black ForestはSDの本来の中心メンバーが脱退し、再び船出したと言える。

アクセル・ザウアーが公式ツイートを転送して大声で叫んだのも不思議ではない。

私たちはまだ生きています!



もう一つ

なんと偶然ですが、同じ日に、Stability AI も新たな動きを見せました。

新しい AI モデルの発売安定した高速3D、関係者によると、次のような用途に使用できるとのことです。0.5秒で3D画像を生成

以前のモデルは同様の効果を持つ 3D 画像を生成するのに数分かかりましたが、新しいモデルは同じタスクを既存のモデルより 1,200 倍速く完了できます。



そのStability AIは3月にリリースされました逃亡したCEO、エマド・モスタク、彼は何をしているのでしょうか?

6月に彼は新会社の所在地を正式に発表した。シェリングAI、「AI 資金提供によってサポートされるオープンソース コード、モデル、データセットを構築およびサポートします。」

革新的な研究と、文化を意識し、科学的、教育的、創造的な AI を注意深く構築することに重点が置かれています。

3 日前、Shelling AI はシリーズの最初の記事「AI について考える方法」を公開しました。

この記事は少し長いので、興味のある方はご自身で検索してご覧ください。ここで核心的なアイデアについて触れておきます。

AI は急速に発展しており、オープンソースとオープン性を促進し、イノベーションとコラボレーションを加速しています。



そして、私たち全員がまともな人間になるのはどうですか!

Black Forest Laboratoryの設立を発表したツイートは、元CEOのご厚意で転送していただきました(ここに犬の頭を入れてください)。

参考リンク:
[1]https://blackforestlabs.ai
[2]https://news.ycombinator.com/item?id=41130620
[3]https://x.com/EMostaque
[4]https://www.reddit.com/r/StableDiffusion/comments/1eds0l9/does_anyone_have_an_update_on_when_stable/
[5]https://x.com/SchellingAI/status/1818600200232927721