ニュース

ミッドジャーニーチャレンジ登場! 15 日間で 3,200 万の融資を受け、Grok の社内に参入

2024-08-18

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

著者|許山、編集者|満満州

多くの人が次のミッ​​ドジャーニーになると予想しています。

これは史上最も実行力のある AI スタートアップかもしれません。

AI スタートアップの Black Forest Labs は、設立からわずか 15 日ですでにシードラウンド資金調達で 3,200 万米ドルを調達し、大規模な Vincent AI モデルの FLUX.1 シリーズをリリースしました。

それだけでなく、マスクが作成したばかりの大規模な AI モデルである Grok-2 でさえ、そのサポートを受けてすぐにヴィンセント グラフ関数を起動し、何百万人ものネチズンがインタラクションに参加するようになりました。

また、他の AI モデルの Vincentian 画像関数とは異なり、Grok-2 で生成される画像にはほとんど制限がなく、非常に現実的です。

スティーブ・ジョブズに猫をからかわせたい場合でも、ザッカーバーグとマスクが「八角形の檻」でオフラインで会ってほしい場合でも、Grok-2 はあなたの要望を満たします。このモデルは、意味の理解、位置合わせ、およびイメージ生成機能 (セキュリティを除く) の点で非常に優れたパフォーマンスを発揮していることがわかります。

この会社の由来は何ですか?どうしてネチズンはこれに夢中になり、マスク氏さえも自分の中核製品の動力源として喜んでそれを選択したのでしょうか?綿密な調査の結果、シリコン ラビット氏はついに Black Forest Labs の謎を明らかにしました。

01

15人がまとめてStability AIから脱出

Black Forest Labs が 3 つの AI モデルを連続リリース

Black Forest Labs 設立のきっかけは、別の AI ユニコーン企業である Stability AI から始まります。

実際、Black Forest Labs の現在の 15 人のスタートアップ チームは全員が Stability AI の出身です。 Black Forest Labs の設立は従業員の集団逃避だったと言えます。

Black Forest Labs の創設者 Robin Rombach は、Stability AI の元研究員であり、Stability AI の 2 つの中核の 1 つでした。

彼はハイデルベルク大学で物理学を学び、2020 年に同大学のコンピューター ビジョン グループで博士号の研究を開始しました。ロビンは、特にヴィンセンチアン グラフの分野における深層学習モデルに焦点を当てており、2021 年にミュンヘン大学の科学研究チームに加わりました。

Stability AI 在籍中に、Vincentian Graph AI 大型モデルの開発を主導しました。安定拡散。当初、Stable DiffusionはAIイメージング分野の覇者ともいえる存在で、業界に衝撃を与えた。 Stability AIの評価額も10億米ドルを超え、AIユニコーンの1つとなっています。

しかし、安定性 AI の開発は 2024 年に急変します。報告書によると、Stability AI の年間コストは約 9,900 万米ドルですが、収益はわずか 1,100 万米ドルであり、収益と支出の間に深刻な不均衡が生じています。その後、Stability AI の元 CEO、エマド・モスタク氏は今年 3 月に少なくとも 19 人の上級幹部を同社から解雇した。

ロビン・ロンバックも再び活路を模索し始めた。 Black Forest Labs は彼にとって新たな始まりであり、多くの元 Stability AI 従業員にとっても新たな出発点です。 Black Forest Labs が設立されたとき、多くの Stability AI 従業員は興奮してこう言いました。「いよいよ本番です!」。

現在、FLUX.1 シリーズ モデルにはオープン ソースとクローズド ソースの 3 つのバージョンがあります。その中で、FLUX.1 [pro] は、最高のパフォーマンスを追求するプロフェッショナル アプリケーション向けに設計された、最も強力なクローズドソース バージョンです。FLUX.1 [dev] は、画質とプロンプトにおいてより効率的なパフォーマンスを提供するオープンソース AI モデルです。 FLUX.1 [schnell] は、ローカル開発および個人使用向けに設計されたオープン ソース バージョンであり、必要なメモリは最小です。

3 つのモデルすべてに、Replicate と Models でオープンな試用版があります。わずか半月で FLUX.1 [開発]ハグフェイスのダウンロード数は20万件を超え、FLUX.1[schnell]のダウンロード数は58万件を超え、体験回数は3億8千万回に達しました。

登録エクスペリエンスリンク: FLUX.1 [schnell]: https://replicate.com/black-forest-labs/flux-schnell

02

Hengping による 4 つの主要な AI 画像ジェネレーターのレビュー

Flux は詳細と空間理解において優れています

FLUX.1 シリーズのモデルは Stable Diffusion のオリジナルチームによって作成されていますが、これは Stable Diffusion のレプリカであることを意味するものではありません。

メディアは、Flux、SD3 Medium、Auraflow、Midjourney をまとめてレビューしました。現在の優れた Vincentian グラフ モデルが、同じテキスト プロンプトに対して異なる写真を生成していることがわかります。

まず、「ジャングルで女性を追いかける巨大なクモの手描きのイラスト。非常に怖くて、痛くて、暗くて不気味なシーンで、怖くて思わせぶりな雰囲気を持っています。」とプロンプトを出します。

Flux は光と影をうまく使ってホラー感を演出していることがわかります。蜘蛛のデザインは確かに怖くて、脚は鋭く、蜘蛛の顔は非常にリアルです。 Auraflow のシアンのトーンは、暗くて恐ろしい効果を実現せず、全体的な画像が様式化されています。 SD3 Medium の白黒のスタイルは、人々に強いスケッチのような感覚を与えます。蜘蛛のデザインは緻密で恐ろしいですが、特徴付けには少し一貫性がありません。

2 番目の評価は主に、画像生成者の空間を理解する能力を検査します。テキストプロンプトは次のようになります。「犬がテレビの上に立っており、画面には『復号化』という文字が表示されています。左側にはコインを持ったスーツを着た女性がいます。右側には応急処置をしているロボットが立っています」キット。シーン全体が超現実的でした。」

Flux によって生成された画像は説明に最も近く、すべての要素が必要な場所に配置されています。全体的な構成のバランスが取れており、各要素のデザインとレトロフューチャーなスタイルがシュールレアリスムの要件を満たしています。しかし、キャラクターが余分な手を持っているなど、いくつかの欠点もあります。 SD3 Medium も 2 番目にランクされました。全体的なデザインはテキスト記述の要件を満たしていましたが、たとえば、漫画風の犬が座っているのではなく立っている必要があるなど、精度が不足していました。 Auraflow には、テキストの理解の精度と表示される画像の品質にギャップがあります。

ヒント 3 には、「夜の繁華街の高解像度の写真。ネオンが場面を照らします。人々が歩道を歩き、車が通り、露天商がホットドッグを売ります。光が滑りやすい歩道に反射しています。全体的なスタイルは非常にリアルで、細部と照明にこだわり、ネオンサインには「復号化」と表示されています」 このヒントは、主要な画像ジェネレーターによるリアリズムへの取り組みに焦点を当てています。

Flux によって生成された画像は、詳細が豊富で明るく、主要な標識と歩行者の鮮明な画像を備えて、交通量の多い通りをよく描写しています。 SD3 もバランスの取れた構図、リアルな照明、慎重に統合された要素を表示できますが、歩行者の描写が少し薄いです。

最後に海外メディアDecryptもFluxとMidjourneyを2つに評価し、最終的にFluxの方が強いと判断した。

最初のテキストプロンプトは次のようになります。「長いストレートの髪をした女性が、曲線を強調するオールブラックの服を着て、モダンなソファの前の床に座っている白黒写真。彼女は自信を持ってカメラを見つめ、ポーズをとっています。ピーター・リンドバーグは、ハッセルブラッド X2D 105mm レンズを f/4 絞り設定で撮影し、視覚的な魅力を高めています。

Decrypt は、Flux が自然なポーズ、状況に応じた背景、詳細なレンダリングでプロンプトの要件を捉えていると考えています。形態学的に言えば、それが最も正確です。 『Midjourney』では、鮮やかな写真と豊かなディテールが表現されていますが、Flux のような画像の重ね合わせが欠けており、体の姿勢の表現も Flux ほど正確ではありません。

2 番目のテキスト プロンプトには、「灰色のスタジオの背景に、サングラスと帽子をかぶり、紫色のハワイアン スタイルの衣装を着て、ピアノを弾く白猫の全身写真。商用目的。」と書かれていました。

Decrypt は、Flux が全身写真、グレーのスタジオ背景、指定された服装の要件を満たしていると信じています。構図はプロフェッショナルで絶妙であり、プロンプトの要件を完全に満たしています。 Midjourney はクローズアップショットを提供し、画像は表現力豊かですが、全身ショットやスタジオ背景の要件を満たしていません。

Flux は、写真の詳細、空間と様式の理解の点で業界の最前線に立っており、Midjourney と競合することができ、いくつかの点では Midjourney よりも優れていることがわかります。

03

ミッドジャーニーとセックスしたいですか?

Black Forest はまだ商品化の必要がある

AI文生図の分野は現時点でのものと言えます生成AIこの分野で最もホットなトラックの 1 つ。現在、Google、Meta、OpenAI がこの分野に注目しています。 FLUX.1 によって実証された機能により、多くの人々は FLUX.1 が次の Midjourney になると期待しています。

しかし、次のミッドジャーニーになるための鍵は商業化にあります。

同じ分野の先駆者である Midjourney の基本プランは年間 96 ドルで、1 か月あたり約 200 枚の画像を生成できます。これは 1 ドルあたり 25 枚の画像に相当します。 Ideogram の基本プランは年間 84 ドルで、1 か月あたり最大 400 枚の画像、または 1 ドルあたり 50 枚の画像を生成できます。

Black Forest は、クラウド生成をサポートするために、オープンソース モデル Auraflow の開発者である Fal AI と提携しました。これらのモデルは、Replicate.com で無料でテストすることもできます。ユーザーは、1 日あたりの無料割り当てに達すると、Flux Pro モデルを使用して 1 ドルで 33 個のイメージを生成するか、Flux Schell を使用して 1 ドルで 333 個のイメージを生成するかを選択できます。

Midjourney や Ideogram と比較して、Black Forest はユーザーにより多くの選択肢を提供します。しかし、これは Black Forest の商業的成功を表すものではありません。生成 AI モデルの維持コストは非常に高くなります。 Stability AI を例に挙げると、Forbes によると、Stability AI はコストと賃金に毎月約 800 万ドルを費やしていますが、その収益はわずか 120 万ドルであり、コストをカバーするには程遠いです。現在、商用化は Ideogram と Pika Labs AI にとって「行き詰まった」リンクでもあります。

したがって、真にMidjourneyを超えるためには、Black Forestが収入と支出のバランスをどのように取るかが、Vincentian AI大型モデルを支配するための鍵となるでしょう。

04

半月も経たないうちに初志に反する?

黒い森はヴィンセントの安全に対する曖昧な態度を示している 図

Black Forest Labsとマスク氏は「反覚醒AIチャットボット」の構築に同意しているようで、どちらもAIに過度の制限を課すことを望んでいない。

ここでの「反覚醒型 AI チャットボット」とは、特定の政治的に正しい見解や社会的に覚醒した見解の採用を意図的に回避する AI チャットボットを指し、フィルターをかけずに物議を醸すトピックに直面します。 Grok は明らかに、マスク氏の「反覚醒 AI チャットボット」コンセプトの担い手である。

安全性評価の観点から、Grokはコンテンツ制限、著作権、画像処理の複雑さなどを含む6つの「禁止事項」に言及しているが、実際、生成された写真から判断すると、Grokにはセレブ、ポルノ、暴力、など。生成された画像はソーシャル プラットフォーム X で人気になっています。

複数の規制当局がソーシャルプラットフォームXに不満を表明しているが、マスク氏は依然として動じないようだ。 Grok-2 のリリース後、マスク氏はユーザーが AI 生成または Grok 生成のウォーターマーク プロンプトを表示せずに、Grok で生成された AI 画像をプラットフォーム上で直接公開できるようにしました。

マスク氏は2022年のソーシャルプラットフォームXで、AIに制限を設けるとAIモデルのセキュリティが低下すると言及した。 「AIのトレーニングは簡単に目覚めてしまう。言い換えれば、(AIが)嘘をつく危険性は致命的だ。マスク氏がGrokを選択したのは、FLUX.1シリーズモデルにあまり多くの制限が課されていなかったためではないかと推測するメディアもあった。」 FLUX.1シリーズのモデルを引き継ぎます。

によるとザ・ヴァージ多くのメディアの評価によれば、Googleの類似画像AIモデルImagenやOpenAIのDALL・E 3も「危険な倍音」を含む即語の生成を拒否したが、Grokは迅速に対応し、迅速に画像を生成した。

わずか半月前、Black Forest Labs が初めて設立されたとき、同社は会社の目標を「これらのモデルのセキュリティに対する人々の信頼を高めること」であると発表しました。半月後、Black Forest Labsとマスクは「AIに対する制限なし」の側に立ち、Vincentian AIモデルのブラックボックスを開けた。

多くの論争に直面しているBlack Forest Labsは現在、それについて話すことを避け、議論の焦点を別の方向に移そうとしている。取締役会メンバーのアニニー・ミダ氏は8月14日、ソーシャルプラットフォームX上でGoogleを批判した。 ジェミニ発売当初、Vincentianグラフィックスの分野では人種差別などが隠れた状況があり、FLUX.1シリーズのモデルではそのような状況は起こらないとされていました。

Vincentian グラフの機能という点では、FLUX.1 シリーズ モデルは確かに強力であり、すでに Midjourney と競合できることがわかります。しかし、安全性の観点から、Black Forest Labs は同じコースにいるプレイヤーとは異なる道を選択したようです。

「安全ガードレールを設置しない」ことで、Black Forest Labs は Vincentian グラフィックスの分野で絶対的な支配的なプレーヤーになるでしょうか?それともFLUX.1シリーズモデルの新たな人気を一気に打ち砕くのでしょうか?見てみましょう。