ニュース

Zhipu AI は同社の Sora「Qingying」を正式にオープンソース化しました

2024-08-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

真夜中には、海の向こう側は動いていませんでしたが、国内企業は動いていました。

本当に寝たいです、本当に。

理由は寝る前にGithubを見ていたら偶然THUKEGというアカウントを見てプロジェクトを更新してしまったからです。

コグビデオX

THUKEG は Zhipu の正式なタイトルであり、CogVideoX は、過去 2 週間で非常に人気があった Zhipu の第 2 世代 AI ビデオ クリアリングのベース モデルです。

最も一般的な用語では、CogVideoX は GPT4o に相当し、Qingying は GPT4o に相当します。チャットGPT, 単純に、一方がモデルで、もう一方がモデルに基づいた製品であることが理解できるので、実際に等号を描くことができます。

過去 2 週間で、第 2 世代 AI ビデオバトルで、Pixverse は既存の 3 つのファンタジー神である Runway、Ke Ling、Luma に基づいた V2 バージョンをリリースし、要望の多かった Vidu のモデルもリリースされました。

大型モデルの分野で最もスターな AI 企業である Zhipu も、この AI ビデオの混戦に参加し、DiT ビデオ製品である Qingying をリリースしました。

この製品は、AI アシスタント Zhipu Qingyan で使用できます。

しかし、正直に言うと、生成効果の点でケリングやランウェイとの間にはまだ一定のギャップがあると思うので、書きませんでした。

そして、Qingying を解放してから 2 週間後の今日、彼らは次のことを決定しました。コグビデオX、オープンソースです。

試してみる価値はあります。

CogVideoX モデルのダウンロード アドレス:

現在主流のAI動画はすべてクローズドソースであり、オープンソースのOpen-Soraもありますが、正直その効果は満足できるものではありません。

Qingying に関しては、その効果は主流のクローズドソース モデルにはまだ遠く及ばないものの、少なくとも一部のコンテンツを実行する場合には使用可能です。

今回、オープンソースのものを閲覧したところ、オープンソースのものは 1 つであることがわかりました。CogVideoX-2Bの小型モデル。

推論には 21.6G のビデオ メモリが必要ですつまり、1 枚のカード 3090 または 4090 がある場合、お金を消費することなくビデオをローカルで直接実行できます。ただし、ピーク値は 36G に達し、ビデオ メモリを使い果たす可能性が高くなります。

しかし、彼ら自身は、すぐに最適化すると述べています。

しかし、ビデオ メモリが 8G しかない小さなジャンク 4060 しかありません。最適化しても実行できません。 4090、正直に言うと、それを買うお金はありません = =

SD1.5のようなAIビデオモデルがすべての生き物に利益をもたらし、誰もが使用できるようになれば素晴らしいでしょう。

こちらの2Bモデルは、ビデオの長さは 6 秒、フレームレートは 8 フレーム/秒、ビデオ解像度は 720*480 です。

これらのパラメータは初代Dreamと同じ感じです。

公式のケースをいくつか載せておきます(実際、清営に行っていくつか実行してもほぼ同じです)

複雑に彫刻されたマストと帆を備えた精巧な木製のおもちゃのボートが、海の波を模した豪華な青いカーペットの上を滑らかに滑空します。船体は濃い茶色に塗装されており、小さな窓が付いています。ラグは柔らかく質感があり、広大な海のような完璧な背景を提供します。船内は様々なおもちゃや子供用品に囲まれており、子供らしい雰囲気を醸し出しています。このシーンは、子供時代の無邪気さと想像力を捉えており、おもちゃのボートの旅は、風変わりな室内環境での終わりのない冒険を象徴しています。

カメラは、屋根に黒い荷物ラックを備えた白いレトロなオフロード車を追跡します。オフロード車は、松の木に囲まれた急な未舗装の道路に沿って急な丘の中腹を高速で走行し、タイヤには砂埃が舞い、太陽が降り注いでいます。オフロード車に映える、オフロード車 未舗装の道路を高速で走行すると、シーン全体に暖かい輝きが生まれます。未舗装の道路はゆっくりと遠くまで曲がり、他の車は見えませんでした。道の両側の木はセコイアで、緑の植物が点在しています。後方から見ると、まるで荒れ地を走行しているかのように、クルマはスムーズにコーナーを追従します。未舗装の道路自体は急な丘や山に囲まれており、頭上には澄んだ青い空とうっすらと白い雲があります。

荒廃を物語る遺跡や廃墟が広がる戦争で荒廃した都市で、この悲痛な背景を背景に、心を痛めるクローズアップで若い女の子を捉えています。彼女の顔は灰で汚れており、それは彼女を取り巻く混乱の静かな証拠でした。彼女の目は悲しみと立ち直りで輝き、紛争により純真を失った世界の生々しい感情を捉えています。

おそらくこのような理屈ですが、オープンソースに関して私がもっと楽しみにしているのは、実はファインチューニングとプラグインの生態です。

たとえば、現在誰もが使用している AI 描画 SD 1.5 モデルは、実際にはクソみたいなものですが、結局のところ、多くのマスターが SD1 に基づいて非常に素晴らしいモデルを作成したのがオープンソースです。 Majic、DreamShaper、Anything などの 5 つ。

そしてCogVideoX は微調整することもできます。

WAIC の Stepping Stars and Shadows が作成した AI ビデオ モデルを思い出しました。彼らは 200 分の Calabash 人形の素材を使用して、大きな Cal​​abash 人形のモデルを作成しました。

あなたが生み出すものはすべて Calabash Baby のスタイルです。Da Wa を入力すると、出てくるのは Grandpa と Snake Spirit です。それがこの 2 つです。そのうちの。

そしていま、コグビデオ

Wensheng のビデオの上限とパフォーマンスのダイナミクスは Tusheng のビデオよりもはるかに高いと常々感じていたからですが、2 つの最大の障害はスタイルの一貫性とキャラクターの一貫性です。微調整できるのであれば、方法はたくさんあります。解決しました。

CogVideoX-2B の微調整には 46.2G のビデオ メモリが必要です。通常のグラフィック カードでは不十分なので、A6000 などのレンダリング カードが必要です。

しかし、結局のところ、それは一般の人々に利益をもたらすという意味ではなく、一部のスタートアップや中小企業にとっては敷居はほぼ0に等しいです。

これはオープンソースであるため、独自の大規模モデルをゼロから構築するために無数の資金を費やす必要はなく、合計で数万、数十万のローカル カードを購入するだけで済みます。 . を選択すると、ローカルで微調整を実行できます。

私はオープンソースの将来はクローズドソースよりも良いものになると常に信じてきました。

ザッカーバーグ氏が少し前に LLaMa3.1 405B をリリースした夜、Facebook に 10,000 ワードの公開書簡を投稿しました。

ある一節が私に深く印象に残りました。

翻訳すると次のようになります。

私は、AI の前向きな未来にはオープンソースが不可欠であると強く信じています。 AI は、人間の生産性、創造性、生活の質を向上させ、経済成長を加速し、医学および科学研究の進歩を促進する現代のテクノロジーよりも大きな可能性を秘めています。オープンソースにより、世界中のより多くの人々が AI によってもたらされる恩恵と機会を確実に享受できるようになり、少数の企業への権力の集中を防ぎ、よりバランスの取れた安全な方法でこのテクノロジーを社会全体に普及できるようになります。

少数の企業への権力の集中を防ぐことで、テクノロジーをより高度なものにすることができます。バランスよく安全に社会全体に普及する

オープンソースは最良の方法です。クローズドソースは技術的平等をもたらしませんが、オープンソースは技術的平等をもたらします。AI はエンターテイメント ツールではなく生産性ツールであり、その推進は主に企業や研究機関などから行われます。

AI を使用する場合、どの企業にも 3 つの大きな問題があります。

1. 独自のモデルをトレーニング、微調整、改良する必要があります。

2. 個人データを保護する必要があります。

3. 彼らは、AI を長期的な標準エコシステムに変えたいと考えています。
これらすべてを一文にまとめると、次のようになります。

私たちは運命を他人に任せるのではなく、自分自身でコントロールできるようにする必要があります。

中国では、Zhipu はとても特別な会社だと思います。オープンAI、メタの気質を持っています。

Meta のビジネス モデルは、OpenAI などの一部の大規模モデル企業とはまったく異なることを知っておく必要があります。彼らは大規模モデルの使用権を販売してお金を集めているわけではないため、オープンソースは Meta に大きな影響を与えません。

しかし、Zhipu は大手モデル会社です。

しかし、そのような考慮の下でも、彼らは断固としてそれをオープンソース化しました。

おそらく彼らは、「このテクノロジーをよりバランスよく、安全な方法で社会全体に推進できるようにする」という非常に崇高な信念を持つメタに似ているのかもしれません。

とは別にCogVideoX に加えて、彼らは多くのものをオープンソース化しています。

彼らの Github にアクセスして閲覧すると、たくさんの驚きが見つかるでしょう。

私はオープンソースに積極的なすべての企業が大好きです。

将来、無数の開発者が CogVideoX をベースにしたさまざまなプラグインや微調整モデルを開発し、あらゆる映画やテレビ、短編ドラマ、広告、その他のビデオ関連業界の企業が開発する日が来ることを楽しみにしています。独自の多数のモデルとさまざまなビデオ生成ワークフローもあります。

SDがさまざまな企業で繁栄しているように。

私は知恵のスペクトルを賞賛します。

これは技術的な決定であるだけでなく、信念の伝達でもあります。

海の向こうの明かりが徐々に消えていった。

そして、私たちの側に夜明けが来ます。

上昇しています。

これを見て、良いと思っていただけましたら、お気軽にいいね、視聴、リツイートを3回ほどしていただければ早く通知が欲しい方はスターもお願いします⭐ ~私の記事を読んでいただきありがとうございます。また次回お会いしましょう。
>/ 著者: カジク