私の連絡先情報
郵便管理者@information.bz
2024-08-19
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
マシーンハートオリジナル
著者: ウー・シン
8月19日、Kunlun Wanweiは、ビデオラージモデルと3Dラージモデルを統合した世界初のAI短編ドラマプラットフォームであるSkyReelsをリリースしました。 SkyReels プラットフォームには、脚本の生成、キャラクターのカスタマイズ、絵コンテ、プロット、セリフ/BGM、ビデオ合成が統合されており、クリエイターはワンクリックでドラマを作成し、高品質な AI ビデオを簡単に制作できます。 2分半の短い劇です。
ビデオリンク: https://mp.weixin.qq.com/s/4w5eOquY6p2Z7pXIUuKf9w
「私たちは頑固で抵抗力のある考え方を手放し、この断片化された情報時代を受け入れるべきです。」 2023 年 12 月初旬、黄建新監督は北京電影学院講堂で、映画と比べて、縦型スクリーンの短編映画の台頭がまさに社会を形成していると嘆いた。グローバル出力。
1 つのエピソードが数分から 10 分以上続き、強力なエンターテイメントとテンポの速いストーリーにより、ユーザーは頻繁に「楽しんで」います わずか 3 年 (2023 年まで) で、中国の短編ドラマ市場は年間劇場映画のレベルに達しました。興行収入の70%。
同時に、世界的には独立したショートドラマアプリが多数リリースされており、中国のオンラインショートドラマソフト「ReelShort」が米国のiOSランキングで好成績を収め、長らくランキングを独占してきたTikTokをも上回る躍進を遂げた。
短編ドラマは近年、映画やテレビの分野で最も急速に成長している分野の 1 つであり、新しいテクノロジーの実験場でもあります。 「ワンクリック翻訳」や「AI 顔変更」も一般的で、多くのオンライン執筆会社も、著者の執筆を支援できる大規模なコンテンツ生成モデルをリリースしています。 AIの大型モデル映像生成機能により、これまで3カ月かかっていたショートドラマ制作期間が半月に短縮された。
AI によって作成された短いビデオ クリップは、公開されると数百万回の再生回数を獲得できますが、フルプロセスの AI 短編ドラマの制作には依然として多くの課題があります。クリエイターは、ChatGPT、Midjourney、Runway、イレブン ラボ、ComfyUi、Adobe、Cutting などの複数の AI ツール間を繰り返し「ジャンプ」する必要がありますが、その作業の結果は依然として満足のいくものではありません。
このような背景から、10年以上の海外経験を持つ中国の人工知能テクノロジー企業であるKunlun Wanweiは、世界初のAI短編ドラマプラットフォームSkyReels(ビデオラージモデルと3Dラージモデルを統合したAI短編ドラマプラットフォーム)を立ち上げました。これは短編ドラマ分野における国内大型モデルの導入に成功しただけでなく、「ワンクリックドラマ」「一人一ドラマ」時代の到来を告げるものでもある。
同時に、この革新的なツールは、AIショートドラマユーザー生成コンテンツ(UGC)とプロフェッショナルユーザー生成コンテンツ(PUGC)の爆発的な成長をもたらし、ショートドラマコンテンツ制作とプロユーザー生成コンテンツのさらなる急速な成長を促進することが期待されています。消費市場。
1. 世界初の AI 短編ドラマ プラットフォーム SkyReels について知る
SkyReels 製品操作デモ
ビデオリンク: https://mp.weixin.qq.com/s/4w5eOquY6p2Z7pXIUuKf9w
SkyReels の Web ページを開くと、「AI ショート ドラマ」のデザインが他の「AI クリエイティブ」プラットフォームとは大きく異なるとすぐに感じます。
どちらも AI によって駆動されていますが、「AI Creative」プラットフォームは画像とビデオの生成に重点を置いているのに対し、SkyReels は台本生成、キャラクターのカスタマイズ、絵コンテのデザイン、ビデオ撮影と合成を統合し、短編劇の産業化プロセスを完全に再現しています。
SkyReels は、ストーリーの創造性、脚本の生成、キャラクターのカスタマイズ、ストーリーボードのデザイン、ビデオ撮影と合成を統合し、短編ドラマの産業化プロセスを完全に再現します。
最も重要なことは、良いアイデアを思いつき、それをクールな脚本に変えることです。
テキスト作成は大規模言語モデル LLM のコンフォートゾーンですが、SkyReels との違いは、テキスト作成を担当する大規模モデルが専門的なトレーニングを受けており、「クールな」フローベースのスクリプトの書き方を知っていることです。
コンセプトやストーリーのアイデアを入力し、感情的なドラマなどの「作成タイプ」をクリックするだけで、システムが要件を満たす、完全な構造と豊かなプロットを備えた脚本を自動的に生成します。
ユーザーは既製のスクリプトをアップロードし、AI にスクリプトを磨き、最適化して、よりプロフェッショナルで読みやすいものにすることもできます。
このシステムは、クリエイティブなプロンプトに基づいて要件を満たすスクリプトを自動的に生成し、その後のキャラクター デザインの準備として、関係するキャラクターの伝記も要約します。
脚本の準備ができたら、次のステップは「俳優を見つける」ことです。SkyReels では、このステップはキャラクター デザインと呼ばれます。
通常は、まずLLMにデザインテキストを書かせ、それをMidjourneyなどのグラフィックツールに投げてキャラクター画像を生成します。キャラクターにナレーションを追加するには、イレブンラボなどのオーディオ ツールが引き続き必要になります。
今なら、ページに入って対応する要件(キャラクターのアフレコも含む)を入力するだけで、ワンクリックでキャラクターを「生成」できるので、制作効率が大幅に向上します。
ページにアクセスし、対応する要件(キャラクターのアフレコ含む)を入力するだけで、ワンクリックでキャラクターが生成されます。
撮影が始まる前に、監督は俳優を探すだけでなく、絵コンテも作成する必要があります。いわゆるストーリーボードは主にストーリー全体を一連の連続した画像に分割し、各画像は特定のシーンまたはアクションを表します。
スタジオジブリ「千と千尋の神隠し」の絵コンテ。
美術の知識のない監督が絵描きの手を借りながら絵コンテのデザインを完成させるのは非常に手間がかかります。今後は、LLM にショットのテキスト スクリプトを生成させ、Midjourney などのツールを使用してストーリーボードを描画できるようになりました。
ただし、この方法には、キャラクターとシーンの一貫性を確保するのが難しいという欠点もあります。たとえば、CCTVのAIチャンネルで開始されたフルプロセスAIミニシリーズ「女媧」では、女媧は複数の女媧がいるかのように、登場するたびに異なって見えます。
SkyReels では、AI がスクリプトの内容に基づいて、ワンクリックでストーリーボード画像と対応するテキスト スクリプトを生成します。各ショットの効果を確認するまでに 1 ~ 2 分待つだけです。満足できない場合は、テキスト (シーンやキャラクターのアクションなど) を変更して絵コンテの効果を調整することもできます。
さらに重要なのは、自社開発テクノロジーのサポートにより、ストーリーボードの画像が高解像度で詳細が豊富なだけでなく、キャラクターやシーンがさまざまなストーリーボードで一貫性と連続性を維持できることです。
AI は、スクリプトの内容に基づいて、ワンクリックでストーリーボード画像と対応するテキスト スクリプトを生成します。
絵コンテが設計され、俳優が配置されると、「実際の撮影」段階に入ります。現在、AI 映画やテレビの開発における最大のボトルネックもここにあります。それは、使用できる優れた「カメラ」が少なすぎるためです。
一般的なアプローチは、Pika と Runway を使用してダイナミックな効果を生成することですが、多くの欠点があります。 たとえば、画質が悪く、キャラクターの動きが小さかったり、不合理であったり (麺を食べる問題)、シーンに不一致が発生しやすく、車両は動いているのに車輪が回転しておらず、水しぶきが止まっていることがあります。水の流れの中で動く水面。キャラクターが話すときの口の形が合わず、表情も硬い。
AI 3D エンジンとビデオ大規模モデルの組み合わせにより、SkyReels はストーリーボードを連続ビデオに自動的に変換し、生成されたシーンとキャラクターをより鮮明で一貫したものにすることができます。また、1080P 60 フレームのビデオ出力もサポートしており、ドラマ視聴体験を保証します。
さらに、一度に生成できるビデオの長さは最大 180 秒で、一度に 60 秒のビデオを生成できる Sora や 10 秒のビデオを生成できる Keling と比較して大幅な進歩です。一度にビデオ。
SkyReels は、ストーリーボードを連続ビデオに自動的に変換できます。
最後に、すべてのプロセス結果をワンクリックで統合して、最終的なショートプレイを迅速に生成できます。また、脚本のテーマや特定のシーンに合わせて、AIが適切なBGMや効果音を生成・推奨し、ワンクリックで追加できる。
BGMや効果音もワンクリックで追加できます。
ワンクリックでビデオにエクスポートでき、ワンクリックでDouyinなどのソーシャルメディアプラットフォームに公開できます。
ワンクリックでキャラクターデザインを共有できるようになりました。
2.「ワンクリックドラマ」の裏側には3層の技術革新がある
3 つの柱のような 3 層の技術革新が、SkyReels の「ワンクリック ドラマ」を支えています。
自社開発のスクリプト大型モデル SkyScript、自社開発のストーリーボード大型モデル StoryboardGen、および AI 3D エンジンとビデオ大型モデルを深く統合した業界初の革新的なプラットフォーム WorldEngine。
SkyScript は大規模な脚本モデルであり、短編劇の「魂」である脚本を習得する役割を担っています。実際、スクリプトだけでなくテキスト モデルもクリエイティブ プロセス全体をサポートします。
一部のマイクロ短編ドラマ作家は、ChatGPT を使用して脚本を生成しようとしましたが、最終結果には感情的な緊張感やプロットの変更がなく、単なる平坦なテキストの山であることがわかりました。 Kunlun Wanwei は、1 億レベルの高品質な短編ドラマ構造化データセットである SkyScript-100M を構築しました。このデータセットには、数多くの素晴らしい短編ドラマのプロットのリズム、刺激的なポイント、感情の変化に対する高品質の注釈が含まれています。 、スクリプト作成用に特別に設計されています。
SkyScript スクリプト大規模モデルの技術概略図
SkyScriptスクリプトラージモデルのストーリーボードスクリプト生成原理。
たとえば、ヒットしたい場合は、膨大なデータから作成の基本原則と一般的なパターンを学ぶことに加えて、実証済みの「ルーチン」をいくつか理解する必要もあります。 視聴者は、運命を変えるための反撃、横暴な妻、裕福な家族の争い、タイムトラベルと再生、吸血鬼、狼男などのテーマを含む、テンポの速いプロットデザイン、激しい対立、繰り返されるサスペンス、および複数の逆転を明確に好みます。飽きのこないテーマでもあります。
ReelShort の人気短編ドラマ「億万長者の夫の二重生活」は、最初に結婚し、その後に愛を描くもので、1 つのエピソードは約 1 分 30 秒続きます。第 12 話の時点で、男性と女性の関係はすぐに完了しました。集中的なプロットの交差点で、悪質な女性の脇役、契約結婚、美女を救う英雄、財産をめぐる争いなどのプロットが含まれています。国海証券による中国短編ドラマの海外展開に関する徹底レポート。
SkyScript は、主人公の外見、ショットの構図、登場人物が表現する感情など、視聴者の強い興味を引き起こすストーリーの「クールなポイント」に注意深く注釈を付けることで、これらに注意を払い、生成することを学習します。詳細。
モデル アーキテクチャに関しては、生成されたコンテンツの専門性と制御性を確保するために、SkyScript はマルチエージェント フレームワークも採用しています。 「クリエイター」、「キャスティングディレクター」、「脚本家」、「小説家」、「監督」、その他の知的エージェントの協力を通じて、工業生産プロセスが模倣され、脚本の作成が完了します。
スクリプト大規模モデル SkyScript の品質評価。
最終的には、短編劇は視覚言語のプレゼンテーションです。したがって、StoryboardGen と WorldEngine というイノベーションの他の 2 つの層は、短編劇の「血肉」である射撃に焦点を当てています。
SkyScript と同様に、独自に開発された大規模なストーリーボード モデルである StoryboardGen も、現実世界の高品質でプロフェッショナルなストーリーボードの例でトレーニングされています。これは、ストーリーボード設計用に特別に設計されており、汎用の画像生成モデルとは大きく異なります。 。
同様に、マルチエージェント フレームワークに基づいて、ストーリーボードのさまざまな要素 (シーン、ショット、キャラクター、アクションなど) が複数のエージェントに分解されて処理され、ストーリーボード制作プロセスの制御性と一貫性が大幅に向上します。
大規模なストーリーボード モデルである StoryboardGen の技術的な概略図。映画撮影やアニメーション制作と同様に、マルチエージェント フレームワークに基づく StoryboardGen は、プロセス全体を複数のエージェントに分解し、各エージェントが特定の機能を担当することで、ストーリーボード制作プロセスの制御性と一貫性を強化します。
公園を歩いている人などのシーンを説明するスクリプトがあるとします。
LLM プランナーはまずスクリプトを 2 つの部分に分割します。
その中には、グローバルな説明 (グローバル プロンプト) があります。「人は日当たりの良い公園を歩いています。」
現地の説明 (現地のプロンプト): 「この人は中年男性で、カジュアルな服装をしており、手にコーヒーカップを持ち、ゆっくりとしたペースで歩いています。」
生成プロセスでは、さまざまなエージェントがそれぞれの役割を実行します。たとえば、シーン エージェントはグローバル記述に基づいて公園の背景とレイアウトを生成し、キャラクター エージェントはローカル記述に基づいて男性キャラクターのイメージとアクションを生成します。
最後に、ストーリーボード エージェントはこれらの生成されたコンテンツを統合し、すべての記述情報と条件に基づいて最終的なストーリーボードを生成します。
大規模ストーリーボード モデルの StoryboardGen 品質評価ステータス。
制御性と一貫性に加えて、ストーリーボード画像をより表現力豊かにするために、StoryboardGen は画像の複雑さと細部の精度も大幅に向上させました。
たとえば、StoryboardGen は、DiT に基づくプログレッシブ生成フレームワークを使用して、複数の変更と改善を通じて最終イメージを作成します。このフレームワークは、従来のワンタイム生成モデルと比較して、中間プロセスで生成される情報を最大限に活用して、より高品質で豊かな視覚効果を持つストーリーボードを生成できます。
技術革新の第3層は、業界初となる3D生成技術と映像生成技術をレイヤーフュージョンなどによりシームレスに接続した革新的なプラットフォーム「World Engine」で、クリエイターに強力な「カメラ」を提供することに相当します。あるいは「スタジオ」でも構いません。
WorldEngine の組み合わせエンジンの精密な制御性(照明シミュレーション、物理シミュレーション、3D空間、リアルタイムインタラクションなど)とAIビデオ大型モデルのファンタジー生成能力は、新しいオンライン ハイブリッド ビデオ作成モードを提供し、ビデオ作成をあいまいな生成からより正確で制御可能なものに移行できるようにします。
ピカチュウが噴水の下で楽しんでいるシーンを作成しているとします。Sky3DGen で正確な噴水のシーンを作成すると同時に、ビデオ モデルでリアルなピカチュウを生成できます。
ハイブリッド生成ビデオのケース
ビデオリンク: https://mp.weixin.qq.com/s/4w5eOquY6p2Z7pXIUuKf9w
Sora のような大規模なビデオ モデルは、ゲーム エンジンに匹敵するものではなく、想像力に満ちたほぼ現実的な効果を簡単に生成できることはわかっていますが、物理世界を理解しておらず、ガラスなどの最も基本的な物理的相互作用の一部を正確にシミュレートすることができません。顔を壊して食べるなど。
ゲーム エンジンの利点は、現実の物理法則を正確にシミュレーションできることにあります。複雑な数学モデルを通じて、空間と時間において一貫性があり、客観的な法則に準拠した仮想環境を作成できます。これにより、レンダリング結果の一貫性と予測可能性が確保されるだけでなく、3 次元空間の深い理解も実証されます。
中国最大のゲーム開発および運営会社の 1 つとして、Kunlun Wanwei が独自の Sky3DGen ラージ モデルを開発し、ビデオ ラージ モデルで「その利点を補完」し、クリエイターに新しいハイブリッド作成モデルを提供していることは驚くべきことではありません。
SkyReels では、さまざまな 3D シーンや形状、さらにはキャラクターのパフォーマンスを変更できます。
3Dプロップビデオ生成事例
ビデオリンク: https://mp.weixin.qq.com/s/4w5eOquY6p2Z7pXIUuKf9w
3Dシーン動画生成事例
ビデオリンク: https://mp.weixin.qq.com/s/4w5eOquY6p2Z7pXIUuKf9w
Kunlun Wanwei は、短編劇の中核要素の 1 つである ActorShow キャラクター パフォーマンス生成モデルを独自に開発しました。このモデルは、口の表情と体の動きのより強力な制御可能な生成機能を備えています。
ビデオリンク: https://mp.weixin.qq.com/s/4w5eOquY6p2Z7pXIUuKf9w
キャラクター性能生成モデルの品質評価。
作成プロセス中に、ユーザーは 3D 仮想撮影スタジオを自由に定義することもできます。
今日は砂漠でストーリーを撮影してみませんか?数回クリックすると、シーン全体が広大な砂漠に変わります。明日は宇宙ステーションで撮影する予定ですか?さらに数回クリックすると、周囲がハイテク宇宙ステーションの内部に変わりました。
仮想スタジオ内に仮想カメラを配置したり動かしたりして、さまざまな撮影アングルを試すこともできます。光を調整し、特殊効果を追加して、非常にプロフェッショナルな撮影効果を実現します。
WorldEngineはエンジンの採用により、従来の動画生成に比べて画期的なコスト削減を実現するとともに、生成速度と制御性が数桁向上しました。
3. AI UGC に賭けてからポーカー テーブルに行きます
AI 短編ドラマ プラットフォームである SkyReels は、Kunlun Wanwei の AI アプリケーション レイヤー製品マトリックスの最新メンバーです。
これに先立ち、同社はAI検索、AI音楽、AIビデオ、AIソーシャルネットワーキング、AIゲームなどを含む多様な製品群の構築に成功しており、一部の事業は商業化されている。
世界市場を開拓した最初の中国企業の 1 つとして、クンルン ワンウェイはコンテンツおよびエンターテインメント業界で 10 年以上の経験を持ち、UGC (ユーザー生成コンテンツ) プラットフォームが長期にわたる傾向を維持していることを認識しました。 AIGCの介入により、Web記事、短編劇、アニメーション、ゲームなどのIP制作手法が多様化するだけでなく、コンテンツ制作の敷居が大幅に下がることが予想されます。
業界が言うように、「コンテンツ制作の基準が 2 倍になるたびに、コンテンツを作成する人の数は 10 倍に増加することになります。これは、巨大な市場チャンスを意味します。」
したがって、Kunlun は、AI を使用して作成するすべてのユーザーが IP の完全な閉ループを完了できるように、IP をコアとした包括的な UGC プラットフォームの構築に取り組んでいます。彼らは、技術的な詳細をすべて隠し、エンドツーエンドのコンテンツ生成を実現できるツールには真の商業的価値があることをよく知っています。これは、SkyReels などの「ワンクリック生成」製品の深いロジックでもあります。
Kunlun Wanwei は、上位レベルでの AI UGC プラットフォームの構築に加えて、下位レベルでの汎用大型モデルの基盤の開発にも取り組んでいます。これは、シンプルだが深い洞察から生まれています。技術的な観点から見ると、人間の知恵はテキストの形で蓄積されており、ソーシャル ネットワーキング、ゲーム、音楽、ビデオのすべての専用モデルは、テキストの大規模モデルのサポートから切り離せません。
Kunlun Wanwei が独自に開発した Tiangong モデルは、バージョン 3.0 まで反復されました。 「Tiangong 3.0」は、4,000 億パラメータの MoE アーキテクチャを採用しており、現在、世界最大のモデル パラメータと最強のパフォーマンスを備えたオープンソース MoE モデルの 1 つです。 MMBenchなど多くの権威あるマルチモーダル評価結果において、「Tiangong 3.0」はGPT-4Vを上回り、多くの評価指標が世界トップレベルに達しました。
Kunlun Wanwei は、強固な汎用大型モデル ベースを備え、コンテンツおよびエンターテイメント分野に向けて一歩ずつ前進し、そのモデル機能を音楽、文学図表、ビデオ生成から短編ドラマ生成まで水平方向に拡張し、SkyMusic AI 音楽大型モデルを次々とリリースしました。モデル、Skywork -MM マルチモーダル大型モデル、SkyScript スクリプト大型モデル、StoryboardGen ストーリーボード大型モデル、Sky3DGen 3D 大型モデルなど。
Kunlun Wanwei の会長兼 CEO である Fang Han 氏は、カメラが撮影方法に革命をもたらし、Douyin や Kuaishou などの多数のショートビデオ プラットフォームを生み出したのと同じように、AI も多数の新しい AI UGC を生み出すだろうと予測しました。プラットフォーム。彼は、AI 時代に真の巨大企業を育成できるのは「Free + to C」モデルだけであると固く信じています。
深い2C遺伝子を持つ崑崙技術にとって、AIGCの台頭は間違いなく千載一遇のチャンスだ。人工知能テクノロジーの大手企業に成長することを常に夢見てきたこの企業は、当初ポーカー テーブルに乗る機会を逃したと考えていましたが、AIGC が新たな扉を開くとは予想していませんでした。彼らは一生懸命働いています、全力を尽くしています。
ベータ版アプリケーションの内部アドレス: https://skyreels.ai/beta