ニュース

aiはあらゆるものを「生成」できるのでしょうか?

2024-08-29

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

sora が誕生して半年、その「挑戦者」が次々と現れ、「待ちきれなかった」「追いつけなかった」nvidia も個人的に終わってしまった。
これまでのところ、sora はデモをリリースしただけで一般には公開されていませんが、kuaishou keling、zhipu qingying、vidu が率先して体験の扉を開き、一般公開されています。
「ワンクリック生成」の最初の経験は完璧ではありませんでしたが、コンテンツ業界に湧き水が湧き出ました。私たちの周りの多くの短編ドラマ、広告、アニメが「効率化のパートナー」としてaiを活用し始めています。人工知能生成技術は、少し前のヴィンセントの写真から今日のヴィンセントのビデオ、tusheng ビデオ、ビデオ生成ビデオに至るまで、「aigc ユニバース」は拡大し続けています。
aiは中国神話の「魔法のペン馬良」なのか?どれだけの想像力と創造性を生かし、動かすことができるでしょうか?
「文生ビデオ」、「生きる」方法
「wensheng video は大ヒット商品です。」 過去 6 か月で、sora が大手メーカーからユニコーン企業に復活したことは、業界が「世代」を重視していることを示しています。
つまり、ビデオ生成では、生成人工知能テクノロジーを使用して、テキストや画像などのマルチモーダル入力をビデオ信号に変換します。
現在、ビデオ生成には 2 つの主な技術的ルートがあります。 1 つは普及モデルで、2 つのカテゴリに分類されます。1 つは、meta の emuvideo、tencent によって開始された videocrafter などの畳み込みニューラル ネットワークに基づく普及モデルです。もう 1 つは、transformer アーキテクチャに基づく普及モデルです。 openaiのsora、kuaishouのkeling ai、shengshu technologyのviduなど。もう 1 つは、google の videopoet、phenaki などの自己回帰ルートです。
2024 年 7 月 26 日、中国のテクノロジー企業 zhipu ai は、自社開発の人工知能によって生成されたビデオ モデル qingying (ying) を世界中のユーザーにリリースしました。写真はユーザーのログインインターフェイスを示しています
現在、ビデオ生成モデルは、「dit」とも呼ばれるtransformerアーキテクチャに基づく拡散モデルが主流となっています(diはdiffusionの略、tはtransformerの略です)。
テキストをビデオとして「拡散」しますか? 「ここでの普及とは、モデリング手法のことを指します。」北京大学情報工学部の助教授兼博士指導教員であるユアン・リー氏は、鮮やかな例を挙げました。
ミケランジェロが有名なダビデ像を彫刻していたとき、彼はこう言いました。「この彫刻はもともと石の中にあり、不要な部分を取り除いただけです。」 「この文章は、『拡散』のモデリングプロセスを鮮やかに描写しています。オリジナルのピュアノイズビデオは、彫られていない石のようなものです。この大きな石をどのように叩き、輪郭に叩き込まれるまで余分な部分を叩き落としていくのか、その明瞭な「デイヴィッド」、これが方法は「拡散」です」とユアン・リー氏は語った。
yuan li 氏はさらに次のように説明しました。「transformer は、『スケール ルール』に従い、石を砕くプロセスを実行するニューラル ネットワークです。入力された時空間情報を処理し、内部の複雑な関係を理解することで現実世界を理解し、モデルには推論機能が備わっており、ビデオ フレーム間の微妙なつながりを捉えるだけでなく、視覚的な一貫性と時間的な滑らかさも確保できます。」
「効率化パートナー」、どれだけ速いか
純朴なホッキョクグマは目覚まし時計で起こされ、荷物をまとめ、ヘリコプターに乗り、高速鉄道に乗り換え、タクシーに乗り換え、船に乗り、山を越え、川を越え、湖を越え、海を越え、多くの場所を通過しました。困難や障害を乗り越え、ついに南極に到達し、ペンギンたちと出会う…。
「all the way south」というタイトルのこの 1 分半の短編アニメーション映画は、ビデオ生成モデル vidu によって完成されました。当初は 1 か月かかる作業量が、ai を「効率化パートナー」として追加したことで、わずか 1 週間で優れた作品を生み出すことができ、効率は従来の 4 倍になりました。
これには、北京映画祭の aigc 短編映画部門で最優秀作品賞を受賞した、アイニメイト ラボ ai の所長であるチェン・リウファン氏がため息をついた。ビデオ生成テクノロジーのおかげで、ハイレベルなアニメーションはもはや、ただ単にお金を稼ぐだけの「金がかかるゲーム」ではなくなった。大きなスタジオがあえて演奏する。
aiアニメーション「all the way south」のクリエイティブチームは、監督、絵コンテアーティスト、aigc技術応用専門家のわずか3人で構成されています。伝統的なプロセスで作るには20人が必要です。計算すると、生産コストだけで90%以上削減できることになります。
kuaishou のビジュアル生成およびインタラクション センターの責任者である wan pengfei 氏が述べたように、ビデオ生成の本質はターゲット分布からピクセルをサンプリングして計算することです。この方法により、より低コストでコンテンツの自由度を高めることができます。
vidu のビデオ生成ページに入り、著者も「ワンクリック生成」の自由を体験しました。写真をアップロードして「開始フレーム」または「参照キャラクター」として設定し、ダイアログボックスに生成したいシーンのテキスト説明を入力して「生成」をクリックすると、スマートでエキサイティングなショートビデオが作成されます。自動的に生成されます。ページに入ってからダウンロード完了まで1分もかかりません。
国内動画モデルviduに写真を送るとアニメーション動画が自動生成されます。画像はビデオのスクリーンショットを示しています
zhipu aiのceo、zhang peng氏は、「かつての『誰もがマイクを持っている』のと同じように、『誰もがデザイナーになる』『誰もがディレクターになる』時代が来るだろう」と語った。
「ワールドシミュレーター」、ドラマはありますか?
ビデオ生成はコンテンツ業界を破壊するだけでしょうか?これは明らかに openai の本来の意図ではありません。 「ビデオの生成」は単なる「前菜」です。
sora が誕生する前、openai は sora を aigc 実装ツールとしてではなく、物理世界を複製するための「コンテナ」、つまりワールド シミュレーターとして位置づけていました。このコンテナ内では、『マトリックス』で描かれた仮想世界と同様に、現実世界の物理法則、環境挙動、相互作用ロジックが動作し、私たちの想像力や感覚に影響を与えます。
ただし、物理世界は 3 次元であり、sora などの現在のモデルは 2 次元操作のみに基づいており、実際の物理エンジンではないため、物理世界の詳細なシミュレーションはありません。
「私は長年、世界を「見る」ということは世界を「理解する」ことだと言い続けてきました。しかし今、私はこの概念をさらに一歩進めて、「見る」ということは単に「理解する」ということではなく、「行う」ことであると考えています。スタンフォード大学の主任教授であるリー・フェイフェイ氏は、空間インテリジェンスの基本は「見ること」と「行うこと」を結び付けることであると公に述べています。
「見る」が「行う」に等しくないとき、人工知能の創造は止まらない。最近、新しい技術的なルートが登場しました。あなたは、ベクトルとモデルで構築されたこのインテリジェントな世界を前進させるために、さまざまなルートでお互いを追いかけながら、一緒に前進しています。
今後の「世界観」は未だ明かされていない謎です。アメリカの物理学者ファインマンは、「理解できない世界を創造することはできない」と言いましたが、それは、世界を理解すれば必ず世界を創造できるという意味ではありません。
現時点ではまだ転覆前夜である。だからこそ、テクノロジーの探求者に未来について質問すると、大きく異なる答えが返ってくるのです。 「不確実性」こそがこの時代の恵みなのかもしれない。
レポート/フィードバック