ニュース

Kuaishou Keling チームの最新オープンソース プロジェクトが人気: おじさんが女の子に変身、GitHub が 7.5K スターを獲得

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

チャートから外れた! !ビデオのフルバージョンを見ずに、その美しい女の子が実際にはおじさんであることを誰が知ることができたでしょうか。

[残念ながらここには動画を挿入できません…Qubit公式アカウントで確認できますよ~]

さて、これは Kuaishou Keling チームを利用して行われたことが判明しました。制御可能なポートレートビデオ生成フレームワーク——ライブポートレート。

LivePortrait はオープンソースとして瞬く間に人気となり、短期間で GitHub で広く使用されるようになりました。7.5K星マーク。

また、HuggingFace の最高戦略責任者である Thomas Wolf 氏自身もこの体験を体験するようになりました。



現在、すべての HuggingFace アプリの中でもランク付けされています。トレンドファースト



では、なぜLivePortraitはこれほど注目を集めているのでしょうか?

まずはその目を引くパフォーマンスから始めましょう...

「転送」という表現をしましょう

LivePortrait は Kuaishou Keling Big Model Team によってオープンソース化されており、必要なのは原画1枚ダイナミックな動画を生成できます。



まずは一連の公式出力を見てみましょう。

から最も単純なまず、静止画像を入力すると、LivePortrait によってポートレートがまばたきしたり、笑顔になったり、首を向けたりすることができます。

まだ使用できます「移植」つまり、スタイル(写実、油絵、彫刻、3D レンダリング)やサイズに限定されず、表現やダイナミクスなどを他の人にコピーすることです~



もちろん、この「魔法」独身者に限らず 、家族の肖像画を撮ることは不可能ではありません。 [ドージェ]



静止画像からビデオに移行するだけでなく、1 つ以上のビデオ「笑顔アップ術」を実現。

たとえば、表情のない赤ちゃんのビデオ (右端) を提供すると、参照ビデオに従って赤ちゃんにウィンクや笑顔をさせることができます。



ちなみに、人物のポートレートだけでなく、猫や犬もコケティッシュでかわいく振る舞うことができます。



つまり、LivePortrait で実現できるのは、キャラクター表現の精密な制御口角の上向きの反りや目の拡大度合いなどをオンにして選択できます。

例を挙げる息子, 以下の 2 つは、パラメータ設定の違いによるキャラクターの目の大きさの変化です。





この小説の「冷酷さ三部、嘲笑三部、無頓着四部」は達成不可能ではないようだ。 [ドージェ]

これを読んであなたが感動したかどうかはわかりませんが、とにかくネチズンの熱意が止まりません。

たとえば、ホラー映画のような顔を作るための照明トリックを追加します。



もう 1 つの例は、リアルタイムで二棘猿に変身することです。



これらの例を読んだ後、その背後にある技術原則を詳しく見てみましょう。

注目のオープンソース フレームワーク

現在主流の拡散モデルに基づく手法とは異なり、LivePortrait はさまざまな手法を探求し、拡張します。暗黙的なキーポイントに基づくフレームワーク潜在的。

具体的には、LivePortrait は画像内の明示的に表示されるマーカーや特徴点に依存せず、データセット内のパターンを学習することでキーポイントの位置を暗黙的に推測します。

これに基づいて、LivePortrait は2段階モデルを最初からトレーニングします。

まず最初のフェーズについて説明しましょう。LivePortrait は暗黙的なポイント (Face Vid2vid など) に基づいてフレームワークに一連の改善を加えました。



これらの改善には以下が含まれます高品質のデータ並べ替え、画像とビデオの混合トレーニング、アップグレードされたネットワーク アーキテクチャ、スケーラブルなモーション変換、ランドマークに基づく暗黙的なキーポイントの最適化、カスケード損失項の適用など。

これらにより、モデルの汎化能力、表現能力、質感品質をさらに向上させることができる。

第 2 段階について話しましょう。フィッティング モジュールとリダイレクト モジュールのトレーニングを通じて、モデルは顔の表情の詳細をより正確に処理できるようになります。



フィットモジュールクロスアイデンティティアクショントレーニングを通じて汎化を強化し、表情の変化を推定し、キーポイントを最適化します。

目と口のリダイレクトモジュール目と口の変形変化は個別に処理され、ピクセルの一貫性と正則化損失が独立した目的関数によって計算されるため、複雑な表現を処理する際のモデルの柔軟性と精度が向上します。

では、LivePortrait は具体的にどのように機能するのでしょうか?

研究によると、同一のアイデンティティによる比較結果, LivePortraitは既存の手法と比べて生成品質と駆動精度が向上しており、参照画像の質感やアイデンティティを維持したまま、駆動フレームの目や口の微妙な表情を捉えることができます。





そしてで相互アイデンティティによる比較結果また、生成品質は拡散モデルベースの手法である AniPortrait よりもわずかに劣りますが、パフォーマンスは良好です。ただし、後者と比較すると、LivePortrait は推論効率が非常に速く、必要な FLOP が少なくなります。





全体として、RTX 4090 GPU では、LivePortrait は次の速度を生成しました。1フレームあたり12.8ミリ秒、既存の拡散モデル手法よりも大幅に高い。

もう一つ

最新の公式通知を追加: Keling AI はまもなく世界的にサービスを開始します。

ソラはまだ来ていませんが、今回はKe Lingが先に出てきました〜