ニュース

Kuaishou オープンソース LivePortrait、GitHub 6.6K Star、表情と姿勢の極めて高速な移行を実現

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

ハート・オブ・ザ・マシンがリリースされました

マシーンハート編集部

最近、Kuaishou Keling の大規模モデル チームは、と呼ばれるプロジェクトをオープンソース化しました。ライブポートレートビデオを駆動する表情や姿勢を静的または動的なポートレート ビデオに正確かつリアルタイムに転送して、表現力の高いビデオ結果を生成できる、制御可能なポートレート ビデオ生成フレームワーク。次のアニメーションに示すように:



LivePortraitをテストしているネチズンから



LivePortraitをテストしているネチズンから

Kuaishou のオープンソース LivePortrait の対応する論文タ​​イトルは次のとおりです。

《 LivePortrait: スティッチングとリターゲティング制御による効率的なポートレートアニメーション 》



LivePortrait紙のホームページ

さらに、LivePortrait はリリース後すぐに利用でき、Kuaishou スタイルに準拠しており、論文、ホームページ、コードをワンクリックで接続できます。 LivePortrait がオープンソース化されると、クレマン・ドゥラング氏、HuggingFace CEOフォローしてリツイートして、最高戦略責任者トーマス・ウルフ私も実際にその機能を体験してきましたが、すごいですね!



そして世界中のネチズンの注目を集めた大規模評価



ビデオクリップ素材はすべて X からのものです

動画链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650926594&idx=3&sn=7d44eac3409c6c2d5587ef80d7575a69&chksm=84e42a7cb393a36a0da7b8d2 23f28c5ed51095e53a449ea8e341ddd5f71576595776c02109b6&token=1755385124&lang=zh_CN#rd

同時に、LivePotrait はオープンソース コミュニティから幅広い注目を集め、わずか 1 週間で合計で 800 を獲得しました。6.4K スター、550 フォーク、140 問題と PR、広く称賛され、注目は今も高まっています。



その他、HuggingFace Space、コードトレンドリスト付き論文1週間連続で1位を獲得、最近HuggingFaceの全テーマランキングでトップになりましたリストの最初に



ハグフェイススペースNo.1



コードリスト1を含む論文



ハグフェイス全テーマランキング1位

リソースの詳細については、以下を参照してください。

  • コードアドレス: https://github.com/KwaiVGI/LivePortrait
  • 論文リンク: https://arxiv.org/abs/2407.03168
  • プロジェクトホームページ:https://liveportrait.github.io/
  • HuggingFace Space のワンクリック オンライン エクスペリエンス: https://huggingface.co/spaces/KwaiVGI/LivePortrait

LivePortrait はどのようなテクノロジーを使用して、インターネット全体で急速に人気を博していますか?

手法の紹介

拡散モデルに基づく現在の主流の手法とは異なり、LivePortrait は暗黙的なキー ポイント ベースのフレームワークの可能性を探求および拡張し、それによってモデルの計算効率と制御性のバランスをとります。 LivePortrait は、一般化、制御性、実用的な効率の向上に重点を置いています。生成機能と制御性を向上させるために、LivePortrait は 6,900 万の高品質トレーニング フレーム、ビデオと画像のハイブリッド トレーニング戦略を使用し、ネットワーク構造をアップグレードし、より優れたアクション モデリングと最適化方法を設計しました。さらに、LivePortrait は、暗黙的なキー ポイントを顔のブレンド変形 (Blendshape) の効果的な暗黙的表現として捉え、これに基づいてステッチングおよびリターゲット モジュールを慎重に提案します。これら 2 つのモジュールは軽量の MLP ネットワークであるため、制御性を向上させながら、計算コストは​​無視できます。既存の拡散モデルベースの手法と比較しても、LivePortrait は依然として非常に効果的です。同時に、RTX4090 GPU では、LivePortrait の単一フレーム生成速度は 12.8 ミリ秒に達する可能性があり、TensorRT などをさらに最適化すると、10 ミリ秒未満に達すると予想されます。

LivePortrait のモデルのトレーニングは 2 つの段階に分かれています。第 1 段階は基本的なモデルのトレーニングであり、第 2 段階はフィッティングとリダイレクト モジュールのトレーニングです。

基本的なモデルトレーニングの第 1 段階



基本的なモデルトレーニングの第 1 段階

モデル トレーニングの最初の段階で、LivePortrait は、Face Vid2vid[1] などの暗黙的なポイントベースのフレームワークに次のような一連の改善を加えました。

高品質なトレーニングデータの収集 : LivePortrait は、公開ビデオ データセット Voxceleb[2]、MEAD[3]、RAVDESS[4]、および様式化された画像データセット AAHQ[5] を使用します。さらに、さまざまな表情や姿勢、200 時間以上の会話ポートレート ビデオ、プライベート データ セット LightStage [6]、およびいくつかの様式化されたビデオや写真を含む、大規模な 4K 解像度のポートレート ビデオが使用されます。 LivePortrait は長いビデオを 30 秒未満のセグメントに分割し、各セグメントに 1 人の人物だけが含まれるようにします。トレーニング データの品質を確保するために、LivePortrait は Kuaishou が独自に開発した KVQ [7] (Kuaishou が独自に開発したビデオ品質評価手法であり、トレーニング データの品質、コンテンツ、シーン、美しさ、エンコーディング、オーディオ、その他の特性を包括的に認識できます) を使用します。ビデオを多次元評価して)、低品質のビデオ クリップをフィルタリングします。トレーニング データの合計には、18.9K のアイデンティティと 60K の静的な様式化されたポートレートを含む 6,900 万本のビデオが含まれています。

動画と画像のハイブリッドトレーニング : 現実の人物のビデオのみを使用してトレーニングされたモデルは、現実の人物に対しては良好に機能しますが、様式化された人物 (アニメなど) にはうまく一般化できません。定型化されたポートレートビデオはさらにまれで、LivePortrait が収集しているのは 100 未満のアイデンティティから約 1.3K のビデオ クリップだけです。対照的に、LivePortrait は、高品質の定型化されたポートレート写真をより豊富に収集し、さまざまなアイデンティティ情報を提供します。両方のデータ タイプを活用するために、LivePortrait は各画像をビデオ クリップとして扱い、ビデオと画像の両方でモデルを同時にトレーニングします。このハイブリッド トレーニングにより、モデルの汎化能力が向上します。

ネットワーク構造のアップグレード : LivePortrait は、標準的な暗黙的キーポイント推定ネットワーク (L)、頭部姿勢推定ネットワーク (H)、および表情変形推定ネットワーク (Δ) を単一のモデル (M) に統合し、ConvNeXt-V2-Tiny[8] を次のように使用します。これは、入力画像の標準的な暗黙的なキーポイント、頭の姿勢、表情の変形を直接推定するように構造化されています。さらに、face vid2vid の関連作品に触発され、LivePortrait は SPADE [9] のより効果的なデコーダーをジェネレーター (G) として使用します。潜在特徴 (fs) は、変形後に SPADE デコーダーに細心の注意を払って入力されます。潜在特徴の各チャネルは、駆動イメージを生成するためのセマンティック マップとして機能します。効率を向上させるために、LivePortrait は (G) の最後のレイヤーとして PixelShuffle[10] レイヤーも挿入し、解像度を 256 から 512 に増やします。

より柔軟なアクション変換モデリング : 元の暗黙的なキー ポイントの計算およびモデリング方法ではスケーリング係数が無視されるため、スケーリングが式係数に容易に学習され、トレーニングがより困難になります。この問題を解決するために、LivePortrait ではモデリングにスケーリング係数が導入されています。 LivePortrait は、正規投影をスケーリングすると、学習可能な式係数が過度に柔軟になり、アイデンティティ間で駆動されるとテクスチャの付着が発生する可能性があることを発見しました。したがって、LivePortrait が採用した変換は、柔軟性と操作性の間の妥協点です。

キーポイントに基づく暗黙的なキーポイントの最適化 : 元の暗黙的なポイント フレームワークには、まばたきや目の動きなどの顔の表情を鮮やかに駆動する機能が欠けているようです。具体的には、運転結果におけるポートレートの眼球の向きと頭の向きが平行を保つ傾向があります。 LivePortrait は、これらの制限は、微妙な顔の表情を教師なしで学習することが難しいためであると考えています。この問題を解決するために、LivePortrait では、暗黙的なキーポイント最適化のガイドとしてキーポイント ガイド損失 (Lguide) を使用して、微表情をキャプチャする 2D キーポイントを導入しました。

カスケード損失関数 : LivePortrait は、顔 vid2vid の暗黙的なキーポイント不変損失 (LE)、キーポイント事前損失 (LL)、頭部ポーズ損失 (LH)、および変形事前損失 (LΔ) を使用します。テクスチャ品質をさらに向上させるために、LivePortrait は知覚損失と GAN 損失を使用します。これらは入力画像のグローバル ドメインだけでなく、顔と口のローカル ドメインにも適用され、カスケード知覚損失 (LP、カスケード) として記録されます。 ) とカスケード GAN (LG、カスケード)。顔と口の領域は、2D セマンティック キーポイントによって定義されます。 LivePortrait は、参照画像の同一性を維持するために顔の同一性の喪失 (Lfaceid) も使用します。

最初の段階のすべてのモジュールは最初からトレーニングされ、全体的なトレーニング最適化関数 (Lbase) は上記の損失項の加重和になります。

第 2 フェーズのフィットおよびリダイレクト モジュールのトレーニング

LivePortrait は暗黙的なキー ポイントを暗黙的なハイブリッド変形として扱い、この組み合わせは軽量 MLP を使用することでより適切に学習でき、計算コストは​​無視できることがわかります。実際のニーズを考慮して、LivePortrait はフィット モジュール、目のリダイレクト モジュール、口のリダイレクト モジュールを設計しました。参照ポートレートがトリミングされると、ドリブン ポートレートはトリミング スペースから元の画像スペースに貼り付けられ、肩領域などの貼り付けプロセス中のピクセルの位置ずれを回避するためにフィッティング モジュールが追加されます。その結果、LivePortrait は、より大きな画像サイズやグループ写真に対してアクション主導型になることができます。目のリターゲティング モジュールは、特に目の小さなポートレートが大きな目のポートレートを運転するときに、アイデンティティを超えて運転するときに不完全に目を閉じてしまう問題を解決するように設計されています。口リダイレクト モジュールの設計思想は、目のリダイレクト モジュールの設計思想と似ています。これは、運転を改善するために参照画像の口を閉じた状態に駆動することで入力を正規化します。



モデル トレーニングの第 2 段階: フィッティングおよびリダイレクト モジュールのトレーニング

フィットモジュール : トレーニング プロセス中、フィッティング モジュール (S) の入力は、参照画像の暗黙的キー ポイント (xs) と別の恒等駆動フレームの暗黙的キー ポイント (xd)、および駆動暗黙的キー ポイント (xd) です。 )を推定し、発現変化量(Δst)を算出する。最初の段階とは異なり、LivePortrait は、フィッティング モジュールの一般化を改善することを目的として、トレーニングの難易度を高めるために同一アイデンティティ アクションを置き換えるクロスアイデンティティ アクションを使用していることがわかります。次に、ドライバーの暗黙的キーポイント (xd) が更新され、対応するドライバー出力は (Ip,st) になります。 LivePortrait はこの段階で自己再構成画像 (Ip,recon) も出力します。最後に、フィッティング モジュールの損失関数 (Lst) は、2 つの肩領域のピクセル一貫性損失とフィッティング変動の正則化損失を計算します。

目と口のリダイレクトモジュール : 目の再配向モジュール (Reyes) の入力は、参照画像の暗黙的キーポイント (xs)、参照画像の目の開口条件タプル、およびランダムな駆動アイ開口係数であり、それによって駆動キーポイントの変形量の変化量 (Δeyes) を推定します。 )。開眼条件タプルは開眼率を表し、大きいほど開眼度合いが大きいことを示す。同様に、口リダイレクションモジュール(Rlip)の入力は、参照画像の暗黙的キーポイント(xs)、参照画像の口開き条件係数、およびランダムな駆動口開き係数であり、駆動キーポイントは以下から推定されます。この変化量(Δlip)。次に、目と口のそれぞれの対応する変形変化により駆動キーポイント(xd)が更新され、対応する駆動出力は(Ip、目)、(Ip、唇)となる。最後に、目と口のリターゲティング モジュールの目的関数はそれぞれ (Leeyes) と (Llip) で、目と口の領域のピクセル一貫性損失、目と口の変動の正則化損失、およびランダム損失を計算します。駆動出力の駆動係数と開度条件係数との損失。目と口の変化 (Δeyes) と (Δlip) は互いに独立しているため、推論フェーズ中にそれらを線形に追加および更新して、暗黙的なキーポイントを駆動することができます。

実験による比較





同じアイデンティティを原動力とする : 同じアイデンティティドライバーの上記の比較結果から、既存の非拡散モデル手法と拡散モデルベースの手法と比較して、LivePortrait は生成品質と駆動精度が優れており、画像の微妙なディテールをキャプチャできることがわかります。参照画像の質感とアイデンティティを維持しながら、駆動フレームの目と口を表現します。大きな頭の姿勢であっても、LivePortrait はより安定したパフォーマンスを発揮します。





クロスアイデンティティ主導型 : 上記のクロスアイデンティティドライバーの比較結果から、既存の手法と比較して、LivePortrait はドライバービデオ内の微妙な目と口の動きを正確に継承でき、姿勢が大きい場合でも比較的安定していることがわかります。 LivePortrait は、生成品質の点で拡散モデルベースの手法である AniPortrait [11] よりわずかに劣りますが、後者と比較すると、LivePortrait は推論効率が非常に速く、必要な FLOP が少なくなります。

拡大する

マルチプレイヤー主導型: LivePortraitのフィッティングモジュールのおかげで、グループ写真の場合、LivePortraitは指定されたドライバービデオを使用して指定された顔を駆動することができ、それによって複数人の写真駆動を実現し、LivePortraitの実用的な用途を広げます。



動画链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650926594&idx=3&sn=7d44eac3409c6c2d5587ef80d7575a69&chksm=84e42a7cb393a36a0da7b8d2 23f28c5ed51095e53a449ea8e341ddd5f71576595776c02109b6&token=1755385124&lang=zh_CN#rd

動物の追い込み: LivePortrait は、ポートレートを適切に一般化するだけでなく、動物のデータ セットを微調整した後、動物のポートレートを正確に駆動することもできます。

ポートレートビデオ編集 : ポートレート写真に加えて、ダンスビデオなどのポートレートビデオを指定すると、LivePortrait は運転ビデオを使用して頭部領域のモーション編集を実行できます。 LivePortrait は、フィッティング モジュールのおかげで、非頭部領域の画像に影響を与えることなく、表情や姿勢などの頭部領域の動きを正確に編集できます。



動画链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650926594&idx=3&sn=7d44eac3409c6c2d5587ef80d7575a69&chksm=84e42a7cb393a36a0da7b8d2 23f28c5ed51095e53a449ea8e341ddd5f71576595776c02109b6&token=1755385124&lang=zh_CN#rd

実施と展望

LivePortrait の関連技術ポイントは、以下を含む Kuaishou のビジネスの多くに導入されています。Kuaishou マジック ウォッチ、Kuaishou プライベート メッセージング、Kuaishou の AI 絵文字ゲームプレイ、Kuaishou ライブ ブロードキャスト、Kuaishou が若者向けに開発した Poji APPなど、ユーザーにとっての価値を創造し続けるための新たな実装方法を模索していきます。さらに、LivePortrait は、Keling 基本モデルに基づいたマルチモーダル駆動のポートレート ビデオ生成をさらに検討し、より高品質な効果を追求します。

参考文献

[1] Ting-Chun Wang、Arun Mallya、Ming-Yu Liu。ビデオ会議のためのワンショットフリービューニューラルトーキングヘッド合成。CVPR、2021年。

[2] Arsha Nagrani、Joon Son Chung、Andrew Zisserman。Voxceleb:大規模話者識別データセット。Interspeech、2017年。

[3] Kaisiyuan Wang、Qianyi Wu、Linsen Song、Zhuoqian Yang、Wayne Wu、Chen Qian、Ran He、Yu Qiao、Chen Change Loy。Mead:感情的な会話顔生成のための大規模なオーディオビジュアルデータセット。ECCV、2020年。

[4] スティーブン・R・リビングストンとフランク・A・ルッソ。ライアソンの感情的なスピーチと歌の視聴覚データベース(ラヴデス):北米英語の顔と声の表情のダイナミックでマルチモーダルなセット。PloS one、2018年

[5] 劉明宗、李強、秦則偉、張国信、萬鵬飛、文徴。 Blendgan: 任意の様式化された顔を生成するための暗黙的な gan ブレンディング。 NeurIPS、2021年。

[6] Haotian Yang、Mingwu Zheng、Wanquan Feng、Haibin Huang、Yu-Kun Lai、Pengfei Wang、Zhongyuan Wang、および Chongyang Ma 。 高忠実度の再点灯可能なアバターの実用的なキャプチャに向けて。 2023 年の SIGGRAPH アジアにて。

[7] Kai Zhao、Kun Yuan、Ming Sun、Mading Li、Xing Wen。ブラインド画像品質のための品質を考慮した事前学習モデル

評価。CVPR、2023年。

[8] サンヒョン・ウー、ショウビク・デブナス、ロンハン・フー、シンレイ・チェン、ヂュアン・リュー、イン・ソー・グウェン、サイニン・シエ。 コン-

vnext v2: マスクされたオートエンコーダーを使用した畳み込みネットワークの共同設計とスケーリング。CVPR、2023 年。

[9] Taesung Park、Ming-Yu Liu、Ting-Chun Wang、Jun-Yan Zhu。空間適応型正規化によるセマンティック画像合成。CVPR、2019年。

[10] Wenzhe Shi、Jose Caballero、Ferenc Husz ´ar、Johannes Totz、Andrew P Aitken、Rob Bishop、Daniel Rueckert、Zehan Wang。効率的なサブピクセル畳み込みニューラルネットワークを使用したリアルタイムの単一画像およびビデオ超解像度。CVPR、2016年。

[11] Huawei Wei、Zejun Yang、Zhisheng Wang。Aniportrait:オーディオ駆動によるフォトリアリスティックなポートレートアニメーションの合成。arXivプレプリント:2403.17694、2024。