Meta がサピエンスのビジュアルモデルをリリース、AI が写真やビデオで人間の行動を分析および理解できるようにする

2024-08-24

IT House は 8 月 24 日、Meta Reality Lab が Sapiens と呼ばれる AI ビジョンモデルを最近発表したと報告しました。これは、2 次元の姿勢推定、身体部分のセグメンテーション、深度推定、表面法線予測という 4 つの基本的な人間中心の手法に適しています。

モデルのパラメータ数は 3 億から 20 億まで異なります。これらは、タスクが同じエンコーダーを共有し、各タスクが異なるデコーダーヘッドを持つビジュアルトランスフォーマーアーキテクチャを採用しています。

2D 姿勢推定:このタスクには、2D 画像内で人体のキーポイントを検出して位置を特定することが含まれます。これらのキーポイントは通常、肘、膝、肩などの関節に対応しており、人間の姿勢や動きを理解するのに役立ちます。

身体部分のセグメンテーション:このタスクでは、画像を頭、胴体、腕、脚などのさまざまな体の部分に分割します。画像内の各ピクセルは特定の身体部分に属するものとして分類されるため、仮想試着や医療画像処理などのアプリケーションに役立ちます。

深さの推定値:このタスクは、カメラから画像内の各ピクセルの距離を推定し、2 次元画像から 3 次元画像を効果的に生成することです。これは、空間レイアウトを理解することが重要である拡張現実や自動運転などのアプリケーションにとって非常に重要です。

表面法線予測:タスクは、画像内の表面の方向を予測することです。各ピクセルには、表面が向いている方向を表す法線ベクトルが割り当てられます。この情報は、3D 再構築とシーン内のオブジェクトのジオメトリの理解に役立ちます。

メタ氏によると、このモデルは 1K の高解像度推論をネイティブにサポートでき、3 億枚を超える野生の人間の画像でモデルを事前トレーニングすることで、個々のタスクに合わせて調整するのが非常に簡単です。

ラベル付きデータが不足している場合や完全に合成されている場合でも、生成されたモデルは野生データに対する優れた一般化機能を実証できます。

ニュース