apple の depth pro ai モデルが ar に革命を起こす: ゼロサンプル学習で、1 枚の 2d 画像を 0.3 秒で高解像度の 3d に変換

apple の depth pro ai モデルは ar に革命を起こします。ゼロサンプル学習により、1 枚の 2d 画像を 0.3 秒で高解像度の 3d に変換します。

2024-10-05

it houseは10月5日、テクノロジーメディアのベンチャービートが昨日（10月4日）ブログ投稿を公開し、appleのai研究チームが従来のカメラデータ予測を必要とせず、望ましい結果を達成できるdepth proと呼ばれる新しいaiモデルをリリースしたと報告したと報じた。数分で、1 つの 2d 画像から詳細な 3d 深度マップを 1 秒で生成します。

この論文のタイトルは「depth pro: sharp monocular metric depth in less than a second」で、単眼の深度推定 (monocular depth estimation) の分野における大きな進歩であり、プロセス全体で 1 つの画像のみを使用して深度情報を推測します。

apple の depth pro、marigold、depth anything v2、および metric3d v2 の深度マップを比較します。 depth pro は髪の毛や鳥かごのワイヤーなどの細部のキャプチャに優れ、わずか 0.3 秒で鮮明な高解像度の深度マップを生成し、精度と詳細の点で他のモデルを上回ります。

論文によると、aleksei bochkovskii 氏と vladlen koltun 氏のチームが主導するこのモデルは、depth pro がこのタイプの総合生成システムの中で最も高速かつ最も正確なものの 1 つであると主張しています。

depth pro は、従来の gpu で高解像度の深度マップを 0.3 秒で生成でき、合計 225 万ピクセルで非常に鮮明な画像を作成し、他の方法では見逃しがちな髪や植物などの細部をキャプチャします。

depth pro を本当に際立たせているのは、相対深度と絶対深度の両方を推定する機能、つまり「メトリック深度」として知られる機能です。

depth pro では、正確な予測を行うためにドメイン固有のデータセットに対する広範なトレーニングを必要としません。この機能は「ゼロショット学習」と呼ばれ、モデルが実際の測定データを提供できることを意味し、拡張現実 (ar) に非常に役立ちます。 . アプリケーションは重要です。

depth pro は現在、github プラットフォーム上でオープンソースになっており、開発者はロボット工学、製造、ヘルスケアなどの分野で depth pro の可能性をさらに探求することが奨励されています。

ニュース

apple の depth pro ai モデルは ar に革命を起こします。ゼロサンプル学習により、1 枚の 2d 画像を 0.3 秒で高解像度の 3d に変換します。

導入

私の連絡先情報