berita

Meta merilis model visual Sapiens, memungkinkan AI menganalisis dan memahami tindakan manusia dalam gambar dan video

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

IT House melaporkan pada 24 Agustus bahwa Meta Reality Lab baru-baru ini meluncurkan model visi AI yang disebut Sapiens, yang cocok untuk empat metode dasar yang berpusat pada manusia: estimasi pose dua dimensi, segmentasi bagian tubuh, estimasi kedalaman, dan prediksi normal permukaan.

Model-model ini bervariasi dalam jumlah parameter, mulai dari 300 juta hingga 2 miliar. Mereka menggunakan arsitektur transformator visual di mana tugas-tugas berbagi encoder yang sama sementara setiap tugas memiliki kepala decoder yang berbeda.

Estimasi pose 2D:Tugas ini melibatkan pendeteksian dan lokasi titik-titik penting tubuh manusia dalam gambar 2D. Poin-poin penting ini biasanya berhubungan dengan persendian seperti siku, lutut, dan bahu, dan berguna dalam memahami postur dan gerakan manusia.

Segmentasi bagian tubuh:Tugas ini mengelompokkan gambar ke dalam bagian tubuh yang berbeda seperti kepala, badan, lengan, dan kaki. Setiap piksel dalam gambar diklasifikasikan berdasarkan bagian tubuh tertentu, yang berguna untuk aplikasi seperti uji coba virtual dan pencitraan medis.

Perkiraan kedalaman:Tugasnya adalah memperkirakan jarak setiap piksel pada gambar dari kamera, sehingga secara efektif menghasilkan gambar tiga dimensi dari gambar dua dimensi. Hal ini penting untuk aplikasi seperti augmented reality dan kendaraan otonom, yang mengutamakan pemahaman tata ruang.

Prediksi normal permukaan:Tugasnya adalah memprediksi orientasi permukaan pada suatu gambar. Setiap piksel diberi vektor normal, yang mewakili arah hadap permukaan. Informasi ini berharga untuk rekonstruksi 3D dan memahami geometri objek dalam pemandangan.

Meta mengatakan model tersebut secara asli dapat mendukung inferensi resolusi tinggi 1K dan sangat mudah disesuaikan untuk tugas individu dengan melakukan pra-pelatihan model pada lebih dari 300 juta gambar manusia liar.

Meskipun data berlabel langka atau seluruhnya sintetis, model yang dihasilkan dapat menunjukkan kemampuan generalisasi yang sangat baik terhadap data liar.