Meta julkaisee Sapiensin visuaalisen mallin, jonka avulla tekoäly voi analysoida ja ymmärtää ihmisten toimia kuvissa ja videoissa

Meta julkaisee Sapiensin visuaalisen mallin, jonka avulla tekoäly voi analysoida ja ymmärtää ihmisten toimintaa kuvissa ja videoissa

2024-08-24

IT House raportoi 24. elokuuta, että Meta Reality Lab julkaisi äskettäin Sapiens-nimisen tekoälymallin, joka sopii neljään ihmiskeskeiseen perusmenetelmään: kaksiulotteiseen asennon estimointiin, kehon osien segmentointiin, syvyyden arviointiin ja pinnan normaalin ennustukseen.

Parametrien määrä näissä malleissa vaihtelee 300 miljoonasta 2 miljardiin. Ne käyttävät visuaalista muuntajaarkkitehtuuria, jossa tehtävät jakavat saman kooderin, kun taas jokaisella tehtävällä on eri dekooderipää.

2D-asennon arvio:Tämä tehtävä sisältää ihmiskehon avainpisteiden havaitsemisen ja paikantamisen 2D-kuvissa. Nämä avainkohdat vastaavat tyypillisesti niveliä, kuten kyynärpäitä, polvia ja hartioita, ja auttavat ymmärtämään ihmisen asentoa ja liikettä.

Kehonosien segmentointi:Tämä tehtävä segmentoi kuvat eri kehon osiin, kuten päähän, vartaloon, käsivarsiin ja jalkoihin. Jokainen kuvan pikseli luokitellaan kuuluvaksi tiettyyn kehon osaan, mikä on hyödyllistä sovelluksissa, kuten virtuaalisissa kokeiluissa ja lääketieteellisessä kuvantamisessa.

Syvyysarvio:Tehtävänä on arvioida kuvan kunkin pikselin etäisyys kamerasta ja luoda tehokkaasti kolmiulotteinen kuva kaksiulotteisesta kuvasta. Tämä on kriittistä sovelluksissa, kuten lisätty todellisuus ja autonominen ajaminen, joissa tilan asettelun ymmärtäminen on tärkeää.

Pintanormaali ennuste:Tehtävänä on ennustaa pintojen orientaatio kuvassa. Jokaiselle pikselille on määritetty normaali vektori, joka edustaa suuntaa, johon pinta on päin. Nämä tiedot ovat arvokkaita 3D-rekonstruoinnissa ja näkymän kohteiden geometrian ymmärtämisessä.

Metan mukaan malli tukee natiivisti 1K-korkearesoluutioisia päätelmiä ja on erittäin helppo säätää yksittäisiin tehtäviin, kun mallia esiopetetaan yli 300 miljoonalla villiihmiskuvalla.

Vaikka leimattua dataa on vähän tai se on täysin synteettistä, luodut mallit voivat osoittaa erinomaiset yleistysominaisuudet villitietoon.

uutiset

Meta julkaisee Sapiensin visuaalisen mallin, jonka avulla tekoäly voi analysoida ja ymmärtää ihmisten toimintaa kuvissa ja videoissa

Johdanto

Yhteystietoni