notizia

Meta rilascia il modello visivo di Sapiens, consentendo all'intelligenza artificiale di analizzare e comprendere le azioni umane in immagini e video

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

IT House ha riferito il 24 agosto che Meta Reality Lab ha recentemente lanciato un modello di visione AI chiamato Sapiens, adatto a quattro metodi di base incentrati sull'uomo: stima della posa bidimensionale, segmentazione delle parti del corpo, stima della profondità e previsione della normale superficie.

Questi modelli variano nel numero di parametri, che vanno da 300 milioni a 2 miliardi. Impiegano un'architettura di trasformatore visivo in cui le attività condividono lo stesso codificatore mentre ciascuna attività ha una testa di decodificazione diversa.

Stima della posa 2D:Questo compito prevede il rilevamento e la localizzazione dei punti chiave del corpo umano nelle immagini 2D. Questi punti chiave corrispondono tipicamente ad articolazioni come gomiti, ginocchia e spalle e sono utili per comprendere la postura e il movimento umano.

Segmentazione delle parti del corpo:Questa attività segmenta le immagini in diverse parti del corpo come testa, busto, braccia e gambe. Ogni pixel nell'immagine è classificato come appartenente a una parte del corpo specifica, il che è utile per applicazioni come prove virtuali e imaging medico.

Stima della profondità:Il compito è stimare la distanza di ciascun pixel nell'immagine dalla fotocamera, generando di fatto un'immagine tridimensionale da un'immagine bidimensionale. Ciò è fondamentale per applicazioni come la realtà aumentata e la guida autonoma, dove è importante comprendere la disposizione spaziale.

Previsione normale della superficie:Il compito è prevedere l'orientamento delle superfici in un'immagine. A ogni pixel viene assegnato un vettore normale, che rappresenta la direzione verso cui è rivolta la superficie. Queste informazioni sono preziose per la ricostruzione 3D e la comprensione della geometria degli oggetti nella scena.

Meta afferma che il modello può supportare nativamente l'inferenza ad alta risoluzione da 1K ed è molto facile da adattare alle singole attività pre-addestrando il modello su oltre 300 milioni di immagini umane selvagge.

Anche quando i dati etichettati sono scarsi o interamente sintetici, i modelli generati possono dimostrare eccellenti capacità di generalizzazione rispetto ai dati selvaggi.