Le mie informazioni di contatto
Posta[email protected]
2024-08-24
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
IT House ha riferito il 24 agosto che Meta Reality Lab ha recentemente lanciato un modello di visione AI chiamato Sapiens, adatto a quattro metodi di base incentrati sull'uomo: stima della posa bidimensionale, segmentazione delle parti del corpo, stima della profondità e previsione della normale superficie.
Questi modelli variano nel numero di parametri, che vanno da 300 milioni a 2 miliardi. Impiegano un'architettura di trasformatore visivo in cui le attività condividono lo stesso codificatore mentre ciascuna attività ha una testa di decodificazione diversa.
Stima della posa 2D:Questo compito prevede il rilevamento e la localizzazione dei punti chiave del corpo umano nelle immagini 2D. Questi punti chiave corrispondono tipicamente ad articolazioni come gomiti, ginocchia e spalle e sono utili per comprendere la postura e il movimento umano.
Segmentazione delle parti del corpo:Questa attività segmenta le immagini in diverse parti del corpo come testa, busto, braccia e gambe. Ogni pixel nell'immagine è classificato come appartenente a una parte del corpo specifica, il che è utile per applicazioni come prove virtuali e imaging medico.
Stima della profondità:Il compito è stimare la distanza di ciascun pixel nell'immagine dalla fotocamera, generando di fatto un'immagine tridimensionale da un'immagine bidimensionale. Ciò è fondamentale per applicazioni come la realtà aumentata e la guida autonoma, dove è importante comprendere la disposizione spaziale.
Previsione normale della superficie:Il compito è prevedere l'orientamento delle superfici in un'immagine. A ogni pixel viene assegnato un vettore normale, che rappresenta la direzione verso cui è rivolta la superficie. Queste informazioni sono preziose per la ricostruzione 3D e la comprensione della geometria degli oggetti nella scena.
Meta afferma che il modello può supportare nativamente l'inferenza ad alta risoluzione da 1K ed è molto facile da adattare alle singole attività pre-addestrando il modello su oltre 300 milioni di immagini umane selvagge.
Anche quando i dati etichettati sono scarsi o interamente sintetici, i modelli generati possono dimostrare eccellenti capacità di generalizzazione rispetto ai dati selvaggi.