νέα

Η Meta κυκλοφορεί το οπτικό μοντέλο Sapiens, επιτρέποντας στην τεχνητή νοημοσύνη να αναλύει και να κατανοεί τις ανθρώπινες ενέργειες σε φωτογραφίες και βίντεο

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Το IT House ανέφερε στις 24 Αυγούστου ότι το Meta Reality Lab κυκλοφόρησε πρόσφατα ένα μοντέλο όρασης AI που ονομάζεται Sapiens, το οποίο είναι κατάλληλο για τέσσερις βασικές μεθόδους με επίκεντρο τον άνθρωπο: εκτίμηση πόζας δύο διαστάσεων, τμηματοποίηση τμημάτων του σώματος, εκτίμηση βάθους και κανονικές επιφανειακές εργασίες.

Αυτά τα μοντέλα ποικίλλουν ως προς τον αριθμό των παραμέτρων, που κυμαίνονται από 300 εκατομμύρια έως 2 δισεκατομμύρια. Χρησιμοποιούν μια αρχιτεκτονική οπτικού μετασχηματιστή όπου οι εργασίες μοιράζονται τον ίδιο κωδικοποιητή ενώ κάθε εργασία έχει διαφορετική κεφαλή αποκωδικοποιητή.

Δισδιάστατη εκτίμηση πόζας:Αυτή η εργασία περιλαμβάνει τον εντοπισμό και τον εντοπισμό βασικών σημείων του ανθρώπινου σώματος σε εικόνες 2D. Αυτά τα βασικά σημεία αντιστοιχούν συνήθως σε αρθρώσεις όπως οι αγκώνες, τα γόνατα και οι ώμοι και βοηθούν στην κατανόηση της ανθρώπινης στάσης και κίνησης.

Τμηματοποίηση τμημάτων του σώματος:Αυτή η εργασία τμηματοποιεί τις εικόνες σε διαφορετικά μέρη του σώματος, όπως κεφάλι, κορμός, χέρια και πόδια. Κάθε pixel στην εικόνα ταξινομείται ότι ανήκει σε ένα συγκεκριμένο μέρος του σώματος, το οποίο είναι χρήσιμο για εφαρμογές όπως εικονικές δοκιμές και ιατρική απεικόνιση.

Εκτίμηση βάθους:Ο στόχος είναι να εκτιμηθεί η απόσταση κάθε pixel στην εικόνα από την κάμερα, δημιουργώντας αποτελεσματικά μια τρισδιάστατη εικόνα από μια δισδιάστατη εικόνα. Αυτό είναι κρίσιμο για εφαρμογές όπως η επαυξημένη πραγματικότητα και η αυτόνομη οδήγηση, όπου η κατανόηση της χωρικής διάταξης είναι σημαντική.

Επιφανειακή κανονική πρόβλεψη:Το καθήκον είναι να προβλέψουμε τον προσανατολισμό των επιφανειών σε μια εικόνα. Σε κάθε pixel εκχωρείται ένα κανονικό διάνυσμα, το οποίο αντιπροσωπεύει την κατεύθυνση που βλέπει η επιφάνεια. Αυτές οι πληροφορίες είναι πολύτιμες για την τρισδιάστατη ανακατασκευή και την κατανόηση της γεωμετρίας των αντικειμένων στη σκηνή.

Η Meta λέει ότι το μοντέλο μπορεί να υποστηρίξει εγγενώς συμπέρασμα υψηλής ανάλυσης 1K και είναι πολύ εύκολο να προσαρμοστεί για μεμονωμένες εργασίες εκπαιδεύοντας το μοντέλο σε περισσότερες από 300 εκατομμύρια άγριες ανθρώπινες εικόνες.

Ακόμη και όταν τα δεδομένα με ετικέτα είναι σπάνια ή εξ ολοκλήρου συνθετικά, τα παραγόμενα μοντέλα μπορούν να επιδείξουν εξαιρετικές δυνατότητες γενίκευσης σε άγρια ​​δεδομένα.