Τα στοιχεία επικοινωνίας μου
Ταχυδρομείο[email protected]
2024-08-13
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Χρησιμοποιώντας μόνο προτρεπτικές λέξεις, το πολυτροπικό μεγάλο μοντέλο μπορεί να κατανοήσει καλύτερα τη σχέση μεταξύ των χαρακτήρων στη σκηνή.
Το Πανεπιστήμιο του Πεκίνου πρότεινε πρόσφατα τη μέθοδο Conditional Multi-Modal Prompt (CMMP), η οποία χρησιμοποιείΆμεση τεχνολογία λέξης μηχανικήςΔιδάξτε πολυτροπικά μεγάλα μοντέλα για να κατανοήσετε τις σχέσεις αλληλεπίδρασης χαρακτήρων σε περιφερειακό επίπεδο.
Σε αυτή τη διαδικασία, το πιο δύσκολο μέρος είναι να διδάξετε στο μοντέλο να αναγνωρίζειΑόρατοι τύποι αλληλεπίδρασης χαρακτήρων。
Ξέρετε, οι περισσότερες υπάρχουσες έρευνες επικεντρώνονται σε κλειστά περιβάλλοντα Μόλις γίνει ένα ανοιχτό περιβάλλον που είναι πιο κοντά στην πραγματικότητα, το μοντέλο θα μπερδευτεί!
Για παράδειγμα, στο παρακάτω σχήμα, οι προηγούμενοι ανιχνευτές αντιμετώπισαν δυσκολίες στην εξισορρόπηση των κατηγοριών που φαίνονται και μη,με αποτέλεσμα χαμηλότερο αρμονικό μέσο όρο, και έχουν χειρότερη απόδοση σε κατηγορίες που δεν εμφανίζονται.
Αντίθετα, η μέθοδος CMMP λύνει αποτελεσματικά αυτό το πρόβλημα εξισορρόπησης, βελτιώνει σημαντικά την απόδοση και καθιερώνει νέες επιδόσεις αιχμής για κατηγορίες που δεν εμφανίζονται.
Όσο για τον τρόπο με τον οποίο η μέθοδος CMMP επιλύει μη εμφανείς κατηγορίες,μια λέξη:
Οι οπτικο-χωρικές ενδείξεις χρησιμοποιούνται στη διαδικασία εξαγωγής χαρακτηριστικών για να βοηθήσουν στον εντοπισμό αόρατων εννοιών αλληλεπίδρασης ατόμου-αντικειμένου και στη βελτίωση της γενίκευσης σε μη ορατές κατηγορίες μέσω της εκμάθησης υπό όρους υπόδειξης.
Συνοπτικά, η μέθοδος CMMP παρέχει ένα νέο παράδειγμα για τη λεπτή ρύθμιση πολυτροπικών μεγάλων μοντέλων για την κατασκευή τουςγενικευμένηΔυνατότητες ανίχνευσης σχέσεων αλληλεπίδρασης χαρακτήρων σε περιφερειακό επίπεδο.
Η παραπάνω έρευνα προέρχεται από το Wangxuan Institute of Computer Technology του Πανεπιστημίου του Πεκίνου και οι σχετικές εργασίες έχουν γίνει αποδεκτές από το κορυφαίο συνέδριο ECCV 2024.
Ένα νέο πλαίσιο για την ανίχνευση ανθρώπινης αλληλεπίδρασης μηδενικού δείγματος
Η ομάδα πρότεινε ένα νέο πλαίσιο για ανίχνευση μηδενικού δείγματος HOI (Αλληλεπίδραση ανθρώπου-αντικειμένου) χρησιμοποιώντας CMMP.
Συγκεκριμένα, το CMMP θα ανιχνεύσει ανθρώπινη αλληλεπίδραση μηδενικού δείγματοςΧωρίζεται σε δύο υποεργασίες:
Στη συνέχεια για κάθε δευτερεύουσα εργασίαπροτείνεται χωριστάΑποσυνδεδεμένες οπτικές και κειμενικές ενδείξεις για την εξάλειψη των εξαρτήσεων μεταξύ τους και τον μετριασμό της διάδοσης σφαλμάτων.
Οι υπό όρους οπτικές ενδείξεις (Pv) χρησιμοποιούνται για την εισαγωγή γνώσης της αντίληψης του χώρου και της διαδραστικότητας στον κωδικοποιητή εικόνας, που περιορίζεται από οπτικές προτεραιότητες σε επίπεδο παρουσίας (Cins) και καθολικά χωρικά μοτίβα αλληλεπιδράσεων (Cgsp). Τα συνθήματα γλώσσας υπό όρους (PL) περιορίζονται από συνθήματα σχεδιασμένα από τον άνθρωπο (CL) μέσω απώλειας τακτοποίησης.
Εξαγωγή οπτικών χαρακτηριστικών για την αντίληψη της διαδραστικότητας
Ο κωδικοποιητής εικόνας του πολυτροπικού μοντέλου που υιοθετήθηκε από την ομάδα αρχικά εκπαιδεύτηκε με προεκπαίδευση αντίθεσης μάθησης (CLIP) σε ζεύγη εικόνας-κειμένου μεγάλης κλίμακας και η ικανότητά του μπορεί να περιορίζεται στην κατανόηση της σημασιολογίας πρώτης τάξης σε επίπεδο εικόνας.
Προκειμένου να μπορέσει ο κωδικοποιητής εικόνας να διακρίνει όλη την ανθρώπινη αλληλεπίδραση στην εικόνα, η ομάδα πρότεινε την ενσωμάτωση της προηγούμενης γνώσης διαφορετικών λεπτομερειών σε υπό όρους οπτικές ενδείξεις για την κατανόηση τους προσαρμοσμένες για την εργασία ανίχνευσης σχέσεων ανθρώπινης αλληλεπίδρασης.Περιφερειακή σημασιολογία δεύτερης τάξης。
Συγκεκριμένα, ερευνητέςΧρησιμοποιήστε πληροφορίες σε επίπεδο παράδειγμα ως προηγούμενη γνώσηΕνσωματώστε οπτικές ενδείξεις υπό όρους.
Δεδομένης μιας εικόνας εισόδου, ένας προεκπαιδευμένος ανιχνευτής αντικειμένων χρησιμοποιείται πρώτα για τη λήψη όλων των προηγούμενων γνώσεων σε επίπεδο στιγμιότυπου, συμπεριλαμβανομένων των πλαισίων οριοθέτησης, των βαθμολογιών εμπιστοσύνης και των σημασιολογικών κωδικοποιήσεων των ανιχνευόμενων περιπτώσεων.
Επιπλέον, για να ενθαρρύνει κάθε περίπτωση να γνωρίζει τα πιθανά αλληλεπιδρώντα αντικείμενά της, η ομάδα συνδύασε το παγκόσμιο χωρικό μοτίβο αλληλεπιδράσεων στο σετ εκπαίδευσης με οπτικό προηγούμενο σε επίπεδο παρουσίας.
Συγκεκριμένα, για κάθε σχολιασμένο ζευγάρι αλληλεπιδρώντων ατόμων, οι ερευνητέςΠρώτα να υπολογίσετε τα μονομεταβλητά και δυαδικά χωρικά χαρακτηριστικά του.
Στη συνέχεια, ο αλγόριθμος ομαδοποίησης K-means χρησιμοποιείται για τον προσδιορισμό των κέντρων συστάδων και τη χρήση τους ως αντιπροσωπευτικά χωρικά μοτίβα αλληλεπιδρώντων ζευγών χαρακτήρων.
Το παγκόσμιο μοτίβο χωρικής αλληλεπίδρασης παρέχει μια αναπαραστατική χωρική διαμόρφωση ανεξάρτητη από την κατηγορία ως γέφυρα για την κατανόηση της αλληλεπίδρασης μεταξύ των εννοιών αλληλεπίδρασης ορατών και αόρατων χαρακτήρων.
Τέλος, οι ερευνητές ενσωμάτωσαν τη συνδυασμένη γνώση σε έναν κωδικοποιητή εικόνας μέσω ενός ελαφρού προσαρμογέα.
Γενικεύσιμη ταξινόμηση αλληλεπίδρασης
Προκειμένου να διατηρηθεί η γενική γενική γνώση του CLIP κατά την εκμάθηση αναπαραστάσεων για συγκεκριμένες εργασίες για τον εντοπισμό ανθρώπινης αλληλεπίδρασης, η ομάδα υιοθέτησεΓλωσσική γνώση Άμεση εκμάθηση με περιορισμούς συνέπειας。
Αυτός ο περιορισμός διασφαλίζει ότι τα μαθημένα πρωτότυπα των ορατών και των μη ορατών κατηγοριών διατηρούν εύλογα όρια διαχωρισμού και δεν αποκλίνουν υπερβολικά το ένα από το άλλο.
Συγκεκριμένα για κάθε κατηγορία δράσης οι ερευνητέςΠρώτη χρήσηΜη αυτόματα σχεδιασμένες προτροπές να το μορφοποιήσουν. Αξιοποιήστε λέξεις περιβάλλοντος που μπορούν να μάθουν για να χρησιμεύσουν ως γέφυρες μεταξύ της σημασιολογίας των ορατών και των μη ορατών κατηγοριών.
Η τελική αναπαράσταση της κατηγορίας επιτυγχάνεται με τη σύνδεση των μαθησίων λέξεων περιβάλλοντος με τα διανύσματα λέξεων των παραπάνω προτάσεων και στη συνέχεια περνώντας τα από έναν κωδικοποιητή κειμένου.
Προκειμένου να αξιοποιηθεί περαιτέρω ο χώρος χαρακτηριστικών που μαθαίνει ο ίδιος ο κωδικοποιητής κειμένου πολλαπλών τρόπων μοντέλου και να βελτιωθεί η ικανότητα γενίκευσης σε μη ορατές κατηγορίες, οι ερευνητές πρότεινανΣυμβουλές για τη χρήση του ανθρώπινου σχεδιασμούγια να καθοδηγήσει τον χώρο χαρακτηριστικών των μαθησίων γλωσσικών ενδείξεων.
Αυτός ο περιορισμός διασφαλίζει ότι τα πρωτότυπα των κατηγοριών ορατών και αόρατων διατηρούν εύλογα όρια διαχωρισμού και δεν αποκλίνουν πολύ το ένα από το άλλο.
Εφαρμογή ομάδαςΤακτοποίηση έναντι απώλειας μάθησηςνα μειώσει τη διαφορά μεταξύ των αναπαραστάσεων χαρακτηριστικών και των αναπαραστάσεων χαρακτηριστικών τεχνητά σχεδιασμένων γλωσσικών ενδείξεων.
Εκπαίδευση CMMP
Με βάση τον χάρτη χαρακτηριστικών με επίγνωση της αλληλεπίδρασης και τα οριοθετημένα κουτιά ατόμων και αντικειμένων που εξήχθησαν από τον προεκπαιδευμένο ανιχνευτή αντικειμένων, η ομάδα εφάρμοσε αρχικά το ROI-Pooling για να εξαγάγει χαρακτηριστικά σε διαφορετικές περιοχές.
Στη συνέχεια, τα χαρακτηριστικά που εξάγονται από διαφορετικές περιοχές συγχωνεύονται και η τελική πρόβλεψη κλάσης αλληλεπίδρασης γίνεται μέσω ενός ταξινομητή αλληλεπίδρασης.
Ολόκληρο το μοντέλο χρησιμοποιεί εστιακή απώλεια στη διαδραστική εκπαίδευση ταξινόμησης και επίσης εφαρμόζει απώλεια γλωσσικής τακτοποίησης.
Πειραματικά αποτελέσματα
Κατά τη φάση επαλήθευσης των αποτελεσμάτων, η ομάδα χρησιμοποίησεHICO-DET, ένα σύνολο δεδομένων που χρησιμοποιείται συνήθως για τον εντοπισμό ανθρώπινης αλληλεπίδρασης, οι κατηγορίες αλληλεπίδρασης 600 χαρακτήρων αποτελούνται από 80 κατηγορίες αντικειμένων και 117 κατηγορίες ρημάτων.
Για να επαληθεύσουν την απόδοση μηδενικού δείγματος του μοντέλου, οι ερευνητές αξιολόγησαν στο HICO-DETΠέντε ρυθμίσεις μηδενικού δείγματος。
Προκειμένου να επιτύχουμε μια δίκαιη σύγκριση με τις υπάρχουσες μεθόδους, μελετάμεΤο ViT-B/16 χρησιμοποιείται από προεπιλογήως δίκτυο κορμού.
Όπως φαίνεται στον παρακάτω πίνακα, τα πειραματικά αποτελέσματα δείχνουν ότι το CMMP αποδίδει καλά σε όλες τις ρυθμίσεις μηδενικού δείγματος.Όλοι πέτυχαν την καλύτερη απόδοση σε αόρατες κατηγορίες, το οποίο αποδεικνύει την αποτελεσματικότητα της εισαγωγής πολλαπλών συνθηκών υπό όρους.
Όπως φαίνεται στον πίνακα για κάθε τύποΗ τελευταία γραμμή δείχνει, αξιοποιώντας τον κορμό ViT-L/14 για να επεκτείνει το CMMP ώστε να ταιριάζει με τα FLOP του CLIP4HOI, η νέα μέθοδος επιτυγχάνει την καλύτερη απόδοση σε όλα τα διαμερίσματα.
Αυτό καταδεικνύει ότι το μοντέλο της ομάδας έχει εξαιρετικές δυνατότητες στην εξαγωγή χωρικών σχέσεων οπτικών χαρακτηριστικών και την πρωτότυπη μάθηση για διαδραστική ταξινόμηση.
Επιπλέον, οι προηγούμενες μέθοδοι δείχνουν σοβαρές διαφορές απόδοσης μεταξύ των ορατών και των μη ορατών κατηγοριών, υποδεικνύοντας την έλλειψη ικανότητας γενίκευσης.
Το μοντέλο αυτής της μελέτης μπορεί να μετριάσει σε μεγάλο βαθμό αυτό το πρόβλημα καιγενικεύωΤο υψηλό δυναμικό για την επίτευξη προηγουμένως απαρατήρητων κατηγοριών αλληλεπίδρασης επιβεβαιώνει την αποτελεσματικότητα των πολυτροπικών ενδείξεων με περιορισμούς.
Ανατρέξτε στο πρωτότυπο έγγραφο για περισσότερες λεπτομέρειες.