Η ομάδα του Πανεπιστημίου Zhejiang Li Xi: Μια νέα μέθοδος αναφοράς στην κατανόηση της έκφρασης, το ScanFormer εξαλείφει τον πλεονασμό από χονδροειδή έως fine

Η ομάδα του Πανεπιστημίου Zhejiang Li Xi: Μια νέα μέθοδος αναφοράς στην κατανόηση της έκφρασης, το ScanFormer εξαλείφει τον πλεονασμό από το χονδροειδές στο λεπτό

2024-08-20

Η στήλη AIxiv είναι μια στήλη όπου το Machine Heart δημοσιεύει ακαδημαϊκό και τεχνικό περιεχόμενο. Τα τελευταία χρόνια, η στήλη Heart of the Machine AIxiv έχει λάβει περισσότερες από 2.000 αναφορές, που καλύπτουν κορυφαία εργαστήρια από μεγάλα πανεπιστήμια και εταιρείες σε όλο τον κόσμο, προωθώντας αποτελεσματικά τις ακαδημαϊκές ανταλλαγές και τη διάδοση. Εάν έχετε εξαιρετική δουλειά που θέλετε να μοιραστείτε, μη διστάσετε να συνεισφέρετε ή να επικοινωνήσετε μαζί μας για αναφορά. Email υποβολής: [email protected], [email protected]

Οι συγγραφείς αυτής της εργασίας είναι όλοι από την ομάδα του καθηγητή Li Xi του Πανεπιστημίου Zhejiang. Ο πρώτος συγγραφέας της εργασίας είναι ο διδακτορικός φοιτητής Su Wei και ο αντίστοιχος συγγραφέας είναι ο καθηγητής Li Xi (IET Fellow, National Distinguished Young Scholar). Τα τελευταία χρόνια, η ομάδα του καθηγητή Li Xi έχει δημοσιεύσει περισσότερες από 180 ερευνητικές εργασίες που σχετίζονται με το CV/AIGC σε έγκυρα διεθνή περιοδικά (όπως TPAMI, IJCV, κ.λπ.) και κορυφαία διεθνή ακαδημαϊκά συνέδρια (ICCV, CVPR, ECCV, κ.λπ.), και έχει συνεργαστεί με γνωστά πανεπιστήμια και επιστημονικά ερευνητικά ιδρύματα του εσωτερικού και του εξωτερικού συνεργάζονται εκτενώς.

Ως βασική εργασία οπτικής γλώσσας, η κατανόηση έκφρασης παραπομπής (REC) εντοπίζει τον αναφερόμενο στόχο στην εικόνα με βάση την περιγραφή φυσικής γλώσσας. Το μοντέλο REC αποτελείται συνήθως από τρία μέρη: οπτικός κωδικοποιητής, κωδικοποιητής κειμένου και διατροπική αλληλεπίδραση, τα οποία χρησιμοποιούνται για την εξαγωγή οπτικών χαρακτηριστικών, χαρακτηριστικών κειμένου και αλληλεπίδρασης και βελτίωσης χαρακτηριστικών πολλαπλών τρόπων, αντίστοιχα.

Οι περισσότερες τρέχουσες έρευνες επικεντρώνονται στον σχεδιασμό αποτελεσματικών μονάδων διατροπικής αλληλεπίδρασης για τη βελτίωση της ακρίβειας των εργασιών και υπάρχει έλλειψη εξερεύνησης οπτικών κωδικοποιητών. Μια κοινή προσέγγιση είναι η χρήση συσκευών εξαγωγής χαρακτηριστικών προεκπαιδευμένων σε εργασίες ταξινόμησης και ανίχνευσης, όπως ResNet, DarkNet, Swin Transformer ή ViT, κ.λπ. Αυτά τα μοντέλα διασχίζουν όλες τις χωρικές τοποθεσίες της εικόνας για να εξαγάγουν χαρακτηριστικά με συρόμενο παράθυρο ή διαιρεμένη ενημερωμένη έκδοση κώδικα Η υπολογιστική τους πολυπλοκότητα θα αυξηθεί γρήγορα με την ανάλυση της εικόνας, η οποία είναι πιο εμφανής στα μοντέλα που βασίζονται σε μετασχηματιστές.

Λόγω των χαρακτηριστικών του χωρικού πλεονασμού των εικόνων, υπάρχει μεγάλος αριθμός περιοχών φόντου με χαμηλό περιεχόμενο πληροφοριών και περιοχές που είναι άσχετες με την αναφορική έκφραση στην εικόνα Η εξαγωγή χαρακτηριστικών σε αυτές τις περιοχές με τον ίδιο τρόπο θα αυξήσει την υπολογιστική πολυπλοκότητα δεν συμβάλλουν στην αποτελεσματική εξαγωγή χαρακτηριστικών. Ένας πιο αποτελεσματικός τρόπος είναι να προβλέψετε εκ των προτέρων τη συνάφεια κειμένου και τον πλούτο περιεχομένου της περιοχής της εικόνας, να εξαγάγετε πλήρως τα χαρακτηριστικά από την περιοχή του προσκηνίου που σχετίζεται με το κείμενο και να εξαγάγετε κατά προσέγγιση χαρακτηριστικά από την περιοχή φόντου. Για περιφερειακή πρόβλεψη, ένας πιο διαισθητικός τρόπος είναι να χρησιμοποιήσετε την πυραμίδα της εικόνας για να προσδιορίσετε εκ των προτέρων την περιοχή του φόντου στην εικόνα με χονδρόκοκκο στην κορυφή της πυραμίδας και, στη συνέχεια, να προσθέσετε σταδιακά λεπτόκοκκες περιοχές του προσκηνίου υψηλής ανάλυσης.

Με βάση την παραπάνω ανάλυση, προτείναμεScanFormer, ένα χονδροειδές έως λεπτό πλαίσιο με επίγνωση της επανάληψης, σαρώστε στρώμα προς στρώμα στην πυραμίδα εικόνας, ξεκινώντας από εικόνες χονδρικής κλίμακας χαμηλής ανάλυσης, και σταδιακά φιλτράρετε άσχετες περιοχές/φόντο που αναφέρονται σε εκφράσεις για τη μείωση της υπολογιστικής σπατάλης, επιτρέποντας στο μοντέλο να εστιάζει περισσότερο σε περιοχές που σχετίζονται με το προσκήνιο/την εργασία .

Τίτλος χαρτιού: ScanFormer: Referring Expression Comprehension by Iteratively Scanning
Σύνδεσμος χαρτιού: https://arxiv.org/pdf/2406.18048

Εισαγωγή μεθόδου

1. Πλαίσιο αντίληψης επανάληψης χονδρικής έως λεπτής

Για να απλοποιήσουμε τη δομή, υιοθετούμε το μοντέλο ViLT [1] που ενοποιεί κείμενο και οπτικές μεθόδους και το χωρίζει σε δύο μέρη, Encoder1 και Encoder2, κατά μήκος της διάστασης βάθους για διαφορετικές εργασίες.

Πρώτα, εξάγετε τα χαρακτηριστικά κειμένου και αποθηκεύστε τα στην κρυφή μνήμη KV και, στη συνέχεια, κατασκευάστε μια πυραμίδα εικόνας και επαναλάβετε προς τα κάτω από την κορυφή της πυραμίδας, εισάγεται η ενημερωμένη έκδοση κώδικα που επιλέγεται στην τρέχουσα κλίμακα και ο Encoder1 χρησιμοποιείται για την πρόβλεψη του επόμενου βήματος. που αντιστοιχεί σε κάθε ενημερωμένη έκδοση κώδικα. Το Encoder2 εξάγει περαιτέρω χαρακτηριστικά και προβλέπει το πλαίσιο οριοθέτησης αυτής της κλίμακας με βάση το διακριτικό [cls] της τρέχουσας κλίμακας.

Ταυτόχρονα, οι ενδιάμεσες δυνατότητες των Encoder1 και Encoder2 θα αποθηκευτούν στην προσωρινή μνήμη KV για να διευκολυνθεί η μετέπειτα τυπική χρήση. Καθώς η κλίμακα αυξάνεται, εισάγονται λεπτομερείς λειτουργίες, η πρόβλεψη θέσης θα είναι πιο ακριβής και οι περισσότερες άσχετες ενημερώσεις κώδικα απορρίπτονται για να εξοικονομηθούν πολλοί υπολογισμοί.

Επιπλέον, τα μπαλώματα σε κάθε κλίμακα έχουν αμφίδρομη προσοχή, δίνοντας προσοχή σε όλες τις ενημερώσεις κώδικα και τα χαρακτηριστικά κειμένου των προηγούμενων κλιμάκων. Αυτή η αιτιολογική προσοχή σε όλες τις κλίμακες μπορεί να μειώσει περαιτέρω τις υπολογιστικές απαιτήσεις.

2. Επιλογή δυναμικής ενημέρωσης κώδικα

Η επιλογή κάθε ενημερωμένης έκδοσης κώδικα καθορίζεται από τον παράγοντα επιλογής που δημιουργείται από την προηγούμενη κλίμακα. Υπάρχουν δύο επιλογές για τη θέση της εφαρμογής H κεφαλές, είναι πολύ δύσκολο να λάβετε αποτελεσματικές πληροφορίες κλίσης για ενημέρωση, επομένως ο παράγοντας επιλογής δεν είναι ιδανικός ο δεύτερος χρησιμοποιείται απευθείας ως είσοδος του Κωδικοποιητή, δηλαδή, η ενσωμάτωση ενημερωμένης έκδοσης κώδικα Χρησιμοποιείται σε αυτή τη θέση, είναι πιο εύκολο να μάθουμε Τέλος, αυτό το άρθρο Αυτή η λύση υιοθετήθηκε επίσης.

Επιπλέον, θα πρέπει να σημειωθεί ότι ακόμη και αν η ενσωμάτωση ενημερωμένης έκδοσης κώδικα εισόδου οριστεί στο 0, λόγω της ύπαρξης MHSA και FFN, τα χαρακτηριστικά της ενημερωμένης έκδοσης κώδικα στα επόμενα επίπεδα θα εξακολουθούν να γίνονται μη 0 και να επηρεάζουν τα χαρακτηριστικά άλλων ενημερώσεων κώδικα. Ευτυχώς, όταν υπάρχουν πολλά πανομοιότυπα διακριτικά στην ακολουθία διακριτικών, ο υπολογισμός του MHSA μπορεί να απλοποιηθεί και να επιτευχθεί πραγματική επιτάχυνση συμπερασμάτων. Επιπλέον, για να βελτιωθεί η ευελιξία του μοντέλου, αυτό το άρθρο δεν ορίζει απευθείας την ενσωμάτωση της ενημερωμένης έκδοσης κώδικα στο 0, αλλά την αντικαθιστά με ένα διακριτικό σταθερής εκμάθησης.

Επομένως, το πρόβλημα επιλογής ενημερωμένης έκδοσης κώδικα μετατρέπεται σε πρόβλημα αντικατάστασης. Η διαδικασία επιλογής κώδικα μπορεί να αναλυθεί σε δύο βήματα: συνεχής αντικατάσταση διακριτικού και συγχώνευση διακριτικών. Οι μη επιλεγμένες ενημερώσεις κώδικα θα αντικατασταθούν με το ίδιο σταθερό διακριτικό. Δεδομένου ότι αυτά τα μη επιλεγμένα διακριτικά είναι τα ίδια, σύμφωνα με τη μέθοδο υπολογισμού της προσοχής του προϊόντος με κλίμακα, αυτά τα διακριτικά μπορούν να συνδυαστούν σε ένα διακριτικό και να πολλαπλασιαστούν με τον συνολικό αριθμό, ο οποίος ισοδυναμεί με την προσθήκη στη διάσταση, επομένως η μέθοδος προσοχής προϊόντος με κουκκίδες είναι Δεν υπολογίζεται καμία αλλαγή, οι κοινές μέθοδοι επιτάχυνσης εξακολουθούν να είναι διαθέσιμες.

Πειραματικά αποτελέσματα

Αυτή η μέθοδος επιτυγχάνει απόδοση παρόμοια με την τελευταία λέξη της τεχνολογίας σε τέσσερα σύνολα δεδομένων: RefCOCO, RefCOCO+, RefCOCOg και ReferItGame. Με την προεκπαίδευση σε σύνολα δεδομένων μεγάλης κλίμακας και τη λεπτομέρεια σε συγκεκριμένα σύνολα δεδομένων, η απόδοση του μοντέλου μπορεί να βελτιωθεί περαιτέρω και να επιτύχει παρόμοια αποτελέσματα με προεκπαιδευμένα μοντέλα όπως το MDETR [2] και το OFA [3].

Όσον αφορά την ταχύτητα συλλογιστικής, η προτεινόμενη μέθοδος επιτυγχάνει ταχύτητα συλλογιστικής σε πραγματικό χρόνο, εξασφαλίζοντας παράλληλα υψηλή ακρίβεια εργασίας.

Επιπλέον, το πειραματικό μέρος έκανε επίσης στατιστικά στοιχεία σχετικά με την επιλογή patch του μοντέλου και την κατανομή της ακρίβειας τοποθέτησης σε κάθε κλίμακα (scale1 και scale2).

Όπως φαίνεται στην εικόνα στα αριστερά, καθώς αυξάνεται η κλίμακα, προστίθενται λεπτομερείς λειτουργίες εικόνας και η ακρίβεια του μοντέλου βελτιώνεται σταδιακά. Επομένως, μπορείτε να προσπαθήσετε να προσθέσετε έναν μηχανισμό πρόωρης εξόδου για να βγείτε εγκαίρως όταν η ακρίβεια τοποθέτησης πληροί τις απαιτήσεις, αποφεύγοντας περαιτέρω υπολογισμούς σε εικόνες υψηλής ανάλυσης και επιτυγχάνοντας το αποτέλεσμα της προσαρμοστικής επιλογής κατάλληλης ανάλυσης βάσει δειγμάτων. Αυτό το άρθρο έκανε επίσης κάποιες προκαταρκτικές προσπάθειες, συμπεριλαμβανομένης της προσθήκης κλάδων πρόβλεψης, όπως IoU, GIoU και αβεβαιότητας, καθώς και επιστροφή δεικτών πρόωρης εξόδου, ωστόσο, διαπιστώθηκε ότι το αποτέλεσμα δεν ήταν ιδανικό συνέχισε να εξερευνά.

Το σχήμα στα δεξιά δείχνει την κατάσταση επιλογής ενημερώσεων κώδικα σε διαφορετικές κλίμακες Σε όλες τις κλίμακες, οι επιλεγμένες ενημερώσεις κώδικα αντιπροσωπεύουν ένα σχετικά μικρό ποσοστό και οι περισσότερες ενημερώσεις κώδικα μπορούν να εξαλειφθούν, επομένως οι υπολογιστικοί πόροι μπορούν να αποθηκευτούν αποτελεσματικά. Για κάθε δείγμα (εικόνα + αναφορική έκφραση), ο αριθμός των πραγματικά επιλεγμένων patches είναι σχετικά μικρός, περίπου το 65% του συνόλου.

Τέλος, το πειραματικό μέρος δείχνει κάποια αποτελέσματα οπτικοποίησης Καθώς η κλίμακα αυξάνεται (κόκκινο → πράσινο → μπλε), η ακρίβεια τοποθέτησης του μοντέλου βελτιώνεται σταδιακά. Επιπλέον, σύμφωνα με την εικόνα που ανακατασκευάστηκε από την επιλεγμένη ενημέρωση κώδικα, μπορεί να φανεί ότι το μοντέλο δίνει προσοχή μόνο σε πληροφορίες χονδρικής κλίμακας για την περιοχή φόντου και για τη σχετική περιοχή προσκηνίου, το μοντέλο μπορεί να δώσει προσοχή σε λεπτομερείς λεπτομέρειες πληροφορίες.

Σχετική βιβλιογραφία:

[1].Kim W, Son B, Kim I. Vilt: Μετασχηματιστής όρασης και γλώσσας χωρίς επίβλεψη συνέλιξης ή περιοχής [C]//Διεθνές συνέδριο για τη μηχανική μάθηση. PMLR, 2021: 5583-5594.

[2].Kamath A, Singh M, LeCun Y, et al. Ανίχνευση διαμορφωμένη από Mdetr για πολυτροπική κατανόηση από άκρο σε άκρο [C]//Πρακτικά του διεθνούς συνεδρίου IEEE/CVF για την όραση υπολογιστή. 2021: 1780-1790.

[3]. Wang P, Yang A, Men R, et al. Ofa: Ενοποίηση αρχιτεκτονικών, εργασιών και τρόπων μέσω ενός απλού πλαισίου μάθησης αλληλουχίας σε ακολουθία [C]//Διεθνές συνέδριο για τη μηχανική μάθηση. PMLR, 2022: 23318-23340.

νέα

Η ομάδα του Πανεπιστημίου Zhejiang Li Xi: Μια νέα μέθοδος αναφοράς στην κατανόηση της έκφρασης, το ScanFormer εξαλείφει τον πλεονασμό από το χονδροειδές στο λεπτό

Εισαγωγή

Τα στοιχεία επικοινωνίας μου