Νέα

Για να βελτιώσετε την απόδοση των εργασιών ανίχνευσης GPT-4V και Gemini, χρειάζεστε αυτό το παράδειγμα προτροπής

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Η στήλη AIxiv είναι μια στήλη όπου το Machine Heart δημοσιεύει ακαδημαϊκό και τεχνικό περιεχόμενο. Τα τελευταία χρόνια, η στήλη Heart of the Machine AIxiv έχει λάβει περισσότερες από 2.000 αναφορές, που καλύπτουν κορυφαία εργαστήρια από μεγάλα πανεπιστήμια και εταιρείες σε όλο τον κόσμο, προωθώντας αποτελεσματικά τις ακαδημαϊκές ανταλλαγές και τη διάδοση. Εάν έχετε εξαιρετική δουλειά που θέλετε να μοιραστείτε, μη διστάσετε να συνεισφέρετε ή να επικοινωνήσετε μαζί μας για αναφορά. Email υποβολής: [email protected], [email protected]

Οι συγγραφείς αυτού του άρθρου είναι από το Πανεπιστήμιο Zhejiang, το Εργαστήριο Τεχνητής Νοημοσύνης της Σαγκάης, το Κινεζικό Πανεπιστήμιο του Χονγκ Κονγκ, το Πανεπιστήμιο του Σίδνεϊ και το Πανεπιστήμιο της Οξφόρδης. Λίστα συγγραφέων: Wu Yixuan, Wang Yizhou, Tang Shixiang, Wu Wenhao, He Tong, Wanli Ouyang, Philip Torr, Jian Wu. Μεταξύ αυτών, ο συν-πρώτος συγγραφέας Wu Yixuan είναι διδακτορικός φοιτητής στο Πανεπιστήμιο Zhejiang και ο Wang Yizhou είναι βοηθός επιστημονικής έρευνας στο Εργαστήριο Τεχνητής Νοημοσύνης της Σαγκάης. Ο αντίστοιχος συγγραφέας Tang Shixiang είναι μεταδιδακτορικός ερευνητής στο Κινεζικό Πανεπιστήμιο του Χονγκ Κονγκ.

Τα πολυτροπικά μοντέλα μεγάλων γλωσσών (MLLM) έχουν δείξει εντυπωσιακές δυνατότητες σε διαφορετικές εργασίες, παρόλα αυτά, οι δυνατότητες αυτών των μοντέλων σε εργασίες ανίχνευσης εξακολουθούν να υποτιμώνται. Όταν απαιτούνται ακριβείς συντεταγμένες σε σύνθετες εργασίες ανίχνευσης αντικειμένων, οι παραισθήσεις των MLLM συχνά τους κάνουν να χάνουν αντικείμενα-στόχους ή να δίνουν ανακριβή πλαίσια οριοθέτησης. Προκειμένου να ενεργοποιηθούν τα MLLM για ανίχνευση, η υπάρχουσα εργασία όχι μόνο απαιτεί τη συλλογή μεγάλου αριθμού συνόλων δεδομένων εντολών υψηλής ποιότητας, αλλά και τη βελτίωση των μοντέλων ανοιχτού κώδικα. Αν και είναι χρονοβόρο και απαιτητικό, δεν εκμεταλλεύεται επίσης τις πιο ισχυρές δυνατότητες οπτικής κατανόησης των μοντέλων κλειστού κώδικα.Για το σκοπό αυτό, το Πανεπιστήμιο Zhejiang, το Εργαστήριο Τεχνητής Νοημοσύνης της Σαγκάης και το Πανεπιστήμιο της Οξφόρδης πρότεινανDetToolChain , ένα νέο παράδειγμα προτροπής που απελευθερώνει τη δύναμη ανίχνευσης πολυτροπικών μεγάλων γλωσσικών μοντέλων. Τα μεγάλα πολυτροπικά μοντέλα μπορούν να μάθουν να ανιχνεύουν με ακρίβεια χωρίς εκπαίδευση.Έχει γίνει σχετική έρευναΠεριλαμβάνεται ECCV 2024

Προκειμένου να λύσει τα προβλήματα του MLLM στις εργασίες ανίχνευσης, το DetToolChain ξεκινά από τρία σημεία: (1) Σχεδιασμός οπτικών προτροπών για ανίχνευση, που είναι πιο άμεσο και αποτελεσματικό από τα παραδοσιακά μηνύματα κειμένου για να επιτρέπει στο MLLM να κατανοεί τις πληροφορίες τοποθεσίας, (2) Ανάλυση τις εργασίες ακριβούς ανίχνευσης σε μικρές και απλές εργασίες και (3) χρησιμοποιήστε την αλυσίδα σκέψης για να βελτιστοποιήσετε σταδιακά τα αποτελέσματα ανίχνευσης και να αποφύγετε όσο το δυνατόν περισσότερο την ψευδαίσθηση μεγάλων πολυτροπικών μοντέλων.

Αντίστοιχα με τις παραπάνω ιδέες, το DetToolChain περιέχει δύο βασικά σχέδια: (1) Ένα ολοκληρωμένο σύνολο προτροπών οπτικής επεξεργασίας, οι οποίες σχεδιάζονται απευθείας στην εικόνα και μπορούν να μειώσουν σημαντικά το χάσμα μεταξύ οπτικών πληροφοριών και πληροφοριών κειμένου. (2) Ένα ολοκληρωμένο σύνολο συλλογισμών ανίχνευσης ζητά να βελτιωθεί η χωρική κατανόηση του στόχου ανίχνευσης και να προσδιοριστεί σταδιακά η τελική ακριβής θέση στόχου μέσω μιας αλυσίδας εργαλείων ανίχνευσης προσαρμοζόμενης σε δείγμα.

Συνδυάζοντας το DetToolChain με το MLLM, όπως το GPT-4V και το Gemini, μπορούν να υποστηριχθούν διάφορες εργασίες ανίχνευσης χωρίς συντονισμό εντολών, συμπεριλαμβανομένης της ανίχνευσης ανοιχτού λεξιλογίου, της ανίχνευσης στόχου περιγραφής, της κατανόησης αναφορικής έκφρασης και της προσανατολισμένης ανίχνευσης στόχων.



Τίτλος εργασίας: DetToolChain: A New Prompting Paradigm to Unleash Detection Ability of MLLM

Σύνδεσμος χαρτιού: https://arxiv.org/abs/2403.12488

Τι είναι το DetToolChain;



Εικόνα 1 Συνολικό πλαίσιο του DetToolChain

Όπως φαίνεται στο Σχήμα 1, για μια δεδομένη εικόνα ερωτήματος, το MLLM έχει εντολή να εκτελέσει τα ακόλουθα βήματα:

I. Μορφοποίηση: Μετατρέψτε την αρχική μορφή εισαγωγής της εργασίας σε ένα κατάλληλο πρότυπο εντολών ως είσοδο του MLLM.

II Think: Αναλύστε μια συγκεκριμένη σύνθετη εργασία ανίχνευσης σε απλούστερες δευτερεύουσες εργασίες και επιλέξτε αποτελεσματικά μηνύματα από την εργαλειοθήκη προτροπής ανίχνευσης.

III Εκτέλεση: Εκτελέστε συγκεκριμένες προτροπές (προτροπές) επαναληπτικά με τη σειρά.

IV Απάντηση: Χρησιμοποιήστε τις δυνατότητες συλλογιστικής του ίδιου του MLLM για να επιβλέψετε ολόκληρη τη διαδικασία ανίχνευσης και να επιστρέψετε την τελική απάντηση (τελική απάντηση).

Εργαλειοθήκη προτροπών ανίχνευσης: Προτροπές οπτικής επεξεργασίας



Εικόνα 2: Σχηματικό διάγραμμα προτροπών οπτικής επεξεργασίας. Σχεδιάσαμε (1) Περιφερειακό ενισχυτή, (2) Πρότυπο χωρικής μέτρησης, (3) Αναλυτή εικόνας σκηνής για να βελτιώσουμε τις δυνατότητες ανίχνευσης των MLLM από διαφορετικές οπτικές γωνίες.

Όπως φαίνεται στο σχήμα 2, (1) Ο περιφερειακός ενισχυτής στοχεύει να βελτιώσει την ορατότητα των MLLM στην περιοχή ενδιαφέροντος (ROI), συμπεριλαμβανομένης της περικοπής της αρχικής εικόνας σε διαφορετικές υποπεριοχές, εστιάζοντας στην υποπεριοχή όπου βρίσκεται το αντικείμενο στόχος Επιπλέον, η λειτουργία ενίσχυσης Αυτό επιτρέπει τη λεπτομερή παρατήρηση συγκεκριμένων υποπεριοχών στην εικόνα.

(2) Το Πρότυπο χωρικής μέτρησης παρέχει μια σαφέστερη αναφορά για την ανίχνευση στόχου με την υπέρθεση ενός χάρακα και πυξίδας με γραμμικές κλίμακες στην αρχική εικόνα, όπως φαίνεται στο Σχήμα 2 (2). Οι βοηθητικοί χάρακες και οι πυξίδες επιτρέπουν στα MLLM να εξάγουν ακριβείς συντεταγμένες και γωνίες χρησιμοποιώντας μεταφορικές και περιστροφικές αναφορές που τοποθετούνται πάνω στην εικόνα. Ουσιαστικά, αυτή η βοηθητική γραμμή απλοποιεί την εργασία ανίχνευσης, επιτρέποντας στα MLLM να διαβάζουν τις συντεταγμένες των αντικειμένων αντί να τις προβλέπουν άμεσα.

(3) Το Scene Image Parser επισημαίνει τις προβλεπόμενες θέσεις ή σχέσεις αντικειμένων και χρησιμοποιεί χωρικές και συμφραζόμενες πληροφορίες για να κατανοήσει τις χωρικές σχέσεις της εικόνας. Το Scene Image Parser μπορεί να χωριστεί σε δύο κατηγορίες:Πρώτον, για ένα μοναδικό αντικείμενο στόχο , επισημαίνουμε τα προβλεπόμενα αντικείμενα με κεντροειδή, κυρτά κύτους και οριοθετημένα πλαίσια με ονόματα ετικετών και δείκτες κουτιών. Αυτοί οι δείκτες αντιπροσωπεύουν πληροφορίες θέσης αντικειμένων σε διαφορετικές μορφές, επιτρέποντας στο MLLM να ανιχνεύει διάφορα αντικείμενα διαφορετικών σχημάτων και υποβάθρου, ειδικά αντικείμενα με ακανόνιστα σχήματα ή πολύ αποφραγμένα αντικείμενα. Για παράδειγμα, ο δείκτης κυρτού κύτους σηματοδοτεί τα οριακά σημεία ενός αντικειμένου και τα συνδέει σε ένα κυρτό κύτος για να βελτιώσει την απόδοση ανίχνευσης αντικειμένων με πολύ ακανόνιστο σχήμα.Δεύτερον, για πολλαπλούς στόχους , συνδέουμε τα κέντρα διαφορετικών αντικειμένων μέσω δεικτών γραφήματος σκηνής για να τονίσουμε τις σχέσεις μεταξύ των αντικειμένων στην εικόνα. Με βάση το γράφημα σκηνής, το MLLM μπορεί να αξιοποιήσει τις δυνατότητες συλλογιστικής του με βάση τα συμφραζόμενα για να βελτιστοποιήσει τα προβλεπόμενα πλαίσια οριοθέτησης και να αποφύγει τις παραισθήσεις. Για παράδειγμα, όπως φαίνεται στο Σχήμα 2 (3), ο Τζέρι θέλει να φάει τυρί, επομένως τα κουτιά που οριοθετούν θα πρέπει να είναι πολύ κοντά.

Εργαλειοθήκη προτροπής ανίχνευσης συλλογισμού: Προτροπές συλλογισμού ανίχνευσης



Προκειμένου να βελτιώσουμε την αξιοπιστία του πλαισίου πρόβλεψης, πραγματοποιήσαμε προτροπές συμπερασμάτων ανίχνευσης (που εμφανίζονται στον Πίνακα 1) για να ελέγξουμε τα αποτελέσματα της πρόβλεψης και να διαγνώσουμε πιθανά προβλήματα που μπορεί να υπάρχουν. Πρώτον, προτείνουμε το Problem Insight Guider, το οποίο επισημαίνει δύσκολα προβλήματα και παρέχει αποτελεσματικές προτάσεις ανίχνευσης και παρόμοια παραδείγματα για εικόνες ερωτημάτων. Για παράδειγμα, για το Σχήμα 3, ο Οδηγός Προβλήματος Insight ορίζει το ερώτημα ως πρόβλημα ανίχνευσης μικρών αντικειμένων και προτείνει την επίλυσή του κάνοντας μεγέθυνση στην περιοχή της σανίδας του σερφ. Δεύτερον, για να εκμεταλλευτούμε τις εγγενείς χωρικές και συμφραζόμενες δυνατότητες των MLLM, σχεδιάσαμε τον Εξερεύνηση Χωρικών Σχέσεων και τον Πρόβλεψη Αντικειμένων Συμφραζομένων για να διασφαλίσουμε ότι τα αποτελέσματα ανίχνευσης είναι συνεπή με την κοινή λογική. Όπως φαίνεται στο Σχήμα 3, μια σανίδα του σερφ μπορεί να συνυπάρχει με τον ωκεανό (πληροφοριακή γνώση) και θα πρέπει να υπάρχει μια σανίδα του σερφ κοντά στα πόδια του σέρφερ (χωρική γνώση). Επιπλέον, εφαρμόζουμε τον Προαγωγέα Αυτοεπαλήθευσης για να βελτιώσουμε τη συνέπεια των απαντήσεων σε πολλούς γύρους. Προκειμένου να βελτιώσουμε περαιτέρω τις συλλογιστικές δυνατότητες των MLLM, υιοθετούμε ευρέως χρησιμοποιούμενες μεθόδους προτροπής, όπως η συζήτηση και η αυτο-διόρθωση σφαλμάτων. Δείτε το αρχικό κείμενο για λεπτομερή περιγραφή.



Σχήμα 3 Οι υποδείξεις συλλογιστικής ανίχνευσης μπορούν να βοηθήσουν τα MLLM να λύσουν προβλήματα ανίχνευσης μικρών αντικειμένων, για παράδειγμα, χρησιμοποιώντας την κοινή λογική για να εντοπίσουν μια σανίδα του σερφ κάτω από τα πόδια ενός ατόμου και να ενθαρρύνουν το μοντέλο να ανιχνεύσει σανίδες του σερφ στον ωκεανό.



Εικόνα 4 Ένα παράδειγμα DetToolChain που εφαρμόζεται στην ανίχνευση περιστρεφόμενου στόχου (σύνολο δεδομένων HRSC2016)

Πείραμα: Μπορείτε να ξεπεράσετε τις μεθόδους τελειοποίησης χωρίς εκπαίδευση



Όπως φαίνεται στον Πίνακα 2, αξιολογήσαμε τη μέθοδό μας για την ανίχνευση ανοιχτού λεξιλογίου (OVD), δοκιμάζοντας τα αποτελέσματα AP50 17 νέων κλάσεων, 48 βασικών τάξεων και όλων των τάξεων στο σημείο αναφοράς COCO OVD. Τα αποτελέσματα δείχνουν ότι χρησιμοποιώντας το DetToolChain μας, η απόδοση τόσο του GPT-4V όσο και του Gemini βελτιώνεται σημαντικά.



Για να δείξουμε την αποτελεσματικότητα της μεθόδου μας στην κατανόηση της αναφορικής έκφρασης, συγκρίνουμε τη μέθοδό μας με άλλες μεθόδους μηδενικής λήψης στα σύνολα δεδομένων RefCOCO, RefCOCO+ και RefCOCOg (Πίνακας 5). Στο RefCOCO, το DetToolChain βελτίωσε την απόδοση της βασικής γραμμής GPT-4V κατά 44,53%, 46,11% και 24,85% αντίστοιχα στα val, test-A και test-B, επιδεικνύοντας την ανώτερη κατανόηση της αναφορικής έκφρασης και την απόδοση του DetToolChain υπό συνθήκες μηδενικής βολής.