νέα

Η προτροπή είναι αυτοαντιφατική Μπορεί το μεγάλο μοντέλο να το βρει; Αποκρυπτογράφηση της τελευταίας έρευνας από το Πανεπιστήμιο της Σαγκάης Jiao Tong

2024-08-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Συνεισφορά από την ερευνητική ομάδα του Wang Dequan στο Πανεπιστήμιο Jiao Tong της Σαγκάης
Qubits | Δημόσιος λογαριασμός QbitAI

Η ερευνητική ομάδα του καθηγητή Wang Dequan στο Πανεπιστήμιο της Σαγκάης Jiao Tong έθεσε ένα τέτοιο ερώτημα στην τελευταία έρευνα.

Φανταστείτε αυτό το σενάριο: Ένα παιδί σε ένα νηπιαγωγείο κρατά μια φωτογραφία μιας τίγρης και σας ρωτά: "Αυτό το γατάκι είναι πολύ χαριτωμένο. Είναι θηλυκή γάτα;"

Μπορεί να μην απαντήσετε απευθείας "ναι" ή "όχι", αλλά πρώτα επισημάνετε την "αντίφαση" σε αυτήν την ερώτηση——Αυτή η εικόνα είναι μια τίγρη, όχι μια γάτα



Ωστόσο, υπήρξε ελάχιστη προηγούμενη συστηματική έρευνα για το πώς θα ανταποκριθούν τα μεγάλα μοντέλα.

Πρέπει να γνωρίζετε ότι ένα μοντέλο τεχνητής νοημοσύνης που δεν μπορεί να ανιχνεύσει "διένεξες εντολών" θα δημιουργήσει αποτελέσματα για "ερωτήσεις που δεν πρέπει να έχουν απαντήσεις" και ανεξάρτητα από την πλευρά της σύγκρουσης προς την οποία προκατέχουν τα αποτελέσματα που δημιουργούνται, θα προκαλέσει πιθανές καταστροφές και θα επηρεάσει την τεχνητή νοημοσύνη ασφάλεια και Υπερευθυγράμμιση (Super Alignment).

Σε αυτή την τελευταία μελέτη, η ομάδα πρότεινεΠολυτροπικά σημεία αναφοράς——αντιφατικό σύνολο οδηγιών, και σχεδίασε ένα καινοτόμοΑυτόματο πλαίσιο δημιουργίας δεδομένων, με όνομαΑυτόματη Δημιουργία

Η ομάδα διαπίστωσε ότι το πολυτροπικό μεγάλο μοντέλο έλειπε πολύ στον εντοπισμό αντιφατικών οδηγιών χρήστη, γι' αυτό πρότεινανΜέθοδος προτροπής γνωστικής διέγερσης(CAP), το οποίο εγχέει γνωστικές ικανότητες από τον εξωτερικό κόσμο βελτιώνοντας έτσι την ικανότητα ανίχνευσης αντιφάσεων.

Η εργασία θα δημοσιευθεί στο 18ο Ευρωπαϊκό Συνέδριο για την Όραση Υπολογιστών (ECCV) τον Οκτώβριο του τρέχοντος έτους.



Μπορούν τα μεγάλα μοντέλα να ανιχνεύσουν αντικρουόμενες οδηγίες;

Επί του παρόντος, τα πολυτροπικά μεγάλα μοντέλα έχουν σημειώσει μεγάλη πρόοδο στους τομείς της επιστημονικής έρευνας και εφαρμογής. Μπορούν να επεξεργαστούν μια ποικιλία τύπων δεδομένων, συμπεριλαμβανομένων κειμένου και εικόνων, δείχνοντας δυνατότητες παρόμοιες με την ανθρώπινη γνώση.

Η ομάδα πιστεύει ότι η επιτυχία αυτών των μοντέλων οφείλεται στην εκτεταμένη εργασία έρευνας και ανάπτυξης που τους επιτρέπει να ακολουθούν πιστά ανθρώπινες οδηγίες, ακόμη και κάπως «υποταγμένες».

Επιπλέον, αυτά τα μοντέλα είναι ιδιαίτερα καλά σε μεγάλα περιβάλλοντα. Τα πολυτροπικά μεγάλα μοντέλα όπως το Claude 3 και το Gemini 1.5 Pro έχουν επιδείξει ισχυρές δυνατότητες. Τα μοντέλα της σειράς Claude 3 προσφέρουν ένα παράθυρο περιβάλλοντος με 200.000 διακριτικά, το τυπικό μέγεθος παραθύρου περιβάλλοντος του Gemini 1.5 Pro είναι 128 K και μπορεί να φτάσει ακόμη και 1 εκατομμύριο μάρκες κατά τη φάση της ιδιωτικής προεπισκόπησης.

Αυτές οι εξελίξεις επιτρέπουν στα πολυτροπικά μεγάλα μοντέλα να έχουν καλή απόδοση στο χειρισμό πολύπλοκων εργασιών και να ανταποκρίνονται στις ανάγκες των ανθρώπων για μακροπρόθεσμες αλληλεπιδράσεις.

Ωστόσο, με την εμβάθυνση της πολυτροπικής αλληλεπίδρασης και την αύξηση του μήκους του περιβάλλοντος, το πρόβλημα των αντιφατικών οδηγιών χρήστη γίνεται όλο και πιο εμφανές.

Όπως φαίνεται παρακάτω, όταν οι χρήστες (όπως παιδιά ή αρχάριοι γλώσσας) χρησιμοποιούν αυτά τα μοντέλα, συχνά δεν γνωρίζουν πιθανές πολυτροπικές συγκρούσεις.



Ταυτόχρονα, καθώς ο αριθμός των στροφών διαλόγου αυξάνεται και το παράθυρο περιβάλλοντος επεκτείνεται, γίνεται δύσκολο για τους χρήστες να θυμούνται όλες τις λεπτομέρειες, οδηγώντας σε συγκρούσεις μεταξύ των οδηγιών.

Επιπλέον, καθώς αυξάνεται ο αριθμός των τρόπων, μπορεί επίσης να προκύψουν συγκρούσεις μεταξύ των τρόπων. Από τη στιγμή που αυτά τα μοντέλα δεν έχουν αυτογνωσία και την ικανότητα να διακρίνουν τις αντιφάσεις, η απόδοσή τους υποφέρει.

Προκειμένου να αντιμετωπιστούν αυτές οι προκλήσεις, η ερευνητική ομάδα αυτού του άρθρου πρότεινε ένα πολυτροπικό τεστ αναφοράς-"αντιφατικό σύνολο οδηγιών” (Self-Contradictory Instructions, SCI), που χρησιμοποιείται για την αξιολόγηση της ικανότητας πολυτροπικών μεγάλων μοντέλων να ανιχνεύουν αντικρουόμενες οδηγίες.

SCI περιέχει20.000 αντικρουόμενες οδηγίεςκαι8 εργασίες, ομοιόμορφα κατανεμημένα σεγλώσσα - γλώσσακαιοπτικολεκτικόσε δύο παραδείγματα.

Στο επάνω μέρος του διαγράμματος, το γλωσσογλωσσικό παράδειγμα περιλαμβάνει συγκρούσεις μεταξύ πλαισίων και οδηγιών, όπως αντικρουόμενους κανόνες σχεδίασης, αντικρουόμενες ιδιότητες αντικειμένων, αποκλειστικές οδηγίες και απαγορευμένο λεξιλόγιο.



Στο κάτω μέρος του σχήματος: το οπτικο-γλωσσικό παράδειγμα καλύπτει πολυτροπικές συγκρούσεις, όπως συγκρούσεις αναγνώρισης κειμένου OCR, συγκρούσεις διαγραμμάτων, γεωμετρικές συγκρούσεις και σημασιολογικές συγκρούσεις. Μεταξύ των οκτώ εργασιών, μόνο οι σημασιολογικές διενέξεις περιλαμβάνουν άλλα σύνολα δεδομένων (ImageNet).

Για να δώσουμε ένα συγκεκριμένο παράδειγμα, κατά την κατασκευή σημασιολογικών συγκρούσεων, οι ερευνητές θα δημιουργήσουν πρώτα το αντίστοιχο κείμενο με βάση εικόνες και στη συνέχεια θα αντικαταστήσουν τις βασικές σημασιολογικές πληροφορίες στο κείμενο με νέες σημασιολογικές που είναι παρόμοιες αλλά διαφορετικές.

Στην παρακάτω εικόνα, η εικόνα περιέχει μια στρουθοκάμηλο (στρουθοκάμηλος).

Στη συνέχεια, η βασική σημασιολογία αυτού του ερωτηματικού κειμένου "στρουθοκάμηλος" αντικαταστάθηκε με "Ακτινίδιο". Με αυτόν τον τρόπο, κατασκευάζεται ένα αντιφατικό ζεύγος πολυτροπικών εντολών.



Σε όλη τη διαδικασία κατασκευής SCI, ο συγγραφέας σχεδίασε ένα καινοτόμο αυτόματο πλαίσιο δημιουργίας συνόλων δεδομένων——Αυτόματη Δημιουργία

Δημιουργεί έναν πολυτροπικό βρόχο μέσω προγραμμάτων και μεγάλων μοντέλων γλώσσας. Το πλαίσιο αξιοποιεί προγράμματα και μεγάλα μοντέλα γλωσσών για να επιτρέψει την αυτοματοποιημένη δημιουργία δεδομένων.

Η Αυτόματη Δημιουργία ξεκινά με πολλά δεδομένα σποράς που σχετίζονται με εργασίες και διατηρεί μια δεξαμενή σπόρων. Μέσα σε κάθε κύκλο, η Αυτόματη Δημιουργία περιλαμβάνει δύο κλάδους:κλάδος γλώσσας(αριστερά) καιοπτικός κλάδος(δικαίωμα). Κάθε κλάδος αποτελείται από γεννήτριες και διακοσμητές.



Τέλος, η καθαρίστρια θα αποκλείσει δεδομένα που δεν πληρούν τα κριτήρια. Αφού περάσουν από ποιοτικούς ελέγχους από ειδικούς ανθρώπους, αυτά τα δεδομένα θα τροφοδοτηθούν ξανά στη δεξαμενή σπόρων για χρήση στον επόμενο γύρο.

Η Αυτόματη Δημιουργία βελτιώνει σημαντικά την ταχύτητα κατασκευής και το εύρος περιεχομένου των συνόλων δεδομένων SCI.

Πώς να βελτιώσετε τις δυνατότητες ανίχνευσης συγκρούσεων;

Χρησιμοποιώντας το σύνολο δεδομένων SCI, οι ερευνητές αξιολόγησαν διεξοδικά την απόδοση μεγάλων μοντέλων στον χειρισμό αντιφατικών οδηγιών.

Τα πειραματικά αποτελέσματα δείχνουν ότι τα τρέχοντα μεγάλα μοντέλα παρουσιάζουν συχνά ορισμένες ελλείψεις όταν αντιμετωπίζουν αντιφατικές οδηγίες.

Μπορούν να επεξεργάζονται πληροφορίες και γνώσεις, αλλάΈλλειψη ικανότητας αξιολόγησης του εύλογου των οδηγιών, αυτό που η ερευνητική ομάδα αποκαλεί «γνωστική» ικανότητα.

Αυτή η έλλειψη πηγάζει από την έλλειψη αυτογνωσίας και την αδυναμία αναγνώρισης ασυνεπειών στις οδηγίες.

Ως εκ τούτου, οι ερευνητές πρότειναν μια απλή μέθοδο προτροπής που ονομάζεται "Συμβουλές Γνωστικής Αφύπνισης"(Γνωστική προτροπή αφύπνισης, CAP).

Πέρασμα CAP στην είσοδοΠροσθέστε μια απλή υπενθύμιση, οι γνωστικές ικανότητες μπορούν να εγχυθούν από τον εξωτερικό κόσμο, βελτιώνοντας έτσι την ικανότητα ανίχνευσης αντιφάσεων του μεγάλου μοντέλου και βασικά δεν θα υπάρξει αρνητικός αντίκτυπος.

Αυτό το εύρημα υποδηλώνει ότι τα τρέχοντα πολυτροπικά μεγάλα μοντέλα απαιτούν περισσότερη αυτογνωσία και γνωστικές ικανότητες για να χειριστούν καλύτερα πολύπλοκες συγκρούσεις διδασκαλίας.



Για περισσότερες λεπτομέρειες, τα ενδιαφερόμενα παιδιά μπορούν να δουν το πρωτότυπο έγγραφο.

Σχετικά με τον συγγραφέα

Ο πρώτος συγγραφέας της εργασίας είναι υποψήφιος διδάκτορας στο Πανεπιστήμιο της Σαγκάης Jiao TongΓκάο Τζιν

Τα ερευνητικά του ενδιαφέροντα περιλαμβάνουν την όραση υπολογιστών, τα πολυτροπικά μεγάλα μοντέλα, τις βιοεπιστήμες που εξουσιοδοτούνται από την τεχνητή νοημοσύνη κ.λπ.



Ο αντίστοιχος συγγραφέας της εργασίας είναι επίκουρος καθηγητής και διδακτορικός επόπτης στο Πανεπιστήμιο Jiao Tong της ΣαγκάηςΟ Γουάνγκ Ντεκουάν, αποφοίτησε από το Πανεπιστήμιο Fudan με πτυχίο και διδακτορικό από το Πανεπιστήμιο της Καλιφόρνια στο Μπέρκλεϋ, όπου σπούδασε υπό τον καθηγητή Trevor Darrell.

Το ερευνητικό του έργο έχει δημοσιευτεί σε κορυφαία διεθνή συνέδρια όπως CVPR, ICCV, ECCV, ICLR, ICML, ICRA, IROS κ.λπ. Οι εργασίες του έχουν αναφερθεί περισσότερες από 10.000 φορές στο Google Scholar τα τελευταία πέντε χρόνια, με H- δείκτης 20.

Σύνδεσμος χαρτιού: https://arxiv.org/abs/2408.01091
Σύνδεσμος έργου: https://selfcontradiction.github.io/