Το Πανεπιστήμιο Tsinghua πρωτοστατεί στην έκδοση πολυτροπικής αξιολόγησης MultiTrust: Πόσο αξιόπιστο είναι το GPT-4;

2024-07-24

Η στήλη AIxiv είναι μια στήλη όπου το Machine Heart δημοσιεύει ακαδημαϊκό και τεχνικό περιεχόμενο. Τα τελευταία χρόνια, η στήλη Heart of the Machine AIxiv έχει λάβει περισσότερες από 2.000 αναφορές, που καλύπτουν κορυφαία εργαστήρια από μεγάλα πανεπιστήμια και εταιρείες σε όλο τον κόσμο, προωθώντας αποτελεσματικά τις ακαδημαϊκές ανταλλαγές και τη διάδοση. Εάν έχετε εξαιρετική δουλειά που θέλετε να μοιραστείτε, μη διστάσετε να συνεισφέρετε ή να επικοινωνήσετε μαζί μας για αναφορά. Email υποβολής: [email protected], [email protected]

Αυτή η εργασία ξεκίνησε από την ομάδα βασικής θεωρίας καινοτομίας με επικεφαλής τον καθηγητή Zhu Jun του Πανεπιστημίου Tsinghua. Για μεγάλο χρονικό διάστημα, η ομάδα έχει επικεντρωθεί στα τρέχοντα ζητήματα συμφόρησης στην ανάπτυξη της τεχνητής νοημοσύνης, έχει εξερευνήσει πρωτότυπες θεωρίες τεχνητής νοημοσύνης και βασικές τεχνολογίες και βρίσκεται στο διεθνές κορυφαίο επίπεδο στην έρευνα για τις αντίθετες θεωρίες ασφάλειας και τις μεθόδους ευφυών αλγορίθμων. Έχει επίσης διεξαγάγει σε βάθος έρευνα σχετικά με την αντίπαλη στιβαρότητα και την αποτελεσματικότητα της βαθιάς μάθησης Βασικά κοινά ζητήματα, όπως η αποτελεσματικότητα της χρήσης δεδομένων. Σχετική εργασία κέρδισε το πρώτο βραβείο του Βραβείου Τεχνητής Νοημοσύνης Wu Wenjun Φυσικής Επιστήμης, δημοσίευσε περισσότερες από 100 εργασίες CCF Κατηγορίας Α, ανέπτυξε την πλατφόρμα αντεπιθέσεων ARES ανοιχτού κώδικα για την επίθεση και τον αλγόριθμο άμυνας (https://github.com/thu-ml/ares) , και πραγματοποίησε ορισμένα κατοχυρωμένα με δίπλωμα ευρεσιτεχνίας προϊόντα Μετατρέψτε τη μάθηση και την έρευνα σε πρακτικές εφαρμογές.

Τα πολυτροπικά μοντέλα μεγάλων γλωσσών (MLLM) που αντιπροσωπεύονται από το GPT-4o έχουν προσελκύσει μεγάλη προσοχή λόγω της εξαιρετικής απόδοσής τους σε πολλαπλούς τρόπους, όπως η γλώσσα και οι εικόνες. Δεν έχουν γίνει μόνο οι δεξιοί βοηθοί των χρηστών στην καθημερινή εργασία, αλλά έχουν επίσης διεισδύσει σταδιακά σε σημαντικούς τομείς εφαρμογών όπως η αυτόνομη οδήγηση και η ιατρική διάγνωση, πυροδοτώντας μια τεχνολογική επανάσταση.

Ωστόσο, είναι τα πολυτροπικά μεγάλα μοντέλα ασφαλή και αξιόπιστα;

Εικόνα 1 Παράδειγμα αντίθετης επίθεσης GPT-4o

Όπως φαίνεται στο Σχήμα 1, τροποποιώντας τα εικονοστοιχεία της εικόνας μέσω επιθέσεων αντιπάλου, το GPT-4o αναγνώρισε εσφαλμένα το άγαλμα Merlion στη Σιγκαπούρη ως Πύργο του Άιφελ στο Παρίσι ή Μπιγκ Μπεν στο Λονδίνο. Το περιεχόμενο τέτοιων στόχων σφάλματος μπορεί να προσαρμοστεί κατά βούληση, ακόμη και πέρα από τα ασφαλή όρια της εφαρμογής μοντέλου.

Εικόνα 2 Παράδειγμα jailbreak Claude3

Στο σενάριο επίθεσης jailbreak, παρόλο που ο Claude απέρριψε επιτυχώς το κακόβουλο αίτημα σε μορφή κειμένου, όταν ο χρήστης εισήγαγε μια πρόσθετη άσχετη εικόνα μονόχρωμου, το μοντέλο εξήγαγε ψευδείς ειδήσεις σύμφωνα με το αίτημα του χρήστη. Αυτό σημαίνει ότι τα μεγάλα πολυτροπικά μοντέλα έχουν περισσότερους κινδύνους και προκλήσεις από τα μεγάλα γλωσσικά μοντέλα.

Εκτός από αυτά τα δύο παραδείγματα, τα πολυτροπικά μεγάλα μοντέλα έχουν επίσης διάφορες απειλές ασφαλείας ή κοινωνικούς κινδύνους, όπως ψευδαισθήσεις, προκαταλήψεις και διαρροές απορρήτου, που θα επηρεάσουν σοβαρά την αξιοπιστία και την αξιοπιστία τους σε πρακτικές εφαρμογές. Αυτά τα ζητήματα ευπάθειας εμφανίζονται τυχαία ή είναι ευρέως διαδεδομένα; Ποιες είναι οι διαφορές στην αξιοπιστία των διαφορετικών πολυτροπικών μεγάλων μοντέλων και από πού προέρχονται;

Πρόσφατα, ερευνητές από το Πανεπιστήμιο Tsinghua, το Πανεπιστήμιο Beihang, το Πανεπιστήμιο Shanghai Jiao Tong και το Ruilai Intelligence έγραψαν από κοινού ένα άρθρο εκατοντάδων σελίδων και κυκλοφόρησαν ένα ολοκληρωμένο σημείο αναφοράς που ονομάζεται MultiTrust, το οποίο για πρώτη φορά αξιολογεί διεξοδικά την αξιοπιστία των mainstream πολυτροπικών μεγάλων μοντέλων από πολλά διαστάσεις και προοπτικές, επιδεικνύοντας πολλαπλούς πιθανούς κινδύνους ασφαλείας και εμπνέοντας την επόμενη ανάπτυξη μεγάλων μοντέλων πολλαπλών μεταφορών.

Τίτλος εργασίας: Συγκριτική αξιολόγηση της αξιοπιστίας των πολυτροπικών μοντέλων μεγάλων γλωσσών: Μια ολοκληρωμένη μελέτη

Σύνδεσμος χαρτιού: https://arxiv.org/pdf/2406.07057

Αρχική σελίδα του έργου: https://multi-trust.github.io/

Αποθετήριο κώδικα: https://github.com/thu-ml/MMTrustEval

MultiTrust Benchmark Framework

Από την υπάρχουσα μεγάλη εργασία αξιολόγησης μοντέλων, η MultiTrust εξήγαγε πέντε διαστάσεις αξιολόγησης αξιοπιστίας - ειλικρίνεια, ασφάλεια, ευρωστία, δικαιοσύνη και προστασία της ιδιωτικής ζωής) και διεξάγει δευτερεύουσα ταξινόμηση και κατασκευάζει εργασίες, δείκτες και σύνολα δεδομένων με στοχευμένο τρόπο. μια ολοκληρωμένη αξιολόγηση.

Εικόνα 4 Διάγραμμα πλαισίου MultiTrust

Εστιάζοντας σε 10 αξιόπιστες υποδιαστάσεις αξιολόγησης, η MultiTrust έχει δημιουργήσει 32 διαφορετικά σενάρια εργασιών, που καλύπτουν εργασίες διάκρισης και δημιουργίας, καλύπτοντας εργασίες καθαρού κειμένου και εργασίες πολλαπλών μέσων. Τα σύνολα δεδομένων που αντιστοιχούν στις εργασίες δεν μετασχηματίζονται και προσαρμόζονται μόνο με βάση δημόσια σύνολα δεδομένων κειμένου ή εικόνων, αλλά και μερικά πιο περίπλοκα και απαιτητικά δεδομένα κατασκευάζονται μέσω της μη αυτόματης συλλογής ή σύνθεσης αλγορίθμων.

Εικόνα 5 Λίστα εργασιών MultiTrust

Διαφορετικά από την αξιόπιστη αξιολόγηση των μεγάλων γλωσσικών μοντέλων (LLM), τα πολυτροπικά χαρακτηριστικά του MLLM φέρνουν πιο διαφορετικά και πολύπλοκα σενάρια και δυνατότητες κινδύνου. Για την καλύτερη διεξαγωγή συστηματικής αξιολόγησης, το σημείο αναφοράς MultiTrust όχι μόνο ξεκινά από την παραδοσιακή διάσταση της αξιολόγησης της συμπεριφοράς, αλλά εισάγει καινοτόμα τις δύο προοπτικές αξιολόγησης του κινδύνου πολλαπλών μέσων και του αντίκτυπου πολλαπλών μέσων, καλύπτοντας συνολικά τα νέα ζητήματα που φέρνουν οι νέοι τρόποι . νέα πρόκληση.

Σχήμα 6 Διάγραμμα κινδύνου πολυτροπικών κινδύνων και πολλαπλών επιπτώσεων

Συγκεκριμένα, οι πολυτροπικοί κίνδυνοι αναφέρονται σε νέους κινδύνους που προκύπτουν σε πολυτροπικά σενάρια, όπως πιθανές λανθασμένες απαντήσεις όταν τα μοντέλα επεξεργάζονται οπτικές παραπλανητικές πληροφορίες και λανθασμένες εκτιμήσεις στην πολυτροπική συλλογιστική που αφορούν ζητήματα ασφάλειας. Αν και το μοντέλο μπορεί να αναγνωρίσει σωστά το αλκοόλ στην εικόνα, σε περαιτέρω συλλογισμό, ορισμένα μοντέλα δεν γνωρίζουν τον πιθανό κίνδυνο να το μοιραστούν με φάρμακα κεφαλοσπορίνης.

Εικόνα 7 Το μοντέλο κάνει λανθασμένες εκτιμήσεις στη συλλογιστική που αφορούν ζητήματα ασφάλειας

Ο αντίκτυπος πολλαπλών τρόπων αναφέρεται στον αντίκτυπο της προσθήκης νέων τρόπων στην αξιοπιστία της αρχικής μορφής. Για παράδειγμα, η εισαγωγή άσχετων εικόνων μπορεί να αλλάξει την αξιόπιστη συμπεριφορά του δικτύου κορμού του μεγάλου γλωσσικού μοντέλου σε σκηνές απλού κειμένου, οδηγώντας σε περισσότερα. απρόβλεπτους κινδύνους. Σε επιθέσεις jailbreaking και εργασίες διαρροής απορρήτου που χρησιμοποιούνται συνήθως για αξιολόγηση αξιοπιστίας μοντέλων μεγάλων γλωσσών, εάν το μοντέλο παρέχεται με μια εικόνα που δεν έχει καμία σχέση με το κείμενο, η αρχική συμπεριφορά ασφαλείας μπορεί να καταστραφεί (Εικόνα 2).

Ανάλυση αποτελεσμάτων και βασικά συμπεράσματα

Εικόνα 8 Ενημερωμένη λίστα αξιοπιστίας σε πραγματικό χρόνο (μέρος)

Οι ερευνητές διατηρούν μια τακτικά ενημερωμένη πολυτροπική λίστα αξιοπιστίας και έχουν προσθέσει τα πιο πρόσφατα μοντέλα όπως το GPT-4o και το Claude3.5 Συνολικά, τα εμπορικά μοντέλα κλειστού κώδικα είναι πιο ασφαλή από τα κύρια μοντέλα ανοιχτού κώδικα. Μεταξύ αυτών, το GPT-4 του OpenAI και το Claude του Anthropic κατατάχθηκαν υψηλότερα σε αξιοπιστία, ενώ το Microsoft Phi-3, το οποίο πρόσθεσε ευθυγράμμιση ασφαλείας, κατέλαβε την υψηλότερη θέση μεταξύ των μοντέλων ανοιχτού κώδικα, αλλά εξακολουθεί να υπάρχει ένα συγκεκριμένο κενό με το μοντέλο κλειστού κώδικα.

Εμπορικά μοντέλα όπως τα GPT-4, Claude και Gemini έχουν εφαρμόσει πολλές τεχνολογίες ενίσχυσης για ασφάλεια και αξιοπιστία, αλλά εξακολουθούν να υπάρχουν ορισμένοι κίνδυνοι ασφάλειας και αξιοπιστίας. Για παράδειγμα, εξακολουθούν να παρουσιάζουν ευπάθεια σε επιθέσεις αντιπάλου, πολλαπλές επιθέσεις jailbreak κ.λπ., κάτι που παρεμβαίνει σε μεγάλο βαθμό στην εμπειρία και την εμπιστοσύνη του χρήστη.

Εικόνα 9 Το Gemini εξάγει επικίνδυνο περιεχόμενο υπό πολλαπλές επιθέσεις jailbreak

Παρόλο που οι βαθμολογίες πολλών μοντέλων ανοιχτού κώδικα στις κύριες γενικές λίστες είναι ισοδύναμες ή και καλύτερες από το GPT-4, σε δοκιμές σε επίπεδο εμπιστοσύνης, αυτά τα μοντέλα εξακολουθούν να παρουσιάζουν αδυναμίες και τρωτά σημεία σε διαφορετικές πτυχές. Για παράδειγμα, η έμφαση σε γενικές δυνατότητες (όπως το OCR) κατά τη φάση εκπαίδευσης καθιστά την ενσωμάτωση jailbroken κειμένου και ευαίσθητων πληροφοριών στην είσοδο εικόνας πιο απειλητική πηγή κινδύνου.

Με βάση τα πειραματικά αποτελέσματα των πολλαπλών τρόπων επιδράσεων, οι συγγραφείς διαπίστωσαν ότι η πολυτροπική εκπαίδευση και τα συμπεράσματα αποδυναμώνουν τον ασφαλή μηχανισμό ευθυγράμμισης μεγάλων γλωσσικών μοντέλων. Πολλά πολυτροπικά μεγάλα μοντέλα θα χρησιμοποιούν ευθυγραμμισμένα μεγάλα γλωσσικά μοντέλα ως βασικό δίκτυο και τελειοποιούν κατά τη διάρκεια της διαδικασίας εκπαίδευσης πολλαπλών τρόπων. Τα αποτελέσματα δείχνουν ότι αυτά τα μοντέλα εξακολουθούν να παρουσιάζουν μεγάλες ευπάθειες ασφαλείας και αξιόπιστους κινδύνους. Ταυτόχρονα, σε πολλαπλές εργασίες αξιολόγησης της αξιοπιστίας καθαρού κειμένου, η εισαγωγή εικόνων κατά τη συλλογιστική θα έχει επίσης αντίκτυπο και παρεμβολή στην αξιόπιστη συμπεριφορά του μοντέλου.

Εικόνα 10 Μετά την εισαγωγή εικόνων, το μοντέλο τείνει περισσότερο να διαρρέει ιδιωτικό περιεχόμενο στο κείμενο

Τα πειραματικά αποτελέσματα δείχνουν ότι υπάρχει κάποια συσχέτιση μεταξύ της αξιοπιστίας των μεγάλων μοντέλων πολλαπλών μέσων και των γενικών δυνατοτήτων τους, αλλά εξακολουθούν να υπάρχουν διαφορές στην απόδοση του μοντέλου σε διαφορετικές διαστάσεις αξιολόγησης αξιοπιστίας. Επί του παρόντος, οι κοινοί πολυτροπικοί αλγόριθμοι που σχετίζονται με μεγάλα μοντέλα, όπως η λεπτομερής ρύθμιση συνόλων δεδομένων που παράγονται με τη βοήθεια του GPT-4V, RLHF για παραισθήσεις κ.λπ., δεν επαρκούν για να ενισχύσουν πλήρως την αξιοπιστία του μοντέλου. Τα υπάρχοντα συμπεράσματα δείχνουν επίσης ότι τα πολυτροπικά μεγάλα μοντέλα έχουν μοναδικές προκλήσεις που διαφέρουν από τα μεγάλα γλωσσικά μοντέλα και απαιτούνται καινοτόμοι και αποτελεσματικοί αλγόριθμοι για περαιτέρω βελτίωση.

Δείτε το έγγραφο για λεπτομερή αποτελέσματα και ανάλυση.

μελλοντική κατεύθυνση

Τα ευρήματα δείχνουν ότι η βελτίωση της αξιοπιστίας μεγάλων πολυτροπικών μοντέλων απαιτεί ιδιαίτερη προσοχή από τους ερευνητές. Αξιοποιώντας λύσεις ευθυγράμμισης μοντέλων μεγάλων γλωσσών, διαφοροποιημένα δεδομένα και σενάρια εκπαίδευσης και παραδείγματα όπως το Retrieval Enhanced Generation (RAG) και το Constitutional AI (Constitutional AI) μπορούν να συμβάλουν στη βελτίωση σε κάποιο βαθμό. Αλλά η βελτίωση της αξιοπιστίας των μεγάλων μοντέλων πολλαπλών μέσων υπερβαίνει αυτό. Επιπλέον, η βελτίωση της απόδοσης των μοντέλων σε πρακτικές εφαρμογές μέσω συνεχούς αξιολόγησης και βελτιστοποίησης σε δυναμικά περιβάλλοντα είναι επίσης μια σημαντική κατεύθυνση στο μέλλον.

Μαζί με την κυκλοφορία του δείκτη αναφοράς MultiTrust, η ερευνητική ομάδα κυκλοφόρησε επίσης την εργαλειοθήκη αξιολόγησης αξιοπιστίας μεγάλου μοντέλου MMTrustEval. Με βάση αυτήν την εργασία και την εργαλειοθήκη, η ομάδα διοργάνωσε έναν διαγωνισμό δεδομένων και αλγορίθμων που σχετίζονται με την ασφάλεια και τους αλγόριθμους πολλαπλών μέσων μεγάλων μοντέλων [1,2] για να προωθήσει την αξιόπιστη έρευνα σε μεγάλα μοντέλα. Στο μέλλον, με τη συνεχή πρόοδο της τεχνολογίας, τα πολυτροπικά μεγάλα μοντέλα θα δείξουν τις δυνατότητές τους σε περισσότερους τομείς, αλλά το ζήτημα της αξιοπιστίας τους εξακολουθεί να απαιτεί συνεχή προσοχή και εις βάθος έρευνα.

[1] CCDM2024 Multimodal Large Language Model Red Team Security Challenge http://116.112.3.114:8081/sfds-v1-html/main

[2] Ο 3ος Διαγωνισμός Αλγορίθμων Pazhou - Τεχνολογία ενίσχυσης ασφαλείας αλγόριθμου μεγάλων μοντέλων πολλαπλών τρόπων https://iacc.pazhoulab-huangpu.com/contestdetail?id=668de7357ff47da8cc88c7b8&award=1.000.000

Νέα

Το Πανεπιστήμιο Tsinghua πρωτοστατεί στην έκδοση πολυτροπικής αξιολόγησης MultiTrust: Πόσο αξιόπιστο είναι το GPT-4;

Εισαγωγή

τα στοιχεία επικοινωνίας μου