Το τελευταίο έγγραφο του OpenAI επιτρέπει σε υπερισχυρά μοντέλα να εξηγηθούν

Συγγραφέας του Οδηγού Κειμένου/AI για το μέλλον Hao Boyang

Εκδότης/Zhou Xiaoyan

Σήμερα το OpenAI κυκλοφόρησε ένα νέο έγγραφο, το οποίο είναι το «μεταθανάτιο έργο» της εκλιπούσας ομάδας OpenAI Super Alignment. Προτείνει έναν νέο τρόπο βελτίωσης της ερμηνείας του μοντέλου, ο οποίος είναι να αφήσουμε το μοντέλο να εξηγήσει τη δική του λογική, και όσο πιο εύκολο είναι να εξηγηθεί, τόσο το καλύτερο.

Αυτή η ιδέα στην πραγματικότητα δεν είναι καινούργια, αλλά όλοι χρησιμοποίησαν τη λέξη πρότζεκτ για να την κάνουν πριν. Χρησιμοποιήστε προτροπές όπως αλυσίδες σκέψης για να αναγκάσετε το AI να εξηγήσει τις απαντήσεις του. Αλλά δεν θα ήταν καλύτερο αν το μοντέλο ήταν καλύτερο στην εξήγηση εξαρχής; Στη συνέχεια, πρέπει να κάνετε κάποιες προσαρμογές κατά τη διάρκεια της διαδικασίας εκπαίδευσης του μοντέλου. Για την επίτευξη αυτού του στόχου, το OpenAI πρότεινε μια μέθοδο που ονομάζεται «εκπαίδευση επιθεώρησης». Μια μέθοδος που ονομάζεται "παιχνίδι πιστοποιητή-επαληθευτή" χρησιμοποιείται για να βελτιώσει την ικανότητα του μοντέλου να εξηγεί τον εαυτό του. Τελικά διαπιστώθηκε ότι αυτή η μέθοδος είναι πράγματι χρήσιμη.

Πώς ακριβώς το έκαναν;

Θέλουμε να εκπαιδεύσουμε μια πολύ έξυπνη τεχνητή νοημοσύνη (ας την πούμε «αποδείκτη») για την επίλυση μαθηματικών προβλημάτων. Ελπίζουμε ότι αυτή η τεχνητή νοημοσύνη όχι μόνο μπορεί να δώσει τη σωστή απάντηση, αλλά και να την εξηγήσει ξεκάθαρα και να διευκολύνει τους ανθρώπους να την κατανοήσουν. Ωστόσο, αν απλώς αφήσουμε το AI να επιδιώξει τη σωστή απάντηση, μπορεί να αναπτύξει έναν πολύ περίπλοκο και δυσνόητο τρόπο επίλυσης προβλημάτων.

Για παράδειγμα, στο παρακάτω παράδειγμα, η απάντηση που δίνει το μοντέλο είναι σωστή, αλλά η μέθοδος απόδειξης είναι πολύ ανείπωτη. Αυτό καθιστά δύσκολο για τους απλούς χρήστες, συμπεριλαμβανομένων των πελατών σε βιομηχανίες που απαιτούν υψηλή ακρίβεια, να κρίνουν εάν οι ιδέες τους είναι σωστές.

Προκειμένου λοιπόν να αποφευχθεί αυτή η κατάσταση, οι ερευνητές κατέληξαν σε μια έξυπνη μέθοδο:

1. Δημιουργούν ένα "διαιτητή" AI (που ονομάζεται "επικύρωση"). Αυτός ο διαιτητής δεν είναι τόσο έξυπνος όσο η τεχνητή νοημοσύνη επίλυσης προβλημάτων, αλλά η δουλειά του είναι να κρίνει εάν η απάντηση της τεχνητής νοημοσύνης επίλυσης προβλημάτων είναι σωστή και σαφής.

2. Στη συνέχεια, ζήτησαν από την επίλυση προβλημάτων AI να παίξει δύο ρόλους: έναν «καλό μαθητή» (χρήσιμο AI), που προσπαθεί να δώσει σωστές και σαφείς απαντήσεις και έναν «άτακτο μαθητή» (πονηρός AI), που προσπαθεί να δώσει απαντήσεις φαίνονται σωστά, αλλά στην πραγματικότητα είναι ελαφρώς λάθος.

3. Και οι δύο «μαθητές» προσπαθούν να πείσουν τον διαιτητή AI ότι η απάντησή τους είναι σωστή.

4. Με την πάροδο του χρόνου, ο διαιτητής AI γίνεται όλο και καλύτερος στον εντοπισμό σωστών και λανθασμένων απαντήσεων. Ταυτόχρονα, η τεχνητή νοημοσύνη «καλός μαθητής» έμαθε πώς να εξηγεί τα προβλήματα με μεγαλύτερη σαφήνεια, ενώ η «άτακτη μαθήτρια» τεχνητής νοημοσύνης έμαθε πώς να κάνει πιο λεπτά λάθη.

5. Η διαδικασία επαναλαμβάνεται σαν ένα παιχνίδι σε εξέλιξη.

Αυτή η διαδικασία είναι το «παιχνίδι πιστοποιητή-επαληθευτή». Με αυτόν τον τρόπο, μετά από πολλαπλούς κύκλους εκπαίδευσης, οι εξηγήσεις του μοντέλου γίνονται όλο και πιο σαφείς. Για παράδειγμα, μετά από έναν γύρο αυτού του είδους εκπαίδευσης, η ερμηνεία του μοντέλου είναι πολύ καλύτερη.

(Τα αποτελέσματα του πρώτου γύρου της προπόνησης είναι ήδη αναλυτικά)

Μετά από πέντε γύρους, το μοντέλο μπορεί βασικά να σας εξηγήσει το θέμα με τον τόνο ενός δασκάλου πρωτοβάθμιας εκπαίδευσης.

(Αποτελέσματα πέμπτου γύρου προπόνησης)

Και αυτός ο διαιτητής AI «επαληθευτής» έχει επίσης εξελιχθεί κάτω από την πίεση του πονηρού AI. Γίνεται καλύτερος στο να διακρίνει αν οι απαντήσεις είναι αληθείς ή ψευδείς. Ακόμα κι αν η πονηρή τεχνητή νοημοσύνη κάνει φανταστικούς ισχυρισμούς, θα είναι πιο εύκολο να βρεις κενά σε αυτό.

(Αυτή είναι η απάντηση από το Cunning AI, φαίνεται αρκετά αξιοπρεπές)

(Καθώς περνά ο καιρός, το επίπεδο της πονηρής τεχνητής νοημοσύνης βελτιώνεται επίσης)

Στη διαδικασία, οι ερευνητές του OpenAI ανακάλυψαν επίσης μια μέθοδο που ονομάζεταιΤο φαινόμενο του «φόρου κατανοητότητας» σύμφωνα με το οποίο όσο πιο κατανοητό είναι το αποτέλεσμα της τεχνητής νοημοσύνης, τόσο πιο πιθανό είναι να θυσιαστεί ένα συγκεκριμένο επίπεδο απόδοσης ή ακρίβειας.

Έκαναν ένα διάγραμμα για να αναπαραστήσουν αυτό το φαινόμενο.

Στην φωτογραφία, Άξονας Χ: αντιπροσωπεύει την ακρίβεια της γεννήτριας μοντέλου, Ο άξονας Υ: αντιπροσωπεύει την ακρίβεια των ανθρώπινων αξιολογητών, που χρησιμοποιείται εδώ ως μέτρο αναγνωσιμότητας. Ένα μοντέλο που εκτελεί άμεσα ενισχυτική μάθηση (RL) χωρίς «εκπαίδευση επιθεώρησης» έχει ισχυρές δυνατότητες αλλά κακή ερμηνευτικότητα. Τα μοντέλα που έχουν υποβληθεί σε "εκπαίδευση επιθεώρησης" μπορούν να βελτιώσουν την ακρίβεια διατηρώντας την ίδια ερμηνευτικότητα. Αλλά υπάρχει ένα όριο Ο «φόρος κατανοητότητας» που σημειώνεται με ένα κόκκινο βέλος στο σχήμα είναι η απόδοση που πρέπει να θυσιαστεί χωρίς να χαθεί η ερμηνευτικότητα.

Τι ακριβώς κάνει αυτή η έρευνα; Μπορούμε επίσης να δούμε από τα παραπάνω παραδείγματα ότι μια μέθοδος επεξήγησης που είναι πιο εύκολο να κατανοήσει ο διαιτητής AI είναι επίσης πιο εύκολη για εμάς τους ανθρώπους.Αυτό Δείχνει ότι μπορούμε να χρησιμοποιήσουμε μικρότερα, ευκολότερα στην εκπαίδευση μοντέλα για να αντικαταστήσουμε την ανάδραση ανθρώπινων σχολιασμών (όπως το RHLF) για να βελτιώσουμε την κατανόηση των μεγάλων αποτελεσμάτων μοντέλων. Το έγγραφο δίνει υψηλές προσδοκίες σε αυτή τη μέθοδο. Υποστηρίζουν ότι «αυτή η αυτονομία θα είναι ιδιαίτερα σημαντική για την ευθυγράμμιση των μελλοντικών υπερευφυών συστημάτων AI, με στόχο να διασφαλιστεί ότι τα συστήματα AI ευθυγραμμίζονται αξιόπιστα με τις ανθρώπινες αξίες και προσδοκίες χωρίς άμεση ανθρώπινη επίβλεψη».

Θυμηθείτε ότι η πρωτοποριακή δουλειά της ομάδας Super Alignment ήταν η ιδέα της χρήσης αδύναμων μοντέλων για την επίβλεψη ισχυρών μοντέλων. Φαίνεται ότι, αντιμετωπίζοντας το αρχικό ιδανικό της σούπερ ευθυγράμμισης, προσπαθούν πραγματικά να χρησιμοποιήσουν διάφορες μεθόδους για να το πετύχουν. Κρίμα που άλλαξαν τα πράγματα, έφυγε η ομάδα και το μόνο που ακούμε τώρα είναι η τελευταία αντήχηση.

Νέα

Το τελευταίο έγγραφο του OpenAI επιτρέπει σε υπερισχυρά μοντέλα να εξηγηθούν

Το τελευταίο έγγραφο του OpenAI επιτρέπει σε υπερισχυρά μοντέλα να εξηγηθούν

Εισαγωγή

τα στοιχεία επικοινωνίας μου