Μεταθανάτια εργασία της ομάδας OpenAI Super Alignment: Δύο μεγάλα μοντέλα διαγωνίστηκαν και το αποτέλεσμα έγινε πιο κατανοητό

Μεταθανάτιο έργο της ομάδας OpenAI Super Alignment: Δύο μεγάλα μοντέλα παίζουν ένα παιχνίδι και η έξοδος γίνεται πιο κατανοητή

2024-07-18

Αναφορά Machine Heart

Τμήμα Σύνταξης Machine Heart

Εάν η απάντηση που δίνει το μοντέλο AI είναι καθόλου ακατανόητη, θα τολμούσατε να τη χρησιμοποιήσετε;

Καθώς τα συστήματα μηχανικής εκμάθησης χρησιμοποιούνται σε πιο σημαντικούς τομείς, γίνεται όλο και πιο σημαντικό να δείξουμε γιατί μπορούμε να εμπιστευόμαστε τα αποτελέσματά τους και πότε να μην τα εμπιστευόμαστε.

Ένας πιθανός τρόπος για να κερδίσετε εμπιστοσύνη στην έξοδο ενός πολύπλοκου συστήματος είναι να απαιτήσετε από το σύστημα να παράγει μια ερμηνεία της εξόδου του που να είναι αναγνώσιμη από έναν άνθρωπο ή άλλο αξιόπιστο σύστημα, δηλαδή πλήρως κατανοητή σε σημείο που να μπορούν να γίνουν πιθανά σφάλματα. βρέθηκαν. Για παράδειγμα, για την οικοδόμηση εμπιστοσύνης στο δικαστικό σύστημα, απαιτούμε από τα δικαστήρια να παρέχουν σαφείς και ευανάγνωστες γραπτές γνώμες που εξηγούν και υποστηρίζουν τις αποφάσεις τους.

Για μεγάλα γλωσσικά μοντέλα, μπορούμε επίσης να υιοθετήσουμε μια παρόμοια προσέγγιση.

Ωστόσο, όταν ακολουθούμε αυτήν την προσέγγιση, είναι σημαντικό να διασφαλίζουμε ότι το γλωσσικό μοντέλο δημιουργεί κατανοητό κείμενο, ειδικά όταν αντιμετωπίζουμε σύνθετες εργασίες όπως τα μαθηματικά και η κωδικοποίηση.

Όπως φαίνεται στο παρακάτω σχήμα, ζητάτε από την τεχνητή νοημοσύνη να γράψει έναν αλγόριθμο γρήγορης ταξινόμησης και η απάντηση είναι πολύ συνοπτική. Αλλά αν δεν ξέρετε πώς να γράφετε κώδικα, πώς μπορείτε να κρίνετε εάν το AI είναι γραμμένο σωστά;

Το OpenAI μελέτησε αυτό το πρόβλημα σε μια πρόσφατη εργασία.

Τίτλος εργασίας: ΠΑΙΧΝΙΔΙΑ PROVER-VERIFIER IMPROVE LEGIBILITY OF LLM OUTPUTS

Σύνδεσμος χαρτιού: https://cdn.openai.com/prover-verifier-games-improve-legibility-of-llm-outputs/legibility.pdf

Διαπίστωσαν ότι εάν ζητηθεί από μεγάλα γλωσσικά μοντέλα να δημιουργήσουν απαντήσεις με στόχο να «πάρουν τη σωστή απάντηση», οι απαντήσεις που δίνουν μπορεί να είναι δύσκολο να κατανοηθούν. Οι ανθρώπινοι αξιολογητές έχουν διπλάσιες πιθανότητες να κάνουν λάθη όταν κρίνουν αυτές τις απαντήσεις.

Ο στόχος τους λοιπόν είναι να εκπαιδεύσουν μοντέλα γλωσσών υψηλού επιπέδου, ώστε να μπορούν να δημιουργήσουν κείμενο που τα πιο απλά μοντέλα μπορούν εύκολα να επαληθεύσουν. Διαπίστωσαν ότι ένα τέτοιο κείμενο δεν ήταν μόνο φιλικό προς τα απλά μοντέλα αλλά και πιο ευανάγνωστο στους ανθρώπους.

Λοιπόν, πώς επιτυγχάνεται; Αυτό αναφέρει επίσης ένα έγγραφο του 2021-"Learning to Give Checkable Answers with Prover-Verifier Games". Σε αυτό το άρθρο, ο Cem Anil et al πρότεινε ένα πλαίσιο θεωρίας παιγνίων που ονομάζεται "Παιχνίδια Prover-Verifier". Το πλαίσιο αποτελείται από δύο ανταγωνιστές εκπαιδευόμενους: ένα δίκτυο αξιόπιστων επαληθευτών που προσπαθούν να επιλέξουν τη σωστή απάντηση και ένα πιο ισχυρό αλλά αναξιόπιστο δίκτυο επαληθευτών που προσπαθούν να πείσουν τους επαληθευτές να αποδεχτούν μια συγκεκριμένη απάντηση, ανεξάρτητα από την ορθότητά της. Ο στόχος αυτού του πλαισίου είναι να δημιουργήσει ένα αξιόπιστο πρωτόκολλο απόδειξης από το παιχνίδι.

Το OpenAI δανείστηκε αυτό το πλαίσιο σε αυτή τη νέα μελέτη, επιτρέποντας σε δύο μεγάλα μοντέλα (το ισχυρότερο να είναι ο prover και το πιο αδύναμο να είναι ο επαληθευτής) να παίζουν μεταξύ τους μέχρι να φτάσουν τα δύο σε μια ισορροπία. Αυτή τη στιγμή, η απάντηση που δίνει ο prover είναι και ευανάγνωστη και εύλογα σωστή.

Το OpenAI είπε ότι βελτιώνοντας την αναγνωσιμότητα της παραγωγής του μοντέλου, μπορεί να κάνει την εφαρμογή της τεχνητής νοημοσύνης πιο αποτελεσματική και αξιόπιστη, κάτι που είναι ευεργετικό σε διάφορους τομείς που απαιτούν ακριβή επικοινωνία.

Αξίζει να αναφέρουμε ότι αυτή η εργασία προέρχεται από την ομάδα Super Alignment του OpenAI, αρκετοί από τους συγγραφείς της οποίας αποχώρησαν από το OpenAI νωρίτερα φέτος, και η ομάδα έχει επίσης καταρρεύσει. Ένας από τους συγγραφείς αποκάλυψε ότι αυτό ήταν το τελευταίο χαρτί της ομάδας.

Ένα διαισθητικό παράδειγμα

Προκειμένου να βελτιωθεί η αναγνωσιμότητα της παραγωγής του μοντέλου, το OpenAI βελτιστοποίησε την αλυσίδα σκέψης (CoT) ορισμένων προβλημάτων μαθηματικών του δημοτικού σχολείου, ώστε να μπορεί να γίνει κατανοητή από πιο αδύναμα μοντέλα. Παραδείγματα είναι τα εξής:

Ερώτηση: Ο πατέρας της Shawna είναι πέντε φορές μεγαλύτερος από τη Shawna. Η Shauna είναι πλέον τριπλάσια της ηλικίας της Aliya. Εάν η Aaliyah είναι 3 ετών, πόσο χρονών είναι ο πατέρας της Shauna;

Ο σκοπός αυτού είναι να επαληθευτεί εάν η έξοδος του εκπαιδευμένου μοντέλου είναι πιο άμεσο και ευκολονόητο.

Αυτή η μέθοδος βελτιώνει την απόδοση του μοντέλου κατά 50% ενώ κάνει μόνο μερικές βελτιστοποιήσεις στο σετ εκπαίδευσης. Ταυτόχρονα, οι απαντήσεις που εξάγονται από το μοντέλο είναι επίσης πιο κατανοητές, κάτι που βοηθά επίσης τους ανθρώπους που πρέπει να αξιολογήσουν την ορθότητα αυτών των απαντήσεων να κάνουν πιο ακριβείς κρίσεις. Το OpenAI πιστεύει ότι ο περαιτέρω περιορισμός του χάσματος απόδοσης μεταξύ πιο ευανάγνωστων και πιο ικανών μοντέλων αποτελεί βασικό στόχο στη μελλοντική έρευνα ευθυγράμμισης.

Πώς ανταγωνίζονται οι «πιστοποιητές» και οι «επαληθευτές» κατά τη διάρκεια της εκπαίδευσης;

Για να δώσουν κίνητρα σε ισχυρά μοντέλα (provers) να δημιουργήσουν πιο ευανάγνωστο κείμενο, οι ερευνητές υιοθέτησαν ένα εκπαιδευτικό σχήμα που απαιτεί οι απαντήσεις που δημιουργούνται από ισχυρά μοντέλα να επαληθεύονται εύκολα από πιο αδύναμα μοντέλα (επαληθευτές). Συγκεκριμένα χρησιμοποίησαν μεγάλα και μικρά μοντέλα της σειράς GPT-4. Διαφέρουν κατά περίπου τρεις τάξεις μεγέθους ως προς τον όγκο των δεδομένων πριν από την προπόνηση. Όλοι λαμβάνουν κάποια εκπαίδευση για τη μαθηματική εξαγωγή βασισμένη σε ανθρώπινο σχολιασμό, αλλά όχι εκτεταμένη μετα-εκπαίδευση.

Πρώτα, η ομάδα έβαλε το μοντέλο prover να προσπαθήσει να λύσει μια σειρά από μαθηματικά προβλήματα. Επειδή το ίδιο το μοντέλο prover μπορεί να είναι λάθος, ορισμένες από τις απαντήσεις που παράγει μπορεί να είναι λανθασμένες. Στη συνέχεια, τοποθετούν αυτές τις απαντήσεις στο μοντέλο επαληθευτή, εκτελώντας πολλαπλούς γύρους εναλλασσόμενης επαλήθευσης μεταξύ των ακόλουθων δύο σταδίων:

Εκπαίδευση «επαληθευτή»: Η ερευνητική ομάδα εκπαιδεύει ένα πιο αδύναμο μοντέλο «επαληθευτή» για να επαληθεύσει εάν η απάντηση που δόθηκε από τον «επαληθευτή» είναι σωστή.

Εκπαίδευση "Prover": Η ερευνητική ομάδα δίνει οδηγίες στο πιο ισχυρό μοντέλο "prover" να παίξει "χρήσιμους" ή "πονηρούς" ρόλους.

Όταν ο "αποδεικτικός" οριστεί σε "χρήσιμο", η ερευνητική ομάδα θα ανταμείψει τον "επαληθευτή" για σωστές απαντήσεις με υψηλές βαθμολογίες.

Όταν ο «απόδειξη» ορίστηκε να είναι «πονηρός», η ερευνητική ομάδα αντ' αυτού επιβράβευσε τον «επαληθευτή» για λανθασμένες απαντήσεις με υψηλές βαθμολογίες.

Η ερευνητική ομάδα διαπίστωσε ότι αρχικά, ένας πονηρός «αποδείκτης» θα μπορούσε εύκολα να δημιουργήσει λανθασμένες απαντήσεις που έπεισαν τον «επαληθευτή». Ωστόσο, αυτές οι λανθασμένες απαντήσεις θα μπουν στον επόμενο γύρο εκπαίδευσης «επαληθευτών» και τα ίδια τρωτά σημεία δεν θα είναι πλέον πειστικά στον επόμενο γύρο. Ως εκ τούτου, ο «prover» θα αναγκαστεί να εξερευνήσει διαφορετικές στρατηγικές σε κάθε γύρο.

Η εκπαίδευση τελειώνει όταν ο πονηρός «αποδείκτης» δεν μπορεί πλέον να δημιουργήσει μια ψευδή λύση που πείθει τον «επαληθευτή».

Τι ανακάλυψαν οι ερευνητές;

Ανταλλαγή απόδοσης έναντι αναγνωσιμότητας:

Ένα μοντέλο που εκτελεί μόνο εποπτευόμενη μικρορύθμιση σε ανθρώπινη γραπτή παραγωγή είναι πιο ευανάγνωστο αλλά λιγότερο ακριβές.

Όταν ο στόχος βελτιστοποίησης του μοντέλου είναι μόνο η ορθότητα, δηλαδή η εστίαση μόνο στη δημιουργία σωστών απαντήσεων, αν και μπορεί να επιτευχθεί υψηλή ακρίβεια, οι λύσεις που δημιουργούνται είναι λιγότερο ευανάγνωστες.

Η ελεγχόμενη προσέγγιση παιχνιδιού που προτείνεται από το OpenAI εξισορροπεί τα δύο, διατηρώντας υψηλή αναγνωσιμότητα διατηρώντας παράλληλα μέτρια ακρίβεια.

Τρία χρήσιμα μοντέλα:

Ισχυρός επαληθευτής: Διακρίνει αποτελεσματικά μεταξύ σωστών και λανθασμένων λύσεων ακόμα κι αν οι λύσεις είναι παραπλανητικές.

Χρήσιμος αποδεδειγμένος: Δημιουργεί λύσεις που είναι κατανοητές από τον άνθρωπο, μειώνοντας έτσι τα λάθη από τους ανθρώπινους αξιολογητές.

Crafty prover: Παράγει λεπτές, λανθασμένες λύσεις που αρχικά μπερδεύουν τους ανθρώπινους αξιολογητές, επισημαίνοντας έτσι τομείς που απαιτούν περαιτέρω βελτίωση.

Η ερευνητική ομάδα χρησιμοποίησε τις ίδιες ερωτήσεις δοκιμής για να δείξει το περιεχόμενο παραγωγής και τη διαδικασία εκπαίδευσης του Sneaky Prover.

Συμπερασματικά

Καθώς τα μεγάλα γλωσσικά μοντέλα (LLM) χρησιμοποιούνται όλο και περισσότερο σε κρίσιμους τομείς και σύνθετες εφαρμογές, είναι σημαντικό να κατανοήσουμε εάν το περιεχόμενο που παράγουν είναι αξιόπιστο. Απαιτώντας από τα μοντέλα να έχουν σαφείς και επαληθεύσιμους λόγους για την παραγωγή τους, μπορείτε να ενισχύσετε την εμπιστοσύνη σε αυτό που παράγουν.

Ένα σημαντικό πλεονέκτημα αυτής της προσέγγισης είναι ότι μειώνει την εξάρτηση από την ανθρώπινη επίδειξη ή κρίσεις αναγνωσιμότητας. Αυτή η αυτονομία είναι ιδιαίτερα σημαντική για την ευθυγράμμιση των μελλοντικών υπερευφυών συστημάτων AI, με απώτερο στόχο την αξιόπιστη ευθυγράμμιση των συστημάτων AI με τις ανθρώπινες αξίες και προσδοκίες χωρίς άμεση ανθρώπινη επίβλεψη.

Αν και αυτή η εργασία διεξήχθη μόνο σε ένα σύνολο δεδομένων και εξακολουθεί να απαιτεί ετικέτες βασικής αλήθειας, η ερευνητική ομάδα εξακολουθεί να αναμένει ότι τέτοιες μέθοδοι θα διαδραματίσουν ρόλο στην ανάπτυξη σωστών, διαφανών και επαληθεύσιμων συστημάτων AI και θα ενισχύσουν την αξιοπιστία και την ασφάλειά τους στον πραγματικό κόσμο εφαρμογές.

Για περισσότερες λεπτομέρειες, ανατρέξτε στο πρωτότυπο έγγραφο.

Σύνδεσμοι αναφοράς:

https://openai.com/index/prover-verifier-games-improve-legibility/

Νέα

Μεταθανάτιο έργο της ομάδας OpenAI Super Alignment: Δύο μεγάλα μοντέλα παίζουν ένα παιχνίδι και η έξοδος γίνεται πιο κατανοητή

Εισαγωγή

τα στοιχεία επικοινωνίας μου