Νέα

Το "τελευταίο" χαρτί υπερευθυγράμμισης του OpenAI: παιχνίδι μεγάλων και μικρών μοντέλων, αυξημένη αναγνωσιμότητα εξόδου

2024-07-18

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Το Crecy προέρχεται από τον ναό Aofei
Qubits | Δημόσιος λογαριασμός QbitAI

αφήνωΜεγάλα και μικρά μοντέλα ανταγωνίζονται μεταξύ τους, μπορείτε να βελτιώσετε την αναγνωσιμότητα του παραγόμενου περιεχομένου!

Αυτή είναι μια σοβαρή έρευνα από το OpenAI. Ο στόχος είναι να γίνει πιο κατανοητό το αποτέλεσμα του μοντέλου, διασφαλίζοντας ταυτόχρονα την ακρίβεια.

Μετά την εκπαίδευση με αυτή τη μέθοδο, η ακρίβεια της ανθρώπινης κρίσης για την έξοδο του μοντέλου έχει αυξηθεί σημαντικά και η ταχύτητα έχει γίνει επίσης πιο γρήγορη.



Η έρευνα, από την ανενεργή ομάδα "Hyper-Alignment" του OpenAI, μιμείται μια μελέτη του 2021 από ακαδημαϊκούς του Πανεπιστημίου του Τορόντο.Παιχνίδι "Prover-Verifier".

Κατά τη διάρκεια της εκπαιδευτικής διαδικασίας, το OpenAI επιτρέπει στο μεγάλο μοντέλο να λειτουργεί ως «πιστοποιητής» και στο μικρό μοντέλο ως «επαληθευτής», επιτρέποντας σε αυτές τις δύο ταυτότητες να ανταγωνίζονται μεταξύ τους.

Τελικά, τα αποτελέσματα εξόδου του μεγάλου μοντέλου δεν είναι μόνοΕίναι πιο κατανοητό και δεν υπάρχει εμφανής απώλεια στην ακρίβεια., το επίπεδο κρίσης του μικρού μοντέλου έχει επίσης βελτιωθεί.

Ακόμη και ένας από τους συγγραφείς της εργασίας, η ερευνήτρια του OpenAI, Yining Chen, είπε ότι αυτή η προσέγγιση «έχει τη δυνατότητα να κάνει τα μελλοντικά μοντέλα πιο έξυπνα από τους ανθρώπους».

Αξίζει να αναφέρουμε ότι ο πρώην επικεφαλής της Super Alignment Team και συγγραφέας του RLHFΓιαν ΛέικΣυμμετείχε επίσης σε αυτή την έρευνα Όταν άφησε τη δουλειά του, επέκρινε το OpenAI ότι δεν έδινε σημασία στην ασφάλεια.

Ωστόσο, στο τέλος του tweet του Jan Leike που παρουσίαζε αυτό το χαρτί, διαφήμιζε για την Anthropic (κατασκευαστής Claude) όπου βρίσκεται τώρα για να στρατολογήσει ανθρώπους.



Ένας άλλος συγγραφέας της εργασίας, ο ερευνητής του OpenAI Nat McAleese, αποκάλυψε σε ένα tweet ότι αυτό θα είναι το τελευταίο (Τελικό) έγγραφο σούπερ ευθυγράμμισης του OpenAI.



Αυτή η είδηση ​​έκανε μερικούς χρήστες του Διαδικτύου πολύ ενθουσιασμένους, λέγοντας ότι αυτό δεν πρέπει να είναι το τελευταίο άρθρο, θα συνεχίσετε να κάνετε super alignment, σωστά;



Αφήστε τα μοντέλα να παίξουν μεταξύ τους

Η έρευνα του OpenAI διαπίστωσε ότι το περιεχόμενο που παράγεται από μεγάλα μοντέλα έχει κάποιους ελέγχους και ισορροπίες στις δύο διαστάσεις της ακρίβειας και της αναγνωσιμότητας——

Εάν βελτιστοποιήσετε τη δική του ακρίβεια ως στόχο, θα οδηγήσει σε μείωση της αναγνωσιμότητας, εάν λάβετε ως στόχο την αναγνωσιμότητα, η δική σας ακρίβεια θα χαθεί.

Ακόμη και σε απλές εργασίες μαθηματικού επιπέδου του δημοτικού σχολείου, είναι εύκολο να δει κανείς το κενό, το οποίο το OpenAI αποκαλεί «φόρο κατανόησης».



Ωστόσο, το εάν οι άνθρωποι μπορούν να κατανοήσουν το περιεχόμενο που δημιουργείται από το μοντέλο αποτελεί σημαντική προϋπόθεση για τη λήψη ακριβών κρίσεων και, επομένως, έχει επίσης σημαντικό αντίκτυπο στην ασφάλεια.

Ακόμη και αν το αφήσουμε αυτό στην άκρη, η κατανοητότητα του περιεχομένου καθορίζει άμεσα αν το μοντέλο μπορεί να προσφέρει χρήσιμη βοήθεια στους ανθρώπους.

Αυτή η έρευνα εμπνεύστηκε από το παιχνίδι "πιστοποιητής-επαληθευτής" που προτάθηκε από μελετητές στο Πανεπιστήμιο του Τορόντο το 2021 και εκπαίδευσε το μοντέλο μέσω του παιχνιδιού.

αποδεικνύωνΔιαθέτοντας ισχυρή υπολογιστική ισχύ και ικανότητα εκτέλεσης σύνθετων υπολογισμών και δημιουργίας αποδείξεων, το καθήκον είναι να προσπαθήσουμε να πείσουμε τον επαληθευτή ότι μια συγκεκριμένη δήλωση είναι σωστή.

επικυρωτήΤότε μπορούν να εκτελεστούν μόνο σχετικά απλοί υπολογισμοί και απαιτείται μια διαδραστική διαδικασία για να καθοριστεί εάν η απόδειξη που παρέχεται από τον εντολοδόχο είναι αξιόπιστη.

Για παράδειγμα, υπάρχει ένα μαθηματικό πρόβλημα που απαιτεί την επίλυση της έκφρασης μιας συνάρτησης Ο prover γνωρίζει την έκφραση (αλλά όχι απαραίτητα σωστή) και θέλει ο επαληθευτής να πιστέψει ότι η απάντησή του είναι σωστή.

Ο επαληθευτής γνωρίζει τις τιμές συνάρτησης που αντιστοιχούν σε ορισμένες ανεξάρτητες μεταβλητές και μπορεί να χρησιμοποιήσει αυτές τις πληροφορίες για να ελέγξει τον prover και να κρίνει εάν γνωρίζει τη σωστή συνάρτηση από το εάν η απάντησή του είναι ακριβής.

Με αυτόν τον τρόπο, το OpenAI προσπαθεί να επιτύχει μια ισορροπία μεταξύ ακρίβειας και αναγνωσιμότητας, ανταλλάσσοντας σχετικά μικρή απώλεια ακρίβειας με υψηλότερη αναγνωσιμότητα.

Σε αυτό το έργο, η ομάδα OpenAI χρησιμοποίησε ένα σύνολο δεδομένων που περιείχε μαθηματικά προβλήματα δημοτικού σχολείου, λύσεις και σωστές απαντήσεις.

Για το μοντέλο, επιλέχθηκαν μοντέλα της σειράς GPT-4 διαφορετικών μεγεθών, με τα μεγαλύτερα να χρησιμεύουν ως prover και τα μικρότερα ως επαληθευτές.

Το σύνολο δεδομένων χωρίζεται τυχαία σε δύο υποσύνολα ίσου μεγέθους, τα οποία χρησιμοποιούνται για την εκπαίδευση του prover και του επαληθευτή αντίστοιχα.

Στον prover ανατίθενται δύο ρόλοι: βοηθητικός και ύπουλος αντίστοιχα, δημιουργώντας σωστές και λανθασμένες λύσεις αντίστοιχα.

Αλλά το κοινό τους σημείο είναι ότι και οι δύο χρειάζονται οι λύσεις τους να έχουν υψηλή βαθμολογία από τον επαληθευτή.


△Η εξέλιξη της πονηρής δοκιμασίας σε πολλαπλούς γύρους προπόνησης

Αυτοί οι δύο ρόλοι δεν είναι σταθεροί και χρειάζεται ο πάροχοςΚάνω με τη σειρά, επιβραβεύονται όταν οι συμπεριφορές είναι συνεπείς με τον ρόλο που παίζεται.

Η εκπαίδευση χωρίζεται σε πολλαπλούς γύρους Σε κάθε γύρο, η ομάδα θα εξαγάγει μια παρτίδα σωστών και λανθασμένων δειγμάτων από τις λύσεις που δημιουργήθηκαν από τους δύο δοκιμαστές στον προηγούμενο γύρο.

Αυτά τα δείγματα θα χρησιμοποιηθούν ως δεδομένα εκπαίδευσης του επικυρωτή για τον τρέχοντα γύρο Ο επικυρωτής εκπαιδεύεται μέσω εποπτευόμενης μάθησης για να βελτιώσει την ορθότητα της κρίσης του και να επιτρέψει στον επικυρωτή να βαθμολογήσει τις σωστές λύσεις υψηλότερες από τις λανθασμένες λύσεις.

Σε αυτή τη διαδικασία, ο πονηρός επαληθευτής προτρέπει συνεχώς τον επαληθευτή να βελτιώσει την ακρίβεια της κρίσης του και ο επαληθευτής κάνει επίσης το περιεχόμενο που δημιουργείται από τον επαληθευτή πιο συνεπές με τις προτιμήσεις βαθμολόγησης και οι δύο επιτυγχάνουν κοινή πρόοδο μέσω αμοιβαίων παιχνιδιών.



Μια σημαντική προϋπόθεση για την απόκτηση υψηλών βαθμολογιών είναι ότι το παραγόμενο περιεχόμενο μπορεί να γίνει κατανοητό από τον επαληθευτή.

Ισορροπία μεταξύ ακρίβειας και αναγνωσιμότητας

Τελικά, μια τέτοια μέθοδος εκπαίδευσης που βασίζεται στο παιχνίδι επιτυγχάνει μια καλή ισορροπία μεταξύ υψηλής ακρίβειας και υψηλής κατανοητότητας.

Η παραδοσιακή μέθοδος εκπαίδευσης εστιάζει μόνο στην ακρίβεια του ίδιου του μοντέλου Καθώς προχωρά η διαδικασία εκπαίδευσης, η ακρίβεια των απαντήσεων αυξάνεται, αλλά οι κρίσεις που γίνονται από τους ανθρώπους γίνονται όλο και πιο ανακριβείς και πιο αργές.



Εφόσον η ομάδα OpenAI εισήγαγε ανθρώπινες προτιμήσεις στον επαληθευτή, η ακρίβεια της κρίσης του επαληθευτή σχετίζεται με τον άνθρωπο σε κάποιο βαθμό.

Τα τελικά αποτελέσματα επιβεβαίωσαν επίσης ότι το μοντέλο (prover) που εκπαιδεύτηκε χρησιμοποιώντας αυτή τη μέθοδο παιχνιδιού επιτρέπει στους ανθρώπους να κάνουν πιο γρήγορες και ακριβείς κρίσεις καθώς ο αριθμός των κύκλων εκπαίδευσης αυξάνεται χωρίς σημαντική απώλεια ακρίβειας.

Μετά τη σύγκριση της βασικής μεθόδου, δεν είναι δύσκολο να βρεθεί ότι η ακρίβεια της ανθρώπινης κρίσης υπερβαίνει το 82% μετά από 5 γύρους, αλλά η βασική γραμμή είναι μικρότερη από 75% μετά από 7.000 βήματα προπόνησης.

Όσον αφορά το χρόνο, ο βασικός χρόνος κρίσης του ανθρώπου είναι κοντά στα 27 δευτερόλεπτα και η νέα μέθοδος είναι λίγο περισσότερο από 26 δευτερόλεπτα.



Επιπλέον, για τον επαληθευτή, καθώς η εκπαίδευση συνεχίζεται, η στιβαρότητά του αυξάνεται σταδιακά και μπορεί να εντοπίσει με μεγαλύτερη ακρίβεια τις λανθασμένες απαντήσεις.



Εκτός από την αξιολόγηση της αποτελεσματικότητας αυτής της μεθόδου εκπαίδευσης που βασίζεται στο παιχνίδι, η ομάδα OpenAI έκανε επίσης ορισμένα άλλα ευρήματα κατά τη διάρκεια της ερευνητικής διαδικασίας:

  • Ο αντίκτυπος του μεγέθους του εργαλείου επικύρωσης: το πολύ μικρό θα οδηγήσει σε ασταθή προπόνηση και το πολύ μεγάλο θα δυσκολέψει τη βελτίωση της ευρωστίας σε πολλαπλούς γύρους προπόνησης Το ένα χιλιοστό έως το ένα εκατοστό του prover έχει το καλύτερο αποτέλεσμα.
  • Τα σφάλματα σε κακόβουλες λύσεις γίνονται όλο και πιο λεπτές και εντοπισμένες με την εκπαίδευση, υποδεικνύοντας ότι ο επικυρωτής ωθεί τον δόλιο prover να δημιουργήσει αντίθετα παραδείγματα που είναι πιο κοντά στην αληθινή λύση.
  • Καθώς ο αριθμός των εποχών εκπαίδευσης αυξάνεται, η ακρίβεια των ανθρώπινων αξιολογητών στον ύπουλο παρόχου μειώνεται.
Ακόμη ένα πράγμα

Δεδομένου ότι η ομάδα Super Alignment που παρήγαγε αυτήν την έρευνα διαλύθηκε και είναι πλέον υπεύθυνη για ζητήματα ασφάλειας, η στρατηγική ασφαλείας του OpenAI έλαβε για άλλη μια φορά ευρεία προσοχή.

Σχετικά με αυτό το θέμα, η CTO του OpenAI, Mira Murati, δέχτηκε μια αποκλειστική συνέντευξη στο Πανεπιστήμιο Johns Hopkins νωρίτερα αυτό το μήνα.

Η Mira είπε κατά τη διάρκεια αυτής της περιόδου ότι το OpenAI δεν "έθεσε το προϊόν (προτεραιότητα) πάνω από την ασφάλεια", όπως κατηγόρησε ο Jan Leike, ο πρώην επικεφαλής της Super Alignment Team.

Ταυτόχρονα, είπε επίσης ότι παρόλο που η ομάδα Super Alignment έχει διαλυθεί, η Super Alignment είναι στην πραγματικότητα μόνο μία από τις πολλαπλές ομάδες ασφαλείας του OpenAI και πολλά άτομα στην εταιρεία εξακολουθούν να ασχολούνται με την ασφάλεια.



Σύνδεσμοι αναφοράς:
[1]https://openai.com/index/prover-verifier-games-improve-legibility/
[2]https://venturebeat.com/ai/openai-used-a-game-to-help-ai-models-explain-themselves-better/
[3]https://x.com/__nmca__/status/1813646245602435542