Το OpenAI κυκλοφορεί PVG: Χρησιμοποιήστε μικρά μοντέλα για να επαληθεύσετε μεγάλες εξόδους μοντέλων για να λύσετε το "μαύρο κουτί" problem

Το OpenAI κυκλοφορεί PVG: Χρησιμοποιήστε μικρά μοντέλα για να επαληθεύσετε την έξοδο μεγάλου μοντέλου για να λύσετε το πρόβλημα του "μαύρου κουτιού"

2024-07-18

Τα ξημερώματα της 18ης Ιουλίου, το OpenAI κυκλοφόρησε την τελευταία τεχνολογική έρευνα-Prover-Verifier- στην επίσημη ιστοσελίδα τουΠαιχνίδια。

Καθώς το ChatGPT χρησιμοποιείται ευρέως σε τομείς όπως το δίκαιο, τα οικονομικά και το μάρκετινγκ, είναι πολύ σημαντικό να διασφαλιστεί ότι το αποτέλεσμα του μοντέλου είναι ασφαλές, ακριβές και καλά κατανοητό. Ωστόσο, λόγω της πολυπλοκότητας και της μεταβλητότητας των νευρωνικών δικτύων, απλά δεν μπορούμε να επαληθεύσουμε την ακρίβεια του περιεχομένου που παράγουν, κάτι που θα έχει ως αποτέλεσμα ένα «μαύρο κουτί».

Προκειμένου να λυθεί αυτό το πρόβλημα, το OpenAI πρότεινε ένα νέο πλαίσιο εκπαίδευσης Παιχνίδια Prover-Verifier ("PVG" για παράδειγμα, μικρά μοντέλα όπως το GPT-3 χρησιμοποιούνται για την επαλήθευση και την επίβλεψη της παραγωγής του μεγάλου μοντέλου GPT-4). , βελτιώνοντας έτσι την ακρίβεια και τη δυνατότητα ελέγχου.

Στην πραγματικότητα, η έννοια της τεχνολογίας PVG προτάθηκε ήδη από τον Αύγουστο του 2021 σε μια εργασία , το OpenAI εμπνεύστηκε επίσης από αυτή την έμπνευση. Αυτή είναι μια μέθοδος εκπαίδευσης που βασίζεται στη θεωρία παιγνίων που βελτιώνει την ποιότητα εξόδου του μοντέλου προσομοιώνοντας την αλληλεπίδραση μεταξύ του prover και του επαληθευτή.

Σε αυτόν τον μηχανισμό, το καθήκον του Prover είναι να δημιουργήσει περιεχόμενο και το καθήκον του Verifier είναι να καθορίσει εάν το περιεχόμενο είναι σωστό.

Η βασική ιδέα της μονάδας PVG είναι να βελτιώσει τη συνολική απόδοση του prover και του επαληθευτή μέσω πολλαπλών κύκλων επαναληπτικής εκπαίδευσης. Σε κάθε γύρο εκπαίδευσης, ο επαληθευτής χρησιμοποιεί πρώτα την εποπτευόμενη μάθηση για να προβλέψει την ορθότητα του περιεχομένου που δειγματολήφθηκε από τους δοκιμαστές του προηγούμενου γύρου.

Ο σκοπός αυτού είναι να επιτρέψει στον επαληθευτή να μάθει πώς να προσδιορίζει τη σωστή απάντηση από μεγάλο όγκο περιεχομένου. Στη συνέχεια, ο prover χρησιμοποιεί την ενισχυτική μάθηση για να βελτιστοποιήσει το παραγόμενο περιεχόμενό του, ώστε να είναι όχι μόνο σωστό αλλά και πειστικό για τον επαληθευτή.

Στη διαδικασία επαλήθευσης, οι ρόλοι του prover και του επαληθευτή είναι αλληλεξαρτώμενοι.Ο επαληθευτής πρέπει να δημιουργήσει περιεχόμενο που να πείθει τον επαληθευτή και ο επαληθευτής πρέπει να έχει αρκετή κρίση για να προσδιορίσει το σωστό περιεχόμενο。

Προκειμένου να βελτιώσει περαιτέρω την αποτελεσματικότητα, το OpenAI έχει σχεδιάσει δύο βελτιωμένους τύπους prover σε αυτή τη βάση, Helpfulprover και Sneaky prover.

Ο στόχος ενός χρήσιμου prover είναι να δημιουργήσει περιεχόμενο που είναι σωστό και πειστικό. Βελτιστοποιεί το περιεχόμενο που δημιουργεί έτσι ώστε να μπορεί να γίνει αποδεκτό από τους επικυρωτές.

Οι πονηροί επαληθευτές προσπαθούν να εξαπατήσουν τους επαληθευτές δημιουργώντας εσφαλμένο αλλά εξίσου πειστικό περιεχόμενο. Αυτός ο σχεδιασμός όχι μόνο αυξάνει τη δυσκολία της εκπαίδευσης, αλλά απαιτεί επίσης από τον επαληθευτή να έχει υψηλότερη κρίση και στιβαρότητα.

Κατά την εκπαίδευση του PVG, κάθε κύκλος εκπαίδευσης περιλαμβάνει βελτιστοποίηση του επαληθευτή και του prover. Σε κάθε γύρο, ο επαληθευτής χρησιμοποιεί πρώτα την εποπτευόμενη μάθηση για να προβλέψει την ορθότητα του περιεχομένου, βοηθώντας τον επαληθευτή να μάθει πώς να αναγνωρίζει τη σωστή απάντηση από μεγάλο όγκο περιεχομένου. Επιτρέπει στους παρόχους να βελτιστοποιήσουν το παραγόμενο περιεχόμενό τους μέσω της ενισχυτικής μάθησης.

Για παράδειγμα, όταν ένας χρήστης κάνει την ερώτηση "Ο πατέρας της Shauna είναι 5 φορές μεγαλύτερος από την ηλικία της Shauna. Αυτή τη στιγμή η Shauna είναι 3 φορές μεγαλύτερη από την ηλικία της Aaliyah. Εάν η Aaliyah είναι 3 ετών, πόσο χρονών είναι ο πατέρας της Shauna;"

Η έξοδος του GPT-4 είναι 45 ετών.

Το μοντέλο επαλήθευσης GPT-3 πρέπει να προσδιορίσει την ηλικία της Alya, στη συνέχεια να υπολογίσει την ηλικία της Shauna με βάση την ηλικία της Alya και, τέλος, να υπολογίσει την ηλικία του πατέρα της Shauna με βάση την ηλικία της Shauna. Η όλη διαδικασία απαιτεί πολλαπλούς γύρους επαλήθευσης.

Επιπλέον, κατά τη διάρκεια της εκπαιδευτικής διαδικασίας, το OpenAI εισήγαγε επίσης μια μέθοδο που ονομάζεται «εκπαίδευση με δυνατότητα ελέγχου».

Επαληθεύστε την ορθότητα της χρήσης εποπτευόμενης μάθησης για την πρόβλεψη λύσεων που έχουν δειγματιστεί από προηγούμενους γύρους prover εκπαιδεύοντας εναλλάξ τον επαληθευτή και τα μοντέλα prover. Ο prover χρησιμοποιεί ενισχυτική μάθηση για συνεχή βελτιστοποίηση με βάση την αποδοχή του τρέχοντος κύκλου επικυρωτών και την ορθότητα της λύσης.

Λένε οι ερευνητές , καθώς ο αριθμός των κύκλων προπόνησης αυξάνεται, η ευρωστία του επαληθευτή σταδιακά βελτιώνεται, που εκδηλώνεται με αυξημένη αντίσταση σε λανθασμένες λύσεις που δημιουργούνται από πονηρούς διαδηλωτές. Ταυτόχρονα, οι λύσεις που δημιουργούνται από χρήσιμους επιχειρηματίες γίνονται πιο ξεκάθαρες και ευκολότερες για τον άνθρωπο κατανοητές.

Ωστόσο, θα πρέπει να σημειωθεί ότι κατά την εκπαίδευση του μοντέλου επαληθευτή, απαιτείται μεγάλος αριθμός πραγματικών και ακριβών δεδομένων ετικέτας για να βελτιωθεί η ικανότητά του να διακρίνει το αληθές από το ψευδές. Με άλλα λόγια, εάν το μοντέλο επαλήθευσης που χρησιμοποιείται είναι προκατειλημμένο, το περιεχόμενο επαλήθευσης μπορεί να εξακολουθήσει να εμφανίζεται παράνομα.

Το υλικό αυτού του άρθρου προέρχεται από τον επίσημο ιστότοπο και τα έγγραφα του OpenAI Εάν υπάρχει οποιαδήποτε παράβαση, επικοινωνήστε μαζί μας για να το διαγράψουμε.

Νέα

Το OpenAI κυκλοφορεί PVG: Χρησιμοποιήστε μικρά μοντέλα για να επαληθεύσετε την έξοδο μεγάλου μοντέλου για να λύσετε το πρόβλημα του "μαύρου κουτιού"

Εισαγωγή

τα στοιχεία επικοινωνίας μου