Νέα

Μετά από 4 γύρους βίαιης προπόνησης, ο Llama 7B νίκησε το GPT-4! Ο Meta και άλλοι αφήνουν το "Acting Triangle" του LLM να αυτοαξιολογηθεί και να εξελιχθεί

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Νέα Έκθεση Σοφίας

Επιμέλεια: Τμήμα Σύνταξης

[Εισαγωγή στη Νέα Σοφία]Η Meta, το UC Berkeley και το NYU πρότειναν από κοινού ένα μοντέλο γλώσσας μετα-ανταμοιβής για να παρέχει μια σαφή διαδρομή για "σούπερ ευθυγράμμιση": αφήστε την τεχνητή νοημοσύνη να είναι ο διαιτητής του εαυτού της, να αυτοβελτιωθεί η ευθυγράμμιση και το αποτέλεσμα θα είναι ταχύτερο από την αυτο-ανταμοιβή μοντέλο.

Το LLM καταναλώνει πολλά δεδομένα, όχι μόνο στο προεκπαιδευτικό σώμα, αλλά και στα στάδια ευθυγράμμισης όπως το RLHF και το DPO.

Το τελευταίο όχι μόνο βασίζεται σε ακριβά δεδομένα χειροκίνητου σχολιασμού, αλλά είναι επίσης πιθανό να περιορίσει την περαιτέρω ανάπτυξη του LLM σε ανθρώπινο επίπεδο.

Τον Ιανουάριο του τρέχοντος έτους, ομάδες από το Meta και το NYU πρότειναν έναν μηχανισμό αυτο-επιβράβευσης για γλωσσικά μοντέλα, χρησιμοποιώντας τον μηχανισμό προτροπής LLM-as-a-Judge για να επιτρέψει στο μοντέλο να παρέχει αυτοανατροφοδότηση κατά τη διάρκεια της εκπαίδευσης.


Διεύθυνση χαρτιού: https://arxiv.org/abs/2401.10020

Η εργασία διαπίστωσε ότι ακόμη και χωρίς να βασίζεται σε ανθρώπινους σχολιαστές, το LLM μπορεί να επιτύχει βελτιώσεις στην απόδοση αξιολογώντας τις δικές του απαντήσεις.

Πρόσφατα, αυτή η ομάδα δημοσίευσε μια άλλη μελέτη που ανέβασε το θέμα της «αυτο-ανταμοιβής» του LLM σε υψηλότερο επίπεδο.


Διεύθυνση χαρτιού: https://arxiv.org/abs/2407.19594

Σε τελική ανάλυση, βαθμολογείτε τον εαυτό σας, επομένως δεν μπορείτε να εστιάσετε μόνο στο πώς το μοντέλο ως ηθοποιός βελτιστοποιεί από τα σχόλια, πρέπει επίσης να διασφαλίσετε ότι το μοντέλο ως κριτής έχει εξαιρετικές ικανότητες αυτοαξιολόγησης.

Η προηγούμενη έρευνα εστίαζε υπερβολικά στο πρώτο και αγνόησε το δεύτερο, με αποτέλεσμα τον πολύ γρήγορο κορεσμό της απόδοσης κατά την επαναληπτική προπόνηση.

Είναι ακόμη δυνατό να προκληθεί κάτι χειρότερο από τον κορεσμό, δηλαδή την υπερβολική προσαρμογή στο σήμα ανταμοιβής (hacking ανταμοιβής).

Ως εκ τούτου, ερευνητές από το Meta, το NYU, το UC Berkeley και άλλα ιδρύματα έχουν προτείνει ότι πρέπει να προστεθεί ένα βήμα "μετα-ανταμοιβής" - επιτρέποντας στο μοντέλο να αξιολογήσει τη δική του αξιολόγηση, βελτιώνοντας έτσι τις δυνατότητες αξιολόγησης.


Αν και ακούγεται λίγο περίπλοκο, είναι στην πραγματικότητα λογικό. Και το πείραμα διαπίστωσε ότι η προσθήκη αυτού του στρώματος φωλιάς έχει σημαντικό αποτέλεσμα βελτίωσης.

Για παράδειγμα, το ποσοστό νίκης του Llama-3-8B-Instruct αυξήθηκε από 22,9% σε 39,4% στο AlpacaEval 2, το οποίο είναι καλύτερο από το GPT-4 στο Arena-Hard, αυξήθηκε από 20,6% σε 29,1%.

Εάν η έρευνα που δημοσιεύτηκε τον Ιανουάριο του τρέχοντος έτους ήταν LLM-as-a-Judge, τότε η «μετα-ανταμοιβή» που προτείνεται σε αυτό το άρθρο είναι ισοδύναμη με το LLM-as-a-Meta-Judge.

Ο Judge όχι μόνο δεν απαιτεί ανθρώπους, αλλά ο Meta-Judge είναι επίσης αυτάρκης, κάτι που φαίνεται να αποτελεί περαιτέρω απόδειξη ότι η αυτοβελτίωση του μοντέλου μπορεί να απαλλαγεί από την εξάρτηση από την ανθρώπινη επίβλεψη.

Ο επιστήμονας της Meta Yann LeCun διαβίβασε επίσης αυτή τη μελέτη και έκανε ο ίδιος ένα λογοπαίγνιο——


Ο Meta-Judge που προτείνεται από τον Meta, μπορεί το FAIR να επιτύχει δικαιοσύνη;

Η έρευνα δεν είναι σημαντική, αυτό που έχει σημασία είναι ότι η έκθεση του Meta FAIR είναι πλήρης.


Meta-Rewarding

Για να το πούμε πιο ωμά, η μέθοδος «μετα-ανταμοιβής» είναι η εισαγωγή του μετα-κριτή στην αρχική αλληλεπίδραση ηθοποιού-κριτή και το ίδιο μοντέλο «στολίζει το τρίγωνο» χωρίς τη συμμετοχή πρόσθετων ανθρώπινων δεδομένων.


Μεταξύ αυτών, ο ηθοποιός είναι υπεύθυνος για τη δημιουργία μιας απάντησης σε μια δεδομένη προτροπή, ο κριτής είναι υπεύθυνος για την αξιολόγηση και τη βαθμολόγηση της δικής του απάντησης και ο μετακριτής συγκρίνει την ποιότητα των δικών του βαθμολογιών.

Ο απώτερος στόχος βελτιστοποίησης είναι να ελπίζουμε ότι ο ηθοποιός μπορεί να δημιουργήσει καλύτερες απαντήσεις, αλλά η αποτελεσματικότητα της εκπαίδευσης εξαρτάται από την ακρίβεια του κριτή.

Επομένως, ο μετα-κριτής παίζει το ρόλο του εκπαιδευτικού κριτή και μπορεί να βελτιώσει την απόδοση του μοντέλου τόσο ως ηθοποιός όσο και ως κριτής ταυτόχρονα.

Το επαναληπτικό μοντέλο εκπαίδευσης που αποτελείται από αυτούς τους τρεις ρόλους φαίνεται στο Σχήμα 1. Στο t-ο βήμα, συλλέγεται πρώτα η απόκριση του μοντέλου M_t στην προτροπή x και στη συνέχεια ζητείται από τον M_t να αξιολογήσει τον εαυτό του, λαμβάνοντας έτσι τις προτιμήσεις για την εκπαίδευση των ηθοποιών δεδομένα.

Στη συνέχεια, δεδομένου του ίδιου περιεχομένου απάντησης y, αφήστε το M_t να δημιουργήσει διάφορες παραλλαγές διαφορετικών αξιολογήσεων, οι οποίες βαθμολογούνται και ταξινομούνται από τον μετακριτή, λαμβάνοντας έτσι τα δεδομένα προτίμησης που χρησιμοποιούνται για την εκπαίδευση του κριτή.

Συνδυάζοντας τους δύο παραπάνω τύπους δεδομένων προτιμήσεων, η μέθοδος DPO χρησιμοποιείται για τη βελτιστοποίηση της προτίμησης του μοντέλου M_t και ολοκληρώνεται ένας γύρος επανάληψης για να ληφθεί το μοντέλο M_(t+1).

προτίμηση μήκους

Προηγούμενη εργασία διαπίστωσε ότι το μοντέλο που ενεργεί ως κριτής θα προτιμήσει μεγαλύτερες απαντήσεις, οι οποίες θα οδηγήσουν σε μια «έκρηξη μήκους» των απαντήσεων μετά από πολλαπλούς γύρους επαναλήψεων.

Επομένως, ο συγγραφέας εισάγει έναν απλό μηχανισμό "έλεγχος μήκους" - χρησιμοποιώντας την παράμετρο ρ∈[0,1] για να ζυγίσει τη βαθμολογία του κριτή και το μήκος του κειμένου απάντησης.

Για παράδειγμα, για την απόκριση μοντέλου με βαθμολογία στο πρώτο κλιμάκιο, δηλαδή, το εύρος βαθμολογίας είναι [(1-ρ)Smax+ρSmin, Smax], επιλέξτε τη συντομότερη απόκριση ως βέλτιστη απάντηση.

Δημιουργία δεδομένων προτίμησης δικαστών

Πρώτον, επιλέγεται το μοντέλο απόκρισης για το οποίο ο κριτής έχει τη μικρότερη αυτοπεποίθηση και η βεβαιότητα του κριτή μετριέται με την κλασματική διακύμανση. Για κάθε επιλεγμένη απάντηση y, έχουμε το πολύ N αντίστοιχες αξιολογήσεις μοντέλου {j1, …, jN}.

Στη συνέχεια, κάθε ζεύγος (jm, jn) αξιολογείται κατά ζεύγη, χρησιμοποιώντας το πρότυπο προτροπής μετα-κριτή που φαίνεται στο Σχήμα 2.


Εκτός από την παροχή αποτελεσμάτων αξιολόγησης, ο μετα-κριτής πρέπει επίσης να δημιουργήσει μια διαδικασία συλλογιστικής CoT.

Προκειμένου να μειωθεί η πιθανή προτίμηση θέσης του μετακριτή (που μπορεί να τείνει να επιλέξει την κρίση Α που εμφανίζεται πρώτη), η σειρά του ίδιου ζεύγους δεδομένων (jm, jn) θα ανταλλάσσεται για να επιτραπεί στον μετακριτή να αξιολογήσει δύο φορές, και θα ληφθεί ένα μόνο αποτέλεσμα rmn:


Οι παράμετροι w1 και w2 εισάγονται για να χαρακτηρίσουν πιθανές προτιμήσεις θέσης:


Μεταξύ αυτών, η win1st και η win2nd υποδεικνύουν πόσες φορές κέρδισαν οι αξιολογήσεις των δύο θέσεων κατά τη διάρκεια ολόκληρης της διαδικασίας αξιολόγησης του meta-judge.

Χρησιμοποιήστε τις παραπάνω μεταβλητές για να κατασκευάσετε μια "μήτρα μάχης" Β για να καταγράψετε το τελικό αποτέλεσμα κάθε φορά:


Χρησιμοποιώντας τη βαθμολογία Elo, η βαθμολογία μετα-ανταμοιβής που εκχωρείται από τον μετα-κριτή σε κάθε κριτή μπορεί να υπολογιστεί από τον πίνακα Β.


Ο συγγραφέας διαπίστωσε ότι ο μετα-κριτής, όπως και ο κριτής, δείχνει επίσης «προτίμηση μήκους» και τείνει να επιλέγει μακροσκελείς απόψεις αξιολόγησης.

Προκειμένου να αποφευχθεί η υπερβολική παρουσίαση του τελικού εκπαιδευμένου μοντέλου, ελήφθησαν επίσης μέτρα φιλτραρίσματος κατά την κατασκευή του συνόλου δεδομένων κριτών. Εάν οι γνωμοδοτήσεις αξιολόγησης που επιλέχθηκαν από τον μετακριτή υπερβαίνουν ένα ορισμένο μήκος, ολόκληρο το ζεύγος δεδομένων θα απορριφθεί απευθείας.

Πείραμα αξιολόγησης

Προετοιμασία πειράματος

Το πείραμα χρησιμοποιεί το Llama-3-8B-Instruct ως βασικό μοντέλο και άλλες πειραματικές ρυθμίσεις είναι συνεπείς με την προηγούμενη δημοσιευμένη εργασία "Self-Rewarding Language Models".

Πριν από την εκπαίδευση μετα-ανταμοιβής, το πείραμα πραγματοποίησε πρώτα εποπτευόμενη λεπτομέρεια (SFT) στο μοντέλο σποράς στο σύνολο δεδομένων EFT (Evaluation Fine-Tuning).

Το σύνολο δεδομένων EFT είναι χτισμένο με βάση το Open Assistant και παρέχει αρχικά δεδομένα εκπαίδευσης LLM-as-a-Judge, που περιέχουν ταξινομημένες ανθρώπινες αποκρίσεις για να εκπαιδεύσει το μοντέλο να ενεργεί ως κριτής.

Για την επανάληψη μετα-ανταμοιβής, το πείραμα χρησιμοποιεί 20.000 προτροπές, που δημιουργούνται από το Llama-2-70B-Chat μέσω προτροπών 8 λήψεων.


Όπως φαίνεται στο παραπάνω σχήμα, τα συνθήματα που χρησιμοποιούνται για την προπόνηση είναι πιο κοντά σε κατανομή με το σύνολο δεδομένων AlpacaEval, ενώ τα συνθήματα του Arena-Hard συγκεντρώνονται σε ένα υποσύνολο των συνθηκών εκπαίδευσης.

Για κάθε επανάληψη, το πείραμα έλαβε δείγμα 5.000 συνθημάτων από αυτό το σύνολο σπόρων, για συνολικά τέσσερις επαναλήψεις.

Η επαναληπτική διαδικασία έχει ως εξής:

- Iter 1: Ξεκινώντας από το αρχικό μοντέλο SFT, χρησιμοποιήστε το DPO (Direct Preference Optimization) για να εκπαιδεύσετε τα δημιουργημένα ζεύγη προτιμήσεων ηθοποιών και κριτών για να αποκτήσετε M1.

- Iter 2: Χρησιμοποιήστε το DPO για να εκπαιδεύσετε τα ζεύγη προτιμήσεων ηθοποιών και κριτών που δημιουργούνται από το M1 για να αποκτήσετε M2.

- Iter 3/4: Χρησιμοποιήστε το DPO για να εκπαιδεύσετε μόνο τα ζεύγη προτιμήσεων ηθοποιών που δημιουργούνται από το M2/M3 και να αποκτήσετε M3/M4.

Κάθε προτροπή προκαλεί το μοντέλο να δημιουργήσει K = 7 αποκρίσεις, για ένα σύνολο 35.000 απαντήσεων ανά επανάληψη. Στη συνέχεια, φιλτράρουμε τις ίδιες απαντήσεις (συνήθως αφαιρώντας όχι περισσότερα από 50 διπλότυπα).

Στη συνέχεια, N = 11^2 διαφορετικές κρίσεις δημιουργούνται για κάθε απόκριση χρησιμοποιώντας τις ίδιες παραμέτρους δειγματοληψίας.

μέθοδος αξιολόγησης

Ο στόχος του μοντέλου μετα-ανταμοιβής είναι να επιτρέψει στο μοντέλο να «δράσει» και να «αξιολογήσει» από μόνο του, επομένως τα πειράματα πρέπει επίσης να αξιολογήσουν πώς το μοντέλο αποδίδει σε αυτούς τους δύο ρόλους.

Το βασικό μοντέλο είναι το μοντέλο αυτο-ανταμοιβής που προτείνεται στην προαναφερθείσα εργασία, με τον ίδιο μηχανισμό «έλεγχος μήκους», ο οποίος μπορεί να συγκρίνει άμεσα τα κέρδη απόδοσης που επιφέρει ο μηχανισμός μετα-ανταμοιβής.

Αρχικά, ας δούμε πώς να κρίνουμε πόσο καλή είναι η «υποκριτική».

Το πείραμα χρησιμοποιεί τρία σημεία αναφοράς αυτόματης αξιολόγησης που βασίζονται στο GPT4-as-a-Judge, συμπεριλαμβανομένων των AlpacaEval 2, Arena-Hard και MT-Bench, καθένα από τα οποία εστιάζει σε διαφορετικές πτυχές του μοντέλου.

Για παράδειγμα, το AlpacaEval εστιάζει σε σενάρια συνομιλίας και το σύνολο προτροπών καλύπτει μια ποικιλία καθημερινών προβλημάτων.

Αντίθετα, το Arena-Hard περιέχει πιο σύνθετα ή προκλητικά προβλήματα που πληρούν περισσότερα κριτήρια σε 7 προκαθορισμένους τομείς (δημιουργικότητα, πολυπλοκότητα, επίλυση προβλημάτων κ.λπ.).

Το MT-Bench έχει 8 διαφορετικές κατηγορίες ερωτήσεων, οι οποίες αξιολογούν κυρίως τις δυνατότητες διαλόγου πολλαπλών στροφών του μοντέλου.

Από την άλλη πλευρά, προκειμένου να αξιολογηθεί πόσο καλά «αξιολογούν» οι κριτές του LLM, το πείραμα μέτρησε τη συσχέτιση μεταξύ των βαθμολογιών που δίνονται από το LLM και των ανθρώπινων προτιμήσεων. Εάν δεν υπάρχουν διαθέσιμα δεδομένα με επισήμανση ανθρώπου, χρησιμοποιείται ένας ισχυρότερος κριτής AI.

οδηγίες ακολουθήστε την αξιολόγηση

Το Σχήμα 3 δείχνει το ποσοστό νίκης της μεθόδου μετα-ανταμοιβής (με μηχανισμό ελέγχου μήκους) στο σημείο αναφοράς AlpacaEval ως συνάρτηση των επαναλήψεων εκπαίδευσης.

Συνολικά, το ποσοστό νίκης των meta-ανταμοιβών έχει αυξηθεί σημαντικά από 22,9% σε 39,4%, υπερβαίνοντας το GPT-4 και πλησιάζοντας το μοντέλο Claude Opus.


Λαμβάνοντας υπόψη ότι το μέγεθος της παραμέτρου του μοντέλου σποράς είναι μόνο 8Β και δεν εισάγονται πρόσθετα τεχνητά δεδομένα εκτός από το σύνολο δεδομένων EFT που χρησιμοποιείται στο στάδιο SFT, αυτό είναι ένα πολύ εξαιρετικό αποτέλεσμα.

Επιπλέον, τα αποτελέσματα αποδεικνύουν επίσης τη σημασία των μηχανισμών μετα-κριτή και ελέγχου μήκους.

Όταν το μοντέλο αυτο-ανταμοιβής εκπαιδεύεται για περισσότερους από 3 γύρους, αρχίζει να δείχνει σημάδια κορεσμού, αλλά το μοντέλο με μετα-ανταμοιβές δεν έχει και εξακολουθεί να διατηρεί την αύξηση της απόδοσης μέχρι τον 4ο γύρο.

Αυτό καταδεικνύει τη σημασία των ικανοτήτων αξιολόγησης του μοντέλου εκπαίδευσης και την αποτελεσματικότητα του ρόλου του μετακριτή.

Όπως φαίνεται στον Πίνακα 1, μετά από 4 γύρους επανάληψης, το μέσο μήκος απόκρισης (σε χαρακτήρες) δεν έχει αυξηθεί σημαντικά είτε πρόκειται για το μοντέλο αυτο-ανταμοιβής είτε για το μοντέλο μετα-ανταμοιβής, αποδεικνύοντας την αποτελεσματικότητα του μηχανισμού ελέγχου μήκους.


Ο μηχανισμός ανταμοιβής γιουάν έχει τις ακόλουθες τρεις προφανείς βελτιώσεις.

Πρώτον, υποδιαιρώντας τις 805 κατηγορίες στο AlpacaEval σε 18 κατηγορίες για λεπτομερή ανάλυση, μπορούμε να δούμε ότι η μετα-ανταμοιβή βελτιώνει τις απαντήσεις σχεδόν σε όλες τις κατηγορίες (Εικόνα 4), συμπεριλαμβανομένων θεμάτων που απαιτούν πολλή γνώση και συλλογισμό, όπως η Επιστήμη ). gaming, λογοτεχνία κ.λπ.

Αξίζει να σημειωθεί ότι στις δύο κατηγορίες Ταξιδιών και Μαθηματικών τα μοντέλα δεν έχουν σημειώσει σημαντική βελτίωση.


Δεύτερον, οι μετα-ανταμοιβές βελτιώνουν τις απαντήσεις σε πολύπλοκες και δύσκολες ερωτήσεις.

Το πείραμα χρησιμοποιεί περαιτέρω το Arena-Hard για να αξιολογήσει την απόδοση της μεθόδου μετα-ανταμοιβής στην απάντηση σε περίπλοκες και προκλητικές ερωτήσεις.

Τα αποτελέσματα της αξιολόγησης στον Πίνακα 2 δείχνουν ότι οι μετα-ανταμοιβές μπορούν να βελτιώσουν τις βαθμολογίες σε 4 επαναλήψεις, μια σημαντική βελτίωση 8,5% σε σύγκριση με το μοντέλο σπόρων (20,6%).


Τρίτον, η μετα-ανταμοιβή δεν θυσιάζει την ικανότητα πολλαπλών γύρων διαλόγου ακόμη και όταν εκπαιδεύεται μόνο ένας μόνο γύρος διαλόγου.

Η εργασία διεξάγει αξιολόγηση MT-Bench για να εξετάσει την απώλεια δυνατοτήτων διαλόγου πολλαπλών γύρων όταν προπονείται μόνο με δεδομένα ενός γύρου.

Τα αποτελέσματα φαίνονται στον παρακάτω πίνακα 4 επαναλήψεις του μοντέλου μετα-ανταμοιβής βελτίωσαν σημαντικά τη βαθμολογία διαλόγου του πρώτου γύρου από 8,319 (μοντέλο σποράς) σε 8,738, ενώ η βαθμολογία του δεύτερου γύρου μειώθηκε μόνο κατά 0,1.


Αυτή είναι μια τεράστια βελτίωση σε σχέση με το Self-Rewarding + Length Control (Self-Rewarding + LC) στο βασικό μοντέλο, καθώς το τελευταίο συνήθως έπεφτε περισσότερο από 0,2 στη βαθμολογία συνομιλίας του δεύτερου γύρου χωρίς να βελτιωθεί η βαθμολογία συνομιλίας του πρώτου γύρου.

Αξιολόγηση μοντέλου ανταμοιβής

Το πείραμα αξιολόγησε την ακρίβεια του μοντέλου στην κρίση της απόκρισης που παράγεται από το μοντέλο σπόρων Llama3-8B-Instruct.

Ελλείψει χειροκίνητου σχολιασμού, οι συγγραφείς επέλεξαν να μετρήσουν τη συσχέτιση βαθμολογίας μεταξύ του μοντέλου μετα-ανταμοιβής και του τρέχοντος μοντέλου ισχυρότερης κρίσης gpt-4-1106-preview.

Η ανάλυση χρησιμοποιεί δύο ελαφρώς διαφορετικές ρυθμίσεις, η κύρια διαφορά είναι ο τρόπος με τον οποίο χειρίζονται τους δεσμούς που δίνονται από το μοντέλο κρίσης, επομένως χρησιμοποιούνται δύο μετρήσεις: μια βαθμολογία συμφωνίας που μετράει τους δεσμούς ως 0,5 και μια συμφωνία που απορρίπτει το κλάσμα αποτελεσμάτων ισοπαλίας.

Τα αποτελέσματα έδειξαν ότι η ικανότητα κρίσης του μοντέλου βελτιώθηκε μετά την προπόνηση.

Η ανάλυση στον Πίνακα 3 δείχνει ότι η συσχέτιση μεταξύ μετα-ανταμοιβών και του ισχυρού μοντέλου κρίσης GPT-4 είναι σημαντικά βελτιωμένη σε σύγκριση με το βασικό μοντέλο και στις δύο ρυθμίσεις αξιολόγησης.


Αυτά τα αποτελέσματα δείχνουν ότι η μέθοδος μετα-ανταμοιβής μπορεί να βελτιώσει την ικανότητα κρίσης του μοντέλου, καθιστώντας τα αποτελέσματα αξιολόγησής του πιο κοντά σε αυτά του πιο σύνθετου γλωσσικού μοντέλου GPT-4.

Επιπλέον, τα πειράματα συνέκριναν τη συσχέτιση μεταξύ των αποτελεσμάτων κρίσης μοντέλων και της κατάταξης ανθρώπινης απόκρισης στο σύνολο δεδομένων Open Assistant (Πίνακας 7) και διαπίστωσαν ότι η εκπαίδευση μετα-ανταμοιβής βελτίωσε τη συσχέτιση με τις ανθρώπινες κρίσεις.


Ωστόσο, αυτή η βελτίωση δεν παρέμεινε στις επόμενες επαναλήψεις εκπαίδευσης, πιθανώς λόγω των διαφορών κατανομής μεταξύ των αποκρίσεων που δημιουργούνται από το μοντέλο και των ανθρώπινων αποκρίσεων.

αναλύει

μηχανισμός ελέγχου μήκους

Οι μηχανισμοί ελέγχου μήκους είναι κρίσιμοι για τη διατήρηση μιας ισορροπίας μεταξύ της πληρότητας και της απλότητας των αποκρίσεων του μοντέλου.

Το πείραμα συνέκρινε τα αποτελέσματα διαφορετικών παραμέτρων ελέγχου μήκους ρ στην τελευταία επανάληψη εκπαίδευσης, όπως φαίνεται στον Πίνακα 4:


ρ = 0, που ισοδυναμεί με κανένα έλεγχο μήκους στην επιλογή δεδομένων προτίμησης.

Όπως ήταν αναμενόμενο, αυτή η μέθοδος εκπαίδευσης κάνει τις αποκρίσεις που δημιουργούνται από το μοντέλο να γίνονται πολύ μακροσκελείς και το ποσοστό κέρδους LC μειώνεται.

Εκπαίδευση με χρήση εξωτερικών μοντέλων ανταμοιβής

Ο μηχανισμός μετα-ανταμοιβής επιτρέπει στο μοντέλο να ενεργεί ως κριτής για να αξιολογήσει τη δική του απόκριση. Το πείραμα προσπάθησε να χρησιμοποιήσει το ισχυρό εξωτερικό μοντέλο ανταμοιβής Starling-RM-34B.

Ωστόσο, διαπιστώθηκε ότι το StarlingRM-34B απέτυχε να βελτιώσει το ποσοστό νίκης LC του AlpacaEval στην πρώτη επανάληψη (24,63% έναντι 27,85%), πιθανώς λόγω της προκατάληψης του μήκους του.

μεροληψία μετα-δικαστή

Μετά την πρώτη επανάληψη της εκπαίδευσης μετα-ανταμοιβής, ο μετα-κριτής σχεδόν πάντα προτιμά κρίσεις με υψηλότερες βαθμολογίες, όπως φαίνεται στον Πίνακα 5.


Αυτή η μεροληψία βαθμολογίας γέρνει σημαντικά την κατανομή των βαθμολογιών κρίσης προς την τέλεια βαθμολογία 5. Για την προκατάληψη θέσης, βλέπουμε επίσης μια τάση αύξησης κατά τη διάρκεια της προπόνησης, ειδικά όταν συγκρίνουμε δύο κρίσεις της ίδιας βαθμολογίας.

Αλλαγές βαθμολογίας κρίσης: Για τη διερεύνηση των αλλαγών στην κατανομή της βαθμολογίας κρίσης κατά τη διάρκεια επαναλήψεων εκπαίδευσης μετα-ανταμοιβής, τα πειράματα χρησιμοποίησαν τις ίδιες οδηγίες επικύρωσης με την αξιολόγηση μοντελοποίησης ανταμοιβής.

Χρησιμοποιήστε το Llama-3-8B-Instruct για να δημιουργήσετε 7 απαντήσεις σε κάθε προτροπή και, στη συνέχεια, 11 κρίσεις για κάθε απάντηση. Το Σχήμα 5 είναι μια απεικόνιση της κατανομής βαθμολογίας και η πυκνότητα υπολογίζεται χρησιμοποιώντας την πυκνότητα του πυρήνα Gauss.


Μπορεί να φανεί ότι η χρήση της κρίσης εκπαίδευσης μετα-κριτών αυξάνει περαιτέρω την πιθανότητα δημιουργίας υψηλών βαθμολογιών.

Ωστόσο, οι δύο πρώτες επαναλήψεις της εκπαίδευσης στην κρίση έτειναν να αποδίδουν βαθμολογίες 4,5, 4,75 και 4,9, οι οποίες είχαν εντολή να είναι ακέραιοι.

Αν και πρόκειται για υψηλές βαθμολογίες, παρέχουν μια πιο λεπτομερή ικανότητα διαφοροποίησης μεταξύ απαντήσεων διαφορετικών ποιοτήτων.

Συμπερασματικά

Το πείραμα προτείνει έναν νέο μηχανισμό για τη βελτίωση της ικανότητας κρίσης του μοντέλου χρησιμοποιώντας μετα-κριτή για την κατανομή μετα-ανταμοιβών στο μοντέλο ως κριτή.

Αυτό λύνει έναν σημαντικό περιορισμό του πλαισίου αυτο-επιβράβευσης, που είναι η έλλειψη εκπαίδευσης στην ικανότητα κρίσης του μοντέλου.

Προκειμένου να γίνει πιο αποτελεσματική η προπόνηση μετα-ανταμοιβής, το πείραμα εισήγαγε επίσης μια νέα τεχνολογία ελέγχου μήκους για να ανακουφίσει το πρόβλημα έκρηξης μήκους που εμφανίζεται όταν χρησιμοποιείται η ανατροφοδότηση AI για εκπαίδευση.

Η αποτελεσματικότητα της μεθόδου μετα-ανταμοιβής έχει επίσης επαληθευτεί μέσω των σημείων αναφοράς αυτόματης αξιολόγησης AlpacaEval, Arena-Hard και MT-Bench.

Συγκεκριμένα, αυτή η μέθοδος βελτιώνει σημαντικά το Llama-3-8B-Instruct ακόμη και χωρίς πρόσθετη ανθρώπινη ανατροφοδότηση και ξεπερνά τις ισχυρές βασικές μεθόδους Self-Rewarding και SPPO που βασίζονται σε μεγάλες ποσότητες ανθρώπινης ανατροφοδότησης.

Επιπλέον, όταν αξιολογήθηκε η ικανότητα κρίσης του μοντέλου, έδειξε σημαντικές βελτιώσεις στη συσχέτιση με ανθρώπινους κριτές και ισχυρούς κριτές τεχνητής νοημοσύνης όπως το gpt-4-1106-preview.

Συνολικά, τα ευρήματα παρέχουν ισχυρές ενδείξεις ότι τα μοντέλα αυτοβελτίωσης χωρίς ανθρώπινη ανάδραση είναι μια πολλά υποσχόμενη κατεύθυνση για την επίτευξη σούπερ ευθυγράμμισης.

Βιβλιογραφικές αναφορές:

https://arxiv.org/pdf/2407.19594