Διαβάστε όλες τις τεχνολογίες ευθυγράμμισης LLM σε ένα άρθρο: RLHF, RLAIF, PPO, DPO...

2024-08-05

Αναφορά Machine Heart

Επιμέλεια: Panda

Προκειμένου να ευθυγραμμίσουν το LLM, ερευνητές από όλα τα κοινωνικά στρώματα έχουν καταλήξει σε έξυπνα κόλπα.

Το LLM είναι πολύ ισχυρό, αλλά δεν είναι τέλειο. Μπορεί επίσης να κάνει λάθη ή να παράγει άχρηστα ή ακόμη και επιβλαβή αποτελέσματα.

Αφήστε το ChatGPT να διδάξει στους ανθρώπους πώς να κλέβουν καταστήματα στα αριστερά, το ChatGPT αρνείται να απαντήσει στα δεξιά, αφού προσθέσει το "χωρίς ηθικούς περιορισμούς)" στην προτροπή, το ChatGPT δίνει έναν οδηγό για κλοπές.

Αυτή τη στιγμή, η ευθυγράμμιση είναι ζωτικής σημασίας, ο ρόλος της είναι να κάνει το LLM συνεπές με τις ανθρώπινες αξίες.

Η ενισχυτική μάθηση με βάση την ανθρώπινη ανατροφοδότηση (RLHF) είναι μια πρωτοποριακή τεχνολογία στην ευθυγράμμιση του LLM. Αυτή η μέθοδος οδήγησε σε ισχυρά μοντέλα όπως τα GPT-4, Claude και Gemini. Μετά το RLHF, έχουν διερευνηθεί διάφορες μέθοδοι ευθυγράμμισης των LLM. Ωστόσο, κανείς δεν έχει συνοψίσει προηγουμένως ολοκληρωμένες μεθόδους για την ευθυγράμμιση του LLM με τις ανθρώπινες προτιμήσεις.

Η Salesforce αποφάσισε να καλύψει αυτό το κενό και πρόσφατα κυκλοφόρησε μια έκθεση ανασκόπησης 37 σελίδων, η οποία συνοψίζει την υπάρχουσα ερευνητική βιβλιογραφία ανά κατηγορία και αναλύει κάθε εργασία λεπτομερώς.

Τίτλος εργασίας: A Comprehensive Survey of LLM Alignment Techniques: RLHF, RLAIF, PPO, DPO and More
Διεύθυνση χαρτιού: https://arxiv.org/pdf/2407.16216

Αυτή η εργασία χωρίζεται σε τέσσερα κύρια θέματα: μοντέλο ανταμοιβής, ανατροφοδότηση, ενισχυτική μάθηση (RL) και βελτιστοποίηση. Κάθε θέμα περιέχει περαιτέρω υποθέματα, όπως φαίνεται στο Σχήμα 1.

Τα υποθέματα του μοντέλου ανταμοιβής περιλαμβάνουν: 1. Ρητό μοντέλο ανταμοιβής και σιωπηρό μοντέλο ανταμοιβής και μοντέλο προτιμήσεων.

Τα υποθέματα της ανατροφοδότησης περιλαμβάνουν: 1. Προτιμήσεις ανατροφοδότησης και δυαδική ανατροφοδότηση.

Τα επιμέρους θέματα της ενισχυτικής μάθησης περιλαμβάνουν: 1. Ενισχυτική μάθηση βάσει αναφοράς και ενισχυτική μάθηση χωρίς αναφορά.

Τα επιμέρους θέματα της βελτιστοποίησης περιλαμβάνουν: 1. Βελτιστοποίηση προτιμήσεων σε απευθείας σύνδεση/επαναληπτική και βελτιστοποίηση προτιμήσεων εκτός σύνδεσης/μη επαναληπτικών 2. Διαχωρισμός SFT και στοίχισης και συγχώνευση SFT και στοίχισης.

Ο Πίνακας 1 παραθέτει την ταξινόμηση όλων των εγγράφων που αναλύθηκαν σε αυτήν την έκθεση ανασκόπησης για αυτούς τους 13 δείκτες αξιολόγησης.

Ερευνητικές Εργασίες

Αυτή η ενότητα θα παρουσιάσει κάθε εργασία λεπτομερώς, έτσι ώστε οι αναγνώστες να μπορούν να κατανοήσουν αυτές τις σημαντικές καινοτομίες χωρίς να διαβάσουν την αρχική εργασία. Το The Heart of the Machine θα ταξινομήσει εν συντομία διάφορες ερευνητικές κατευθύνσεις και θα απαριθμήσει αντιπροσωπευτικά έγγραφα.

1. RLHF/PPO

Η προεκπαίδευση του LLM απαιτεί τη χρήση μεγάλου αριθμού σωμάτων από διαφορετικές πηγές, κάτι που από μόνο του δεν μπορεί να εξασφαλίσει την ποιότητα αυτών των συνόλων δεδομένων. Επιπλέον, ο κύριος στόχος του LLM είναι να προβλέψει το επόμενο διακριτικό, το οποίο δεν συνάδει με τον στόχο «να ακολουθούμε τις οδηγίες χρήστη χρήσιμα και με ασφάλεια». Ως αποτέλεσμα, το LLM μπορεί να παράγει περιεχόμενο που είναι αναληθές, επιβλαβές ή μη χρήσιμο για τους χρήστες. Ουσιαστικά, αυτά τα μοντέλα δεν ευθυγραμμίζονται με την πρόθεση του χρήστη. Ο κύριος στόχος του RLHF/PPO είναι να ευθυγραμμίσει τα μοντέλα γλώσσας με την πρόθεση του χρήστη σε μια ποικιλία εργασιών, χρησιμοποιώντας την ανθρώπινη ανατροφοδότηση για να τελειοποιήσει το μοντέλο. Υπάρχουν πολλές μελέτες για αυτό το θέμα.

InstructGPT

Το InstructGPT προέρχεται από το OpenAI, το οποίο αποτελεί τη βάση για μοντέλα εκπαίδευσης όπως το ChatGPT και το GPT-4. Ανατρέξτε στην "Τεχνική αναφορά GPT-4" και στην αναφορά Heart of the Machine "GPT-4 Shocking Release: Multi-modal large model". , απευθείας αναβάθμιση ChatGPT, Bing , άνοιγμα API, λήξη του παιχνιδιού; 》《Μάθετε την τεχνολογία πίσω από το ChatGPT από τον Li Mu: Διαβάστε προσεκτικά το έγγραφο InstructGPT σε 67 λεπτά》.

Με την ενσωμάτωση των ανθρώπινων προτιμήσεων, επιλύεται το δύσκολο πρόβλημα της αξιολόγησης των απαντήσεων που δημιουργούνται από το LLM. Οι παραδοσιακές μετρήσεις αξιολόγησης που χρησιμοποιούνται για την αξιολόγηση του LLM, όπως το BLEU, το ROUGE και το BERTScore, δεν μπορούν να εγγυηθούν τη συνέπεια με τις ανθρώπινες προτιμήσεις. Για να λύσουν αυτό το πρόβλημα, οι ερευνητές ενσωμάτωσαν απευθείας τις ανθρώπινες προτιμήσεις στο LLM για να βελτιώσουν την απόδοσή του. Αυτή η διαδικασία τυπικά περιλαμβάνει δύο βασικά βήματα: μάθηση με μοντέλο ανταμοιβής και εκπαίδευση πολιτικής ενίσχυσης μάθησης.

Κατά τη διάρκεια της φάσης εκμάθησης του μοντέλου ανταμοιβής, εκπαιδεύεται μια ρητή συνάρτηση ανταμοιβής κατά σημείο χρησιμοποιώντας προτροπές και ζευγαρωμένες απαντήσεις.

Μετά από αυτό, η φάση εκπαίδευσης για την ενίσχυση της μάθησης ξεκινά σε αυτή τη φάση, το LLM και το προεκπαιδευμένο μοντέλο ανταμοιβής χρησιμεύουν ως παράγοντας και περιβάλλον σε ένα πλαίσιο ενισχυτικής μάθησης.

Για την εκπαίδευση του InstructGPT, χρησιμοποιούνται τρία σύνολα δεδομένων: 1. Σύνολο δεδομένων SFT: Περιέχει επιδείξεις σχολιαστή που χρησιμοποιούνται για την εκπαίδευση του μοντέλου SFT. Σύνολο δεδομένων 2.RM (μοντέλο ανταμοιβής): αποτελείται από την κατάταξη των αποτελεσμάτων μοντέλων από ανθρώπους σχολιαστών και χρησιμοποιείται για την εκπαίδευση μοντέλων ανταμοιβής. 3.Σύνολο δεδομένων PPO: αποτελείται από προτροπές που χρησιμοποιούνται ως είσοδος για τη λεπτομέρεια RLHF.

Το εκπαιδευμένο InstructGPT θα αξιολογηθεί σε τρεις πτυχές: χρησιμότητα, αξιοπιστία και βλαβερότητα.

Κρίνοντας από τα αποτελέσματα, η ανθρώπινη αξιολόγηση δείχνει ότι "οι άνθρωποι προτιμούν την έξοδο της έκδοσης παραμέτρων 1.3B του μοντέλου InstructGPT από το 175B GPT-3, παρόλο που το τελευταίο έχει περισσότερες από 100 φορές λιγότερες παραμέτρους." έχει Η απόδοση είναι καλύτερη από το GPT-3 τόσο σε εργασίες χρησιμότητας όσο και σε εργασίες τοξικότητας, οι οποίες είναι ζωτικής σημασίας για την ευθυγράμμιση.

Anthropic's RLHF

Η Anthropic έχει επίσης μελετήσει το ίδιο θέμα, και η εργασία είναι "Εκπαίδευση ενός χρήσιμου και αβλαβούς βοηθού με ενισχυτική μάθηση από την ανθρώπινη ανατροφοδότηση".

Το OpenAI διαπίστωσε ότι το RLHF βοηθά στην ευθυγράμμιση, αλλά μπορεί επίσης να προκαλέσει υποβάθμιση της απόδοσης του μοντέλου σε ορισμένα σημεία αναφοράς NLP, ένα φαινόμενο γνωστό ως "φόρος ευθυγράμμισης". Το μοντέλο InstructGPT που αναπτύχθηκε από αυτήν έχει παραμέτρους 1.3B. Αντίθετα, οι ερευνητές της Anthropic αξιολόγησαν επτά διαφορετικά μοντέλα που κυμαίνονταν σε μέγεθος από 13M έως 52B, τα οποία αυξήθηκαν γεωμετρικά κατά 4.

Κατέληξαν στο συμπέρασμα ότι υπάρχει «φόρος» στην ευθυγράμμιση για μικρότερα μοντέλα, αλλά μόνο οφέλη για μεγαλύτερα μοντέλα, ειδικά μοντέλα με μεγέθη παραμέτρων μεταξύ 13Β και 52Β.

Λαμβάνοντας υπόψη αυτό το πλεονέκτημα της ευθυγράμμισης, πειραματίστηκαν επίσης με τη χρήση συνόλων δεδομένων τεχνολογίας προγραμματισμού για τη βελτίωση των δυνατοτήτων του LLM. Η μέθοδος RLHF του OpenAI περιλαμβάνει PPO και PPO-ptx, όπου ο στόχος σχεδιασμού του PPO-ptx είναι η μείωση του φόρου ευθυγράμμισης στο σημείο αναφοράς NLP. Η μελέτη RLHF της Anthropic διαπίστωσε ότι εφόσον το μοντέλο είναι αρκετά μεγάλο, το ίδιο το PPO μπορεί να αποφέρει οφέλη ευθυγράμμισης σε εργασίες κατάντη NLP. Προσδιόρισαν επίσης ότι η βέλτιστη παράμετρος της απόκλισης KL στην εκπαίδευση πολιτικών ενισχυτικής μάθησης είναι β = 0,001.

Online/Επαναληπτικό RLHF

Παραδοσιακά, οι τεχνικές RLHF για την ευθυγράμμιση του LLM είναι μέθοδοι εκτός σύνδεσης. Ωστόσο, αυτός ο τύπος μεθόδου έχει κάποιες ελλείψεις, όπως η δυσκολία αντιμετώπισης δεδομένων εκτός διανομής.

Για το σκοπό αυτό, είναι απαραίτητο να βελτιστοποιείτε συνεχώς το LLM και να εκτελείτε επαναληπτική/διαδικτυακή μάθηση, δηλαδή να χρησιμοποιήσετε μια ενδιάμεση στρατηγική για να δημιουργήσετε απαντήσεις για προτροπές, στη συνέχεια να χρησιμοποιήσετε ένα μαντείο για να δώσετε σχόλια προτίμησης για τέτοια ζευγαρωμένα δεδομένα και στη συνέχεια να τα τροφοδοτήσετε σχόλια Δώστε στρατηγική. Στην πράξη, η επαναληπτική μάθηση χωρίζεται σε δύο μέρη: μάθηση προτιμήσεων και βελτιστοποίηση επαναληπτικής πολιτικής. Δείτε την εργασία "RLHF workflow: From Reward modeling to online RLHF".

2. RLAIF

Το κόστος απόκτησης συνόλων δεδομένων ανθρώπινων προτιμήσεων δεν είναι φθηνό, επομένως γεννήθηκε η ενισχυτική μάθηση με βάση την ανατροφοδότηση τεχνητής νοημοσύνης (RLAIF). Επιπλέον, καθώς οι δυνατότητες του LLM συνεχίζουν να βελτιώνονται, η ποιότητα των συνόλων δεδομένων προτιμήσεων AI που μπορούν να συλλεχθούν συνεχίζει επίσης να βελτιώνεται, γεγονός που μπορεί να βελτιώσει το αποτέλεσμα ευθυγράμμισης του LLM.

Anthropic's RLAIF

Με βάση τη βασική ερευνητική εργασία του RLHF, η Anthropic πρότεινε μια νέα μέθοδο που ονομάζεται RLAIF. Δείτε την εργασία «Συνταγματικό αι: Αβλαβές από αι ανατροφοδότηση».

Η μέθοδος αποτελείται κυρίως από δύο στάδια: 1. Εποπτευόμενη μάθηση μέσω Κριτικών και Αναθεωρήσεων, η οποία καθοδηγείται από χάρτη. 2. RLAIF.

Το RLAIF της Google

Με βάση τα ερευνητικά αποτελέσματα RLAIF της Anthropic, μια ερευνητική ομάδα της Google πιστεύει ότι η προηγούμενη έρευνα δεν μπορεί να συγκρίνει άμεσα τα αποτελέσματα της ανθρώπινης ανατροφοδότησης και της τεχνητής νοημοσύνης και αξίζει περαιτέρω έρευνα. Κατά τη διαδικασία συλλογής σχολίων AI, πρέπει να δημιουργηθεί μια δομημένη προτροπή, η οποία αποτελείται από: εισαγωγή, λίγα δείγματα παραδειγμάτων (προαιρετικά), δείγματα προς επισήμανση και συμπέρασμα.

Προκειμένου να δημιουργηθεί ανάδραση τεχνητής νοημοσύνης, πρέπει να πραγματοποιηθεί μια αξιολόγηση δύο βημάτων: πρώτα, αφήστε το LLM να δημιουργήσει την απόκριση χρησιμοποιώντας τα 4 στοιχεία της εντολής συν το CoT. Στο επόμενο βήμα, αυτή η απάντηση LLM αποστέλλεται πίσω στο LLM με την κατάληξη "preferred summary=", δημιουργώντας έτσι μια πιθανότητα προτίμησης "σύνοψη 1=0.6, περίληψη 2=0.4". Για να μειωθεί η προκατάληψη θέσης, οι αλληλουχίες αυτών των δύο αποκρίσεων πρέπει να εναλλάσσονται και να υπολογίζονται οι μέσες βαθμολογίες τους.

Η διαδικασία RLAIF υιοθετεί δύο στρατηγικές: 1. "Distilled RLAIF", που ακολουθεί την παραδοσιακή μέθοδο RLHF, δηλαδή χρησιμοποιώντας προτιμήσεις για την εκπαίδευση ενός μοντέλου ανταμοιβής και στη συνέχεια τη χρήση του για την εκπαίδευση της στρατηγικής LLM 2. "Direct RLAIF". χρησιμοποιεί Η ανατροφοδότηση LLM χρησιμοποιείται ως προτροπή για την έξοδο μιας βαθμολογίας αξιολόγησης, η οποία στη συνέχεια χρησιμοποιείται ως σήμα για την ενίσχυση της εκπαίδευσης πολιτικών μάθησης.

Τέλος, η διαδικασία αξιολόγησής του χρησιμοποιεί τρεις βασικές μετρήσεις: 1. Ευθυγράμμιση AI-Annotator: Πόσο συνεπής είναι η τεχνητή νοημοσύνη με τους ανθρώπινους σχολιαστές. 2. Ποσοστό νίκης: η πιθανότητα ένας ανθρώπινος σχολιαστής να συγκρίνει δύο υποψηφίους και να επιλέξει έναν από αυτούς. 3. Αβλαβές ποσοστό: Το ποσοστό των απαντήσεων που οι αξιολογητές θεωρούν αβλαβείς.

Για περισσότερες λεπτομέρειες, ανατρέξτε στην εργασία "RLAIF: Scaling reinforcement Learning from human feedback with AI feedback".

Άμεση βελτιστοποίηση ανθρώπινων προτιμήσεων

Οι παραδοσιακές μέθοδοι RLHF συνήθως περιλαμβάνουν τη βελτιστοποίηση μιας συνάρτησης ανταμοιβής που προέρχεται από τις ανθρώπινες προτιμήσεις. Αν και είναι αποτελεσματική, αυτή η μέθοδος μπορεί επίσης να δημιουργήσει ορισμένες δυσκολίες, όπως αυξημένη υπολογιστική πολυπλοκότητα και την ανάγκη να ληφθούν υπόψη οι συμβιβασμούς μεροληψίας-διακύμανσης κατά την εκτίμηση και τη βελτιστοποίηση των ανταμοιβών. Δείτε την εργασία "Συνεχής έλεγχος υψηλών διαστάσεων με χρήση γενικευμένης εκτίμησης πλεονεκτημάτων".

Πρόσφατη έρευνα διερεύνησε άλλες μεθόδους που στοχεύουν στην άμεση βελτιστοποίηση των πολιτικών LLM με βάση τις ανθρώπινες προτιμήσεις χωρίς να βασίζονται σε ένα βαθμωτό σήμα ανταμοιβής.

Οι στόχοι αυτών των μεθόδων είναι να απλοποιήσουν τη διαδικασία ευθυγράμμισης, να μειώσουν τα υπολογιστικά έξοδα και να επιτρέψουν πιο ισχυρή βελτιστοποίηση μέσω πιο άμεσης χρήσης των δεδομένων προτιμήσεων. Πλαισιώνοντας το πρόβλημα ως πρόβλημα βελτιστοποίησης προτιμήσεων και όχι ως πρόβλημα εκτίμησης ανταμοιβής και μεγιστοποίησης, αυτές οι μέθοδοι μπορούν να παρέχουν μια διαφορετική προοπτική για την ευθυγράμμιση των γλωσσικών μοντέλων με την ανθρώπινη κρίση:

Το SliC-HF, χρησιμοποιεί ανθρώπινη ανάδραση για βαθμονόμηση πιθανότητας ακολουθίας, βλέπε το έγγραφο "SliC-HF: Βαθμονόμηση πιθανότητας ακολουθίας με ανθρώπινη ανάδραση".
RSO, βελτιστοποίηση δειγματοληψίας απόρριψης, βλέπε το άρθρο "Η δειγματοληψία στατιστικής απόρριψης βελτιώνει τη βελτιστοποίηση προτιμήσεων".
DPO, βελτιστοποίηση άμεσης προτίμησης, ανατρέξτε στην εργασία "Άμεση βελτιστοποίηση προτιμήσεων: Το μοντέλο γλώσσας σας είναι κρυφά ένα μοντέλο ανταμοιβής".
DPOP, DPO-positive, ανατρέξτε στην εργασία "Smaug: Fixing defekt modes of preference optimization with DPO-positive".
β-DPO, ανατρέξτε στην εργασία "β-DPO: Βελτιστοποίηση άμεσης προτίμησης με δυναμικό β".
IPO, βελτιστοποίηση προτιμήσεων ταυτότητας, δείτε την εργασία "Ένα γενικό θεωρητικό παράδειγμα για την κατανόηση της μάθησης από τις ανθρώπινες προτιμήσεις".
sDPO, βήμα προς βήμα DPO, ανατρέξτε στο έγγραφο "sDPO: Μην χρησιμοποιείτε τα δεδομένα σας ταυτόχρονα".
GPO, γενικευμένη βελτιστοποίηση προτιμήσεων, δείτε την εργασία "Βελτιστοποίηση γενικευμένων προτιμήσεων: Μια ενοποιημένη προσέγγιση για τη στοίχιση εκτός σύνδεσης".

DPO σε επίπεδο διακριτικού

Όταν χρησιμοποιείτε DPO, οι ανταμοιβές εκχωρούνται σε προτροπές και απαντήσεις μαζί. Αντίθετα, κατά τη χρήση του MDP, οι ανταμοιβές απονέμονται σε μεμονωμένες ενέργειες. Οι ακόλουθες δύο εργασίες επεξεργάστηκαν το DPO σε επίπεδο διακριτικών και επέκτεινε την εφαρμογή του στην ανάλυση σε επίπεδο διακριτικών.

Ο DPO μπορεί να πραγματοποιήσει έρευνα σχετικά με την κατανομή πίστωσης σε επίπεδο διακριτικών Ανατρέξτε στην εργασία "Από r έως Q*: Το μοντέλο γλώσσας σας είναι κρυφά μια συνάρτηση Q" και την αναφορά "Είναι αυτό το μυστηριώδες Q* του OpenAI;" Stanford: Το μοντέλο γλώσσας είναι η συνάρτηση Q.
TDPO, DPO σε επίπεδο διακριτικού, ανατρέξτε στο έγγραφο "Βελτιστοποίηση άμεσης προτίμησης σε επίπεδο διακριτικού".

Επαναληπτικό/Διαδικτυακό DPO

Όταν χρησιμοποιείτε DPO, όλα τα διαθέσιμα σύνολα δεδομένων προτιμήσεων χρησιμοποιούνται για την ευθυγράμμιση του LLM. Προκειμένου να βελτιώνεται συνεχώς το LLM, θα πρέπει να εφαρμοστεί επαναληπτικό/online DPO. Αυτό εγείρει ένα ενδιαφέρον ερώτημα: πώς να συλλέξετε αποτελεσματικά νέα σύνολα δεδομένων προτιμήσεων. Οι δύο ακόλουθες εργασίες διερευνούν αυτό το θέμα σε βάθος.

Για μοντέλα γλώσσας που ανταμείβουν τον εαυτό τους, ανατρέξτε στο άρθρο "Μοντέλα γλώσσας που επιβραβεύουν τον εαυτό σας".
CRINGE, δείτε την εργασία "The cringe loss: Learning what language not to model".

δυαδική ανατροφοδότηση

Αποδεικνύεται ότι η συλλογή σχολίων προτιμήσεων είναι πιο δύσκολη από τη συλλογή δυαδικών σχολίων (όπως "μου αρέσει" ή "δεν μου αρέσει", επομένως η τελευταία μπορεί να διευκολύνει την κλιμάκωση της διαδικασίας ευθυγράμμισης. Οι δύο μελέτες, KTO και DRO, επικεντρώνονται στη χρήση δυαδικής ανάδρασης για την ευθυγράμμιση του LLM.

KTO, Kahneman-Tversky optimization, βλέπε την εργασία "KTO: Model alignment as prospect theoretic optimization".
DRO, βελτιστοποίηση άμεσης ανταμοιβής, ανατρέξτε στην εργασία "Εκτός σύνδεσης τακτοποιημένης μάθησης ενίσχυσης για ευθυγράμμιση μοντέλων μεγάλων γλωσσών".

Σύντηξη SFT και ευθυγράμμιση

Προηγούμενη έρευνα διεξήγαγε κυρίως SFT και ευθυγράμμιση διαδοχικά, αλλά αυτή η προσέγγιση έχει αποδειχθεί επίπονη και μπορεί να οδηγήσει σε καταστροφική λήθη. Η συνεχής έρευνα έχει δύο κατευθύνσεις: η μία είναι να ενσωματωθούν αυτές οι δύο διαδικασίες σε ένα μόνο βήμα, η άλλη είναι να βελτιστοποιηθούν τα δύο μοντέλα παράλληλα και τελικά να συγχωνευθούν.

ORPO, βελτιστοποίηση προτιμήσεων αναλογίας πιθανοτήτων, δείτε την εργασία "ORPO: Μονολιθική βελτιστοποίηση προτιμήσεων χωρίς μοντέλο αναφοράς".
PAFT, παράλληλη λεπτομέρεια, δείτε την εργασία "PAFT: Παράδειγμα παράλληλης εκπαίδευσης για αποτελεσματική λεπτομέρεια llm".

DPO ελεγχόμενου μήκους και DPO χωρίς αναφορά

Προηγούμενη έρευνα έχει δείξει ότι το αποτέλεσμα του LLM είναι συχνά πολύ περιεκτικό. Για την επίλυση αυτού του προβλήματος, το R-DPO και το SimPO εστιάζουν στον έλεγχο του μήκους απόκρισης χωρίς να επηρεάζουν την απόδοση παραγωγής.

Επιπλέον, το DPO απαιτεί μια στρατηγική αναφοράς για να διασφαλιστεί ότι το ευθυγραμμισμένο μοντέλο δεν αποκλίνει πολύ από το μοντέλο αναφοράς. Αντίθετα, οι SimPO και RLOO προτείνουν μεθόδους που εξαλείφουν την ανάγκη για ένα μοντέλο αναφοράς χωρίς να επηρεάζουν το φαινόμενο LLM.

R-DPO, κανονικοποιημένο DPO, βλέπε την εργασία "Αποσύνδεση μήκους από την ποιότητα στη βελτιστοποίηση άμεσης προτίμησης".
SimPO, απλή βελτιστοποίηση προτιμήσεων, ανατρέξτε στην εργασία "SimPO: Απλή βελτιστοποίηση προτιμήσεων με ανταμοιβή χωρίς αναφορά", την αναφορά "Σε γενικές γραμμές ξεπερνώντας το DPO: Η ομάδα του Chen Danqi πρότεινε απλή βελτιστοποίηση προτιμήσεων SimPO και επίσης βελτίωσε το ισχυρότερο μοντέλο ανοιχτού κώδικα 8Β ".
RLOO，REINFORCE Leave-One-Out，参阅论文《Επιστροφή στα βασικά: Επανεξέταση της βελτιστοποίησης στυλ ενίσχυσης για μάθηση από την ανθρώπινη ανατροφοδότηση σε LLMs》.

Βελτιστοποίηση προτιμήσεων λίστα προς λίστα

Η προηγούμενη έρευνα για το PPO και το DPO επικεντρώθηκε σε προτιμήσεις ανά ζεύγη, ενώ η έρευνα για το RLHF συνέλεξε προτιμήσεις κατά λίστα για να επιταχύνει τη διαδικασία συλλογής δεδομένων και στη συνέχεια τις μετέτρεψε σε προτιμήσεις ανά ζεύγη. Ωστόσο, προκειμένου να βελτιωθεί η απόδοση του LLM, είναι εφικτό να χρησιμοποιηθούν απευθείας σύνολα δεδομένων βάσει λίστας για την εκτέλεση βελτιστοποίησης προτιμήσεων. Οι ακόλουθες τρεις εργασίες συζητούν συγκεκριμένα αυτήν την προσέγγιση.

LiPO, βελτιστοποίηση προτιμήσεων λίστας, δείτε την εργασία "LIPO: Βελτιστοποίηση προτιμήσεων λίστας μέσω εκμάθησης προς κατάταξη".
RRHF, δείτε την εργασία "RRHF: Κατάταξη απαντήσεων για ευθυγράμμιση γλωσσικών μοντέλων με ανθρώπινη ανατροφοδότηση χωρίς δάκρυα".
PRO, βελτιστοποίηση κατάταξης προτιμήσεων, δείτε την εργασία "Βελτιστοποίηση κατάταξης προτιμήσεων για ευθυγράμμιση ανθρώπου".

βελτιστοποίηση αρνητικών προτιμήσεων

Αυτές οι μελέτες μοιράζονται μια κοινή υπόθεση: η τρέχουσα γενιά LLM έχει ξεπεράσει την ανθρώπινη απόδοση σε εργασίες όπως η μετάφραση και η περίληψη. Ως εκ τούτου, είναι πλεονεκτικό να αντιμετωπίζεται η έξοδος του LLM ως επιθυμητή απόκριση χωρίς να βασιζόμαστε στην αντιμετώπιση των δεδομένων που έχουν επισημανθεί από τον άνθρωπο ως προτιμώμενη απόκριση. Αντίθετα, οι ανεπιθύμητες απαντήσεις μπορούν ακόμα να χρησιμοποιηθούν για την ευθυγράμμιση των LLM, μια διαδικασία που ονομάζεται βελτιστοποίηση αρνητικών προτιμήσεων (NPO).

NN, αρνητική αρνητική μέθοδος παραδείγματος, ανατρέξτε στην εργασία "Απόρριψη αρνητικών: Ευθυγράμμιση χωρίς ανθρώπινα θετικά δείγματα μέσω βελτιστοποίησης κατανομής διαφοράς".
NPO, αρνητική βελτιστοποίηση προτιμήσεων, ανατρέξτε στην εργασία "Βελτιστοποίηση αρνητικών προτιμήσεων: Από την καταστροφική κατάρρευση στην αποτελεσματική απομάθηση".
CPO, Contrastive preference optimization, δείτε την εργασία "Contrastive preference optimization: Pushing the limits of llm performance in machine translation".

Νας εκμάθηση

Προηγούμενες μελέτες χρησιμοποιούν συνήθως μοντέλα ανταμοιβής σημείων και BT για την απόκτηση προτιμήσεων ανά ζεύγη. Ωστόσο, αυτή η προσέγγιση είναι κατώτερη από τη μοντελοποίηση προτιμήσεων απευθείας ανά ζεύγη και δεν μπορεί να επιλύσει ασυνέπειες στις προτιμήσεις ανά ζεύγη. Για να ξεπεραστούν αυτοί οι περιορισμοί, ορισμένες μελέτες έχουν προτείνει τη μέθοδο εκμάθησης Nash.

Ο Nash μαθαίνει από την ανθρώπινη ανατροφοδότηση, δείτε την εργασία "Nash Learning from human feedback".
SPPO, βελτιστοποίηση προτιμήσεων αυτο-παιχνιδιών, βλέπε την εργασία "Μια ελάχιστη μαξιμαλιστική προσέγγιση για την ενίσχυση της μάθησης από την ανθρώπινη ανατροφοδότηση".
DNO, Direct Nash Optimization, ανατρέξτε στην εργασία "Direct nash optimization: Teaching language models to self-βελτίωση με γενικές προτιμήσεις".

Σύγκριση διαφορετικών μεθόδων

Έχουν διεξαχθεί ορισμένες μελέτες για τη σύγκριση αυτών των διαφορετικών μεθόδων. Τέτοιες μελέτες μπορούν να απεικονίσουν τα αντίστοιχα πλεονεκτήματα και μειονεκτήματα κάθε προσέγγισης.

Αξιολογήστε το DPO και τις παραλλαγές του

Η εργασία "Insights into alignment: Evaluating dpo and its variants into multiple tasks" αξιολογεί διεξοδικά μοντέλα σιωπηρής ανταμοιβής, δηλαδή, χωρίς αλγόριθμους ενίσχυσης μάθησης, σε πολλαπλές εργασίες όπως η συλλογιστική, η μαθηματική επίλυση προβλημάτων, η αξιοπιστία, η απάντηση σε ερωτήσεις και η πολλαπλή εργασία Συμπεριλαμβανομένου του DPO, του KTO, του IPO και του CPO. Αυτές οι αξιολογήσεις περιλαμβάνουν τρία διαφορετικά σενάρια: 1) λεπτομέρεια ενός μοντέλου εποπτευόμενης λεπτομέρειας (SFT), 2) μικρορύθμιση ενός προεκπαιδευμένου μοντέλου και 3) μικρορύθμιση ενός μοντέλου εντολών.

Η μελέτη διαπίστωσε ότι το KTO ξεπέρασε τις άλλες μεθόδους ευθυγράμμισης στα περισσότερα σημεία αναφοράς. Επιπλέον, η έρευνα δείχνει ότι η ευθυγράμμιση δεν βελτιώνει σημαντικά την απόδοση συλλογιστικής και απάντησης ερωτήσεων του μοντέλου, αλλά βελτιώνει σημαντικά τις δυνατότητες επίλυσης μαθηματικών προβλημάτων του μοντέλου. Η μελέτη σημείωσε επίσης τη σημασία του μεγέθους των δεδομένων, με τις μεθόδους ευθυγράμμισης να αποδίδουν καλύτερα σε μικρότερα υποσύνολα δεδομένων. Επιπλέον, η μελέτη διαπίστωσε ότι το KTO και το CPO μπορούν να παρακάμψουν αποτελεσματικά το στάδιο SFT και να εισέλθουν απευθείας στο στάδιο της ευθυγράμμισης χωρίς να επηρεάσουν την απόδοση. Αντίθετα, το DPO και το IPO παρουσιάζουν σημαντική υποβάθμιση της απόδοσης όταν παρακάμπτεται το στάδιο SFT και εισέρχεται απευθείας στο στάδιο ευθυγράμμισης.

Είναι το DPO καλύτερη μέθοδος ευθυγράμμισης LLM από το PPO;

Το έγγραφο "Είναι το DPO ανώτερο από το PPO για την ευθυγράμμιση LLM; Μια ολοκληρωμένη μελέτη" δείχνει ότι το DPO μπορεί να έχει εγγενείς περιορισμούς, μπορεί να παράγει μεροληπτικές απαντήσεις και μπορεί να προκαλέσει υποβάθμιση της απόδοσης λόγω αλλαγών διανομής,

Διαπίστωσαν ότι η πολιτική που εκπαιδεύτηκε από τον DPO ευνόησε τις μη εμφανείς απαντήσεις, ειδικά τα δείγματα εκτός διανομής. Το Iterative/online DPO μετριάζει αυτό το πρόβλημα διερευνώντας ευρέως τον χώρο απόκρισης και ενημερώνοντας συνεχώς το μοντέλο αναφοράς. Αντίθετα, το RLHF/PPO αντιμετωπίζει αυτές τις προκλήσεις μέσω της κανονικοποίησης κυριαρχίας, των μεγάλων μεγεθών παρτίδων και της χρήσης εκθετικών κινητών μέσων όρων σε ένα μοντέλο αναφοράς. Τελικά, αυτά τα ευρήματα καταδεικνύουν ότι το PPO υπερέχει του επαναληπτικού/online DPO, το οποίο με τη σειρά του υπερέχει του τυπικού DPO.

Για περισσότερες λεπτομέρειες, ανατρέξτε στο άρθρο της στήλης Heart of the Machine "ICML 2024 Oral | Είναι ο DPO πιο κατάλληλος για LLM από PPO, το τελευταίο μυστικό που αποκαλύφθηκε από την ομάδα Tsinghua Wuyi".

μελλοντική κατεύθυνση

Αναλύοντας προηγούμενες εργασίες, η ομάδα εντόπισε μια σειρά από ερευνητικά ερωτήματα για περαιτέρω εξερεύνηση.

Γενικές εργασίες για την αξιολόγηση της ευθυγράμμισης

Διαφορετικά έγγραφα έχουν χρησιμοποιήσει διαφορετικές εργασίες για την αξιολόγηση της απόδοσης αυτών των μεθόδων. Ωστόσο, ορισμένες εργασίες όπως το GSM8K εστιάζουν περισσότερο στην εξαγωγή συμπερασμάτων και ενδέχεται να μην είναι κατάλληλες για την αξιολόγηση της απόδοσης της ευθυγράμμισης. Αντίθετα, εργασίες όπως το TruthfulQA ή εκείνες που εστιάζουν στην τοξικότητα θα πρέπει να έχουν προτεραιότητα για την αξιολόγηση της τοξικότητας των λεπτοσυντονισμένων LLM. Θα πρέπει να βρεθούν τρόποι συνδυασμού αυτών των εργασιών για τη δημιουργία μιας ενοποιημένης λίστας κατάταξης για την αξιολόγηση της ευθυγράμμισης.

Χρήση σιωπηρών μοντέλων ανταμοιβής, προτιμήσεων κατά λίστα και εκμάθησης Nash για μεγαλύτερα μοντέλα γλώσσας

Επί του παρόντος, το μεγαλύτερο μοντέλο που χρησιμοποιεί ένα μοντέλο σιωπηρής ανταμοιβής έχει μόνο 70Β παραμέτρους. Εάν αυτές οι μέθοδοι μπορούν να επεκταθούν σε μεγαλύτερα μοντέλα, όπως αυτά του μεγέθους των GPT-4 και Claude-3, θα μας βοηθήσει να κατανοήσουμε καλύτερα τη σχετική αποτελεσματικότητά τους με το RLHF/PPO.

Ομοίως, τα μοντέλα προτιμήσεων βάσει λίστας αξίζουν επίσης περαιτέρω μελέτη. Όταν χρησιμοποιείτε το RLHF, ένα σύνολο δεδομένων προτιμήσεων συλλέγεται χρησιμοποιώντας προτιμήσεις κατά λίστα, οι οποίες στη συνέχεια μετατρέπονται σε δεδομένα προτιμήσεων ανά ζεύγη. Τα πιθανά προβλήματα με τις εφαρμογές μεγάλης κλίμακας μοντέλων προτιμήσεων κατά λίστα πρέπει να επιλυθούν.

Τέλος, η εκμάθηση Nash μπορεί να επιλύσει τις ασυνέπειες μεταξύ των ανθρώπινων σχολιαστών. Εάν το μοντέλο εκμάθησης Nash μπορεί να ενσωματωθεί σε ένα LLM μεγαλύτερης κλίμακας, μπορεί να αποδειχθεί η ικανότητά του να αποτυπώνει την πολυπλοκότητα της ανθρώπινης φύσης.

Πειράματα σε δυαδική ανάδραση

Τόσο το KTO όσο και το DRO χρησιμοποιούν δυαδικούς μηχανισμούς ανάδρασης όπως "μου αρέσει" και "δεν μου αρέσει" αντί για ζευγαρωμένες προτιμήσεις. Αυτές οι δυαδικές ανατροφοδοτήσεις προέρχονται από ένα σύνολο δεδομένων προτιμήσεων, όπου οι επιθυμητές απαντήσεις επισημαίνονται ως θετικά παραδείγματα και οι ανεπιθύμητες απαντήσεις επισημαίνονται ως αρνητικά παραδείγματα. Χρειαζόμαστε επίσης περαιτέρω έρευνα για ρεαλιστικά δυαδικά σύνολα δεδομένων. Επιπλέον, τα δυαδικά σύνολα δεδομένων είναι πιο εύκολο να συλλεχθούν από τα δεδομένα προτιμήσεων, επομένως αναμένεται να χρησιμοποιηθούν μεγαλύτερα δυαδικά σύνολα δεδομένων ανάδρασης για ευθυγράμμιση. Ωστόσο, ο θόρυβος στη δυαδική ανάδραση μπορεί να είναι πιο προφανής από τον θόρυβο στο σύνολο δεδομένων προτιμήσεων, επομένως το πώς να φιλτράρετε αποτελεσματικά τα θορυβώδη δεδομένα είναι επίσης μια πολύ ενδιαφέρουσα ερευνητική κατεύθυνση.

Πειραματιστείτε με χρήσιμα σχόλια AI

Η τρέχουσα ανατροφοδότηση τεχνητής νοημοσύνης περιλαμβάνει κυρίως την αβλαβή ανατροφοδότηση στο RLAIF και την κατάταξη ανάδρασης σε επαναληπτικό DPO. Ωστόσο, όταν χρησιμοποιείτε το RLAIF, εξακολουθούν να παρέχονται χρήσιμα σχόλια από ανθρώπινους σχολιαστές. Αυτή η προσέγγιση δικαιολογείται επειδή η δημιουργία χρήσιμων απαντήσεων είναι σημαντικά πιο δύσκολη από τον εντοπισμό επιβλαβών ανατροφοδοτήσεων. Μια ενδιαφέρουσα μελλοντική ερευνητική κατεύθυνση είναι η χρήση του LLM για τη δημιουργία χρήσιμης ανατροφοδότησης, επιτρέποντας έτσι στο LLM να βελτιωθεί.

Επιταχύνετε την εκμάθηση Nash

Οι μέθοδοι εκμάθησης Nash μπορούν να μοντελοποιήσουν αποτελεσματικά τις προτιμήσεις ανά ζεύγη και να επιλύσουν τις ασυνέπειες μεταξύ των ανθρώπινων σχολιασμών. Ωστόσο, απαιτεί πολλαπλές επαναλήψεις για να συγκλίνει στη βέλτιστη στρατηγική. Αν και ο συντάκτης του δεν δήλωσε ρητά τον χρόνο που απαιτείται για την ευθυγράμμιση, μπορεί να μαντέψει κανείς ότι θα είναι πολύ πιο αργός από τα μοντέλα σιωπηρής ανταμοιβής όπως το DPO. Επομένως, η βελτίωση της ταχύτητας της διαδικασίας μάθησης Nash είναι επίσης μια ερευνητική κατεύθυνση που αξίζει προσοχής.

Τερματισμός επανάληψης/διαδικτυακής μάθησης

Όταν χρησιμοποιείτε επαναληπτική/διαδικτυακή εκπαίδευση, ο καθορισμός του πότε θα τερματιστεί μια επανάληψη είναι κρίσιμος. Προηγούμενη έρευνα έχει βρει ότι η επαναληπτική μάθηση μερικές φορές μειώνει την απόδοση του LLM σε ορισμένες εργασίες, κάτι που μπορεί να είναι σημάδι υπερβολικής προσαρμογής. Ωστόσο, κανένας ερευνητής δεν έχει διερευνήσει ακόμη πώς να προσδιορίσει τη λογική εποχή για τον τερματισμό των επαναλήψεων.

Απλοποιημένη SFT + Ευθυγράμμιση

Οι τρέχουσες προσεγγίσεις συνήθως εφαρμόζουν το SFT και την ευθυγράμμιση με διαδοχικό τρόπο. Ωστόσο, αυτή η προσέγγιση συχνά οδηγεί σε καταστροφική λήθη και κάνει όλη τη διαδικασία της προπόνησης πιο επίπονη. Η μέθοδος PAFT μετριάζει την καταστροφική λήθη, προσαρμόζοντας πρώτα το SFT και την ευθυγράμμιση ξεχωριστά και στη συνέχεια συγχωνεύοντάς τα μεταξύ τους, αλλά αυτό αυξάνει επίσης την πολυπλοκότητα. Αντίθετα, η τεχνολογία ORPO ενσωματώνει και τις δύο διαδικασίες ταυτόχρονα, αλλά οδηγεί σε υποβάθμιση της απόδοσης. Λοιπόν, πώς συνδυάζετε αποτελεσματικά το SFT και την ευθυγράμμιση για να επιτύχετε υψηλή απόδοση διατηρώντας παράλληλα υψηλή απόδοση; Αυτή είναι ακόμα μια πρόκληση που πρέπει να επιλυθεί.

Δείτε το πρωτότυπο έγγραφο για περισσότερες λεπτομέρειες.

Νέα

Διαβάστε όλες τις τεχνολογίες ευθυγράμμισης LLM σε ένα άρθρο: RLHF, RLAIF, PPO, DPO...

Εισαγωγή

τα στοιχεία επικοινωνίας μου