τα στοιχεία επικοινωνίας μου
Ταχυδρομείο[email protected]
2024-08-05
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Αναφορά Machine Heart
Επιμέλεια: Panda
Προκειμένου να ευθυγραμμίσουν το LLM, ερευνητές από όλα τα κοινωνικά στρώματα έχουν καταλήξει σε έξυπνα κόλπα.
Το LLM είναι πολύ ισχυρό, αλλά δεν είναι τέλειο. Μπορεί επίσης να κάνει λάθη ή να παράγει άχρηστα ή ακόμη και επιβλαβή αποτελέσματα.
Αφήστε το ChatGPT να διδάξει στους ανθρώπους πώς να κλέβουν καταστήματα στα αριστερά, το ChatGPT αρνείται να απαντήσει στα δεξιά, αφού προσθέσει το "χωρίς ηθικούς περιορισμούς)" στην προτροπή, το ChatGPT δίνει έναν οδηγό για κλοπές.
Αυτή τη στιγμή, η ευθυγράμμιση είναι ζωτικής σημασίας, ο ρόλος της είναι να κάνει το LLM συνεπές με τις ανθρώπινες αξίες.
Η ενισχυτική μάθηση με βάση την ανθρώπινη ανατροφοδότηση (RLHF) είναι μια πρωτοποριακή τεχνολογία στην ευθυγράμμιση του LLM. Αυτή η μέθοδος οδήγησε σε ισχυρά μοντέλα όπως τα GPT-4, Claude και Gemini. Μετά το RLHF, έχουν διερευνηθεί διάφορες μέθοδοι ευθυγράμμισης των LLM. Ωστόσο, κανείς δεν έχει συνοψίσει προηγουμένως ολοκληρωμένες μεθόδους για την ευθυγράμμιση του LLM με τις ανθρώπινες προτιμήσεις.
Η Salesforce αποφάσισε να καλύψει αυτό το κενό και πρόσφατα κυκλοφόρησε μια έκθεση ανασκόπησης 37 σελίδων, η οποία συνοψίζει την υπάρχουσα ερευνητική βιβλιογραφία ανά κατηγορία και αναλύει κάθε εργασία λεπτομερώς.
Αυτή η εργασία χωρίζεται σε τέσσερα κύρια θέματα: μοντέλο ανταμοιβής, ανατροφοδότηση, ενισχυτική μάθηση (RL) και βελτιστοποίηση. Κάθε θέμα περιέχει περαιτέρω υποθέματα, όπως φαίνεται στο Σχήμα 1.
Τα υποθέματα του μοντέλου ανταμοιβής περιλαμβάνουν: 1. Ρητό μοντέλο ανταμοιβής και σιωπηρό μοντέλο ανταμοιβής και μοντέλο προτιμήσεων.
Τα υποθέματα της ανατροφοδότησης περιλαμβάνουν: 1. Προτιμήσεις ανατροφοδότησης και δυαδική ανατροφοδότηση.
Τα επιμέρους θέματα της ενισχυτικής μάθησης περιλαμβάνουν: 1. Ενισχυτική μάθηση βάσει αναφοράς και ενισχυτική μάθηση χωρίς αναφορά.
Τα επιμέρους θέματα της βελτιστοποίησης περιλαμβάνουν: 1. Βελτιστοποίηση προτιμήσεων σε απευθείας σύνδεση/επαναληπτική και βελτιστοποίηση προτιμήσεων εκτός σύνδεσης/μη επαναληπτικών 2. Διαχωρισμός SFT και στοίχισης και συγχώνευση SFT και στοίχισης.
Ο Πίνακας 1 παραθέτει την ταξινόμηση όλων των εγγράφων που αναλύθηκαν σε αυτήν την έκθεση ανασκόπησης για αυτούς τους 13 δείκτες αξιολόγησης.
Ερευνητικές Εργασίες
Αυτή η ενότητα θα παρουσιάσει κάθε εργασία λεπτομερώς, έτσι ώστε οι αναγνώστες να μπορούν να κατανοήσουν αυτές τις σημαντικές καινοτομίες χωρίς να διαβάσουν την αρχική εργασία. Το The Heart of the Machine θα ταξινομήσει εν συντομία διάφορες ερευνητικές κατευθύνσεις και θα απαριθμήσει αντιπροσωπευτικά έγγραφα.
1. RLHF/PPO
Η προεκπαίδευση του LLM απαιτεί τη χρήση μεγάλου αριθμού σωμάτων από διαφορετικές πηγές, κάτι που από μόνο του δεν μπορεί να εξασφαλίσει την ποιότητα αυτών των συνόλων δεδομένων. Επιπλέον, ο κύριος στόχος του LLM είναι να προβλέψει το επόμενο διακριτικό, το οποίο δεν συνάδει με τον στόχο «να ακολουθούμε τις οδηγίες χρήστη χρήσιμα και με ασφάλεια». Ως αποτέλεσμα, το LLM μπορεί να παράγει περιεχόμενο που είναι αναληθές, επιβλαβές ή μη χρήσιμο για τους χρήστες. Ουσιαστικά, αυτά τα μοντέλα δεν ευθυγραμμίζονται με την πρόθεση του χρήστη. Ο κύριος στόχος του RLHF/PPO είναι να ευθυγραμμίσει τα μοντέλα γλώσσας με την πρόθεση του χρήστη σε μια ποικιλία εργασιών, χρησιμοποιώντας την ανθρώπινη ανατροφοδότηση για να τελειοποιήσει το μοντέλο. Υπάρχουν πολλές μελέτες για αυτό το θέμα.
InstructGPT
Το InstructGPT προέρχεται από το OpenAI, το οποίο αποτελεί τη βάση για μοντέλα εκπαίδευσης όπως το ChatGPT και το GPT-4. Ανατρέξτε στην "Τεχνική αναφορά GPT-4" και στην αναφορά Heart of the Machine "GPT-4 Shocking Release: Multi-modal large model". , απευθείας αναβάθμιση ChatGPT, Bing , άνοιγμα API, λήξη του παιχνιδιού; 》《Μάθετε την τεχνολογία πίσω από το ChatGPT από τον Li Mu: Διαβάστε προσεκτικά το έγγραφο InstructGPT σε 67 λεπτά》.
Με την ενσωμάτωση των ανθρώπινων προτιμήσεων, επιλύεται το δύσκολο πρόβλημα της αξιολόγησης των απαντήσεων που δημιουργούνται από το LLM. Οι παραδοσιακές μετρήσεις αξιολόγησης που χρησιμοποιούνται για την αξιολόγηση του LLM, όπως το BLEU, το ROUGE και το BERTScore, δεν μπορούν να εγγυηθούν τη συνέπεια με τις ανθρώπινες προτιμήσεις. Για να λύσουν αυτό το πρόβλημα, οι ερευνητές ενσωμάτωσαν απευθείας τις ανθρώπινες προτιμήσεις στο LLM για να βελτιώσουν την απόδοσή του. Αυτή η διαδικασία τυπικά περιλαμβάνει δύο βασικά βήματα: μάθηση με μοντέλο ανταμοιβής και εκπαίδευση πολιτικής ενίσχυσης μάθησης.
Κατά τη διάρκεια της φάσης εκμάθησης του μοντέλου ανταμοιβής, εκπαιδεύεται μια ρητή συνάρτηση ανταμοιβής κατά σημείο χρησιμοποιώντας προτροπές και ζευγαρωμένες απαντήσεις.
Μετά από αυτό, η φάση εκπαίδευσης για την ενίσχυση της μάθησης ξεκινά σε αυτή τη φάση, το LLM και το προεκπαιδευμένο μοντέλο ανταμοιβής χρησιμεύουν ως παράγοντας και περιβάλλον σε ένα πλαίσιο ενισχυτικής μάθησης.
Για την εκπαίδευση του InstructGPT, χρησιμοποιούνται τρία σύνολα δεδομένων: 1. Σύνολο δεδομένων SFT: Περιέχει επιδείξεις σχολιαστή που χρησιμοποιούνται για την εκπαίδευση του μοντέλου SFT. Σύνολο δεδομένων 2.RM (μοντέλο ανταμοιβής): αποτελείται από την κατάταξη των αποτελεσμάτων μοντέλων από ανθρώπους σχολιαστών και χρησιμοποιείται για την εκπαίδευση μοντέλων ανταμοιβής. 3.Σύνολο δεδομένων PPO: αποτελείται από προτροπές που χρησιμοποιούνται ως είσοδος για τη λεπτομέρεια RLHF.
Το εκπαιδευμένο InstructGPT θα αξιολογηθεί σε τρεις πτυχές: χρησιμότητα, αξιοπιστία και βλαβερότητα.
Κρίνοντας από τα αποτελέσματα, η ανθρώπινη αξιολόγηση δείχνει ότι "οι άνθρωποι προτιμούν την έξοδο της έκδοσης παραμέτρων 1.3B του μοντέλου InstructGPT από το 175B GPT-3, παρόλο που το τελευταίο έχει περισσότερες από 100 φορές λιγότερες παραμέτρους." έχει Η απόδοση είναι καλύτερη από το GPT-3 τόσο σε εργασίες χρησιμότητας όσο και σε εργασίες τοξικότητας, οι οποίες είναι ζωτικής σημασίας για την ευθυγράμμιση.
Anthropic's RLHF
Η Anthropic έχει επίσης μελετήσει το ίδιο θέμα, και η εργασία είναι "Εκπαίδευση ενός χρήσιμου και αβλαβούς βοηθού με ενισχυτική μάθηση από την ανθρώπινη ανατροφοδότηση".
Το OpenAI διαπίστωσε ότι το RLHF βοηθά στην ευθυγράμμιση, αλλά μπορεί επίσης να προκαλέσει υποβάθμιση της απόδοσης του μοντέλου σε ορισμένα σημεία αναφοράς NLP, ένα φαινόμενο γνωστό ως "φόρος ευθυγράμμισης". Το μοντέλο InstructGPT που αναπτύχθηκε από αυτήν έχει παραμέτρους 1.3B. Αντίθετα, οι ερευνητές της Anthropic αξιολόγησαν επτά διαφορετικά μοντέλα που κυμαίνονταν σε μέγεθος από 13M έως 52B, τα οποία αυξήθηκαν γεωμετρικά κατά 4.
Κατέληξαν στο συμπέρασμα ότι υπάρχει «φόρος» στην ευθυγράμμιση για μικρότερα μοντέλα, αλλά μόνο οφέλη για μεγαλύτερα μοντέλα, ειδικά μοντέλα με μεγέθη παραμέτρων μεταξύ 13Β και 52Β.
Λαμβάνοντας υπόψη αυτό το πλεονέκτημα της ευθυγράμμισης, πειραματίστηκαν επίσης με τη χρήση συνόλων δεδομένων τεχνολογίας προγραμματισμού για τη βελτίωση των δυνατοτήτων του LLM. Η μέθοδος RLHF του OpenAI περιλαμβάνει PPO και PPO-ptx, όπου ο στόχος σχεδιασμού του PPO-ptx είναι η μείωση του φόρου ευθυγράμμισης στο σημείο αναφοράς NLP. Η μελέτη RLHF της Anthropic διαπίστωσε ότι εφόσον το μοντέλο είναι αρκετά μεγάλο, το ίδιο το PPO μπορεί να αποφέρει οφέλη ευθυγράμμισης σε εργασίες κατάντη NLP. Προσδιόρισαν επίσης ότι η βέλτιστη παράμετρος της απόκλισης KL στην εκπαίδευση πολιτικών ενισχυτικής μάθησης είναι β = 0,001.
Online/Επαναληπτικό RLHF
Παραδοσιακά, οι τεχνικές RLHF για την ευθυγράμμιση του LLM είναι μέθοδοι εκτός σύνδεσης. Ωστόσο, αυτός ο τύπος μεθόδου έχει κάποιες ελλείψεις, όπως η δυσκολία αντιμετώπισης δεδομένων εκτός διανομής.
Για το σκοπό αυτό, είναι απαραίτητο να βελτιστοποιείτε συνεχώς το LLM και να εκτελείτε επαναληπτική/διαδικτυακή μάθηση, δηλαδή να χρησιμοποιήσετε μια ενδιάμεση στρατηγική για να δημιουργήσετε απαντήσεις για προτροπές, στη συνέχεια να χρησιμοποιήσετε ένα μαντείο για να δώσετε σχόλια προτίμησης για τέτοια ζευγαρωμένα δεδομένα και στη συνέχεια να τα τροφοδοτήσετε σχόλια Δώστε στρατηγική. Στην πράξη, η επαναληπτική μάθηση χωρίζεται σε δύο μέρη: μάθηση προτιμήσεων και βελτιστοποίηση επαναληπτικής πολιτικής. Δείτε την εργασία "RLHF workflow: From Reward modeling to online RLHF".
2. RLAIF
Το κόστος απόκτησης συνόλων δεδομένων ανθρώπινων προτιμήσεων δεν είναι φθηνό, επομένως γεννήθηκε η ενισχυτική μάθηση με βάση την ανατροφοδότηση τεχνητής νοημοσύνης (RLAIF). Επιπλέον, καθώς οι δυνατότητες του LLM συνεχίζουν να βελτιώνονται, η ποιότητα των συνόλων δεδομένων προτιμήσεων AI που μπορούν να συλλεχθούν συνεχίζει επίσης να βελτιώνεται, γεγονός που μπορεί να βελτιώσει το αποτέλεσμα ευθυγράμμισης του LLM.
Anthropic's RLAIF
Με βάση τη βασική ερευνητική εργασία του RLHF, η Anthropic πρότεινε μια νέα μέθοδο που ονομάζεται RLAIF. Δείτε την εργασία «Συνταγματικό αι: Αβλαβές από αι ανατροφοδότηση».
Η μέθοδος αποτελείται κυρίως από δύο στάδια: 1. Εποπτευόμενη μάθηση μέσω Κριτικών και Αναθεωρήσεων, η οποία καθοδηγείται από χάρτη. 2. RLAIF.
Το RLAIF της Google
Με βάση τα ερευνητικά αποτελέσματα RLAIF της Anthropic, μια ερευνητική ομάδα της Google πιστεύει ότι η προηγούμενη έρευνα δεν μπορεί να συγκρίνει άμεσα τα αποτελέσματα της ανθρώπινης ανατροφοδότησης και της τεχνητής νοημοσύνης και αξίζει περαιτέρω έρευνα. Κατά τη διαδικασία συλλογής σχολίων AI, πρέπει να δημιουργηθεί μια δομημένη προτροπή, η οποία αποτελείται από: εισαγωγή, λίγα δείγματα παραδειγμάτων (προαιρετικά), δείγματα προς επισήμανση και συμπέρασμα.
Προκειμένου να δημιουργηθεί ανάδραση τεχνητής νοημοσύνης, πρέπει να πραγματοποιηθεί μια αξιολόγηση δύο βημάτων: πρώτα, αφήστε το LLM να δημιουργήσει την απόκριση χρησιμοποιώντας τα 4 στοιχεία της εντολής συν το CoT. Στο επόμενο βήμα, αυτή η απάντηση LLM αποστέλλεται πίσω στο LLM με την κατάληξη "preferred summary=", δημιουργώντας έτσι μια πιθανότητα προτίμησης "σύνοψη 1=0.6, περίληψη 2=0.4". Για να μειωθεί η προκατάληψη θέσης, οι αλληλουχίες αυτών των δύο αποκρίσεων πρέπει να εναλλάσσονται και να υπολογίζονται οι μέσες βαθμολογίες τους.
Η διαδικασία RLAIF υιοθετεί δύο στρατηγικές: 1. "Distilled RLAIF", που ακολουθεί την παραδοσιακή μέθοδο RLHF, δηλαδή χρησιμοποιώντας προτιμήσεις για την εκπαίδευση ενός μοντέλου ανταμοιβής και στη συνέχεια τη χρήση του για την εκπαίδευση της στρατηγικής LLM 2. "Direct RLAIF". χρησιμοποιεί Η ανατροφοδότηση LLM χρησιμοποιείται ως προτροπή για την έξοδο μιας βαθμολογίας αξιολόγησης, η οποία στη συνέχεια χρησιμοποιείται ως σήμα για την ενίσχυση της εκπαίδευσης πολιτικών μάθησης.
Τέλος, η διαδικασία αξιολόγησής του χρησιμοποιεί τρεις βασικές μετρήσεις: 1. Ευθυγράμμιση AI-Annotator: Πόσο συνεπής είναι η τεχνητή νοημοσύνη με τους ανθρώπινους σχολιαστές. 2. Ποσοστό νίκης: η πιθανότητα ένας ανθρώπινος σχολιαστής να συγκρίνει δύο υποψηφίους και να επιλέξει έναν από αυτούς. 3. Αβλαβές ποσοστό: Το ποσοστό των απαντήσεων που οι αξιολογητές θεωρούν αβλαβείς.
Για περισσότερες λεπτομέρειες, ανατρέξτε στην εργασία "RLAIF: Scaling reinforcement Learning from human feedback with AI feedback".
Άμεση βελτιστοποίηση ανθρώπινων προτιμήσεων
Οι παραδοσιακές μέθοδοι RLHF συνήθως περιλαμβάνουν τη βελτιστοποίηση μιας συνάρτησης ανταμοιβής που προέρχεται από τις ανθρώπινες προτιμήσεις. Αν και είναι αποτελεσματική, αυτή η μέθοδος μπορεί επίσης να δημιουργήσει ορισμένες δυσκολίες, όπως αυξημένη υπολογιστική πολυπλοκότητα και την ανάγκη να ληφθούν υπόψη οι συμβιβασμούς μεροληψίας-διακύμανσης κατά την εκτίμηση και τη βελτιστοποίηση των ανταμοιβών. Δείτε την εργασία "Συνεχής έλεγχος υψηλών διαστάσεων με χρήση γενικευμένης εκτίμησης πλεονεκτημάτων".
Πρόσφατη έρευνα διερεύνησε άλλες μεθόδους που στοχεύουν στην άμεση βελτιστοποίηση των πολιτικών LLM με βάση τις ανθρώπινες προτιμήσεις χωρίς να βασίζονται σε ένα βαθμωτό σήμα ανταμοιβής.
Οι στόχοι αυτών των μεθόδων είναι να απλοποιήσουν τη διαδικασία ευθυγράμμισης, να μειώσουν τα υπολογιστικά έξοδα και να επιτρέψουν πιο ισχυρή βελτιστοποίηση μέσω πιο άμεσης χρήσης των δεδομένων προτιμήσεων. Πλαισιώνοντας το πρόβλημα ως πρόβλημα βελτιστοποίησης προτιμήσεων και όχι ως πρόβλημα εκτίμησης ανταμοιβής και μεγιστοποίησης, αυτές οι μέθοδοι μπορούν να παρέχουν μια διαφορετική προοπτική για την ευθυγράμμιση των γλωσσικών μοντέλων με την ανθρώπινη κρίση:
DPO σε επίπεδο διακριτικού
Όταν χρησιμοποιείτε DPO, οι ανταμοιβές εκχωρούνται σε προτροπές και απαντήσεις μαζί. Αντίθετα, κατά τη χρήση του MDP, οι ανταμοιβές απονέμονται σε μεμονωμένες ενέργειες. Οι ακόλουθες δύο εργασίες επεξεργάστηκαν το DPO σε επίπεδο διακριτικών και επέκτεινε την εφαρμογή του στην ανάλυση σε επίπεδο διακριτικών.
Επαναληπτικό/Διαδικτυακό DPO
Όταν χρησιμοποιείτε DPO, όλα τα διαθέσιμα σύνολα δεδομένων προτιμήσεων χρησιμοποιούνται για την ευθυγράμμιση του LLM. Προκειμένου να βελτιώνεται συνεχώς το LLM, θα πρέπει να εφαρμοστεί επαναληπτικό/online DPO. Αυτό εγείρει ένα ενδιαφέρον ερώτημα: πώς να συλλέξετε αποτελεσματικά νέα σύνολα δεδομένων προτιμήσεων. Οι δύο ακόλουθες εργασίες διερευνούν αυτό το θέμα σε βάθος.
δυαδική ανατροφοδότηση
Αποδεικνύεται ότι η συλλογή σχολίων προτιμήσεων είναι πιο δύσκολη από τη συλλογή δυαδικών σχολίων (όπως "μου αρέσει" ή "δεν μου αρέσει", επομένως η τελευταία μπορεί να διευκολύνει την κλιμάκωση της διαδικασίας ευθυγράμμισης. Οι δύο μελέτες, KTO και DRO, επικεντρώνονται στη χρήση δυαδικής ανάδρασης για την ευθυγράμμιση του LLM.
Σύντηξη SFT και ευθυγράμμιση
Προηγούμενη έρευνα διεξήγαγε κυρίως SFT και ευθυγράμμιση διαδοχικά, αλλά αυτή η προσέγγιση έχει αποδειχθεί επίπονη και μπορεί να οδηγήσει σε καταστροφική λήθη. Η συνεχής έρευνα έχει δύο κατευθύνσεις: η μία είναι να ενσωματωθούν αυτές οι δύο διαδικασίες σε ένα μόνο βήμα, η άλλη είναι να βελτιστοποιηθούν τα δύο μοντέλα παράλληλα και τελικά να συγχωνευθούν.
DPO ελεγχόμενου μήκους και DPO χωρίς αναφορά
Προηγούμενη έρευνα έχει δείξει ότι το αποτέλεσμα του LLM είναι συχνά πολύ περιεκτικό. Για την επίλυση αυτού του προβλήματος, το R-DPO και το SimPO εστιάζουν στον έλεγχο του μήκους απόκρισης χωρίς να επηρεάζουν την απόδοση παραγωγής.
Επιπλέον, το DPO απαιτεί μια στρατηγική αναφοράς για να διασφαλιστεί ότι το ευθυγραμμισμένο μοντέλο δεν αποκλίνει πολύ από το μοντέλο αναφοράς. Αντίθετα, οι SimPO και RLOO προτείνουν μεθόδους που εξαλείφουν την ανάγκη για ένα μοντέλο αναφοράς χωρίς να επηρεάζουν το φαινόμενο LLM.
Βελτιστοποίηση προτιμήσεων λίστα προς λίστα
Η προηγούμενη έρευνα για το PPO και το DPO επικεντρώθηκε σε προτιμήσεις ανά ζεύγη, ενώ η έρευνα για το RLHF συνέλεξε προτιμήσεις κατά λίστα για να επιταχύνει τη διαδικασία συλλογής δεδομένων και στη συνέχεια τις μετέτρεψε σε προτιμήσεις ανά ζεύγη. Ωστόσο, προκειμένου να βελτιωθεί η απόδοση του LLM, είναι εφικτό να χρησιμοποιηθούν απευθείας σύνολα δεδομένων βάσει λίστας για την εκτέλεση βελτιστοποίησης προτιμήσεων. Οι ακόλουθες τρεις εργασίες συζητούν συγκεκριμένα αυτήν την προσέγγιση.
βελτιστοποίηση αρνητικών προτιμήσεων
Αυτές οι μελέτες μοιράζονται μια κοινή υπόθεση: η τρέχουσα γενιά LLM έχει ξεπεράσει την ανθρώπινη απόδοση σε εργασίες όπως η μετάφραση και η περίληψη. Ως εκ τούτου, είναι πλεονεκτικό να αντιμετωπίζεται η έξοδος του LLM ως επιθυμητή απόκριση χωρίς να βασιζόμαστε στην αντιμετώπιση των δεδομένων που έχουν επισημανθεί από τον άνθρωπο ως προτιμώμενη απόκριση. Αντίθετα, οι ανεπιθύμητες απαντήσεις μπορούν ακόμα να χρησιμοποιηθούν για την ευθυγράμμιση των LLM, μια διαδικασία που ονομάζεται βελτιστοποίηση αρνητικών προτιμήσεων (NPO).
Νας εκμάθηση
Προηγούμενες μελέτες χρησιμοποιούν συνήθως μοντέλα ανταμοιβής σημείων και BT για την απόκτηση προτιμήσεων ανά ζεύγη. Ωστόσο, αυτή η προσέγγιση είναι κατώτερη από τη μοντελοποίηση προτιμήσεων απευθείας ανά ζεύγη και δεν μπορεί να επιλύσει ασυνέπειες στις προτιμήσεις ανά ζεύγη. Για να ξεπεραστούν αυτοί οι περιορισμοί, ορισμένες μελέτες έχουν προτείνει τη μέθοδο εκμάθησης Nash.
Σύγκριση διαφορετικών μεθόδων
Έχουν διεξαχθεί ορισμένες μελέτες για τη σύγκριση αυτών των διαφορετικών μεθόδων. Τέτοιες μελέτες μπορούν να απεικονίσουν τα αντίστοιχα πλεονεκτήματα και μειονεκτήματα κάθε προσέγγισης.
Η εργασία "Insights into alignment: Evaluating dpo and its variants into multiple tasks" αξιολογεί διεξοδικά μοντέλα σιωπηρής ανταμοιβής, δηλαδή, χωρίς αλγόριθμους ενίσχυσης μάθησης, σε πολλαπλές εργασίες όπως η συλλογιστική, η μαθηματική επίλυση προβλημάτων, η αξιοπιστία, η απάντηση σε ερωτήσεις και η πολλαπλή εργασία Συμπεριλαμβανομένου του DPO, του KTO, του IPO και του CPO. Αυτές οι αξιολογήσεις περιλαμβάνουν τρία διαφορετικά σενάρια: 1) λεπτομέρεια ενός μοντέλου εποπτευόμενης λεπτομέρειας (SFT), 2) μικρορύθμιση ενός προεκπαιδευμένου μοντέλου και 3) μικρορύθμιση ενός μοντέλου εντολών.
Η μελέτη διαπίστωσε ότι το KTO ξεπέρασε τις άλλες μεθόδους ευθυγράμμισης στα περισσότερα σημεία αναφοράς. Επιπλέον, η έρευνα δείχνει ότι η ευθυγράμμιση δεν βελτιώνει σημαντικά την απόδοση συλλογιστικής και απάντησης ερωτήσεων του μοντέλου, αλλά βελτιώνει σημαντικά τις δυνατότητες επίλυσης μαθηματικών προβλημάτων του μοντέλου. Η μελέτη σημείωσε επίσης τη σημασία του μεγέθους των δεδομένων, με τις μεθόδους ευθυγράμμισης να αποδίδουν καλύτερα σε μικρότερα υποσύνολα δεδομένων. Επιπλέον, η μελέτη διαπίστωσε ότι το KTO και το CPO μπορούν να παρακάμψουν αποτελεσματικά το στάδιο SFT και να εισέλθουν απευθείας στο στάδιο της ευθυγράμμισης χωρίς να επηρεάσουν την απόδοση. Αντίθετα, το DPO και το IPO παρουσιάζουν σημαντική υποβάθμιση της απόδοσης όταν παρακάμπτεται το στάδιο SFT και εισέρχεται απευθείας στο στάδιο ευθυγράμμισης.
Το έγγραφο "Είναι το DPO ανώτερο από το PPO για την ευθυγράμμιση LLM; Μια ολοκληρωμένη μελέτη" δείχνει ότι το DPO μπορεί να έχει εγγενείς περιορισμούς, μπορεί να παράγει μεροληπτικές απαντήσεις και μπορεί να προκαλέσει υποβάθμιση της απόδοσης λόγω αλλαγών διανομής,
Διαπίστωσαν ότι η πολιτική που εκπαιδεύτηκε από τον DPO ευνόησε τις μη εμφανείς απαντήσεις, ειδικά τα δείγματα εκτός διανομής. Το Iterative/online DPO μετριάζει αυτό το πρόβλημα διερευνώντας ευρέως τον χώρο απόκρισης και ενημερώνοντας συνεχώς το μοντέλο αναφοράς. Αντίθετα, το RLHF/PPO αντιμετωπίζει αυτές τις προκλήσεις μέσω της κανονικοποίησης κυριαρχίας, των μεγάλων μεγεθών παρτίδων και της χρήσης εκθετικών κινητών μέσων όρων σε ένα μοντέλο αναφοράς. Τελικά, αυτά τα ευρήματα καταδεικνύουν ότι το PPO υπερέχει του επαναληπτικού/online DPO, το οποίο με τη σειρά του υπερέχει του τυπικού DPO.
Για περισσότερες λεπτομέρειες, ανατρέξτε στο άρθρο της στήλης Heart of the Machine "ICML 2024 Oral | Είναι ο DPO πιο κατάλληλος για LLM από PPO, το τελευταίο μυστικό που αποκαλύφθηκε από την ομάδα Tsinghua Wuyi".
μελλοντική κατεύθυνση
Αναλύοντας προηγούμενες εργασίες, η ομάδα εντόπισε μια σειρά από ερευνητικά ερωτήματα για περαιτέρω εξερεύνηση.
Γενικές εργασίες για την αξιολόγηση της ευθυγράμμισης
Διαφορετικά έγγραφα έχουν χρησιμοποιήσει διαφορετικές εργασίες για την αξιολόγηση της απόδοσης αυτών των μεθόδων. Ωστόσο, ορισμένες εργασίες όπως το GSM8K εστιάζουν περισσότερο στην εξαγωγή συμπερασμάτων και ενδέχεται να μην είναι κατάλληλες για την αξιολόγηση της απόδοσης της ευθυγράμμισης. Αντίθετα, εργασίες όπως το TruthfulQA ή εκείνες που εστιάζουν στην τοξικότητα θα πρέπει να έχουν προτεραιότητα για την αξιολόγηση της τοξικότητας των λεπτοσυντονισμένων LLM. Θα πρέπει να βρεθούν τρόποι συνδυασμού αυτών των εργασιών για τη δημιουργία μιας ενοποιημένης λίστας κατάταξης για την αξιολόγηση της ευθυγράμμισης.
Χρήση σιωπηρών μοντέλων ανταμοιβής, προτιμήσεων κατά λίστα και εκμάθησης Nash για μεγαλύτερα μοντέλα γλώσσας
Επί του παρόντος, το μεγαλύτερο μοντέλο που χρησιμοποιεί ένα μοντέλο σιωπηρής ανταμοιβής έχει μόνο 70Β παραμέτρους. Εάν αυτές οι μέθοδοι μπορούν να επεκταθούν σε μεγαλύτερα μοντέλα, όπως αυτά του μεγέθους των GPT-4 και Claude-3, θα μας βοηθήσει να κατανοήσουμε καλύτερα τη σχετική αποτελεσματικότητά τους με το RLHF/PPO.
Ομοίως, τα μοντέλα προτιμήσεων βάσει λίστας αξίζουν επίσης περαιτέρω μελέτη. Όταν χρησιμοποιείτε το RLHF, ένα σύνολο δεδομένων προτιμήσεων συλλέγεται χρησιμοποιώντας προτιμήσεις κατά λίστα, οι οποίες στη συνέχεια μετατρέπονται σε δεδομένα προτιμήσεων ανά ζεύγη. Τα πιθανά προβλήματα με τις εφαρμογές μεγάλης κλίμακας μοντέλων προτιμήσεων κατά λίστα πρέπει να επιλυθούν.
Τέλος, η εκμάθηση Nash μπορεί να επιλύσει τις ασυνέπειες μεταξύ των ανθρώπινων σχολιαστών. Εάν το μοντέλο εκμάθησης Nash μπορεί να ενσωματωθεί σε ένα LLM μεγαλύτερης κλίμακας, μπορεί να αποδειχθεί η ικανότητά του να αποτυπώνει την πολυπλοκότητα της ανθρώπινης φύσης.
Πειράματα σε δυαδική ανάδραση
Τόσο το KTO όσο και το DRO χρησιμοποιούν δυαδικούς μηχανισμούς ανάδρασης όπως "μου αρέσει" και "δεν μου αρέσει" αντί για ζευγαρωμένες προτιμήσεις. Αυτές οι δυαδικές ανατροφοδοτήσεις προέρχονται από ένα σύνολο δεδομένων προτιμήσεων, όπου οι επιθυμητές απαντήσεις επισημαίνονται ως θετικά παραδείγματα και οι ανεπιθύμητες απαντήσεις επισημαίνονται ως αρνητικά παραδείγματα. Χρειαζόμαστε επίσης περαιτέρω έρευνα για ρεαλιστικά δυαδικά σύνολα δεδομένων. Επιπλέον, τα δυαδικά σύνολα δεδομένων είναι πιο εύκολο να συλλεχθούν από τα δεδομένα προτιμήσεων, επομένως αναμένεται να χρησιμοποιηθούν μεγαλύτερα δυαδικά σύνολα δεδομένων ανάδρασης για ευθυγράμμιση. Ωστόσο, ο θόρυβος στη δυαδική ανάδραση μπορεί να είναι πιο προφανής από τον θόρυβο στο σύνολο δεδομένων προτιμήσεων, επομένως το πώς να φιλτράρετε αποτελεσματικά τα θορυβώδη δεδομένα είναι επίσης μια πολύ ενδιαφέρουσα ερευνητική κατεύθυνση.
Πειραματιστείτε με χρήσιμα σχόλια AI
Η τρέχουσα ανατροφοδότηση τεχνητής νοημοσύνης περιλαμβάνει κυρίως την αβλαβή ανατροφοδότηση στο RLAIF και την κατάταξη ανάδρασης σε επαναληπτικό DPO. Ωστόσο, όταν χρησιμοποιείτε το RLAIF, εξακολουθούν να παρέχονται χρήσιμα σχόλια από ανθρώπινους σχολιαστές. Αυτή η προσέγγιση δικαιολογείται επειδή η δημιουργία χρήσιμων απαντήσεων είναι σημαντικά πιο δύσκολη από τον εντοπισμό επιβλαβών ανατροφοδοτήσεων. Μια ενδιαφέρουσα μελλοντική ερευνητική κατεύθυνση είναι η χρήση του LLM για τη δημιουργία χρήσιμης ανατροφοδότησης, επιτρέποντας έτσι στο LLM να βελτιωθεί.
Επιταχύνετε την εκμάθηση Nash
Οι μέθοδοι εκμάθησης Nash μπορούν να μοντελοποιήσουν αποτελεσματικά τις προτιμήσεις ανά ζεύγη και να επιλύσουν τις ασυνέπειες μεταξύ των ανθρώπινων σχολιασμών. Ωστόσο, απαιτεί πολλαπλές επαναλήψεις για να συγκλίνει στη βέλτιστη στρατηγική. Αν και ο συντάκτης του δεν δήλωσε ρητά τον χρόνο που απαιτείται για την ευθυγράμμιση, μπορεί να μαντέψει κανείς ότι θα είναι πολύ πιο αργός από τα μοντέλα σιωπηρής ανταμοιβής όπως το DPO. Επομένως, η βελτίωση της ταχύτητας της διαδικασίας μάθησης Nash είναι επίσης μια ερευνητική κατεύθυνση που αξίζει προσοχής.
Τερματισμός επανάληψης/διαδικτυακής μάθησης
Όταν χρησιμοποιείτε επαναληπτική/διαδικτυακή εκπαίδευση, ο καθορισμός του πότε θα τερματιστεί μια επανάληψη είναι κρίσιμος. Προηγούμενη έρευνα έχει βρει ότι η επαναληπτική μάθηση μερικές φορές μειώνει την απόδοση του LLM σε ορισμένες εργασίες, κάτι που μπορεί να είναι σημάδι υπερβολικής προσαρμογής. Ωστόσο, κανένας ερευνητής δεν έχει διερευνήσει ακόμη πώς να προσδιορίσει τη λογική εποχή για τον τερματισμό των επαναλήψεων.
Απλοποιημένη SFT + Ευθυγράμμιση
Οι τρέχουσες προσεγγίσεις συνήθως εφαρμόζουν το SFT και την ευθυγράμμιση με διαδοχικό τρόπο. Ωστόσο, αυτή η προσέγγιση συχνά οδηγεί σε καταστροφική λήθη και κάνει όλη τη διαδικασία της προπόνησης πιο επίπονη. Η μέθοδος PAFT μετριάζει την καταστροφική λήθη, προσαρμόζοντας πρώτα το SFT και την ευθυγράμμιση ξεχωριστά και στη συνέχεια συγχωνεύοντάς τα μεταξύ τους, αλλά αυτό αυξάνει επίσης την πολυπλοκότητα. Αντίθετα, η τεχνολογία ORPO ενσωματώνει και τις δύο διαδικασίες ταυτόχρονα, αλλά οδηγεί σε υποβάθμιση της απόδοσης. Λοιπόν, πώς συνδυάζετε αποτελεσματικά το SFT και την ευθυγράμμιση για να επιτύχετε υψηλή απόδοση διατηρώντας παράλληλα υψηλή απόδοση; Αυτή είναι ακόμα μια πρόκληση που πρέπει να επιλυθεί.
Δείτε το πρωτότυπο έγγραφο για περισσότερες λεπτομέρειες.