Έγγραφο υψηλής βαθμολογίας από το COLM, το πρώτο μεγάλο συνέδριο μοντέλων: Ο αλγόριθμος αναζήτησης προτιμήσεων κάνει την αξιολόγηση μεγάλων μοντέλων πιο αποδοτική

Έγγραφο υψηλής βαθμολογίας από το COLM, το πρώτο μεγάλο συνέδριο μοντέλων: Ο αλγόριθμος αναζήτησης προτιμήσεων κάνει την αξιολόγηση μεγάλων μοντέλων πιο αποτελεσματική

2024-08-05

Η στήλη AIxiv είναι μια στήλη όπου το Machine Heart δημοσιεύει ακαδημαϊκό και τεχνικό περιεχόμενο. Τα τελευταία χρόνια, η στήλη Heart of the Machine AIxiv έχει λάβει περισσότερες από 2.000 αναφορές, που καλύπτουν κορυφαία εργαστήρια από μεγάλα πανεπιστήμια και εταιρείες σε όλο τον κόσμο, προωθώντας αποτελεσματικά τις ακαδημαϊκές ανταλλαγές και τη διάδοση. Εάν έχετε εξαιρετική δουλειά που θέλετε να μοιραστείτε, μη διστάσετε να συνεισφέρετε ή να επικοινωνήσετε μαζί μας για αναφορά. Email υποβολής: [email protected], [email protected]

Οι συγγραφείς του άρθρου είναι όλοι από το Εργαστήριο Γλωσσικής Τεχνολογίας του Πανεπιστημίου του Κέιμπριτζ. Τα ερευνητικά του ενδιαφέροντα είναι η μεγάλη αξιολόγηση μοντέλων και κειμένων, η παραγωγή δεδομένων κ.λπ. Ο Zhou Han, δευτεροετής διδακτορικός φοιτητής στο Tongyi, έχει καθοδηγητή τους καθηγητές Anna Korhonen και Ivan Vulić Το ερευνητικό του ενδιαφέρον είναι για αποτελεσματικά μεγάλα μοντέλα.

Τα μεγάλα μοντέλα παρουσιάζουν εξαιρετικές δυνατότητες παρακολούθησης εντολών και γενίκευσης εργασιών Αυτή η μοναδική ικανότητα προέρχεται από τη χρήση των δεδομένων εντολών από τα LLM και την ενίσχυση της μάθησης με ανθρώπινη ανάδραση (RLHF). Στο πρότυπο εκπαίδευσης RLHF, το μοντέλο ανταμοιβής ευθυγραμμίζεται με τις ανθρώπινες προτιμήσεις με βάση τα δεδομένα σύγκρισης κατάταξης. Αυτό ενισχύει την ευθυγράμμιση των LLM με τις ανθρώπινες αξίες, δημιουργώντας έτσι απαντήσεις που βοηθούν καλύτερα τους ανθρώπους και τηρούν τις ανθρώπινες αξίες.

Πρόσφατα, το πρώτο μεγάλο μοντέλο διάσκεψης COLM ανακοίνωσε τα αποτελέσματα αποδοχής. Σε ένα πρόβλημα κατάταξης προτιμήσεων, λοιπόν, σχεδιάστηκε ο αλγόριθμος PairS, ένας αλγόριθμος που μπορεί να αναζητήσει και να ταξινομήσει από τις προτιμήσεις ανά ζεύγη. Χρησιμοποιώντας τις παραδοχές της αβεβαιότητας και της μεταβατικότητας LLM, το PairS μπορεί να δώσει αποτελεσματικές και ακριβείς ταξινομήσεις προτιμήσεων και να επιδείξει υψηλότερη συνέπεια με την ανθρώπινη κρίση σε πολλαπλά σύνολα δοκιμών.

Σύνδεσμος χαρτιού: https://arxiv.org/abs/2403.16950

论文标题：Ευθυγράμμιση με την ανθρώπινη κρίση: Ο ρόλος της προτίμησης κατά ζεύγη σε αξιολογητές μοντέλων μεγάλων γλωσσών

Διεύθυνση Github: https://github.com/cambridgeltl/PairS

Ποια είναι τα προβλήματα με τη χρήση μεγάλων μοντέλων για αξιολόγηση;

Ένας μεγάλος αριθμός πρόσφατων εργασιών έχει αποδείξει την εξαιρετική απόδοση των LLM στην αξιολόγηση της ποιότητας του κειμένου, διαμορφώνοντας ένα νέο παράδειγμα για την αξιολόγηση χωρίς αναφορά γενετικών εργασιών, αποφεύγοντας το ακριβό κόστος του ανθρώπινου σχολιασμού. Ωστόσο, οι αξιολογητές LLM είναι ιδιαίτερα ευαίσθητοι στον γρήγορο σχεδιασμό και μπορεί ακόμη και να επηρεάζονται από πολλαπλές προκαταλήψεις, συμπεριλαμβανομένης της μεροληψίας θέσης, της μεροληψίας λεκτικότητας και της μεροληψίας περιβάλλοντος. Αυτές οι προκαταλήψεις εμποδίζουν τους αξιολογητές LLM να είναι δίκαιοι και αξιόπιστοι, οδηγώντας σε ασυνέπειες και κακές ευθυγραμμίσεις με την ανθρώπινη κρίση.

Για να μειωθούν οι προκατειλημμένες προβλέψεις των LLM, η προηγούμενη εργασία ανέπτυξε τεχνικές βαθμονόμησης για τη μείωση της μεροληψίας στις προβλέψεις LLM. Αρχικά διεξάγουμε μια συστηματική ανάλυση της αποτελεσματικότητας των τεχνικών βαθμονόμησης στην ευθυγράμμιση σημειακών εκτιμητών LLM. Όπως φαίνεται στο σχήμα 2 παραπάνω, οι υπάρχουσες μέθοδοι βαθμονόμησης εξακολουθούν να μην μπορούν να ευθυγραμμίσουν καλά τον εκτιμητή LLM ακόμη και όταν παρέχονται δεδομένα εποπτείας.

Όπως φαίνεται στην Εξίσωση 1, πιστεύουμε ότι ο κύριος λόγος για την εσφαλμένη ευθυγράμμιση της αξιολόγησης δεν είναι οι μεροληπτικές προτεραιότητες έναντι της κατανομής της βαθμολογίας αξιολόγησης του LLM, αλλά η κακή ευθυγράμμιση του προτύπου αξιολόγησης, δηλαδή η ομοιότητα του αξιολογητή LLM. Πιστεύουμε ότι οι αξιολογητές LLM θα έχουν πιο συνεπή κριτήρια αξιολόγησης με τους ανθρώπους όταν κάνουν αξιολόγηση κατά ζεύγη, επομένως διερευνούμε ένα νέο παράδειγμα αξιολόγησης LLM για να προωθήσουμε πιο ευθυγραμμισμένες κρίσεις.

Εμπνευσμένο από το RLHF

Όπως φαίνεται στο Σχήμα 1 παρακάτω, εμπνευσμένο από την ευθυγράμμιση μοντέλων ανταμοιβής μέσω δεδομένων προτιμήσεων στο RLHF, πιστεύουμε ότι ο αξιολογητής LLM μπορεί να λάβει προβλέψεις που είναι πιο ευθυγραμμισμένες με τους ανθρώπους δημιουργώντας ταξινομήσεις προτιμήσεων. Πρόσφατα, άρχισε κάποια εργασία για την απόκτηση κατάταξης προτιμήσεων αφήνοντας το LLM να πραγματοποιεί συγκρίσεις ανά ζεύγη. Ωστόσο, η αξιολόγηση της πολυπλοκότητας και της επεκτασιμότητας των κατατάξεων προτιμήσεων έχει παραβλεφθεί σε μεγάλο βαθμό. Αγνοούν την υπόθεση της μεταβατικότητας, καθιστώντας την πολυπλοκότητα του αριθμού των συγκρίσεων O (N^2), καθιστώντας τη διαδικασία αξιολόγησης δαπανηρή και ανέφικτη.

PairS: Αποτελεσματικός αλγόριθμος αναζήτησης προτιμήσεων

Σε αυτήν την εργασία, προτείνουμε δύο αλγόριθμους αναζήτησης προτιμήσεων ανά ζεύγη (PairS-greedy και PairS-beam). Το PairS-greedy είναι ένας αλγόριθμος που βασίζεται στην υπόθεση πλήρους μεταβατικότητας και στην ταξινόμηση συγχώνευσης και μπορεί να αποκτήσει ταξινόμηση καθολικών προτιμήσεων μόνο με πολυπλοκότητα O (NlogN). Η υπόθεση μεταβατικότητας σημαίνει ότι, για παράδειγμα, για τρεις υποψήφιους, το LLM έχει πάντα εάν A≻B και B≻C, τότε A≻C. Κάτω από αυτήν την υπόθεση μπορούμε να χρησιμοποιήσουμε απευθείας παραδοσιακούς αλγόριθμους κατάταξης για να λάβουμε κατάταξη προτιμήσεων από προτιμήσεις ανά ζεύγη.

Ωστόσο, το LLM δεν έχει τέλεια μεταβατικότητα, έτσι σχεδιάσαμε τον αλγόριθμο PairS-beam. Κάτω από την υπόθεση της χαλαρότερης μεταβατικότητας, εξάγουμε και απλοποιούμε τη συνάρτηση πιθανότητας για την κατάταξη προτιμήσεων. Το PairS-beam είναι μια μέθοδος αναζήτησης που εκτελεί μια αναζήτηση δέσμης με βάση την τιμή πιθανότητας σε κάθε λειτουργία συγχώνευσης του αλγορίθμου ταξινόμησης συγχώνευσης και μειώνει τον χώρο σύγκρισης κατά ζεύγη λόγω της αβεβαιότητας των προτιμήσεων. Το PairS-beam μπορεί να προσαρμόσει την πολυπλοκότητα της αντίθεσης και την ποιότητα κατάταξης και να παρέχει αποτελεσματικά την εκτίμηση μέγιστης πιθανότητας (MLE) της κατάταξης προτιμήσεων. Στο σχήμα 3 παρακάτω δείχνουμε ένα παράδειγμα του τρόπου με τον οποίο το PairS-beam εκτελεί μια λειτουργία συγχώνευσης.

Πειραματικά αποτελέσματα

Δοκιμάσαμε σε πολλαπλά αντιπροσωπευτικά σύνολα δεδομένων, συμπεριλαμβανομένων των εργασιών συντομογραφίας κλειστού τύπου NewsRoom και SummEval, και της εργασίας δημιουργίας ιστορίας ανοιχτού τύπου HANNA, και συγκρίναμε πολλές μεθόδους βασικής αξιολόγησης ενός σημείου LLM, συμπεριλαμβανομένων των None Supervised direct scoring, G-Eval, GPTScore και επέβλεπε εκπαιδευμένους UniEval και BARTScore. Όπως φαίνεται στον Πίνακα 1 παρακάτω, το PairS έχει υψηλότερη συνέπεια με τις αξιολογήσεις ανθρώπων από ό,τι σε κάθε εργασία. Το GPT-4-turbo μπορεί ακόμη και να επιτύχει εφέ SOTA.

Στο άρθρο, συγκρίνουμε επίσης δύο βασικές μεθόδους για την κατάταξη προτιμήσεων, το ποσοστό νίκης και τη βαθμολογία ELO. Τα PairS μπορούν να επιτύχουν την κατάταξη προτιμήσεών τους της ίδιας ποιότητας μόνο με περίπου 30% του αριθμού των συγκρίσεων. Το έγγραφο παρέχει επίσης περισσότερες πληροφορίες σχετικά με τον τρόπο με τον οποίο οι κατά ζεύγη προτιμήσεις μπορούν να χρησιμοποιηθούν για τον ποσοτικό υπολογισμό της μεταβατικότητας των εκτιμητών LLM και πώς οι εκτιμητές κατά ζεύγη μπορούν να επωφεληθούν από τη βαθμονόμηση.

Για περισσότερες λεπτομέρειες έρευνας, ανατρέξτε στην αρχική εργασία.

Νέα

Εισαγωγή

τα στοιχεία επικοινωνίας μου