τα στοιχεία επικοινωνίας μου
Ταχυδρομείο[email protected]
2024-07-15
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Ο δυτικός άνεμος προέρχεται από τον ναό Aofei
Qubits | Δημόσιος λογαριασμός QbitAI
Η ψευδαίσθηση των μεγάλων μοντέλων χωρίζεται επίσης σε εσωτερική και εξωτερική——
Το τελευταίο ιστολόγιο του Κινέζου επιστήμονα του OpenAI Weng Li προτείνειΕξωτερική ψευδαίσθηση LLM(εξωγενής ψευδαίσθηση).
Διαφορετικό από το περιεχόμενο που δημιουργείται από το αναφορικό μοντέλο που είναι ασυμβίβαστο με την πραγματικότητα, πλασματικό, ασυνεπές ή ανούσιο, ο Weng Li προσδιόρισε το πρόβλημα "ψευδαίσθησης" LLM ωςΤο περιεχόμενο εξόδου μοντέλου είναι φανταστικό και δεν βασίζεται στο παρεχόμενο πλαίσιο ή στη γνώση του κόσμου。
Από αυτό, υπάρχουν δύο τύποι παραισθήσεων:
Προηγουμένως, ο Weng Li πρότεινε επίσης τον τύπο Agent: Agent = μεγάλο μοντέλο + μνήμη + ενεργός προγραμματισμός + χρήση εργαλείου, ο οποίος ονομάστηκε "το καλύτερο άρθρο για τον Agent που έχω δει ποτέ" από ορισμένους χρήστες του Διαδικτύου.
Αυτό το blog για την ψευδαίσθηση των μεγάλων μοντέλων είναι επίσης "βαριά δουλειά". Το άρθρο είναι πολύ μεγάλο, με συνολικά 24 αναφορές.
Ο Weng Li εστίασε στις εξωτερικές παραισθήσεις και συζήτησε τρία ερωτήματα: Ποια είναι η αιτία των παραισθήσεων; Ανίχνευση ψευδαισθήσεων, μέθοδοι αντίστασης στις παραισθήσεις.
Η Qubits έχει συντάξει και οργανώσει το αρχικό κείμενο χωρίς να αλλάξει το αρχικό νόημα.
Το Qubits έχει μεταφραστεί και ανατυπωθεί με την άδεια του αρχικού συγγραφέα.
Το αρχικό κείμενο είναι εδώ:
https://lilianweng.github.io/posts/2024-07-07-hallucination/
Λαμβάνοντας υπόψη ότι ένα τυπικό αναπτυσσόμενο LLM πρέπει να είναι προεκπαιδευμένο και βελτιωμένο για ευθυγράμμιση και βελτίωση, η ανάλυση αιτιών ξεκινά από αυτά τα δύο στάδια.
Πρόβλημα δεδομένων πριν από την προπόνηση
Το σύνολο δεδομένων πριν από την εκπαίδευση έχει σχεδιαστεί για να αντιπροσωπεύει όλη τη διαθέσιμη παγκόσμια γνώση σε γραπτή μορφή και επομένως είναι τεράστιο.
Η απόξεση δεδομένων από το δημόσιο Διαδίκτυο είναι η πιο συνηθισμένη επιλογή, αλλά αυτό μπορεί να οδηγήσει σε ορισμένες ξεπερασμένες, ελλιπείς ή εσφαλμένες πληροφορίες. Επειδή το μοντέλο μπορεί να θυμάται εσφαλμένα αυτές τις πληροφορίες απλώς μεγιστοποιώντας την πιθανότητα καταγραφής, το μοντέλο μπορεί να κάνει λάθη.
Βελτιώστε τη νέα γνώση
Η τελειοποίηση του προεκπαιδευμένου LLM μέσω εποπτευόμενης μικρορύθμισης (SFT) και της ενισχυτικής μάθησης με ανθρώπινη ανάδραση (RLHF) είναι μια κοινή τεχνική για τη βελτίωση ορισμένων δυνατοτήτων του μοντέλου (όπως η παρακολούθηση εντολών). Η φάση της τελειοποίησης εισάγει αναπόφευκτα νέα γνώση.
Ενώ η τελειοποίηση συνήθως καταναλώνει λιγότερους υπολογιστικούς πόρους,Το κατά πόσον η νέα γνώση μπορεί να μαθευτεί αξιόπιστα με τη βελτιστοποίηση ενός μοντέλου σε μικρή κλίμακα είναι ανοιχτό υπό αμφισβήτηση.。
Σε μια μελέτη φέτος, ο Gekhman και συν.
Βρήκαν ότι το LLM μαθαίνει πιο αργά από βελτιωμένα παραδείγματα με νέες γνώσεις παρά από παραδείγματα που είναι συνεπή με τις προϋπάρχουσες γνώσεις του μοντέλου, όταν μαθαίνονται αυτά τα παραδείγματα με νέες γνώσεις, η τάση του μοντέλου να έχει παραισθήσεις.
Συγκεκριμένα, με δεδομένο ένα σύνολο δεδομένων κλειστών ερωτήσεων και απαντήσεων (δηλ. EntityQuestions) = (,), το Correct(,;,) ορίζεται ως μια εκτίμηση της πιθανότητας το μοντέλο M να δημιουργήσει με ακρίβεια τη σωστή απάντηση, όταν χρησιμοποιεί τυχαία παραδείγματα και ορισμένη αποκωδικοποίηση Όταν ζητηθεί από τη θερμοκρασία, η σωστή απάντηση στην ερώτηση είναι.
Χώρησαν τα παραδείγματα σε 4 κατηγορίες σύμφωνα με διαφορετικές συνθήκες του Correct(,;,): Γνωστή ομάδα (συμπεριλαμβανομένων τριών υποομάδων: HighlyKnown, MaybeKnown, WeakKnown) και Unknown group.
Μερικές ενδιαφέρουσες παρατηρήσεις από τα πειράματα, όπου η ακρίβεια στο σύνολο προγραμματισμού λαμβάνεται ως συμβολικός δείκτης ψευδαίσθησης:
Αυτά τα αποτελέσματα από τους Gekhman et al επισημαίνουν τους κινδύνους από τη χρήση εποπτευόμενης μικρορύθμισης για την ενημέρωση των γνώσεων LLM.
Βελτιωμένη αξιολόγηση αναζήτησης
Για να ποσοτικοποιηθεί το φαινόμενο των παραισθήσεων του μοντέλου, ο Lee et al εισήγαγε ένα νέο σύνολο δεδομένων αναφοράς το 2022Factuality Prompt, αυτό το σύνολο δεδομένων περιέχει πραγματικές και μη πραγματικές υποδείξεις, χρησιμοποιώντας έγγραφα ή προτάσεις της Wikipedia ως τη βασική βάση πραγματικών γνώσεων.
Τα έγγραφα της Wikipedia είναι γνωστές αληθινές πληροφορίες από το σύνολο δεδομένων FEVER, ενώ οι προτάσεις επιλέγονται μέσω tf-idf ή ομοιότητας με βάση τις ενσωματώσεις προτάσεων.
Δύο μετρήσεις για την αξιολόγηση των παραισθήσεων λήφθηκαν υπόψη δεδομένου ενός μοντέλου συνέχειας και ενός ζευγαρωμένου κειμένου της Wikipedia:ψευδαισθήσεις με όνομα οντότητες(ΟΧΙ)Ποσοστό σφάλματος、Αναλογία επιπτώσεων(Αναλογίες συνεπαγωγής).
Τα υψηλότερα ποσοστά σφάλματος NE και οι χαμηλότερες αναλογίες συνεπειών υποδεικνύουν υψηλότερη πραγματικότητα και οι δύο μετρήσεις βρέθηκαν να συσχετίζονται με τους ανθρώπινους σχολιασμούς, με τα μεγαλύτερα μοντέλα να έχουν καλύτερη απόδοση σε αυτό το σημείο αναφοράς.
Επιπλέον, οι Min et al 2023 πρότεινανFActScore , αποσυνθέτουν τη δημιουργία μεγάλου άρθρου σε πολλαπλά ατομικά γεγονότα και επαληθεύστε κάθε γεγονός ξεχωριστά σε σχέση με βάσεις γνώσεων όπως η Wikipedia. Ο λόγος (ακρίβεια) των προτάσεων που υποστηρίζονται από πηγές γνώσης που δημιουργούνται από κάθε μοντέλο μπορεί στη συνέχεια να μετρηθεί, με το FActScore να είναι η μέση ακρίβεια που δημιουργείται από το μοντέλο σε ένα σύνολο συνθηκών.
Αυτή η εργασία δοκίμασε μια ποικιλία μεθόδων επαλήθευσης των γεγονότων σχετικά με το έργο της βιογραφικής δημιουργίας και διαπίστωσε ότιΗ χρήση της ανάκτησης παρέχει καλύτερη συνέπεια από το LLM χωρίς πλαίσιο . Στις μεθόδους βελτίωσης ανάκτησης, η επιλογή του καλύτερου εκτιμητή εξαρτάται από το μοντέλο.
Μερικές ενδιαφέρουσες παρατηρήσεις σχετικά με την παραισθησιακή συμπεριφορά του μοντέλου:
Ο Wei et al το 2024 πρότεινε επίσης μια μέθοδο για την αξιολόγηση της μακροχρόνιας πραγματικότητας του LLMΑΣΦΑΛΗΣ(Αυξημένης αναζήτησης Αξιολογητής Πραγματικότητας).
Σε σύγκριση με το FActScore, η κύρια διαφορά είναι ότι το SAFE χρησιμοποιεί ένα μοντέλο γλώσσας ως Πράκτορα.Εκδώστε επαναληπτικά ερωτήματα αναζήτησης Google μέσω μιας διαδικασίας πολλαπλών βημάτων, και αιτιολογήστε εάν τα αποτελέσματα αναζήτησης υποστηρίζουν ή όχι αυτό το γεγονός.
Σε κάθε βήμα, ο πράκτορας δημιουργεί ένα ερώτημα αναζήτησης με βάση τα δεδομένα που πρέπει να ελεγχθούν και τα προηγούμενα αποτελέσματα αναζήτησης. Μετά από πολλά βήματα, το μοντέλο εκτελεί συμπέρασμα για να προσδιορίσει εάν το γεγονός υποστηρίζεται από τα αποτελέσματα αναζήτησης.
Σύμφωνα με πειράματα,Αν και η μέθοδος SAFE κοστίζει 20 φορές λιγότερο από τον ανθρώπινο σχολιασμό, αποδίδει καλύτερα από τον ανθρώπινο σχολιασμό: Το ποσοστό συμφωνίας με τους ανθρώπους ήταν 72%, και το ποσοστό των ανθρώπων που είχαν καλύτερη απόδοση σε διαφωνίες ήταν 76%.
Ο δείκτης αξιολόγησης SAFE είναι F1@K. Για μακρές αποκρίσεις πραγματικών μοντέλων, ιδανικά θα πρέπει να επιτυγχάνεται τόσο η ακρίβεια όσο και η ανάκληση, καθώς η απόκριση θα πρέπει ταυτόχρονα να ικανοποιεί:
Δεδομένης της απόκρισης του μοντέλου, η μέτρηση F1@K ορίζεται ως:
Επιπλέον, οι Chern et al το 2023 πρότειναν μια ροή εργασιών ελέγχου δεδομένων που ακολουθεί τα πρότυπαFacTool . Έχει σχεδιαστεί για να ανιχνεύει πραγματικά λάθη σε μια ποικιλία εργασιών, συμπεριλαμβανομένων των απαντήσεων σε ερωτήσεις βασισμένες στη γνώση, της δημιουργίας κώδικα, της επίλυσης μαθηματικών προβλημάτων και της ανασκόπησης επιστημονικής βιβλιογραφίας. Τα βήματα περιλαμβάνουν:
Ανίχνευση βάσει δειγματοληψίας
Ο Manakul et al. το 2023 πρότεινε έναν έλεγχο συνέπειας που βασίζεται σε πολλά δείγματα από ένα μαύρο κουτί LLM.SelfCheckGPT, για τον εντοπισμό πραγματικών σφαλμάτων.
Λαμβάνοντας υπόψη ότι οι μετρήσεις ελέγχου γεγονότων σε γκρίζο πλαίσιο απαιτούν πρόσβαση στο logprob σε επίπεδο διακριτικών του LLM, το SelfCheckGPTΑπλώς χρησιμοποιήστε δείγματα που δεν βασίζονται σε εξωτερικές βάσεις γνώσεων, επομένως η πρόσβαση στο μαύρο κουτί είναι επαρκής, δεν απαιτείται εξωτερική βάση γνώσεων.
Αυτή η μέθοδος χρησιμοποιεί διαφορετικές μετρήσεις για τη μέτρηση της συνέπειας μεταξύ της απόκρισης του μοντέλου και άλλων τυχαίων δειγμάτων μοντέλων, συμπεριλαμβανομένων των BERTScore, NLI, προτροπών (ναι/όχι) κ.λπ. Το SelfCheckGPT με χρήση υποδείξεων φαίνεται να αποδίδει καλύτερα κατά τη διεξαγωγή πειραματικών επιθεωρήσεων αποσπασμάτων WikiBio που δημιουργούνται από το GPT-3.
Βαθμονόμηση άγνωστης γνώσης
Ζητώντας από ένα μοντέλο να δώσει απαντήσεις σε αναπάντητα ή άγνωστα ερωτήματα μπορεί να προκαλέσει παραισθήσεις.TruthfulQA(Lin et al., 2021) καιSelfAware(Yin et al., 2023) είναι δύο σημεία αναφοράς που μετρούν την ικανότητα ενός μοντέλου να παράγει ρεαλιστικές απαντήσεις σε τέτοιες καταστάσεις, το πρώτο έχει κατασκευαστεί αντίθετα για να τονίσει το ανθρώπινο λάθος και το δεύτερο περιλαμβάνει αναπάντητα ερωτήματα.
Όταν αντιμετωπίζετε αυτά τα προβλήματα,Το μοντέλο θα πρέπει να αρνηθεί να απαντήσει ή να παράσχει σχετικές πληροφορίες。
Στο TruthfulQA, οι ερωτήσεις του τεστ σχεδιάζονται αντίθετα με βάση κοινές ανθρώπινες παρεξηγήσεις ή λάθη. Το σημείο αναφοράς περιέχει 817 ερωτήσεις που καλύπτουν 38 θέματα, συμπεριλαμβανομένων της υγείας, του δικαίου, των οικονομικών και της πολιτικής.
Όταν δοκιμάστηκε, το καλύτερο LLM πέτυχε ακρίβεια 58%, ενώ οι άνθρωποι μπορούσαν να επιτύχουν 94%. Η ερευνητική ομάδα διαπίστωσε ότιΛόγω μιας κοινής παρανόησης, τα μεγαλύτερα μοντέλα είναι λιγότερο ρεαλιστικά, αλλά αυτή η τάση δεν αντανακλάται σε άλλα πρότυπα(χωρίς σύγκρουση)πραγματική βάση。
Ακολουθεί ένα παράδειγμα λανθασμένης απάντησης του GPT-3 στο TruthfulQA:
Οι Yin et al. 2023SelfAwareΗ έννοια του , αναφέρεται στο εάν τα γλωσσικά μοντέλα γνωρίζουν αυτά που ξέρουν ή δεν ξέρουν.
Το SelfAware περιέχει 1032 αναπάντητα ερωτήσεις και 2337 απαντήσιμες ερωτήσεις σε πέντε κατηγορίες. Οι αναπάντητες ερωτήσεις προέρχονται από διαδικτυακά φόρουμ με ανθρώπινους σχολιασμούς και οι απαντήσιμες ερωτήσεις προέρχονται από το SQuAD, το HotpotQA και το TriviaQA.
Μια ερώτηση μπορεί να είναι αναπάντητη για διάφορους λόγους, όπως η έλλειψη επιστημονικής συναίνεσης, η φαντασία του μέλλοντος, η πλήρης υποκειμενικότητα, οι φιλοσοφικοί λόγοι που μπορεί να δημιουργήσουν πολλαπλές απαντήσεις κ.λπ.
Η μελέτη αντιμετωπίζει τη διάκριση απαντήσιμων και αναπάντητων ερωτήσεων ως δυαδική εργασία ταξινόμησης και χρησιμοποιεί βαθμολογία F1 ή ακρίβεια για να αξιολογήσει την απόδοση του μοντέλου.
Ένας άλλος τρόπος για να εκτιμηθεί πόσο καλά ένα μοντέλο κατανοεί την άγνωστη γνώση είναι η μέτρηση της αβεβαιότητας στην έξοδο του μοντέλου. Όταν ένα πρόβλημα βρίσκεται μεταξύ του γνωστού και του αγνώστου, το μοντέλο θα πρέπει να παρουσιάζει το σωστό επίπεδο εμπιστοσύνης.
Το πείραμα του 2022 των Kadavath et al. έδειξε ότι σε μια ποικιλία πολυδιάστατων επιλογών απαντήσεων με ορατά γράμματα,Επιλογή θέματοςμορφές (MMLU, TruthfulQA, QuALITY, LogiQA), το LLM αποδίδει καλά στην εκτίμηση της πιθανότητας ότι μια απάντηση είναι σωστή, πράγμα που σημαίνει ότι η προβλεπόμενη πιθανότητα είναι συνεπής με το πόσο συχνά αυτή η απάντηση είναι αληθινή.
Η μικρορύθμιση του RLHF έχει ως αποτέλεσμα φτωχότερη βαθμονόμηση του μοντέλου, αλλά οι υψηλότερες θερμοκρασίες δειγματοληψίας οδηγούν σε καλύτερα αποτελέσματα βαθμονόμησης.
Οι Lin και άλλοι πρότειναν το 2022CalibratedMath Κιτ αποστολής. Το CalibrateMath είναι ένα σύνολο μαθηματικών προβλημάτων που δημιουργούνται μέσω προγραμματισμού με διαφορετικά επίπεδα δυσκολίας που δοκιμάζουν τη βαθμονόμηση των πιθανοτήτων εξόδου του μοντέλου.
Για κάθε ερώτηση, το μοντέλο πρέπει να παρέχει μια αριθμητική απάντηση και την εμπιστοσύνη του σε αυτήν την απάντηση. Θεωρούνται τρεις τύποι πιθανοτήτων:
έμμεσο ερώτημα
Οι Agrawal et al (2023) μελέτησαν συγκεκριμένα περιπτώσεις παραισθήσεων στη γενιά LLM, συμπεριλαμβανομένων πλασματικών τίτλων βιβλίων, άρθρων και εγγράφων. Χρησιμοποίησαν δύο μεθόδους που βασίζονται στη συνέπεια για την ανίχνευση παραισθήσεων, δηλαδή την άμεση και την έμμεση ερώτηση. Και οι δύο μέθοδοι εκτελούν τον έλεγχο πολλές φορές όταν T > 0 και επαληθεύουν τη συνέπεια.
Τα άμεσα ερωτήματα απαιτούν από το μοντέλο να καθορίσει εάν το παραγόμενο υλικό αναφοράς υπάρχει, ενώ τα έμμεσα ερωτήματα απαιτούν βοηθητικές λεπτομέρειες, όπως π.χ.Ποιος είναι ο συγγραφέας της αναφοράς;。
Η υπόθεση είναι ότι, για μια παραισθησιακή αναφορά, η συνέπεια της δημιουργίας του ίδιου συγγραφέα πολλές φορές είναι μικρότερη από την πιθανότητα πολλαπλές απαντήσεις σε ένα άμεσο ερώτημα να αποκαλύπτουν την παρουσία της αναφοράς.
Τα πειράματα το δείχνουνΟι μέθοδοι έμμεσων ερωτημάτων αποδίδουν καλύτερα, τα μεγαλύτερα μοντέλα είναι πιο ισχυρά και υπάρχουν λιγότερες παραισθήσεις。
Στη συνέχεια, εξετάζουμε ένα σύνολο μεθόδων για τη βελτίωση της αυθεντικότητας των απαντήσεων LLM, συμπεριλαμβανομένης της ανάκτησης από εξωτερικές βάσεις γνώσεων, ειδικών μεθόδων δειγματοληψίας και λεπτομέρειας ευθυγράμμισης. Ορισμένες μέθοδοι ερμηνείας για τη μείωση των παραισθήσεων μέσω της επεξεργασίας νευρώνων δεν θα συζητηθούν εδώ.
RAG → Επεξεργασία και απόδοση
Το RAG (Retrieval Augmented Generation) είναι μια πολύ κοινή μέθοδος παροχής βασικών πληροφοριών με την ανάκτηση σχετικών εγγράφων και στη συνέχεια τη δημιουργία τους χρησιμοποιώντας πρόσθετα σχετικά έγγραφα ως πλαίσιο.
RARR(Retrofit Attribution using Research and Revision) είναι ένα πλαίσιο που προτάθηκε από τους Gao et al το 2022, το οποίο επιτρέπει στο LLM να υποστηρίζει αναδρομικά την απόδοση εξωτερικών στοιχείων μέσω εκδοτικής απόδοσης.
Δεδομένου ενός κειμένου που δημιουργείται από μοντέλο, το RARR το επεξεργάζεται σε δύο βήματα, βγάζοντας ένα αναθεωρημένο κείμενο και μια αναφορά απόδοσης:
1. Στάδιο έρευνας: Βρείτε σχετικά έγγραφα ως αποδεικτικά στοιχεία.
Ένα μοντέλο δημιουργίας ερωτημάτων χρησιμοποιείται αρχικά (μέσω υποδείξεων μερικών λήψεων, →1,…, ) για τη δημιουργία ενός συνόλου ερωτημάτων αναζήτησης 1,…, για την επικύρωση διαφόρων πτυχών κάθε πρότασης.
Εκτελώντας μια αναζήτηση Google, κάθε ερώτημα = 5 αποτελέσματα.
Ένα προεκπαιδευμένο μοντέλο συνάφειας ερωτήματος-εγγράφου χρησιμοποιείται για την εκχώρηση βαθμολογιών συνάφειας και μόνο ένα πιο σχετικό = 1 έγγραφο 1,…, διατηρείται για κάθε ερώτημα.
2. Φάση αναθεώρησης: Επεξεργαστείτε την έξοδο για να διορθώσετε περιεχόμενο που δεν υποστηρίζεται από τα στοιχεία, διατηρώντας παράλληλα όσο το δυνατόν μεγαλύτερο μέρος του αρχικού περιεχομένου.Αρχικοποίηση αναθεωρημένου κειμένου =.
Σύμφωνα με το (,), το μοντέλο πρωτοκόλλου (μέσω υποδείξεων μερικών λήψεων + CoT, (,,) → 0,1) ελέγχει εάν τα στοιχεία δεν συνάδουν με το τρέχον αναθεωρημένο κείμενο.
Μόνο όταν εντοπιστεί μια ασυνέπεια, το μοντέλο επεξεργασίας (μέσω μερικών υποδείξεων + CoT, (,,)→ νέο ) βγάζει μια νέα έκδοση, σχεδιασμένη να αλλάζει ελάχιστα ταυτόχρονα με τα στοιχεία.
Τέλος, μόνο ένας περιορισμένος αριθμός =5 αποδεικτικών στοιχείων πηγαίνει στην αναφορά απόδοσης.
Τόσο η απόδοση όσο και η διατήρηση είναι σημαντικές κατά την αξιολόγηση του αναθεωρημένου κειμένου.
Το Attribution χρησιμοποιεί τη βαθμολογία AIS (Attributed to Identified Source) για να μετρήσει πόσο από το περιεχόμενο μπορεί να αποδοθεί. Μπορούν να συλλεχθούν ανθρώπινοι σχολιασμοί ή να χρησιμοποιηθούν μοντέλα NLI για την προσέγγιση της αυτόματης βαθμολόγησης AIS.
Η διατήρηση αναφέρεται στον βαθμό στον οποίο διατηρείται το αρχικό κείμενο, μετρούμενο ως Previntent × PrevLev, όπου το Previntent απαιτεί χειροκίνητο σχολιασμό και το PrevLev βασίζεται στην απόσταση επεξεργασίας Levenshtein σε επίπεδο χαρακτήρων. Σε σύγκριση με τις δύο βασικές γραμμές, το RARR οδηγεί σε καλύτερα ισορροπημένα αποτελέσματα, ειδικά όσον αφορά τις μετρήσεις διατήρησης.
Παρόμοια με το RARR με χρήση αναζήτησης+επεξεργασίας, που προτάθηκε από τους Mishra et alΦΑΒΑ (Επαλήθευση γεγονότων με επαυξημένη γνώση) ανακτά επίσης τη σχετική τεκμηρίωση και, στη συνέχεια, επεξεργάζεται την έξοδο του μοντέλου για την αποφυγή απατηλών σφαλμάτων. Το μοντέλο FAVA αποτελείται από ένα retriever και ένα editor.
Λαμβάνοντας μια προτροπή και έξοδο μοντέλου, ανακτήστε τα πιο σχετικά έγγραφα:
Ο επεξεργαστής δημιουργεί βελτιωμένη έξοδο:
Το RARR δεν απαιτεί εκπαίδευση, αλλά η επεξεργασία του μοντέλου επεξεργασίας στο FAVA απαιτεί λεπτομέρεια. Με την ταξινόμηση διαφορετικών τύπων σφαλμάτων παραισθήσεων με περισσότερες λεπτομέρειες, είναι δυνατό να δημιουργηθούν συνθετικά δεδομένα εκπαίδευσης για επεξεργασμένα μοντέλα εισάγοντας τυχαία σφάλματα στη δημιουργία μοντέλων.
Κάθε παράδειγμα είναι μια τριπλέτα (,,∗), όπου είναι το αρχικό απόσπασμα της Wikipedia ως χρυσό πλαίσιο, είναι η έξοδος LM με σφάλματα και ∗ είναι η έξοδος με ετικέτες σφαλμάτων και σωστές επεξεργασίες.
Προτάθηκε από τον He et alRRΗ προσέγγιση (Rethinking with Retrieval) βασίζεται επίσης στην ανάκτηση σχετικής εξωτερικής γνώσης, αλλά δεν περιλαμβάνει πρόσθετη επεξεργασία.
Αντί να χρησιμοποιεί ένα μοντέλο δημιουργίας ερωτημάτων αναζήτησης, η ανάκτηση του RR βασίζεται σε αποσυντεθειμένες υποδείξεις CoT.
Με δεδομένη μια υπόδειξη εισόδου, το RR χρησιμοποιεί υποδείξεις CoT για να δημιουργήσει πολλαπλές διαδρομές συμπερασμάτων 1,…, σε θερμοκρασία > 0, όπου κάθε διαδρομή συμπερασμάτων περιέχει μια εξήγηση (δηλαδή, το τμήμα συμπερασμάτων), ακολουθούμενη από μια πρόβλεψη (δηλαδή, την πραγματική έξοδο του μοντέλου) . Ανακτήστε εξωτερικές γνώσεις 1,…, για να υποστηρίξετε κάθε εξήγηση. Στη συνέχεια, επιλέγεται η πιο πιστή απάντηση με βάση τον βαθμό προσαρμογής με τις ανακτηθείσες γνώσεις 1,…,.
Αυτο-ΡΑΓΚ(Asai et al., 2024) εκπαιδεύει ένα γλωσσικό μοντέλο από άκρο σε άκρο, έτσι ώστε να μαθαίνει να στοχάζεται στη δική του παραγωγή βγάζοντας αποτελέσματα εργασιών και διακοπτόμενους ειδικούς δείκτες αντανάκλασης.
Η ερευνητική ομάδα δημιούργησε ένα εποπτευόμενο σύνολο δεδομένων για την κρίση και τη δημιουργία μοντέλων προτρέποντας το GPT-4 και στη συνέχεια το απόσταξε σε ένα εσωτερικό μοντέλο για να μειώσει το κόστος εξαγωγής συμπερασμάτων.
Δεδομένης μιας προτροπής εισαγωγής, η παραγόμενη έξοδος αποτελείται από πολλά μέρη (π.χ., ένα τμήμα είναι μια πρόταση). Υπάρχουν τέσσερις τύποι δεικτών ανάκλασης, ένας για ανάκτηση και τρεις για αξιολόγηση:
Το Self-RAG δημιουργεί ένα τμήμα κάθε φορά. Με βάση τη δεδομένη και την προηγούμενη γενιά < , το μοντέλο αποκωδικοποιεί το διακριτικό ανάκτησης:
αλυσίδα δράσης
Χωρίς εξωτερική γνώση ανάκτησης, είναι δυνατός ο σχεδιασμός αΑξιοποιήστε το ίδιο το μοντέλο για επικύρωση και αναθεώρησηδιαδικασία για τη μείωση των παραισθήσεων.
Ο Dhuliawala και συνΑλυσίδα επαλήθευσης (Λιμανάκι). Το CoVe αποτελείται από τέσσερα βασικά βήματα:
1) Ένωση: Σε συνδυασμό με το βήμα 2, όπου η δομή του παραδείγματος λίγων λήψεων είναι (απόκριση, ερώτηση επαλήθευσης, απάντηση επαλήθευσης, το μειονέκτημα είναι ότι η αρχική απάντηση βρίσκεται στο πλαίσιο και το μοντέλο μπορεί να επαναλαμβάνει παρόμοιες ψευδαισθήσεις).
2) Προσέγγιση δύο βημάτων: Διαχωρίστε τα βήματα σχεδιασμού και εκτέλεσης επαλήθευσης, εάν δεν επηρεάζουν την αρχική απόκριση.
3) Αποσύνθεση: Απαντήστε σε κάθε ερώτηση επαλήθευσης ξεχωριστά. Για παράδειγμα, εάν μια μεγάλη έκδοση βάσης έχει ως αποτέλεσμα πολλαπλές ερωτήσεις επικύρωσης, κάθε ερώτηση θα απαντηθεί μία προς μία.
4) Αποσύνθεση + Αναθεώρηση: Προσθέστε ένα βήμα "διασταυρούμενου ελέγχου" μετά την εκτέλεση της επαλήθευσης αποσύνθεσης για να διαμορφώσετε και να εντοπίσετε ασυνέπειες με βάση τις βασικές απαντήσεις και τις ερωτήσεις και απαντήσεις επαλήθευσης.
Το CoVe έχει σχεδιαστεί με αυτόν τον τρόπο επειδή η χρήση μακράς αλυσίδας επαλήθευσης μπορεί να οδηγήσει σε επαναλαμβανόμενες ψευδαισθήσεις, επειδή η αρχική απόκριση παραισθήσεων εξακολουθεί να βρίσκεται στο πλαίσιο και μπορεί να ληφθεί υπόψη κατά τη διάρκεια των διαδικασιών νέας γενιάς, ενώΗ απάντηση σε κάθε ερώτηση επικύρωσης μεμονωμένα βρέθηκε ότι οδηγεί σε καλύτερα αποτελέσματα από τη δημιουργία μακράς φόρμας。
Ακολουθούν μερικές ενδιαφέρουσες παρατηρήσεις από τα πειράματα CoVe:
Επιπλέον, οι Sun και άλλοι πρότειναν το 2023ΔΙΗΓΟΥΜΑΙμέθοδος, βασίζεται στην πρόβα ως ενδιάμεσο βήμα για τη βελτίωση της πραγματικής ορθότητας της δημιουργίας μοντέλων και τη μείωση των παραισθήσεων.
Το κίνητρο είναι να χρησιμοποιηθεί η μνήμη του Transformer ως μοντέλο ανάκτησης πληροφοριών. Στο σχήμα επανάληψης και απάντησης του RECITE, το LLM καλείται πρώτα να επαναδιηγηθεί τις σχετικές πληροφορίες και στη συνέχεια παράγει έξοδο.
Συγκεκριμένα, μερικές συμφραζόμενες συμβουλές μπορούν να χρησιμοποιηθούν για να διδαχθεί το μοντέλο να παραφράζει και στη συνέχεια να δημιουργήσει απαντήσεις με βάση την παράφραση. Επιπλέον, μπορεί να συνδυαστεί με αυτοσυνεπείς μεθόδους συνόλου που χρησιμοποιούν πολλαπλά δείγματα και μπορεί να επεκταθεί για να υποστηρίξει την απάντηση σε ερωτήσεις πολλαπλών βημάτων.
Οι παραφράσεις που δημιουργούνται είναι συγκρίσιμες με το μοντέλο ανάκτησης που βασίζεται στο BM25, αλλά και οι δύο έχουν κενά κατά τη χρήση πραγματικών αποσπασμάτων. Σύμφωνα με την ανάλυση σφαλμάτων που διεξήχθη από την ερευνητική ομάδα, περίπου το 7-10% των ερωτήσεων απαγγέλθηκαν σωστά αλλά δεν μπόρεσαν να δημιουργήσουν τη σωστή απάντηση.
Μέθοδος δειγματοληψίας
Ο Lee et al 2022 διαπίστωσε ότι η δειγματοληψία πυρήνα (top-sampling) είχε χειρότερη απόδοση από την άπληστη δειγματοληψία στο σημείο αναφοράς FactorityPrompt, αν και η δειγματοληψία πυρήνα προσέθεσε επιπλέον τυχαιότητα, επιτυγχάνοντας καλύτερη ποικιλομορφία και λιγότερη επανάληψη.
Ως εκ τούτου, πρότειναν έναν αλγόριθμο δειγματοληψίας πυρήνα γεγονότων που βασίζεται σε υποθέσεις,Αυτή η υπόθεση δηλώνει ότι η τυχαιότητα της δειγματοληψίας έχει μεγαλύτερο αντίκτυπο στην πραγματικότητα του δεύτερου μισού της πρότασης από την αρχή της πρότασης. . Η δειγματοληψία πυρήνα δεδομένων στοχεύει στη δυναμική προσαρμογή της πιθανότητας δειγματοληψίας λέξεων σε κάθε πρόταση. Για το ου σύμβολο σε μια πρόταση, υπάρχει το =max(,⋅−1), το οποίο χρησιμοποιείται για να αποτρέψει τη δειγματοληψία από την επιστροφή σε άπληστη δειγματοληψία που βλάπτει την ποιότητα και την ποικιλομορφία της παραγωγής.
Οι Li et alΣυμπερασματικά-Χρονική Παρέμβαση(ITI), διερευνά εάν ορισμένες κεφαλές προσοχής είναι πιο σχετικές με την πραγματικότητα διερευνώντας γραμμικά τις ενεργοποιήσεις σε κάθε επίπεδο για να διακρίνουν τις πραγματικές από τις ψευδείς εξόδους.
Βρήκαν ότι για πολλές κεφαλές προσοχής ο ανιχνευτής δεν είχε καλύτερη απόδοση από την τυχαία επιλογή, ενώ ορισμένοι έδειξαν ισχυρή απόδοση. Αφού εντοπίσει μια ομάδα αραιών κεφαλών προσοχής με υψηλή ακρίβεια στη γραμμική ανίχνευση αυθεντικότητας, το ITI θα προσαρμόσει την ενεργοποίηση των κορυφαίων επιλεγμένων κεφαλών προσοχής κατά μήκος της «πραγματικής» κατεύθυνσης κατά τη διάρκεια της εξαγωγής συμπερασμάτων.
Πραγματική μικρορύθμιση
Ο Lee et al 2022 πρότεινε δύο ιδέες για την ενίσχυση της εκπαίδευσης:
Οι Lin et al πρότειναν το 2024 να πραγματοποιήσουν εκπαίδευση ευθυγράμμισης SFT+RLHF που εστιάζει στην πραγματικότητα.ΦΛΟΓΑ。
Όπως αναφέρθηκε προηγουμένως, υπάρχουν ορισμένες ενδείξεις ότι η βελτίωση της νέας γνώσης μπορεί να προκαλέσει παραισθήσεις και η επίβλεψη RAG περιέχει πληροφορίες άγνωστες στο LLM.
Μέθοδος 1: Χρησιμοποιήστε δείγματα δεδομένων RAG ως θετικά δείγματα και τη δημιουργία αρχικού μοντέλου ως αρνητικά δείγματα ως δεδομένα RM.
Μέθοδος 2: Χρησιμοποιήστε το FActScore ως de facto σήμα ανταμοιβής.
Για να αποφευχθεί η κατά λάθος απόσταξη άγνωστης γνώσης στο μοντέλο κατά τη διάρκεια της εκπαίδευσης ευθυγράμμισης, προτείνουν τη χρήση των αποκρίσεων που δημιουργούνται από το μοντέλο για την κατασκευή του συνόλου δεδομένων SFT/DPO.
Προτάθηκε από τους Tian&Mitchell και συν. το 2024Συντονισμός πραγματικών στοιχείων Επίσης, βασίζεται σε γλωσσικά μοντέλα βελτιστοποίησης για τη βελτίωση της πραγματικότητας. Πειραματίστηκαν με διαφορετικές μεθόδους για να εκτιμήσουν την ακρίβεια των ατομικών αξιώσεων σε κάθε δείγμα μοντέλου και στη συνέχεια έτρεξαν το DPO.
Πραγματική διαδικασία προσαρμογής:
1. Ζεύγη παραδειγμάτων ολοκλήρωσης μοντέλων για ένα δεδομένο σύνολο προτροπών (π.χ. "Γράψτε ένα βιογραφικό του Yo-Yo Ma")
2. Σημειώστε την αυθεντικότητά του σύμφωνα με δύο μεθόδους που δεν απαιτούν χειροκίνητη παρέμβαση:
Βάσει αναφοράς: Ελέγχει εάν ο ισχυρισμός του μοντέλου υποστηρίζεται από μια εξωτερική βάση γνώσεων, παρόμοια με την παραπάνω ενότητα αξιολόγησης παραισθήσεων με βάση την ανάκτηση. (α) να εξαγάγετε μια σειρά ατομικών δηλώσεων (β) να αναζητήσετε αναφορές στη Wikipedia (γ) να χρησιμοποιήσετε ένα μικρό μοντέλο NLI για να ελέγξετε εάν το κείμενο αναφοράς υποστηρίζει ατομικές δηλώσεις.
Μη βασισμένο σε αναφορές: χρησιμοποιεί την εμπιστοσύνη του ίδιου του μοντέλου ως σύμβολο της αυθεντικότητάς του, παρόμοια με τις μεθόδους έμμεσων ερωτημάτων. (α) να μετατρέψει κάθε δήλωση σε μια αντίστοιχη ερώτηση/απαιτεί προσεκτική αναδιατύπωση για να διασφαλίσει ότι η ερώτηση είναι σαφής (β) δείγματα από το μοντέλο για να απαντήσετε στην ερώτηση χαρακτήρες Συμβολοσειρά που ταιριάζουν ή ζητούν από το GPT να καθορίσει εάν δύο απαντήσεις είναι σημασιολογικά ισοδύναμες.
3. Δημιουργήστε ένα σύνολο δεδομένων εκπαίδευσης δημιουργώντας πολλαπλά δείγματα από το μοντέλο και εκχωρώντας προτιμήσεις με βάση τις βαθμολογίες αυθεντικότητας. Στη συνέχεια, χρησιμοποιήστε το DPO για να ρυθμίσετε το μοντέλο σε αυτό το σύνολο δεδομένων.
Βελτιστοποίηση για απόδοση
Η απόδοση παραδόσεων είναι ένας καλός τρόπος για τη μείωση των ψευδαισθήσεων κατά τη δημιουργία εξόδου μοντέλου που εξαρτάται από τα αποτελέσματα αναζήτησης. Υπάρχει μια σειρά εργασιών που στοχεύουν στην εκπαίδευση LLM για την καλύτερη χρήση του ανακτημένου περιεχομένου και την ανάθεση αποδόσεων υψηλής ποιότητας.
Προτάθηκε από τους Nakano και συνεργάτες το 2022WebGPT, συνδυάζει την αναζήτηση στον ιστό για ανάκτηση εγγράφων με βελτιωμένα μοντέλα GPT, σχεδιασμένα να απαντούν σε ερωτήσεις μεγάλης μορφής για να μειώσουν τις παραισθήσεις και να βελτιώσουν την ακρίβεια των πραγματικών στοιχείων.
Το μοντέλο αλληλεπιδρά με τις αναζητήσεις στο Διαδίκτυο σε ένα πρόγραμμα περιήγησης ιστού που βασίζεται σε κείμενο και μαθαίνει να παραθέτει ιστοσελίδες για να απαντά σε ερωτήσεις. Κατά την περιήγηση του μοντέλου, μια ενέργεια που μπορεί να κάνει είναι η αναφορά σε ένα απόσπασμα της τρέχουσας σελίδας. Όταν το κάνετε αυτό, ο τίτλος της σελίδας, το όνομα τομέα και το απόσπασμα καταγράφονται για μελλοντική αναφορά.Ο πυρήνας του WebGPT είναι η χρήση υλικού αναφοράς για να βοηθήσει τους ανθρώπους να κρίνουν την ορθότητα των πραγματικών περιστατικών。
Το μοντέλο υποβλήθηκε για πρώτη φορά σε εποπτευόμενη λεπτομέρεια για συμπεριφορική κλωνοποίηση σε επιδείξεις ανθρώπων που χρησιμοποιούν ένα περιβάλλον περιήγησης στον Ιστό για να απαντήσουν σε ερωτήσεις.
Συγκριτικά δεδομένα συλλέγονται μεταξύ δύο απαντήσεων που δημιουργούνται από μοντέλα στην ίδια ερώτηση, η καθεμία με το δικό της σύνολο αναφοράς, όπου οι απαντήσεις κρίνονται με βάση την πραγματική τους ακρίβεια, τη συνοχή και τη συνολική χρησιμότητα. Τα μοντέλα ανταμοιβής χρησιμοποιούνται για εκπαίδευση RL και δειγματοληψία απόρριψης της καλύτερης απόρριψης. Αντίθετα, το RL έχει περιορισμένα αποτελέσματα και όταν χρησιμοποιείται δειγματοληψία απόρριψης, τα εφέ είναι ακόμη πιο περιορισμένα.
Οι Menick και άλλοι πρότειναν το 2022GopherCite , μοιάζει πολύ με το WebGPT στη χρήση μηχανών αναζήτησης για τη δημιουργία υποστηρικτικού υλικού και τη διδασκαλία μοντέλων για την παροχή υλικού αναφοράς. Και οι δύο εκτελούν εποπτευόμενη μικρορύθμιση της καθοδήγησης και εφαρμόζουν εκπαίδευση RLHF.
Σε αντίθεση με το WebGPT, το οποίο βασίζεται σε ανθρώπινες επιδείξεις για συμπεριφορική κλωνοποίηση, το GopherCiteΔημιουργήστε επίδειξη μέσω προτροπών μερικών λήψεων, και κάθε γενιά συμπληρώνεται με πλαίσιο από σχετικά έγγραφα και, στη συνέχεια, χρησιμοποιείται ένα μοντέλο ανταμοιβής για να βαθμολογηθεί ποια είναι τα καλύτερα.
Ένα άλλο τέχνασμα για την αποφυγή αποκρίσεων χαμηλής ποιότητας είναι να διαμορφώσετε το μοντέλο ώστε να απορρίπτει απαντήσεις χρησιμοποιώντας την κλειστή απάντηση "Δεν ξέρω", η οποία καθορίζεται από ένα παγκόσμιο όριο RM, που ονομάζεται επιλεκτική πρόβλεψη.
Τα εμπειρικά αποτελέσματα του RL είναι παρόμοια με το WebGPT, δηλαδή, το RL φέρνει μόνο περιορισμένη βελτίωση ή καμία βελτίωση όταν συνδυάζεται με δειγματοληψία απόρριψης.
Ο Weng Li είναι Κινέζος επιστήμονας στο OpenAI και ένας από τους συνεργάτες του ChatGPT. Αποφοίτησε από το Πανεπιστήμιο του Πεκίνου.
Είναι η υπεύθυνη για την έρευνα εφαρμογών τεχνητής νοημοσύνης του OpenAI. Εντάχθηκε στο OpenAI το 2018 και ασχολείται κυρίως με την προεκπαίδευση, την ενίσχυση της μάθησης και την ευθυγράμμιση και την ασφάλεια μοντέλων στο έργο GPT-4.
Στη συμβουλευτική ομάδα ασφαλείας που ιδρύθηκε από το OpenAI στα τέλη του περασμένου έτους, ηγείται της ομάδας Safety Systems για την επίλυση προβλημάτων όπως η μείωση της κατάχρησης υπαρχόντων μοντέλων όπως το ChatGPT.