Το OpenAI Weng Li πρότεινε ένα μεγάλο μοντέλο «εξωτερικής ψευδαίσθησης»: δέκα χιλιάδες λέξεις λεπτομερής εξήγηση των λόγων για τους οποίους οι μέθοδοι αντίστασης προκαλούν παραισθήσεις...

2024-07-15

Ο δυτικός άνεμος προέρχεται από τον ναό Aofei
Qubits | Δημόσιος λογαριασμός QbitAI

Η ψευδαίσθηση των μεγάλων μοντέλων χωρίζεται επίσης σε εσωτερική και εξωτερική——

Το τελευταίο ιστολόγιο του Κινέζου επιστήμονα του OpenAI Weng Li προτείνειΕξωτερική ψευδαίσθηση LLM(εξωγενής ψευδαίσθηση).

Διαφορετικό από το περιεχόμενο που δημιουργείται από το αναφορικό μοντέλο που είναι ασυμβίβαστο με την πραγματικότητα, πλασματικό, ασυνεπές ή ανούσιο, ο Weng Li προσδιόρισε το πρόβλημα "ψευδαίσθησης" LLM ωςΤο περιεχόμενο εξόδου μοντέλου είναι φανταστικό και δεν βασίζεται στο παρεχόμενο πλαίσιο ή στη γνώση του κόσμου。

Από αυτό, υπάρχουν δύο τύποι παραισθήσεων:

Παραισθήσεις εντός πλαισίου: ένα μοντέλοΗ έξοδος πρέπει να είναι συνεπής με το περιεχόμενο της πηγής στο πλαίσιο(Όταν εμφανίζεται ψευδαίσθηση εντός πλαισίου, η έξοδος είναι ασυνεπής με το περιεχόμενο της πηγής).
Εξωτερική ψευδαίσθηση: Η έξοδος του μοντέλου θα πρέπει να βασίζεται σε ένα προεκπαιδευμένο σύνολο δεδομένων. Ωστόσο, δεδομένου του μεγέθους του συνόλου δεδομένων πριν από την εκπαίδευση, η ανάκτηση και ο εντοπισμός κάθε δημιουργούμενης σύγκρουσης είναι απαγορευτική από πλευράς κόστους.Αν σκεφτούμε το σύνολο δεδομένων πριν την προπόνηση ωςπαγκόσμια γνώση , τότε ουσιαστικά επιχειρεί να διασφαλίσει ότι η έξοδος του μοντέλου είναι τεκμηριωμένη και μπορεί να επαληθευτεί από τη γνώση του έξω κόσμου. Εξίσου σημαντικό είναι,Όταν το μοντέλο δεν γνωρίζει ένα γεγονός, θα πρέπει να αναφέρει ρητά ότι δεν γνωρίζει

Προηγουμένως, ο Weng Li πρότεινε επίσης τον τύπο Agent: Agent = μεγάλο μοντέλο + μνήμη + ενεργός προγραμματισμός + χρήση εργαλείου, ο οποίος ονομάστηκε "το καλύτερο άρθρο για τον Agent που έχω δει ποτέ" από ορισμένους χρήστες του Διαδικτύου.

Αυτό το blog για την ψευδαίσθηση των μεγάλων μοντέλων είναι επίσης "βαριά δουλειά". Το άρθρο είναι πολύ μεγάλο, με συνολικά 24 αναφορές.

Ο Weng Li εστίασε στις εξωτερικές παραισθήσεις και συζήτησε τρία ερωτήματα: Ποια είναι η αιτία των παραισθήσεων; Ανίχνευση ψευδαισθήσεων, μέθοδοι αντίστασης στις παραισθήσεις.

Η Qubits έχει συντάξει και οργανώσει το αρχικό κείμενο χωρίς να αλλάξει το αρχικό νόημα.

Το Qubits έχει μεταφραστεί και ανατυπωθεί με την άδεια του αρχικού συγγραφέα.

Το αρχικό κείμενο είναι εδώ:

https://lilianweng.github.io/posts/2024-07-07-hallucination/

Τι προκαλεί τις παραισθήσεις;

Λαμβάνοντας υπόψη ότι ένα τυπικό αναπτυσσόμενο LLM πρέπει να είναι προεκπαιδευμένο και βελτιωμένο για ευθυγράμμιση και βελτίωση, η ανάλυση αιτιών ξεκινά από αυτά τα δύο στάδια.

Πρόβλημα δεδομένων πριν από την προπόνηση

Το σύνολο δεδομένων πριν από την εκπαίδευση έχει σχεδιαστεί για να αντιπροσωπεύει όλη τη διαθέσιμη παγκόσμια γνώση σε γραπτή μορφή και επομένως είναι τεράστιο.

Η απόξεση δεδομένων από το δημόσιο Διαδίκτυο είναι η πιο συνηθισμένη επιλογή, αλλά αυτό μπορεί να οδηγήσει σε ορισμένες ξεπερασμένες, ελλιπείς ή εσφαλμένες πληροφορίες. Επειδή το μοντέλο μπορεί να θυμάται εσφαλμένα αυτές τις πληροφορίες απλώς μεγιστοποιώντας την πιθανότητα καταγραφής, το μοντέλο μπορεί να κάνει λάθη.

Βελτιώστε τη νέα γνώση

Η τελειοποίηση του προεκπαιδευμένου LLM μέσω εποπτευόμενης μικρορύθμισης (SFT) και της ενισχυτικής μάθησης με ανθρώπινη ανάδραση (RLHF) είναι μια κοινή τεχνική για τη βελτίωση ορισμένων δυνατοτήτων του μοντέλου (όπως η παρακολούθηση εντολών). Η φάση της τελειοποίησης εισάγει αναπόφευκτα νέα γνώση.

Ενώ η τελειοποίηση συνήθως καταναλώνει λιγότερους υπολογιστικούς πόρους,Το κατά πόσον η νέα γνώση μπορεί να μαθευτεί αξιόπιστα με τη βελτιστοποίηση ενός μοντέλου σε μικρή κλίμακα είναι ανοιχτό υπό αμφισβήτηση.。

Σε μια μελέτη φέτος, ο Gekhman και συν.

Βρήκαν ότι το LLM μαθαίνει πιο αργά από βελτιωμένα παραδείγματα με νέες γνώσεις παρά από παραδείγματα που είναι συνεπή με τις προϋπάρχουσες γνώσεις του μοντέλου, όταν μαθαίνονται αυτά τα παραδείγματα με νέες γνώσεις, η τάση του μοντέλου να έχει παραισθήσεις.

Συγκεκριμένα, με δεδομένο ένα σύνολο δεδομένων κλειστών ερωτήσεων και απαντήσεων (δηλ. EntityQuestions) = (,), το Correct(,;,) ορίζεται ως μια εκτίμηση της πιθανότητας το μοντέλο M να δημιουργήσει με ακρίβεια τη σωστή απάντηση, όταν χρησιμοποιεί τυχαία παραδείγματα και ορισμένη αποκωδικοποίηση Όταν ζητηθεί από τη θερμοκρασία, η σωστή απάντηση στην ερώτηση είναι.

Χώρησαν τα παραδείγματα σε 4 κατηγορίες σύμφωνα με διαφορετικές συνθήκες του Correct(,;,): Γνωστή ομάδα (συμπεριλαμβανομένων τριών υποομάδων: HighlyKnown, MaybeKnown, WeakKnown) και Unknown group.

Μερικές ενδιαφέρουσες παρατηρήσεις από τα πειράματα, όπου η ακρίβεια στο σύνολο προγραμματισμού λαμβάνεται ως συμβολικός δείκτης ψευδαίσθησης:

Η άγνωστη ταχύτητα τοποθέτησης είναι σημαντικά πιο αργή από τη Γνωστή.
Η καλύτερη απόδοση επιτυγχάνεται όταν το LLM ταιριάζει στα περισσότερα γνωστά παραδείγματα εκπαίδευσης αλλά μόνο σε λίγα άγνωστα παραδείγματα.
Όταν μαθαίνονται τα περισσότερα Άγνωστα παραδείγματα, το μοντέλο αρχίζει να έχει παραισθήσεις

Αυτά τα αποτελέσματα από τους Gekhman et al επισημαίνουν τους κινδύνους από τη χρήση εποπτευόμενης μικρορύθμισης για την ενημέρωση των γνώσεων LLM.

Ανίχνευση ψευδαισθήσεων

Βελτιωμένη αξιολόγηση αναζήτησης

Για να ποσοτικοποιηθεί το φαινόμενο των παραισθήσεων του μοντέλου, ο Lee et al εισήγαγε ένα νέο σύνολο δεδομένων αναφοράς το 2022Factuality Prompt, αυτό το σύνολο δεδομένων περιέχει πραγματικές και μη πραγματικές υποδείξεις, χρησιμοποιώντας έγγραφα ή προτάσεις της Wikipedia ως τη βασική βάση πραγματικών γνώσεων.

Τα έγγραφα της Wikipedia είναι γνωστές αληθινές πληροφορίες από το σύνολο δεδομένων FEVER, ενώ οι προτάσεις επιλέγονται μέσω tf-idf ή ομοιότητας με βάση τις ενσωματώσεις προτάσεων.

Δύο μετρήσεις για την αξιολόγηση των παραισθήσεων λήφθηκαν υπόψη δεδομένου ενός μοντέλου συνέχειας και ενός ζευγαρωμένου κειμένου της Wikipedia:ψευδαισθήσεις με όνομα οντότητες(ΟΧΙ)Ποσοστό σφάλματος、Αναλογία επιπτώσεων(Αναλογίες συνεπαγωγής).

Τα υψηλότερα ποσοστά σφάλματος NE και οι χαμηλότερες αναλογίες συνεπειών υποδεικνύουν υψηλότερη πραγματικότητα και οι δύο μετρήσεις βρέθηκαν να συσχετίζονται με τους ανθρώπινους σχολιασμούς, με τα μεγαλύτερα μοντέλα να έχουν καλύτερη απόδοση σε αυτό το σημείο αναφοράς.

Επιπλέον, οι Min et al 2023 πρότεινανFActScore , αποσυνθέτουν τη δημιουργία μεγάλου άρθρου σε πολλαπλά ατομικά γεγονότα και επαληθεύστε κάθε γεγονός ξεχωριστά σε σχέση με βάσεις γνώσεων όπως η Wikipedia. Ο λόγος (ακρίβεια) των προτάσεων που υποστηρίζονται από πηγές γνώσης που δημιουργούνται από κάθε μοντέλο μπορεί στη συνέχεια να μετρηθεί, με το FActScore να είναι η μέση ακρίβεια που δημιουργείται από το μοντέλο σε ένα σύνολο συνθηκών.

Αυτή η εργασία δοκίμασε μια ποικιλία μεθόδων επαλήθευσης των γεγονότων σχετικά με το έργο της βιογραφικής δημιουργίας και διαπίστωσε ότιΗ χρήση της ανάκτησης παρέχει καλύτερη συνέπεια από το LLM χωρίς πλαίσιο . Στις μεθόδους βελτίωσης ανάκτησης, η επιλογή του καλύτερου εκτιμητή εξαρτάται από το μοντέλο.

LLM χωρίς πλαίσιο: χρησιμοποιήστε απευθείας το "True or False" για να ζητήσετε LLM χωρίς πρόσθετο πλαίσιο
Ανάκτηση → LLM: Προτροπή με σχετικά αποσπάσματα που ανακτώνται από πηγές γνώσης ως πλαίσιο
Μη παραμετρική πιθανότητα (NP): Υπολογίστε τη μέση πιθανότητα εμφάνισης ετικετών σε ατομικά γεγονότα μέσω καλυμμένης LM και χρησιμοποιήστε την για να κάνετε προβλέψεις
Αναζήτηση→LLM+NP: Ενοποίηση δύο μεθόδων

Μερικές ενδιαφέρουσες παρατηρήσεις σχετικά με την παραισθησιακή συμπεριφορά του μοντέλου:

Οι σπάνιες οντότητες έχουν υψηλότερα ποσοστά σφάλματος στις εργασίες δημιουργίας βιογραφίας
Τα γεγονότα που αναφέρονται αργότερα στο παραγόμενο περιεχόμενο έχουν επίσης υψηλότερα ποσοστά σφάλματος
Η χρήση της ανάκτησης για την παροχή μιας βάσης για τη δημιουργία μοντέλων μπορεί να βοηθήσει σημαντικά στη μείωση των φαινομένων παραισθήσεων

Ο Wei et al το 2024 πρότεινε επίσης μια μέθοδο για την αξιολόγηση της μακροχρόνιας πραγματικότητας του LLMΑΣΦΑΛΗΣ(Αυξημένης αναζήτησης Αξιολογητής Πραγματικότητας).

Σε σύγκριση με το FActScore, η κύρια διαφορά είναι ότι το SAFE χρησιμοποιεί ένα μοντέλο γλώσσας ως Πράκτορα.Εκδώστε επαναληπτικά ερωτήματα αναζήτησης Google μέσω μιας διαδικασίας πολλαπλών βημάτων, και αιτιολογήστε εάν τα αποτελέσματα αναζήτησης υποστηρίζουν ή όχι αυτό το γεγονός.

Σε κάθε βήμα, ο πράκτορας δημιουργεί ένα ερώτημα αναζήτησης με βάση τα δεδομένα που πρέπει να ελεγχθούν και τα προηγούμενα αποτελέσματα αναζήτησης. Μετά από πολλά βήματα, το μοντέλο εκτελεί συμπέρασμα για να προσδιορίσει εάν το γεγονός υποστηρίζεται από τα αποτελέσματα αναζήτησης.

Σύμφωνα με πειράματα,Αν και η μέθοδος SAFE κοστίζει 20 φορές λιγότερο από τον ανθρώπινο σχολιασμό, αποδίδει καλύτερα από τον ανθρώπινο σχολιασμό: Το ποσοστό συμφωνίας με τους ανθρώπους ήταν 72%, και το ποσοστό των ανθρώπων που είχαν καλύτερη απόδοση σε διαφωνίες ήταν 76%.

Ο δείκτης αξιολόγησης SAFE είναι F1@K. Για μακρές αποκρίσεις πραγματικών μοντέλων, ιδανικά θα πρέπει να επιτυγχάνεται τόσο η ακρίβεια όσο και η ανάκληση, καθώς η απόκριση θα πρέπει ταυτόχρονα να ικανοποιεί:

πραγματικός: Μετράται με ακρίβεια, που είναι το ποσοστό των υποστηριζόμενων γεγονότων σε ολόκληρη την απάντηση.
μακρύς : Μετράται με ανάκληση, το οποίο είναι το ποσοστό των γεγονότων που παρέχονται από όλα τα σχετικά γεγονότα που πρέπει να εμφανίζονται στην απάντηση. Επομένως, λαμβάνεται υπόψη ο μέγιστος αριθμός υποστηριζόμενων γεγονότων.

Δεδομένης της απόκρισης του μοντέλου, η μέτρηση F1@K ορίζεται ως:

Επιπλέον, οι Chern et al το 2023 πρότειναν μια ροή εργασιών ελέγχου δεδομένων που ακολουθεί τα πρότυπαFacTool . Έχει σχεδιαστεί για να ανιχνεύει πραγματικά λάθη σε μια ποικιλία εργασιών, συμπεριλαμβανομένων των απαντήσεων σε ερωτήσεις βασισμένες στη γνώση, της δημιουργίας κώδικα, της επίλυσης μαθηματικών προβλημάτων και της ανασκόπησης επιστημονικής βιβλιογραφίας. Τα βήματα περιλαμβάνουν:

Εξαγωγή αξίωσης: Εξαγωγή όλων των επαληθεύσιμων αξιώσεων ζητώντας από το LLM.
Δημιουργία ερωτήματος: Μετατρέψτε κάθε δήλωση σε μια σειρά ερωτημάτων κατάλληλων για εξωτερικά εργαλεία, όπως ερωτήματα μηχανών αναζήτησης, περιπτώσεις δοκιμής μονάδας, αποσπάσματα κώδικα και τίτλους χαρτιού.
Ερώτημα εργαλείου και συλλογή αποδεικτικών στοιχείων: Αναζητήστε εξωτερικά εργαλεία, όπως μηχανές αναζήτησης, διερμηνείς κώδικα και Μελετητή Google, και λάβετε επιστρεφόμενα αποτελέσματα.
Επαλήθευση συνέπειας: Σε κάθε αξίωση αποδίδεται μια δυαδική ετικέτα με βάση τον βαθμό υποστήριξης αποδεικτικών στοιχείων που παρέχεται από εξωτερικά εργαλεία.

Ανίχνευση βάσει δειγματοληψίας

Ο Manakul et al. το 2023 πρότεινε έναν έλεγχο συνέπειας που βασίζεται σε πολλά δείγματα από ένα μαύρο κουτί LLM.SelfCheckGPT, για τον εντοπισμό πραγματικών σφαλμάτων.

Λαμβάνοντας υπόψη ότι οι μετρήσεις ελέγχου γεγονότων σε γκρίζο πλαίσιο απαιτούν πρόσβαση στο logprob σε επίπεδο διακριτικών του LLM, το SelfCheckGPTΑπλώς χρησιμοποιήστε δείγματα που δεν βασίζονται σε εξωτερικές βάσεις γνώσεων, επομένως η πρόσβαση στο μαύρο κουτί είναι επαρκής, δεν απαιτείται εξωτερική βάση γνώσεων.

Αυτή η μέθοδος χρησιμοποιεί διαφορετικές μετρήσεις για τη μέτρηση της συνέπειας μεταξύ της απόκρισης του μοντέλου και άλλων τυχαίων δειγμάτων μοντέλων, συμπεριλαμβανομένων των BERTScore, NLI, προτροπών (ναι/όχι) κ.λπ. Το SelfCheckGPT με χρήση υποδείξεων φαίνεται να αποδίδει καλύτερα κατά τη διεξαγωγή πειραματικών επιθεωρήσεων αποσπασμάτων WikiBio που δημιουργούνται από το GPT-3.

Βαθμονόμηση άγνωστης γνώσης

Ζητώντας από ένα μοντέλο να δώσει απαντήσεις σε αναπάντητα ή άγνωστα ερωτήματα μπορεί να προκαλέσει παραισθήσεις.TruthfulQA(Lin et al., 2021) καιSelfAware(Yin et al., 2023) είναι δύο σημεία αναφοράς που μετρούν την ικανότητα ενός μοντέλου να παράγει ρεαλιστικές απαντήσεις σε τέτοιες καταστάσεις, το πρώτο έχει κατασκευαστεί αντίθετα για να τονίσει το ανθρώπινο λάθος και το δεύτερο περιλαμβάνει αναπάντητα ερωτήματα.

Όταν αντιμετωπίζετε αυτά τα προβλήματα,Το μοντέλο θα πρέπει να αρνηθεί να απαντήσει ή να παράσχει σχετικές πληροφορίες。

Στο TruthfulQA, οι ερωτήσεις του τεστ σχεδιάζονται αντίθετα με βάση κοινές ανθρώπινες παρεξηγήσεις ή λάθη. Το σημείο αναφοράς περιέχει 817 ερωτήσεις που καλύπτουν 38 θέματα, συμπεριλαμβανομένων της υγείας, του δικαίου, των οικονομικών και της πολιτικής.

Όταν δοκιμάστηκε, το καλύτερο LLM πέτυχε ακρίβεια 58%, ενώ οι άνθρωποι μπορούσαν να επιτύχουν 94%. Η ερευνητική ομάδα διαπίστωσε ότιΛόγω μιας κοινής παρανόησης, τα μεγαλύτερα μοντέλα είναι λιγότερο ρεαλιστικά, αλλά αυτή η τάση δεν αντανακλάται σε άλλα πρότυπα(χωρίς σύγκρουση)πραγματική βάση。

Ακολουθεί ένα παράδειγμα λανθασμένης απάντησης του GPT-3 στο TruthfulQA:

Οι Yin et al. 2023SelfAwareΗ έννοια του , αναφέρεται στο εάν τα γλωσσικά μοντέλα γνωρίζουν αυτά που ξέρουν ή δεν ξέρουν.

Το SelfAware περιέχει 1032 αναπάντητα ερωτήσεις και 2337 απαντήσιμες ερωτήσεις σε πέντε κατηγορίες. Οι αναπάντητες ερωτήσεις προέρχονται από διαδικτυακά φόρουμ με ανθρώπινους σχολιασμούς και οι απαντήσιμες ερωτήσεις προέρχονται από το SQuAD, το HotpotQA και το TriviaQA.

Μια ερώτηση μπορεί να είναι αναπάντητη για διάφορους λόγους, όπως η έλλειψη επιστημονικής συναίνεσης, η φαντασία του μέλλοντος, η πλήρης υποκειμενικότητα, οι φιλοσοφικοί λόγοι που μπορεί να δημιουργήσουν πολλαπλές απαντήσεις κ.λπ.

Η μελέτη αντιμετωπίζει τη διάκριση απαντήσιμων και αναπάντητων ερωτήσεων ως δυαδική εργασία ταξινόμησης και χρησιμοποιεί βαθμολογία F1 ή ακρίβεια για να αξιολογήσει την απόδοση του μοντέλου.

Ένας άλλος τρόπος για να εκτιμηθεί πόσο καλά ένα μοντέλο κατανοεί την άγνωστη γνώση είναι η μέτρηση της αβεβαιότητας στην έξοδο του μοντέλου. Όταν ένα πρόβλημα βρίσκεται μεταξύ του γνωστού και του αγνώστου, το μοντέλο θα πρέπει να παρουσιάζει το σωστό επίπεδο εμπιστοσύνης.

Το πείραμα του 2022 των Kadavath et al. έδειξε ότι σε μια ποικιλία πολυδιάστατων επιλογών απαντήσεων με ορατά γράμματα,Επιλογή θέματοςμορφές (MMLU, TruthfulQA, QuALITY, LogiQA), το LLM αποδίδει καλά στην εκτίμηση της πιθανότητας ότι μια απάντηση είναι σωστή, πράγμα που σημαίνει ότι η προβλεπόμενη πιθανότητα είναι συνεπής με το πόσο συχνά αυτή η απάντηση είναι αληθινή.

Η μικρορύθμιση του RLHF έχει ως αποτέλεσμα φτωχότερη βαθμονόμηση του μοντέλου, αλλά οι υψηλότερες θερμοκρασίες δειγματοληψίας οδηγούν σε καλύτερα αποτελέσματα βαθμονόμησης.

Οι Lin και άλλοι πρότειναν το 2022CalibratedMath Κιτ αποστολής. Το CalibrateMath είναι ένα σύνολο μαθηματικών προβλημάτων που δημιουργούνται μέσω προγραμματισμού με διαφορετικά επίπεδα δυσκολίας που δοκιμάζουν τη βαθμονόμηση των πιθανοτήτων εξόδου του μοντέλου.

Για κάθε ερώτηση, το μοντέλο πρέπει να παρέχει μια αριθμητική απάντηση και την εμπιστοσύνη του σε αυτήν την απάντηση. Θεωρούνται τρεις τύποι πιθανοτήτων:

Ένας κυριολεκτικός αριθμός ή λέξη (όπως "χαμηλότερο", "χαμηλό", "μέσο", "υψηλό", "υψηλότερο"), όπως "Εμπιστοσύνη: 60% / Μέτριο".
Η κανονικοποιημένη πιθανότητα καταγραφής του διακριτικού απάντησης. Σημειώστε ότι αυτή η παράμετρος δεν χρησιμοποιήθηκε στα πειράματα μικρορύθμισης.
Logprob για την έμμεση σημαία "Σωστό/Λάθος" μετά την αρχική απάντηση. Τα πειράματα επικεντρώνονται στη βαθμονόμηση της γενίκευσης κάτω από αλλαγές διανομής στη δυσκολία ή το περιεχόμενο της εργασίας. Κάθε σημείο δεδομένων λεπτομέρειας είναι μια ερώτηση, η απάντηση του μοντέλου (που μπορεί να είναι λάθος) και η εμπιστοσύνη της βαθμονόμησης. Και στις δύο περιπτώσεις, οι πιθανότητες κειμένου γενικεύτηκαν καλά και όλες οι ρυθμίσεις είχαν καλή απόδοση στις εργασίες πολλαπλασιασμού και διαίρεσης. Όσον αφορά την εμπιστοσύνη πρόβλεψης του μοντέλου, το ολιγομελές πλάνο είναι πιο αδύναμο από το βελτιστοποιημένο μοντέλο. Βοηθά να συμπεριληφθούν περισσότερα παραδείγματα, η 50-shot είναι σχεδόν εξίσου καλή με την τελειοποιημένη έκδοση.

έμμεσο ερώτημα

Οι Agrawal et al (2023) μελέτησαν συγκεκριμένα περιπτώσεις παραισθήσεων στη γενιά LLM, συμπεριλαμβανομένων πλασματικών τίτλων βιβλίων, άρθρων και εγγράφων. Χρησιμοποίησαν δύο μεθόδους που βασίζονται στη συνέπεια για την ανίχνευση παραισθήσεων, δηλαδή την άμεση και την έμμεση ερώτηση. Και οι δύο μέθοδοι εκτελούν τον έλεγχο πολλές φορές όταν T > 0 και επαληθεύουν τη συνέπεια.

Τα άμεσα ερωτήματα απαιτούν από το μοντέλο να καθορίσει εάν το παραγόμενο υλικό αναφοράς υπάρχει, ενώ τα έμμεσα ερωτήματα απαιτούν βοηθητικές λεπτομέρειες, όπως π.χ.Ποιος είναι ο συγγραφέας της αναφοράς;。

Η υπόθεση είναι ότι, για μια παραισθησιακή αναφορά, η συνέπεια της δημιουργίας του ίδιου συγγραφέα πολλές φορές είναι μικρότερη από την πιθανότητα πολλαπλές απαντήσεις σε ένα άμεσο ερώτημα να αποκαλύπτουν την παρουσία της αναφοράς.

Τα πειράματα το δείχνουνΟι μέθοδοι έμμεσων ερωτημάτων αποδίδουν καλύτερα, τα μεγαλύτερα μοντέλα είναι πιο ισχυρά και υπάρχουν λιγότερες παραισθήσεις。

Τρόποι για την καταπολέμηση των ψευδαισθήσεων

Στη συνέχεια, εξετάζουμε ένα σύνολο μεθόδων για τη βελτίωση της αυθεντικότητας των απαντήσεων LLM, συμπεριλαμβανομένης της ανάκτησης από εξωτερικές βάσεις γνώσεων, ειδικών μεθόδων δειγματοληψίας και λεπτομέρειας ευθυγράμμισης. Ορισμένες μέθοδοι ερμηνείας για τη μείωση των παραισθήσεων μέσω της επεξεργασίας νευρώνων δεν θα συζητηθούν εδώ.

RAG → Επεξεργασία και απόδοση

Το RAG (Retrieval Augmented Generation) είναι μια πολύ κοινή μέθοδος παροχής βασικών πληροφοριών με την ανάκτηση σχετικών εγγράφων και στη συνέχεια τη δημιουργία τους χρησιμοποιώντας πρόσθετα σχετικά έγγραφα ως πλαίσιο.

RARR(Retrofit Attribution using Research and Revision) είναι ένα πλαίσιο που προτάθηκε από τους Gao et al το 2022, το οποίο επιτρέπει στο LLM να υποστηρίζει αναδρομικά την απόδοση εξωτερικών στοιχείων μέσω εκδοτικής απόδοσης.

Δεδομένου ενός κειμένου που δημιουργείται από μοντέλο, το RARR το επεξεργάζεται σε δύο βήματα, βγάζοντας ένα αναθεωρημένο κείμενο και μια αναφορά απόδοσης:

1. Στάδιο έρευνας: Βρείτε σχετικά έγγραφα ως αποδεικτικά στοιχεία.

Ένα μοντέλο δημιουργίας ερωτημάτων χρησιμοποιείται αρχικά (μέσω υποδείξεων μερικών λήψεων, →1,…, ) για τη δημιουργία ενός συνόλου ερωτημάτων αναζήτησης 1,…, για την επικύρωση διαφόρων πτυχών κάθε πρότασης.
Εκτελώντας μια αναζήτηση Google, κάθε ερώτημα = 5 αποτελέσματα.
Ένα προεκπαιδευμένο μοντέλο συνάφειας ερωτήματος-εγγράφου χρησιμοποιείται για την εκχώρηση βαθμολογιών συνάφειας και μόνο ένα πιο σχετικό = 1 έγγραφο 1,…, διατηρείται για κάθε ερώτημα.

2. Φάση αναθεώρησης: Επεξεργαστείτε την έξοδο για να διορθώσετε περιεχόμενο που δεν υποστηρίζεται από τα στοιχεία, διατηρώντας παράλληλα όσο το δυνατόν μεγαλύτερο μέρος του αρχικού περιεχομένου.Αρχικοποίηση αναθεωρημένου κειμένου =.

Σύμφωνα με το (,), το μοντέλο πρωτοκόλλου (μέσω υποδείξεων μερικών λήψεων + CoT, (,,) → 0,1) ελέγχει εάν τα στοιχεία δεν συνάδουν με το τρέχον αναθεωρημένο κείμενο.

Μόνο όταν εντοπιστεί μια ασυνέπεια, το μοντέλο επεξεργασίας (μέσω μερικών υποδείξεων + CoT, (,,)→ νέο ) βγάζει μια νέα έκδοση, σχεδιασμένη να αλλάζει ελάχιστα ταυτόχρονα με τα στοιχεία.

Τέλος, μόνο ένας περιορισμένος αριθμός =5 αποδεικτικών στοιχείων πηγαίνει στην αναφορά απόδοσης.

Τόσο η απόδοση όσο και η διατήρηση είναι σημαντικές κατά την αξιολόγηση του αναθεωρημένου κειμένου.

Το Attribution χρησιμοποιεί τη βαθμολογία AIS (Attributed to Identified Source) για να μετρήσει πόσο από το περιεχόμενο μπορεί να αποδοθεί. Μπορούν να συλλεχθούν ανθρώπινοι σχολιασμοί ή να χρησιμοποιηθούν μοντέλα NLI για την προσέγγιση της αυτόματης βαθμολόγησης AIS.

Η διατήρηση αναφέρεται στον βαθμό στον οποίο διατηρείται το αρχικό κείμενο, μετρούμενο ως Previntent × PrevLev, όπου το Previntent απαιτεί χειροκίνητο σχολιασμό και το PrevLev βασίζεται στην απόσταση επεξεργασίας Levenshtein σε επίπεδο χαρακτήρων. Σε σύγκριση με τις δύο βασικές γραμμές, το RARR οδηγεί σε καλύτερα ισορροπημένα αποτελέσματα, ειδικά όσον αφορά τις μετρήσεις διατήρησης.

Παρόμοια με το RARR με χρήση αναζήτησης+επεξεργασίας, που προτάθηκε από τους Mishra et alΦΑΒΑ (Επαλήθευση γεγονότων με επαυξημένη γνώση) ανακτά επίσης τη σχετική τεκμηρίωση και, στη συνέχεια, επεξεργάζεται την έξοδο του μοντέλου για την αποφυγή απατηλών σφαλμάτων. Το μοντέλο FAVA αποτελείται από ένα retriever και ένα editor.

Λαμβάνοντας μια προτροπή και έξοδο μοντέλου, ανακτήστε τα πιο σχετικά έγγραφα:

Ο επεξεργαστής δημιουργεί βελτιωμένη έξοδο:

Το RARR δεν απαιτεί εκπαίδευση, αλλά η επεξεργασία του μοντέλου επεξεργασίας στο FAVA απαιτεί λεπτομέρεια. Με την ταξινόμηση διαφορετικών τύπων σφαλμάτων παραισθήσεων με περισσότερες λεπτομέρειες, είναι δυνατό να δημιουργηθούν συνθετικά δεδομένα εκπαίδευσης για επεξεργασμένα μοντέλα εισάγοντας τυχαία σφάλματα στη δημιουργία μοντέλων.

Κάθε παράδειγμα είναι μια τριπλέτα (,,∗), όπου είναι το αρχικό απόσπασμα της Wikipedia ως χρυσό πλαίσιο, είναι η έξοδος LM με σφάλματα και ∗ είναι η έξοδος με ετικέτες σφαλμάτων και σωστές επεξεργασίες.

Προτάθηκε από τον He et alRRΗ προσέγγιση (Rethinking with Retrieval) βασίζεται επίσης στην ανάκτηση σχετικής εξωτερικής γνώσης, αλλά δεν περιλαμβάνει πρόσθετη επεξεργασία.

Αντί να χρησιμοποιεί ένα μοντέλο δημιουργίας ερωτημάτων αναζήτησης, η ανάκτηση του RR βασίζεται σε αποσυντεθειμένες υποδείξεις CoT.

Με δεδομένη μια υπόδειξη εισόδου, το RR χρησιμοποιεί υποδείξεις CoT για να δημιουργήσει πολλαπλές διαδρομές συμπερασμάτων 1,…, σε θερμοκρασία > 0, όπου κάθε διαδρομή συμπερασμάτων περιέχει μια εξήγηση (δηλαδή, το τμήμα συμπερασμάτων), ακολουθούμενη από μια πρόβλεψη (δηλαδή, την πραγματική έξοδο του μοντέλου) . Ανακτήστε εξωτερικές γνώσεις 1,…, για να υποστηρίξετε κάθε εξήγηση. Στη συνέχεια, επιλέγεται η πιο πιστή απάντηση με βάση τον βαθμό προσαρμογής με τις ανακτηθείσες γνώσεις 1,…,.

ανάκτηση γνώσεων: Τα πειράματα του RR εφαρμόζουν αραιή ανάκτηση BM25 στην αναζήτηση στη Wikipedia, ακολουθούμενη από ανακατάταξη με ενσωμάτωση ομοιότητας συνημιτόνου που παρέχεται από ένα προεκπαιδευμένο μοντέλο MPNet.
Βαθμολογία πιστότητας : Η πιστότητα κάθε διαδρομής συμπερασμάτων εκτιμάται από έναν συνδυασμό βαθμολογίας συνεπακόλουθης, βαθμολογίας αντίφασης και ομοιότητας MPNet. Τόσο η βαθμολογία συνεπαγωγής όσο και η βαθμολογία αντίφασης παρέχονται από το προεκπαιδευμένο μοντέλο NLI.

Αυτο-ΡΑΓΚ(Asai et al., 2024) εκπαιδεύει ένα γλωσσικό μοντέλο από άκρο σε άκρο, έτσι ώστε να μαθαίνει να στοχάζεται στη δική του παραγωγή βγάζοντας αποτελέσματα εργασιών και διακοπτόμενους ειδικούς δείκτες αντανάκλασης.

Η ερευνητική ομάδα δημιούργησε ένα εποπτευόμενο σύνολο δεδομένων για την κρίση και τη δημιουργία μοντέλων προτρέποντας το GPT-4 και στη συνέχεια το απόσταξε σε ένα εσωτερικό μοντέλο για να μειώσει το κόστος εξαγωγής συμπερασμάτων.

Δεδομένης μιας προτροπής εισαγωγής, η παραγόμενη έξοδος αποτελείται από πολλά μέρη (π.χ., ένα τμήμα είναι μια πρόταση). Υπάρχουν τέσσερις τύποι δεικτών ανάκλασης, ένας για ανάκτηση και τρεις για αξιολόγηση:

Ανάκτηση: Καθορίζει εάν θα εκτελεστεί η ανάκτηση παράλληλα για να λάβετε ένα σύνολο τιμών εξόδου: {ναι, όχι, συνέχεια}.
IsRel: Προσδιορίστε εάν η προτροπή είναι σχετική με την τιμή εξόδου που ανακτήθηκε: {relevant, irrelevant}.
IsSup: Προσδιορίστε εάν το κείμενο εξόδου υποστηρίζεται: {fully supported, μερικώς supported, no support}.
IsUse: Προσδιορίστε εάν το κείμενο εξόδου είναι χρήσιμο: {5, 4, 3, 2, 1}.

Το Self-RAG δημιουργεί ένα τμήμα κάθε φορά. Με βάση τη δεδομένη και την προηγούμενη γενιά < , το μοντέλο αποκωδικοποιεί το διακριτικό ανάκτησης:

Αν Ανάκτηση==όχι, δημιουργήστε απευθείας.
Εάν Retrieve==yes, το μοντέλο ανακτά πολλές παραγράφους παράλληλα και χρησιμοποιεί το διακριτικό IsRel για να ελέγξει εάν τα ανακτημένα έγγραφα είναι σχετικά. Εάν είναι σχετικό, δημιουργήστε και χρησιμοποιήστε άλλα διακριτικά αξιολόγησης για να βαθμολογήσετε, να κατατάξετε και να επιλέξετε το καλύτερο αποτέλεσμα μεταξύ πολλαπλών εξόδων.

αλυσίδα δράσης

Χωρίς εξωτερική γνώση ανάκτησης, είναι δυνατός ο σχεδιασμός αΑξιοποιήστε το ίδιο το μοντέλο για επικύρωση και αναθεώρησηδιαδικασία για τη μείωση των παραισθήσεων.

Ο Dhuliawala και συνΑλυσίδα επαλήθευσης (Λιμανάκι). Το CoVe αποτελείται από τέσσερα βασικά βήματα:

βασική απάντηση: Το μοντέλο δημιουργεί ένα αρχικό προσχέδιο απόκρισης, που ονομάζεται "γραμμή βάσης".
Επαλήθευση προγραμματισμού: Με βάση αυτήν την ακατέργαστη γενιά, το μοντέλο σχεδιάζει μη τυποποιημένες ερωτήσεις επαλήθευσης για έλεγχο γεγονότων, αυτό μπορεί να επιτευχθεί με έναν μικρό αριθμό παραδειγμάτων προτροπής (απαντήσεις σε ερωτήσεις επαλήθευσης).
Εκτελέστε επαλήθευση : Το μοντέλο απαντά ανεξάρτητα σε αυτές τις ερωτήσεις. Υπάρχουν διάφορες παραλλαγές ρύθμισης:

1) Ένωση: Σε συνδυασμό με το βήμα 2, όπου η δομή του παραδείγματος λίγων λήψεων είναι (απόκριση, ερώτηση επαλήθευσης, απάντηση επαλήθευσης, το μειονέκτημα είναι ότι η αρχική απάντηση βρίσκεται στο πλαίσιο και το μοντέλο μπορεί να επαναλαμβάνει παρόμοιες ψευδαισθήσεις).

2) Προσέγγιση δύο βημάτων: Διαχωρίστε τα βήματα σχεδιασμού και εκτέλεσης επαλήθευσης, εάν δεν επηρεάζουν την αρχική απόκριση.

3) Αποσύνθεση: Απαντήστε σε κάθε ερώτηση επαλήθευσης ξεχωριστά. Για παράδειγμα, εάν μια μεγάλη έκδοση βάσης έχει ως αποτέλεσμα πολλαπλές ερωτήσεις επικύρωσης, κάθε ερώτηση θα απαντηθεί μία προς μία.

4) Αποσύνθεση + Αναθεώρηση: Προσθέστε ένα βήμα "διασταυρούμενου ελέγχου" μετά την εκτέλεση της επαλήθευσης αποσύνθεσης για να διαμορφώσετε και να εντοπίσετε ασυνέπειες με βάση τις βασικές απαντήσεις και τις ερωτήσεις και απαντήσεις επαλήθευσης.

τελική παραγωγή : Δημιουργία τελικού, εκλεπτυσμένου αποτελέσματος. Εάν εντοπιστούν ασυνέπειες, η έξοδος τροποποιείται σε αυτό το βήμα.

Το CoVe έχει σχεδιαστεί με αυτόν τον τρόπο επειδή η χρήση μακράς αλυσίδας επαλήθευσης μπορεί να οδηγήσει σε επαναλαμβανόμενες ψευδαισθήσεις, επειδή η αρχική απόκριση παραισθήσεων εξακολουθεί να βρίσκεται στο πλαίσιο και μπορεί να ληφθεί υπόψη κατά τη διάρκεια των διαδικασιών νέας γενιάς, ενώΗ απάντηση σε κάθε ερώτηση επικύρωσης μεμονωμένα βρέθηκε ότι οδηγεί σε καλύτερα αποτελέσματα από τη δημιουργία μακράς φόρμας。

Ακολουθούν μερικές ενδιαφέρουσες παρατηρήσεις από τα πειράματα CoVe:

Οι προσαρμογές εντολών και η CoT δεν μείωσαν τις παραισθήσεις.
Η αποσύνθεση και το CoVe δύο βημάτων βελτιώνουν την απόδοση και βοηθάει επίσης η περαιτέρω σαφής αιτιολογία για τον εντοπισμό ασυνέπειας (προσέγγιση "αποσύνθεση+αναθεώρηση").
Οι ερωτήσεις επαλήθευσης σύντομης μορφής απέδωσαν πιο ακριβείς απαντήσεις από τις ερωτήσεις μεγάλης μορφής.
Το LLM ελεύθερης μορφής δημιουργεί ερωτήσεις επαλήθευσης καλύτερα από ευρετικές ερωτήσεις (π.χ. απάντησε ο Χ στην ερώτηση;) και οι ερωτήσεις που απαιτούν δημιουργία ανοιχτού τύπου είναι καλύτερες από τις ερωτήσεις ναι/όχι.

Επιπλέον, οι Sun και άλλοι πρότειναν το 2023ΔΙΗΓΟΥΜΑΙμέθοδος, βασίζεται στην πρόβα ως ενδιάμεσο βήμα για τη βελτίωση της πραγματικής ορθότητας της δημιουργίας μοντέλων και τη μείωση των παραισθήσεων.

Το κίνητρο είναι να χρησιμοποιηθεί η μνήμη του Transformer ως μοντέλο ανάκτησης πληροφοριών. Στο σχήμα επανάληψης και απάντησης του RECITE, το LLM καλείται πρώτα να επαναδιηγηθεί τις σχετικές πληροφορίες και στη συνέχεια παράγει έξοδο.

Συγκεκριμένα, μερικές συμφραζόμενες συμβουλές μπορούν να χρησιμοποιηθούν για να διδαχθεί το μοντέλο να παραφράζει και στη συνέχεια να δημιουργήσει απαντήσεις με βάση την παράφραση. Επιπλέον, μπορεί να συνδυαστεί με αυτοσυνεπείς μεθόδους συνόλου που χρησιμοποιούν πολλαπλά δείγματα και μπορεί να επεκταθεί για να υποστηρίξει την απάντηση σε ερωτήσεις πολλαπλών βημάτων.

Οι παραφράσεις που δημιουργούνται είναι συγκρίσιμες με το μοντέλο ανάκτησης που βασίζεται στο BM25, αλλά και οι δύο έχουν κενά κατά τη χρήση πραγματικών αποσπασμάτων. Σύμφωνα με την ανάλυση σφαλμάτων που διεξήχθη από την ερευνητική ομάδα, περίπου το 7-10% των ερωτήσεων απαγγέλθηκαν σωστά αλλά δεν μπόρεσαν να δημιουργήσουν τη σωστή απάντηση.

Μέθοδος δειγματοληψίας

Ο Lee et al 2022 διαπίστωσε ότι η δειγματοληψία πυρήνα (top-sampling) είχε χειρότερη απόδοση από την άπληστη δειγματοληψία στο σημείο αναφοράς FactorityPrompt, αν και η δειγματοληψία πυρήνα προσέθεσε επιπλέον τυχαιότητα, επιτυγχάνοντας καλύτερη ποικιλομορφία και λιγότερη επανάληψη.

Ως εκ τούτου, πρότειναν έναν αλγόριθμο δειγματοληψίας πυρήνα γεγονότων που βασίζεται σε υποθέσεις,Αυτή η υπόθεση δηλώνει ότι η τυχαιότητα της δειγματοληψίας έχει μεγαλύτερο αντίκτυπο στην πραγματικότητα του δεύτερου μισού της πρότασης από την αρχή της πρότασης. . Η δειγματοληψία πυρήνα δεδομένων στοχεύει στη δυναμική προσαρμογή της πιθανότητας δειγματοληψίας λέξεων σε κάθε πρόταση. Για το ου σύμβολο σε μια πρόταση, υπάρχει το =max(,⋅−1), το οποίο χρησιμοποιείται για να αποτρέψει τη δειγματοληψία από την επιστροφή σε άπληστη δειγματοληψία που βλάπτει την ποιότητα και την ποικιλομορφία της παραγωγής.

Οι Li et alΣυμπερασματικά-Χρονική Παρέμβαση(ITI), διερευνά εάν ορισμένες κεφαλές προσοχής είναι πιο σχετικές με την πραγματικότητα διερευνώντας γραμμικά τις ενεργοποιήσεις σε κάθε επίπεδο για να διακρίνουν τις πραγματικές από τις ψευδείς εξόδους.

Βρήκαν ότι για πολλές κεφαλές προσοχής ο ανιχνευτής δεν είχε καλύτερη απόδοση από την τυχαία επιλογή, ενώ ορισμένοι έδειξαν ισχυρή απόδοση. Αφού εντοπίσει μια ομάδα αραιών κεφαλών προσοχής με υψηλή ακρίβεια στη γραμμική ανίχνευση αυθεντικότητας, το ITI θα προσαρμόσει την ενεργοποίηση των κορυφαίων επιλεγμένων κεφαλών προσοχής κατά μήκος της «πραγματικής» κατεύθυνσης κατά τη διάρκεια της εξαγωγής συμπερασμάτων.

Πραγματική μικρορύθμιση

Ο Lee et al 2022 πρότεινε δύο ιδέες για την ενίσχυση της εκπαίδευσης:

Παρουσιάζοντας το TopicPrefix για καλύτερη κατανόηση των γεγονότων: προσθέστε ένα θέμα (π.χ. τίτλο εγγράφου της Wikipedia) πριν από κάθε πρόταση του εγγράφου.
Πάρτε την απώλεια ολοκλήρωσης πρότασης ως στόχο εκπαίδευσης: ενημερώστε την απώλεια εκπαίδευσης για να εστιάσετε στο δεύτερο μισό της πρότασης, υποθέτοντας ότι το δεύτερο μισό της πρότασης περιέχει περισσότερες πραγματικές γνώσεις. Η υλοποίηση είναι πολύ απλή, αποφασίστε ένα σημείο περιστροφής και εφαρμόστε μια μηδενική μάσκα σε όλα τα διακριτικά πριν από το πρώτο διακριτικό. Στα πειράματά τους, το βέλτιστο σημείο περιστροφής επιλέχθηκε να είναι 0,5x μήκος πρότασης.

Οι Lin et al πρότειναν το 2024 να πραγματοποιήσουν εκπαίδευση ευθυγράμμισης SFT+RLHF που εστιάζει στην πραγματικότητα.ΦΛΟΓΑ。

Στάδιο SFT (Factuality-aware SFT): Ο στόχος είναι να δημιουργηθούν δεδομένα εκπαίδευσης που να είναι πιο τεκμηριωμένα από το ίδιο το μοντέλο (μετρούμενα από το FActScore).
Στάδιο RLHF (DPO με επίγνωση των γεγονότων): Δύο μέθοδοι δοκιμάστηκαν κακώς και η μέθοδος 2 ήταν εντάξει, πιθανώς επειδή η μέθοδος 1 προσπάθησε να αποστάξει νέα γνώση στο μοντέλο χωρίς επαρκή εκπαίδευση.

Όπως αναφέρθηκε προηγουμένως, υπάρχουν ορισμένες ενδείξεις ότι η βελτίωση της νέας γνώσης μπορεί να προκαλέσει παραισθήσεις και η επίβλεψη RAG περιέχει πληροφορίες άγνωστες στο LLM.

Μέθοδος 1: Χρησιμοποιήστε δείγματα δεδομένων RAG ως θετικά δείγματα και τη δημιουργία αρχικού μοντέλου ως αρνητικά δείγματα ως δεδομένα RM.

Μέθοδος 2: Χρησιμοποιήστε το FActScore ως de facto σήμα ανταμοιβής.

Για να αποφευχθεί η κατά λάθος απόσταξη άγνωστης γνώσης στο μοντέλο κατά τη διάρκεια της εκπαίδευσης ευθυγράμμισης, προτείνουν τη χρήση των αποκρίσεων που δημιουργούνται από το μοντέλο για την κατασκευή του συνόλου δεδομένων SFT/DPO.

Προτάθηκε από τους Tian&Mitchell και συν. το 2024Συντονισμός πραγματικών στοιχείων Επίσης, βασίζεται σε γλωσσικά μοντέλα βελτιστοποίησης για τη βελτίωση της πραγματικότητας. Πειραματίστηκαν με διαφορετικές μεθόδους για να εκτιμήσουν την ακρίβεια των ατομικών αξιώσεων σε κάθε δείγμα μοντέλου και στη συνέχεια έτρεξαν το DPO.

Πραγματική διαδικασία προσαρμογής:

1. Ζεύγη παραδειγμάτων ολοκλήρωσης μοντέλων για ένα δεδομένο σύνολο προτροπών (π.χ. "Γράψτε ένα βιογραφικό του Yo-Yo Ma")

2. Σημειώστε την αυθεντικότητά του σύμφωνα με δύο μεθόδους που δεν απαιτούν χειροκίνητη παρέμβαση:

Βάσει αναφοράς: Ελέγχει εάν ο ισχυρισμός του μοντέλου υποστηρίζεται από μια εξωτερική βάση γνώσεων, παρόμοια με την παραπάνω ενότητα αξιολόγησης παραισθήσεων με βάση την ανάκτηση. (α) να εξαγάγετε μια σειρά ατομικών δηλώσεων (β) να αναζητήσετε αναφορές στη Wikipedia (γ) να χρησιμοποιήσετε ένα μικρό μοντέλο NLI για να ελέγξετε εάν το κείμενο αναφοράς υποστηρίζει ατομικές δηλώσεις.

Μη βασισμένο σε αναφορές: χρησιμοποιεί την εμπιστοσύνη του ίδιου του μοντέλου ως σύμβολο της αυθεντικότητάς του, παρόμοια με τις μεθόδους έμμεσων ερωτημάτων. (α) να μετατρέψει κάθε δήλωση σε μια αντίστοιχη ερώτηση/απαιτεί προσεκτική αναδιατύπωση για να διασφαλίσει ότι η ερώτηση είναι σαφής (β) δείγματα από το μοντέλο για να απαντήσετε στην ερώτηση χαρακτήρες Συμβολοσειρά που ταιριάζουν ή ζητούν από το GPT να καθορίσει εάν δύο απαντήσεις είναι σημασιολογικά ισοδύναμες.

3. Δημιουργήστε ένα σύνολο δεδομένων εκπαίδευσης δημιουργώντας πολλαπλά δείγματα από το μοντέλο και εκχωρώντας προτιμήσεις με βάση τις βαθμολογίες αυθεντικότητας. Στη συνέχεια, χρησιμοποιήστε το DPO για να ρυθμίσετε το μοντέλο σε αυτό το σύνολο δεδομένων.

Βελτιστοποίηση για απόδοση

Η απόδοση παραδόσεων είναι ένας καλός τρόπος για τη μείωση των ψευδαισθήσεων κατά τη δημιουργία εξόδου μοντέλου που εξαρτάται από τα αποτελέσματα αναζήτησης. Υπάρχει μια σειρά εργασιών που στοχεύουν στην εκπαίδευση LLM για την καλύτερη χρήση του ανακτημένου περιεχομένου και την ανάθεση αποδόσεων υψηλής ποιότητας.

Προτάθηκε από τους Nakano και συνεργάτες το 2022WebGPT, συνδυάζει την αναζήτηση στον ιστό για ανάκτηση εγγράφων με βελτιωμένα μοντέλα GPT, σχεδιασμένα να απαντούν σε ερωτήσεις μεγάλης μορφής για να μειώσουν τις παραισθήσεις και να βελτιώσουν την ακρίβεια των πραγματικών στοιχείων.

Το μοντέλο αλληλεπιδρά με τις αναζητήσεις στο Διαδίκτυο σε ένα πρόγραμμα περιήγησης ιστού που βασίζεται σε κείμενο και μαθαίνει να παραθέτει ιστοσελίδες για να απαντά σε ερωτήσεις. Κατά την περιήγηση του μοντέλου, μια ενέργεια που μπορεί να κάνει είναι η αναφορά σε ένα απόσπασμα της τρέχουσας σελίδας. Όταν το κάνετε αυτό, ο τίτλος της σελίδας, το όνομα τομέα και το απόσπασμα καταγράφονται για μελλοντική αναφορά.Ο πυρήνας του WebGPT είναι η χρήση υλικού αναφοράς για να βοηθήσει τους ανθρώπους να κρίνουν την ορθότητα των πραγματικών περιστατικών。

Το μοντέλο υποβλήθηκε για πρώτη φορά σε εποπτευόμενη λεπτομέρεια για συμπεριφορική κλωνοποίηση σε επιδείξεις ανθρώπων που χρησιμοποιούν ένα περιβάλλον περιήγησης στον Ιστό για να απαντήσουν σε ερωτήσεις.

Συγκριτικά δεδομένα συλλέγονται μεταξύ δύο απαντήσεων που δημιουργούνται από μοντέλα στην ίδια ερώτηση, η καθεμία με το δικό της σύνολο αναφοράς, όπου οι απαντήσεις κρίνονται με βάση την πραγματική τους ακρίβεια, τη συνοχή και τη συνολική χρησιμότητα. Τα μοντέλα ανταμοιβής χρησιμοποιούνται για εκπαίδευση RL και δειγματοληψία απόρριψης της καλύτερης απόρριψης. Αντίθετα, το RL έχει περιορισμένα αποτελέσματα και όταν χρησιμοποιείται δειγματοληψία απόρριψης, τα εφέ είναι ακόμη πιο περιορισμένα.

Οι Menick και άλλοι πρότειναν το 2022GopherCite , μοιάζει πολύ με το WebGPT στη χρήση μηχανών αναζήτησης για τη δημιουργία υποστηρικτικού υλικού και τη διδασκαλία μοντέλων για την παροχή υλικού αναφοράς. Και οι δύο εκτελούν εποπτευόμενη μικρορύθμιση της καθοδήγησης και εφαρμόζουν εκπαίδευση RLHF.

Σε αντίθεση με το WebGPT, το οποίο βασίζεται σε ανθρώπινες επιδείξεις για συμπεριφορική κλωνοποίηση, το GopherCiteΔημιουργήστε επίδειξη μέσω προτροπών μερικών λήψεων, και κάθε γενιά συμπληρώνεται με πλαίσιο από σχετικά έγγραφα και, στη συνέχεια, χρησιμοποιείται ένα μοντέλο ανταμοιβής για να βαθμολογηθεί ποια είναι τα καλύτερα.

Ένα άλλο τέχνασμα για την αποφυγή αποκρίσεων χαμηλής ποιότητας είναι να διαμορφώσετε το μοντέλο ώστε να απορρίπτει απαντήσεις χρησιμοποιώντας την κλειστή απάντηση "Δεν ξέρω", η οποία καθορίζεται από ένα παγκόσμιο όριο RM, που ονομάζεται επιλεκτική πρόβλεψη.

Τα εμπειρικά αποτελέσματα του RL είναι παρόμοια με το WebGPT, δηλαδή, το RL φέρνει μόνο περιορισμένη βελτίωση ή καμία βελτίωση όταν συνδυάζεται με δειγματοληψία απόρριψης.

Ποιος είναι ο Weng Li;

Ο Weng Li είναι Κινέζος επιστήμονας στο OpenAI και ένας από τους συνεργάτες του ChatGPT. Αποφοίτησε από το Πανεπιστήμιο του Πεκίνου.

Είναι η υπεύθυνη για την έρευνα εφαρμογών τεχνητής νοημοσύνης του OpenAI. Εντάχθηκε στο OpenAI το 2018 και ασχολείται κυρίως με την προεκπαίδευση, την ενίσχυση της μάθησης και την ευθυγράμμιση και την ασφάλεια μοντέλων στο έργο GPT-4.

Στη συμβουλευτική ομάδα ασφαλείας που ιδρύθηκε από το OpenAI στα τέλη του περασμένου έτους, ηγείται της ομάδας Safety Systems για την επίλυση προβλημάτων όπως η μείωση της κατάχρησης υπαρχόντων μοντέλων όπως το ChatGPT.

Νέα

Τι προκαλεί τις παραισθήσεις;

Ανίχνευση ψευδαισθήσεων

Τρόποι για την καταπολέμηση των ψευδαισθήσεων

Ποιος είναι ο Weng Li;

Εισαγωγή

τα στοιχεία επικοινωνίας μου