Τα στοιχεία επικοινωνίας μου
Ταχυδρομείο[email protected]
2024-08-16
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Αναφορά Μηχανικής Καρδιάς
Επιμέλεια: Panda
Ελέγξτε το ένα το άλλο, ώστε τα μικρά μοντέλα να μπορούν να λύσουν μεγάλα προβλήματα.
Το LLM είναι γνωστό ότι είναι ισχυρό, αλλά όχι αρκετά ισχυρό για να εκτελεί σύνθετη λογική.
Για παράδειγμα, στο σύνολο δεδομένων GSM8K, το Mistral-7B μπορεί να επιτύχει ακρίβεια μόνο 36,5% ακόμη και χρησιμοποιώντας τεχνολογίες όπως η αλυσίδα της σκέψης (CoT). Αν και η λεπτομέρεια μπορεί πράγματι να βελτιώσει αποτελεσματικά τις συλλογιστικές δυνατότητες, το μεγαλύτερο μέρος του LLM βασίζεται σε δεδομένα λεπτομέρειας που έχουν αποσταχθεί από πιο ισχυρά μοντέλα όπως το GPT-4 ή μπορεί ακόμη και να έχουν συντεθεί από αυτά τα ισχυρά μοντέλα.
Ταυτόχρονα, οι ερευνητές αναπτύσσουν επίσης ενεργά μια βοηθητική αλλά πιο δύσκολη μέθοδο: τη χρήση ενός καλύτερου εκπαιδευτικού LLM για τη βελτίωση της ικανότητας συλλογισμού.
Προκειμένου να βελτιωθεί η ικανότητα συλλογισμού χωρίς ένα καλύτερο μοντέλο, ένα πολλά υποσχόμενο παράδειγμα είναι η χρήση της γνώσης στο ίδιο το LLM. Για παράδειγμα, μια μέθοδος που ονομάζεται RAP υιοθετεί μια λύση αυτοεξερεύνησης, δηλαδή βελτιώνει επαναλαμβανόμενα τη συλλογιστική απόδοση του LLM μέσω ανατροφοδότησης που ανταμείβει τον εαυτό του. Δυστυχώς, η έρευνα δείχνει ότι αυτό το παράδειγμα έχει δύο θεμελιώδη προβλήματα.
Πρώτον, το LLM συχνά αγωνίζεται να εξερευνήσει αποτελεσματικά το χώρο λύσεων κατά την εκτέλεση συμπερασμάτων. Αυτή η αυτοδιερευνητική προσέγγιση συχνά κολλάει σε ένα χώρο λύσης λόγω κακής ποιότητας συλλογιστικών βημάτων, ακόμη και μετά από πολλές προσπάθειες.
Δεύτερον, ακόμα κι αν η αυτοεξερεύνηση βρει βήματα συμπερασμάτων υψηλής ποιότητας, είναι δύσκολο για μια μικρή έκδοση του μοντέλου μεγάλης γλώσσας (SLM) να διακρίνει ποια βήματα συμπερασμάτων είναι υψηλότερης ποιότητας και να προσδιορίσει εάν η τελική απάντηση είναι σωστή. δύσκολο να καθοδηγηθεί αποτελεσματικά η αυτοεξερεύνηση. Η έρευνα δείχνει ότι η καθοδηγούμενη αυτοεξερεύνηση που βασίζεται σε βασικές τακτικές ανταμοιβές δεν αποδίδει καλύτερα αποτελέσματα από την τυχαία εικασία.
Ακόμη πιο ενοχλητικό είναι ότι οι μικρές εκδόσεις μοντέλων μεγάλων γλωσσών (SLM) είναι πιο επιρρεπείς στα δύο παραπάνω προβλήματα επειδή είναι λιγότερο ικανές. Για παράδειγμα, το GPT-4 μπορεί να βελτιώσει τα αποτελέσματα εξόδου μέσω της αυτοβελτιστοποίησης, αλλά είναι δύσκολο για το SLM να το κάνει αυτό και μπορεί ακόμη και να προκαλέσει μείωση της ποιότητας των αποτελεσμάτων εξόδου. Αυτό θα εμποδίσει σοβαρά τη διάδοση και την εφαρμογή μοντέλων νευρωνικής γλώσσας.
Ως απάντηση σε αυτά τα προβλήματα, μια ερευνητική ομάδα από τη Microsoft Research Asia και το Πανεπιστήμιο του Χάρβαρντ πρότεινε το Self-play MuTuAl Reasoning, ή για συντομία rStar. Για να το θέσω απλά, αυτή η μέθοδος μοιάζει με το να ζητάς από δύο μέτριους μαθητές να ελέγξουν ο ένας τις απαντήσεις του άλλου στα γραπτά των εξετάσεων και τελικά να βελτιώσουν τις βαθμολογίες τους σε σημείο που να μπορούν να ανταγωνιστούν ακόμη και κορυφαίους ακαδημαϊκούς. Η ομάδα ισχυρίζεται ότι το rStar «μπορεί να βελτιώσει τις δυνατότητες συμπερασμάτων του SLM χωρίς τελειοποίηση ή καλύτερα μοντέλα».
μέθοδος
Για την επίλυση των παραπάνω προβλημάτων, το rStar χωρίζει τη διαδικασία συλλογισμού σε δύο μέρη: δημιουργία λύσεων και αμοιβαία επαλήθευση, όπως φαίνεται στο Σχήμα 2.
Αντιμετωπίζοντας την πρώτη πρόκληση, η ομάδα παρουσίασε μια συλλογή από πλούσιες ανθρώπινες συλλογιστικές ενέργειες που διερευνά διεξοδικά έναν ποικίλο χώρο συλλογιστικών εργασιών.
Για το δεύτερο πρόβλημα, σχεδίασαν μια συνάρτηση ανταμοιβής ειδικά για το SLM, η οποία μπορεί να αξιολογήσει τα ενδιάμεσα βήματα, αποφεύγοντας έτσι να βασίζονται στη συχνά αναξιόπιστη αυτοαξιολόγησή τους.
Επιπλέον, η ομάδα χρησιμοποίησε επίσης ένα άλλο SLM ως διαχωριστικό για να βελτιώσει τη διαδικασία MCTS, επαληθεύοντας αμοιβαία την ορθότητα κάθε τροχιάς με το διακριτικό SLM.
Χρησιμοποιήστε το MCTS Rollout για να δημιουργήσετε μόνοι σας τροχιές συμπερασμάτων
Μια πλούσια συλλογή από ανθρώπινες συλλογιστικές ενέργειες. Ο πυρήνας της δημιουργίας MCTS βρίσκεται στον χώρο δράσης, ο οποίος καθορίζει το εύρος της εξερεύνησης δέντρων. Οι περισσότερες μέθοδοι που βασίζονται σε MCTS χρησιμοποιούν έναν ενιαίο τύπο ενέργειας κατά την κατασκευή του δέντρου. Για παράδειγμα, η ενέργεια στο RAP είναι να κάνετε την επόμενη υποερώτηση, ενώ η ενέργεια στο AlphaMath και το MindStar είναι να δημιουργήσετε το επόμενο βήμα συλλογισμού. Ωστόσο, το να βασίζεσαι σε έναν και μόνο τύπο δράσης μπορεί εύκολα να οδηγήσει σε κακή εξερεύνηση του διαστήματος.
Για να λύσει αυτό το πρόβλημα, η ομάδα εξέτασε τον τρόπο με τον οποίο οι άνθρωποι εκτελούν τη λογική. Διαφορετικοί άνθρωποι επιλύουν προβλήματα με διαφορετικούς τρόπους: μερικοί άνθρωποι χωρίζουν το πρόβλημα σε υποπροβλήματα, άλλοι λύνουν το πρόβλημα άμεσα και άλλοι πάλι διατυπώνουν το πρόβλημα από άλλη οπτική γωνία. Επιπλέον, οι άνθρωποι θα προσαρμόσουν επίσης τις μεθόδους τους σύμφωνα με την τρέχουσα κατάσταση και θα επιλέξουν διαφορετικές ενέργειες ανάλογα με τις ανάγκες.
Εμπνευσμένη από την ανθρώπινη συλλογιστική διαδικασία, η ομάδα κατασκεύασε ένα πλουσιότερο σύνολο δεδομένων που περιέχει 5 τύπους ενεργειών για να μεγιστοποιήσει τις δυνατότητες του SLM να επιλύει σωστά σύνθετα προβλήματα συλλογισμού.
Δράση 1: Προτείνετε ένα βήμα σκέψης. Για ένα δεδομένο πρόβλημα, αυτή η ενέργεια θα αναγκάσει το LLM να δημιουργήσει το επόμενο βήμα ιδεών με βάση τα υπάρχοντα βήματα συλλογιστικής.
Ενέργεια 2: Προτείνετε τα υπόλοιπα βήματα σκέψης. Αυτή η ενέργεια, όπως και το τυπικό CoT, επιτρέπει τη «γρήγορη σκέψη» να λύνει απλά προβλήματα με λίγα μόνο βήματα. Δεδομένων των βημάτων συμπερασμάτων που δημιουργούνται, θα αφήσει το LLM να δημιουργήσει απευθείας τα υπόλοιπα βήματα μέχρι να ληφθεί η τελική απάντηση.
Ενέργεια 3: Προτείνετε την επόμενη υποερώτηση και την απάντησή της.
Ενέργεια 4: Απαντήστε ξανά σε αυτή την υποερώτηση. Λαμβάνοντας υπόψη ότι η ενέργεια 3 μπορεί να μην απαντήσει σωστά στην αντίστοιχη υποερώτηση, ο ρόλος αυτής της ενέργειας είναι να απαντήσει ξανά.
Ενέργεια 5: Επαναδιατύπωση του προβλήματος/υποπροβλήματος. Αυτή η νέα κίνηση είναι να επαναδιατυπώσει το πρόβλημα με πιο απλό τρόπο. Συγκεκριμένα, ο στόχος εδώ είναι το LLM να απαριθμεί με σαφήνεια όλες τις συνθήκες στη δήλωση προβλήματος.
Οι παραπάνω πέντε ενέργειες ορίζουν έναν χώρο δράσης με μεγάλη ποικιλία {A1, A2, A3, A4, A5}.
Σε κάθε βήμα i, το MCTS επιλέγει μια ενέργεια a_i από αυτό το διάστημα. Στη συνέχεια, με βάση την τρέχουσα κατάσταση (δηλαδή, η τροχιά που δημιουργήθηκε προηγουμένως x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_{i−1}), χρησιμοποιήστε αυτήν την ενέργεια a_i για να αφήσετε το LLM να δημιουργήσει το επόμενο βήμα συμπερασμάτων s_i. Λάβετε υπόψη ότι ορισμένες ενέργειες πρέπει να εκτελεστούν με τη σειρά. Το Σχήμα 3 δίνει ένα παράδειγμα.
Όπως φαίνεται στον Πίνακα 1, κάθε ενέργεια παίζει σημαντικό ρόλο στη βελτίωση της τελικής ακρίβειας συμπερασμάτων.
Ένα άλλο βασικό στοιχείο του MCTS είναι η συνάρτηση ανταμοιβής, η οποία αξιολογεί την αξία κάθε ενέργειας και παρέχει οδηγίες για την επέκταση του δέντρου. Για το SLM, η ομάδα σχεδίασε μια απλή αλλά αποτελεσματική λειτουργία ανταμοιβής. Η προσέγγισή τους, εμπνευσμένη από το AlphaGo, βαθμολογεί κάθε ενδιάμεσο κόμβο με βάση τη συμβολή του στην τελική σωστή απάντηση. Με αυτόν τον τρόπο, οι ενέργειες που συχνά οδηγούν σε σωστές απαντήσεις θα λάβουν υψηλότερες ανταμοιβές και θα είναι πιο πιθανό να επιλεγούν σε μελλοντικές επεκτάσεις δέντρων MCTS.
Εδώ, η τιμή ανταμοιβής του κόμβου s που δημιουργείται μετά την εκτέλεση της ενέργειας a ορίζεται ως Q (s, a). Αρχικά, σε όλους τους ανεξερεύνητους κόμβους εκχωρείται Q (s_i, a_i) = 0, επιτυγχάνοντας έτσι τυχαία επέκταση δέντρου. Όταν φτάσετε στον πρώτο τερματικό κόμβο n_d, υπολογίζεται μια βαθμολογία ανταμοιβής Q (s_d, a_d) με βάση το εάν λαμβάνει τη σωστή απάντηση.
Αυτή η βαθμολογία στη συνέχεια διαδίδεται σε κάθε ενδιάμεσο κόμβο κατά μήκος της τροχιάς t = x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_d. Συγκεκριμένα, για κάθε s_i, η τιμή Q του ενημερώνεται ως εξής: Q (s_i, a_i) = Q (s_i, a_i) + Q (s_d, a_d). Για τον υπολογισμό του Q(s_d, a_d) για τον τελικό κόμβο, η τιμή ανταμοιβής που χρησιμοποιείται εδώ είναι η πιθανότητα (εμπιστοσύνη) της αυτοσυνεπούς πλειοψηφίας.
Τα ακόλουθα περιγράφουν τον τρόπο με τον οποίο το MCTS δημιουργεί υποψήφιες τροχιές συμπερασμάτων. Ξεκινώντας από τον αρχικό ριζικό κόμβο s_0, εκτελούνται διάφορες αναζητήσεις, συμπεριλαμβανομένης της επιλογής, της επέκτασης, της προσομοίωσης και της αντίστροφης διάδοσης. Συγκεκριμένα, η προσομοίωση χρησιμοποιεί την προεπιλεγμένη στρατηγική Rollout. Προκειμένου να λάβετε μια πιο ακριβή εκτίμηση ανταμοιβής, η ομάδα θα πραγματοποιήσει πολλαπλές κυκλοφορίες. Για να εξισορροπήσουν την εξερεύνηση και την εκμετάλλευση, χρησιμοποίησαν το γνωστό UCT (ανώτερο όριο εμπιστοσύνης του δέντρου) για να επιλέξουν κάθε κόμβο. Η μαθηματική μορφή αυτής της διαδικασίας επιλογής είναι:
Όπου N (s, a) είναι ο αριθμός των επισκέψεων στον κόμβο s στην προηγούμενη επανάληψη και το N_parent (s) αντιπροσωπεύει τον αριθμό των επισκέψεων στον γονικό κόμβο του s. Το Q (s, a) είναι η εκτιμώμενη τιμή ανταμοιβής, η οποία ενημερώνεται κατά τη διάρκεια της οπισθοδρόμησης. Το c είναι μια σταθερά που εξισορροπεί την εξερεύνηση και την εκμετάλλευση.
Μόλις η αναζήτηση φτάσει σε έναν τερματικό κόμβο (που μπορεί να είναι μια τερματική κατάσταση ή μπορεί να φτάσει σε ένα προκαθορισμένο μέγιστο βάθος δέντρου d), μπορεί να ληφθεί μια τροχιά από τη ρίζα στον τελικό κόμβο. Όλες οι τροχιές που λαμβάνονται με επανάληψη Rollout συλλέγονται ως υποψήφιες λύσεις. Στη συνέχεια πρέπει να επαληθευτούν.
Χρήση αμοιβαιότητας για την επιλογή τροχιών συμπερασμάτων
Με βάση όλες τις τροχιές που συλλέχθηκαν, η ομάδα πρότεινε τη χρήση συμπερασματικής συνοχής για την επιλογή των απαντήσεων.
Όπως φαίνεται στο Σχήμα 2, εκτός από το στόχο SLM, η ομάδα εισήγαγε επίσης ένα διακριτικό SLM, ο ρόλος του οποίου είναι να παρέχει εξωτερική ανατροφοδότηση χωρίς επίβλεψη για κάθε υποψήφια τροχιά.
Συγκεκριμένα, για t = x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_d, καλύψτε τα βήματα συμπερασμάτων που ξεκινούν από κάποιο τυχαίο βήμα i. Στη συνέχεια, η προηγούμενη τροχιά συμπερασμάτων t = x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_{i-1} παρέχεται στο διακριτικό SLM ως προτροπή για να ολοκληρώσει τα υπόλοιπα βήματα. Εφόσον τα προηγούμενα βήματα συλλογιστικής i-1 χρησιμοποιούνται ως υποδείξεις, η δυσκολία μειώνεται και το διακριτικό SLM είναι πιο πιθανό να δώσει τη σωστή απάντηση.
Το Σχήμα 4 συγκρίνει εάν η απάντηση ολοκλήρωσης SLM του διαχωριστή ταιριάζει με την αρχική τροχιά t. Εάν τα δύο είναι συνεπή, το t θεωρείται επαληθευμένη τροχιά που μπορεί τελικά να επιλεγεί.
Η τελική τροχιά επιλέγεται από το στόχο SLM. Αφού εφαρμόσετε τη συνοχή συμπερασμάτων σε όλες τις υποψήφιες τροχιές, επιστρέψτε στο στόχο SLM και αφήστε το να επιλέξει την τελική τροχιά από τις επαληθευμένες τροχιές. Για να υπολογίσει την τελική βαθμολογία για κάθε τροχιά, η ομάδα πολλαπλασίασε την ανταμοιβή της με τη βαθμολογία εμπιστοσύνης του τερματικού της κόμβου που ελήφθη μέσω του Rollout. Ως λύση επιλέγεται η τροχιά με την υψηλότερη τελική βαθμολογία.
πείραμα
Πειραματική ρύθμιση
Το rStar είναι κατάλληλο για μια ποικιλία εργασιών LLM και συμπερασμάτων. Η ομάδα αξιολόγησε 5 SLM: Phi3-mini, LLaMA2-7B, Mistral-7B, LLaMA3-8B, LLaMA3-8B-Instruct.
Υπάρχουν 5 δοκιμασμένες συλλογιστικές εργασίες, συμπεριλαμβανομένων 4 μαθηματικών εργασιών (GSM8K, GSM-Hard, MATH, SVAMP) και 1 εργασίας κοινής λογικής (StrategyQA).
Επισκεφτείτε το πρωτότυπο έγγραφο για πειραματικές λεπτομέρειες.
Κύρια αποτελέσματα
Η ομάδα αξιολόγησε για πρώτη φορά την αποτελεσματικότητα του rStar σε γενικά σημεία αναφοράς συμπερασμάτων. Ο Πίνακας 2 συγκρίνει την ακρίβεια του rStar και άλλων μεθόδων αιχμής σε διαφορετικά σύνολα δεδομένων SLM και συμπερασμάτων. Για να αποδείξει την αποτελεσματικότητα της νέας γεννήτριας, η ομάδα παρέχει επίσης την ακρίβεια του rStar (γεννήτρια @maj), η οποία δεν χρησιμοποιεί διακριτικό και χρησιμοποιεί μόνο την πλειοψηφία για την επαλήθευση της απάντησης.
Η ομάδα σημείωσε τρία βασικά αποτελέσματα:
1. Το SLM που τροφοδοτείται από το rStar έχει ισχυρότερες δυνατότητες επίλυσης προβλημάτων. Για παράδειγμα, στο σύνολο δεδομένων GSM8K, η ακρίβεια του LLaMA2-7B με χρήση CoT λίγων δειγμάτων είναι μόνο 12,51%. Αλλά με τη βοήθεια του rStar, η ακρίβειά του αυξήθηκε στο 63,91%, που είναι κοντά στην ακρίβεια που επιτυγχάνεται με τη χρήση του μικροσυντονισμού, όπως φαίνεται στο Σχήμα 1. Ομοίως, η απόδοση του Mistral χρησιμοποιώντας το rStar είναι ακόμη και 4,18% υψηλότερη από την τελειοποιημένη έκδοση του MetaMath. Αυτή η βελτίωση δείχνει ότι το ίδιο το SLM έχει ήδη ισχυρές δυνατότητες συλλογιστικής, αλλά χρειάζεται καθοδήγηση για να δημιουργήσει και να επιλέξει σωστές απαντήσεις.
2. Το rStar μπορεί να βελτιώσει σταθερά την ακρίβεια συμπερασμάτων διαφόρων SLM που αξιολογούνται σε διαφορετικές εργασίες στο τρέχον καλύτερο επίπεδο. Συγκριτικά, άλλες μέθοδοι σύγκρισης δεν είναι σε θέση να επιτύχουν σταθερά καλή απόδοση και στα τέσσερα σημεία αναφοράς. Για παράδειγμα, αν και το SC (self-consistency) είναι καλό σε τρεις μαθηματικές εργασίες, δεν μπορεί να λύσει αποτελεσματικά την εργασία λογικής συλλογιστικής του StrategyQA.
3. Ακόμη και χωρίς τον πρόσφατα προτεινόμενο διαχωριστή για την επαλήθευση των τροχιών συμπερασμάτων, η πρόσφατα προτεινόμενη γεννήτρια MCTS εξακολουθεί να λειτουργεί καλά στη βελτίωση της ακρίβειας συμπερασμάτων του SLM. Για παράδειγμα, στο σύνολο δεδομένων GSM8K, η ακρίβεια του rStar (γεννήτρια @maj) είναι 2,88%-16,39% υψηλότερη από το RAP, 10,60%-38,37% υψηλότερη από το ToT και 1,69%-7,34% υψηλότερη από το SC.
Η ομάδα αξιολόγησε επίσης το rStar σε ένα πιο δύσκολο σύνολο μαθηματικών δεδομένων. Για το σκοπό αυτό επέλεξαν σύνολα δεδομένων GSM-Hard και MATH. Ακολουθώντας τη σύμβαση παρόμοιων μελετών, χρησιμοποίησαν το MATH-500, ένα υποσύνολο αντιπροσωπευτικών προβλημάτων από το σύνολο δεδομένων MATH. Αυτό γίνεται για να βελτιωθεί η ταχύτητα αξιολόγησης. Όπως φαίνεται στους Πίνακες 2 και 3, το rStar μπορεί να βελτιώσει σημαντικά την ακρίβεια συμπερασμάτων του SLM σε αυτά τα δύσκολα σύνολα μαθηματικών δεδομένων.
μελέτη αφαίρεσης
Το rStar χρησιμοποιεί τη στρατηγική Rollout για να εκτελέσει την επέκταση δέντρου MCTS. Περισσότερα Rollouts θα δημιουργήσουν περισσότερες υποψήφιες τροχιές λύσεων, αλλά θα αυξήσουν επίσης το κόστος εξαγωγής συμπερασμάτων. Το Σχήμα 5 συγκρίνει την ακρίβεια των SC, RAP και rStar κατά τη χρήση διαφορετικών Rollout στο GSM8K.
Εδώ γίνονται δύο βασικές παρατηρήσεις:
1. Ακόμη και με μόνο 2 Rollouts, το rStar μπορεί να βελτιώσει σημαντικά την ακρίβεια συμπερασμάτων του SLM, γεγονός που δείχνει την αποτελεσματικότητά του.
2. Περισσότερες Διανομές είναι επωφελείς τόσο για το rStar όσο και για το SC, ενώ το RAP τείνει να είναι κορεσμένο ή ακόμη και να μειώνεται μετά από 4 Διανομές. Ένας λόγος είναι ότι ο χώρος δράσης ενός τύπου του RAP θα περιορίσει την αποτελεσματικότητα της εξερεύνησης MCTS.
Η ομάδα συνέκρινε την απόδοση της γεννήτριας MCTS με άλλες τρεις γεννήτριες. Όπως φαίνεται στον Πίνακα 4, η πρόσφατα προτεινόμενη γεννήτρια MCTS υπερέχει σε γενικές γραμμές από άλλες γεννήτριες. Επιπλέον, αποδεικνύεται η αποτελεσματικότητα των συναρτήσεων ανταμοιβής που έχουν συντονιστεί για το SLM, καθώς η αυτοαξιολόγηση μειώνει την ακρίβεια των νέων γεννητριών.
Η ομάδα δημιούργησε δύο πειράματα αξιολόγησης.
Το πρώτο πείραμα συγκρίνει τη μέθοδο διάκρισης με τις μεθόδους της πλειοψηφίας και της αυτοεπικύρωσης. Τα αποτελέσματα φαίνονται στον Πίνακα 5 (αριστερά). Μπορεί να φανεί ότι τα πλεονεκτήματα της μεθόδου διάκρισης είναι πολύ σημαντικά.
Το δεύτερο πείραμα είναι να μελετήσει τον αντίκτυπο διαφορετικών μοντέλων διάκρισης. Τα αποτελέσματα φαίνονται στον Πίνακα 5 (δεξιά). Μπορεί να φανεί ότι η επιλογή διαφορετικών μοντέλων διάκρισης συνήθως δεν επηρεάζει την επίδραση της μεθόδου συνοχής συμπερασμάτων για την επαλήθευση της απάντησης. Αξίζει να σημειωθεί ότι ακόμη και με τη χρήση του ισχυρού GPT-4 ως διαχωριστή, η απόδοση βελτιώνεται ελάχιστα (από 91,13% σε 92,57%). Αυτό δείχνει ότι η μέθοδος συμπερασματικής συνοχής μπορεί να χρησιμοποιήσει αποτελεσματικά το SLM για να επαληθεύσει τις απαντήσεις.