Νέα

Η εκπαίδευση Axiom επιτρέπει στο LLM να μάθει αιτιώδη συλλογισμό: το μοντέλο παραμέτρων των 67 εκατομμυρίων είναι συγκρίσιμο με το επίπεδο παραμέτρων GPT-4 τρισεκατομμυρίων

2024-07-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Αναφορά Μηχανικής Καρδιάς

Επιμέλεια: Panda

Δείξτε την αιτιολογική αλυσίδα στο LLM και μπορεί να μάθει τα αξιώματα.

Η τεχνητή νοημοσύνη βοηθά ήδη μαθηματικούς και επιστήμονες να διεξάγουν έρευνα Για παράδειγμα, ο διάσημος μαθηματικός Terence Tao έχει μοιραστεί επανειλημμένα την εμπειρία της έρευνας και εξερεύνησης με τη βοήθεια εργαλείων AI, όπως το GPT. Για να ανταγωνιστεί η τεχνητή νοημοσύνη σε αυτούς τους τομείς, είναι απαραίτητες ισχυρές και αξιόπιστες ικανότητες αιτιολογικής συλλογιστικής.

Η έρευνα που παρουσιάζεται σε αυτό το άρθρο διαπίστωσε ότι ένα μοντέλο μετασχηματιστή που έχει εκπαιδευτεί σε επιδείξεις του αξιώματος αιτιώδους μεταβατικότητας σε μικρά γραφήματα μπορεί να γενικευτεί στο αξίωμα μεταβατικότητας σε μεγάλα γραφήματα.

Με άλλα λόγια, εάν ο Μετασχηματιστής μάθει να εκτελεί απλή αιτιολογική συλλογιστική, μπορεί να χρησιμοποιηθεί για πιο σύνθετη αιτιολογική λογική. Το πλαίσιο εκπαίδευσης αξιωμάτων που προτείνεται από την ομάδα είναι ένα νέο παράδειγμα για την εκμάθηση της αιτιολογικής λογικής που βασίζεται σε παθητικά δεδομένα, το οποίο μπορεί να χρησιμοποιηθεί για την εκμάθηση αυθαίρετων αξιωμάτων, εφόσον η επίδειξη είναι επαρκής.

εισαγωγή

Ο αιτιολογικός συλλογισμός μπορεί να οριστεί ως ένα σύνολο συλλογιστικών διαδικασιών που συμμορφώνονται με προκαθορισμένα αξιώματα ή κανόνες που αντιμετωπίζουν ειδικά την αιτιότητα. Για παράδειγμα, οι κανόνες d-separation (κατευθυνόμενος διαχωρισμός) και do-calculus μπορούν να θεωρηθούν ως αξιώματα, ενώ οι προδιαγραφές ενός συνόλου collider ή ενός συνόλου backyard μπορούν να θεωρηθούν ως κανόνες που προέρχονται από τα αξιώματα.

Συνήθως, η αιτιώδης συναγωγή χρησιμοποιεί δεδομένα που αντιστοιχούν σε μεταβλητές σε ένα σύστημα. Τα αξιώματα ή οι κανόνες μπορούν να ενσωματωθούν σε μοντέλα μηχανικής μάθησης με τη μορφή επαγωγικών προκαταλήψεων μέσω νομιμοποίησης, αρχιτεκτονικής μοντέλων ή συγκεκριμένης επιλογής μεταβλητών.

Η «αιτιακή κλίμακα» του Judea Pearl ορίζει πιθανούς τύπους αιτιωδών συμπερασμάτων με βάση τις διαφορές στους τύπους των διαθέσιμων δεδομένων (δεδομένα παρατήρησης, δεδομένα παρέμβασης, δεδομένα αντιπραγματικών).

Δεδομένου ότι τα αξιώματα είναι ο ακρογωνιαίος λίθος της αιτιότητας, δεν μπορούμε παρά να αναρωτηθούμε εάν μπορούμε να χρησιμοποιήσουμε απευθείας μοντέλα μηχανικής μάθησης για να μάθουμε αξιώματα. Δηλαδή, τι γίνεται αν ο τρόπος εκμάθησης αξιωμάτων δεν είναι να μάθουμε δεδομένα που λαμβάνονται μέσω κάποιας διαδικασίας παραγωγής δεδομένων, αλλά απευθείας να μάθουμε συμβολικές επιδείξεις αξιωμάτων (και επομένως να μάθουμε αιτιώδη συλλογισμό);

Σε σύγκριση με τα μοντέλα αιτιώδους συνάφειας που έχουν δημιουργηθεί με χρήση συγκεκριμένων κατανομών δεδομένων, ένα τέτοιο μοντέλο έχει ένα πλεονέκτημα: μπορεί να ενεργοποιήσει την αιτιώδη συναγωγή σε μια ποικιλία διαφορετικών σεναρίων κατάντη. Αυτή η ερώτηση γίνεται σημαντική καθώς τα γλωσσικά μοντέλα αποκτούν την ικανότητα να μαθαίνουν συμβολικά δεδομένα που εκφράζονται σε φυσική γλώσσα.

Στην πραγματικότητα, κάποια πρόσφατη έρευνα έχει αξιολογήσει εάν τα μεγάλα γλωσσικά μοντέλα (LLMs) μπορούν να εκτελούν αιτιώδη συναγωγή δημιουργώντας δείκτες αναφοράς που κωδικοποιούν προβλήματα αιτιώδους συναγωγής στη φυσική γλώσσα.

Μια ερευνητική ομάδα από τη Microsoft, το MIT και το Indian Institute of Technology Hyderabad (IIT Hyderabad) έκανε επίσης ένα σημαντικό βήμα προς αυτή την κατεύθυνση: προτείνοντας έναΜέθοδοι εκμάθησης αιτιωδών συλλογισμών μέσω αξιωματικής εκπαίδευσης



  • Τίτλος εργασίας: Teaching Transformers Causal Reasoning through Axiomatic Training
  • Διεύθυνση χαρτιού: https://arxiv.org/pdf/2407.07612

Εκπαίδευση αξιώματος

Υπέθεσαν ότι το αιτιατό αξίωμα μπορεί να εκφραστεί ως η ακόλουθη συμβολική πλειάδα ⟨πρόθεση, υπόθεση, αποτέλεσμα . Μεταξύ αυτών, η υπόθεση αναφέρεται στην υπόθεση. Το αποτέλεσμα μπορεί να είναι ένα απλό «ναι» ή «όχι».

Για παράδειγμα, το αξίωμα του επιταχυντή από την εργασία "Μπορούν τα μεγάλα γλωσσικά μοντέλα να συμπεράνουν την αιτιότητα από τη συσχέτιση μπορεί να εκφραστεί ως: και το συμπέρασμα είναι "ναι;"



Με βάση αυτό το πρότυπο, ένας μεγάλος αριθμός συνθετικών πλειάδων μπορεί να δημιουργηθεί τροποποιώντας ονόματα μεταβλητών, αριθμούς μεταβλητών, σειρά μεταβλητών κ.λπ.

Για να χρησιμοποιήσει το Transformer για την εκμάθηση αιτιακών αξιωμάτων και την εφαρμογή εκπαίδευσης αξιωμάτων, η ομάδα χρησιμοποίησε τις ακόλουθες μεθόδους για την κατασκευή συνόλων δεδομένων, συναρτήσεων απώλειας και ενσωματώσεων θέσης.

Axiomatic Training: Datasets, Loss Functions και Positional Compilation

δεδομένα εκπαίδευσης

Με βάση ένα συγκεκριμένο αξίωμα, η «υπόθεση» μπορεί να αντιστοιχιστεί στην κατάλληλη ετικέτα (Ναι ή Όχι) με βάση την «υπόθεση». Για να δημιουργήσει το σύνολο δεδομένων εκπαίδευσης, η ομάδα απαριθμεί όλες τις πιθανές πλειάδες {(P, H, L)}_N κάτω από συγκεκριμένες ρυθμίσεις μεταβλητής X, Y, Z, A, όπου P είναι η προϋπόθεση και H είναι η υπόθεση, L είναι η ετικέτα (Ναι ή όχι).

Δεδομένης της υπόθεσης P που βασίζεται σε κάποιο αιτιολογικό διάγραμμα, εάν η υπόθεση P μπορεί να προκύψει χρησιμοποιώντας ένα συγκεκριμένο αξίωμα (μία ή περισσότερες φορές), τότε η ετικέτα L είναι Ναι.

Για παράδειγμα, ας υποθέσουμε ότι το υποκείμενο πραγματικό γράφημα της αιτίας ενός συστήματος έχει μια τοπολογία αλυσίδας: X_1 → X_2 → X_3 →・・・→ X_n. Τότε, η πιθανή προϋπόθεση είναι X_1 → X_2 ∧ X_2 → X_3, τότε υποθέστε ότι X_1 → Τα παραπάνω αξιώματα μπορούν να χρησιμοποιηθούν επαγωγικά πολλές φορές για να δημιουργήσουν πιο σύνθετες πλειάδες προπόνησης.

Για τη ρύθμιση εκπαίδευσης, ένα συνθετικό σύνολο δεδομένων D κατασκευάζεται χρησιμοποιώντας N στιγμιότυπα αξιώματος που δημιουργούνται από το αξίωμα μεταβατικότητας. Κάθε στιγμιότυπο στο D κατασκευάζεται με τη μορφή (P_i, H_ij, L_ij), όπου n είναι ο αριθμός των κόμβων σε κάθε i-η υπόθεση. Το P είναι η προϋπόθεση, δηλαδή μια φυσική έκφραση μιας συγκεκριμένης αιτιακής δομής (όπως το X προκαλεί το Y, το Y προκαλεί το Z (όπως το X προκαλεί το Y;). ή όχι). Αυτή η φόρμα καλύπτει αποτελεσματικά όλα τα ζεύγη κόμβων για κάθε μοναδική αλυσίδα σε ένα δεδομένο γράφημα αιτίου.



λειτουργία απώλειας

Δεδομένου ενός συνόλου δεδομένων, η συνάρτηση απώλειας ορίζεται με βάση την ετικέτα βασικής αλήθειας κάθε πλειάδας, που εκφράζεται ως εξής: Η ανάλυση δείχνει ότι η χρήση αυτής της απώλειας μπορεί να δώσει πολλά υποσχόμενα αποτελέσματα σε σύγκριση με την επόμενη πρόβλεψη συμβολικού.



κωδικοποίηση θέσης

Εκτός από τις λειτουργίες προπόνησης και απώλειας, η επιλογή της κωδικοποίησης θέσης είναι ένας άλλος σημαντικός παράγοντας. Η κωδικοποίηση θέσης μπορεί να παρέχει βασικές πληροφορίες σχετικά με την απόλυτη και σχετική θέση του διακριτικού στην ακολουθία.

Η περίφημη εργασία "Attention is all you need" προτείνει μια στρατηγική κωδικοποίησης απόλυτης θέσης που χρησιμοποιεί μια περιοδική συνάρτηση (ημιτονοειδούς ή συνημίτονο) για την προετοιμασία αυτών των κωδικών.

Η κωδικοποίηση απόλυτης θέσης παρέχει ντετερμινιστικές τιμές για όλες τις θέσεις οποιουδήποτε μήκους ακολουθίας. Ωστόσο, ορισμένες έρευνες δείχνουν ότι η κωδικοποίηση απόλυτης θέσης είναι δύσκολο να αντιμετωπιστεί με την εργασία γενίκευσης μήκους του Transformer. Στην παραλλαγή APE με δυνατότητα εκμάθησης, κάθε ενσωμάτωση θέσης αρχικοποιείται τυχαία και εκπαιδεύεται χρησιμοποιώντας το μοντέλο. Αυτή η μέθοδος παλεύει με αλληλουχίες που είναι μεγαλύτερες από αυτές κατά τη διάρκεια της προπόνησης, επειδή οι νέες ενσωματώσεις θέσεων είναι ακόμα ανεκπαίδευτες και μη αρχικοποιημένες.

Είναι ενδιαφέρον ότι τα πρόσφατα ευρήματα υποδεικνύουν ότι η αφαίρεση των ενσωματώσεων θέσης από αυτοπαλινδρομικά μοντέλα βελτιώνει τις δυνατότητες γενίκευσης του μήκους του μοντέλου και ότι ο μηχανισμός προσοχής κατά την αυτοπαλινδρομική αποκωδικοποίηση είναι επαρκής για την κωδικοποίηση πληροφοριών θέσης. Η ομάδα χρησιμοποίησε διαφορετικές κωδικοποιήσεις θέσης για να κατανοήσει τον αντίκτυπό τους στη γενίκευση σε αιτιώδεις εργασίες, συμπεριλαμβανομένης της κωδικοποίησης θέσης με δυνατότητα εκμάθησης (LPE), της κωδικοποίησης ημιτονοειδούς θέσης (SPE) και της κωδικοποίησης χωρίς θέση (NoPE).

Προκειμένου να βελτιωθεί η ικανότητα γενίκευσης του μοντέλου, η ομάδα χρησιμοποίησε επίσης διαταραχές δεδομένων, συμπεριλαμβανομένων διαταραχών μήκους, ονόματος κόμβου, σειράς αλυσίδας και συνθηκών διακλάδωσης.

πείραμα

Το ερώτημα τίθεται ξανά: εάν ένα μοντέλο εκπαιδεύεται χρησιμοποιώντας αυτά τα δεδομένα, μπορεί το μοντέλο να μάθει να εφαρμόζει το αξίωμα σε νέα σενάρια;

Για να απαντήσει σε αυτήν την ερώτηση, η ομάδα εκπαίδευσε ένα μοντέλο Transformer από την αρχή χρησιμοποιώντας μια συμβολική επίδειξη αυτού του ανεξάρτητου αιτιώδους αξιώματος.

Για να αξιολογήσουν την απόδοσή τους στη γενίκευση, εκπαιδεύτηκαν σε απλές αιτιακά ανεξάρτητες αλυσίδες αξιωμάτων μεγέθους 3-6 κόμβων και στη συνέχεια δοκίμασαν πολλές διαφορετικές πτυχές της απόδοσης γενίκευσης, συμπεριλαμβανομένης της απόδοσης γενίκευσης μήκους (μέγεθος 7-15 αλυσίδων), γενίκευσης ονομάτων (μεγαλύτερα ονόματα μεταβλητών). διαδοχική γενίκευση (αλυσίδες με ανεστραμμένες ακμές ή ανακατεμένους κόμβους), δομική γενίκευση (γραφήματα με διακλαδώσεις). Το Σχήμα 1 δείχνει έναν τρόπο αξιολόγησης της δομικής γενίκευσης του Μετασχηματιστή.



Συγκεκριμένα, εκπαίδευσαν ένα μοντέλο που βασίζεται σε αποκωδικοποιητή με 67 εκατομμύρια παραμέτρους βασισμένο στην αρχιτεκτονική GPT-2. Το μοντέλο έχει 12 επίπεδα προσοχής, 8 κεφαλές προσοχής και 512 διαστάσεις ενσωμάτωσης. Εκπαίδευσαν το μοντέλο από την αρχή σε κάθε σύνολο δεδομένων εκπαίδευσης. Για να κατανοήσουν τον αντίκτυπο της ενσωμάτωσης θέσης, μελέτησαν επίσης τρεις ρυθμίσεις ενσωμάτωσης θέσης: κωδικοποίηση ημιτονοειδούς θέσης (SPE), κωδικοποίηση θέσης με δυνατότητα εκμάθησης (LPE) και κωδικοποίηση χωρίς θέση (NoPE).

Τα αποτελέσματα φαίνονται στον Πίνακα 1, Σχήμα 3 και Εικόνα 4.



Ο Πίνακας 1 παρουσιάζει την ακρίβεια διαφορετικών μοντέλων όταν αξιολογούνται σε μεγαλύτερες αιτιακές αλυσίδες που δεν παρατηρούνται κατά τη διάρκεια της προπόνησης. Μπορεί να φανεί ότι η απόδοση του νέου μοντέλου TS2 (NoPE) είναι συγκρίσιμη με εκείνη του GPT-4 με κλίμακα παραμέτρων τρισεκατομμυρίων.

Το Σχήμα 3 δείχνει τα αποτελέσματα αξιολόγησης της ικανότητας γενίκευσης σε αιτιακές ακολουθίες με μεγαλύτερα ονόματα κόμβων (μεγαλύτερα από αυτά στο σετ εκπαίδευσης) και τον αντίκτυπο των διαφορετικών ενσωματώσεων θέσεων.



Το Σχήμα 4 αξιολογεί την ικανότητα γενίκευσης σε μεγαλύτερες μη εμφανείς αιτιακές αλληλουχίες.



Διαπίστωσαν ότι τα μοντέλα που εκπαιδεύτηκαν σε απλές αλυσίδες γενικεύτηκαν σε πολλαπλές εφαρμογές αξιωμάτων σε μεγαλύτερες αλυσίδες, αλλά απέτυχαν να γενικευθούν σε πιο σύνθετα σενάρια όπως η διαδοχική ή η δομική γενίκευση. Ωστόσο, εάν το μοντέλο εκπαιδεύεται σε ένα μικτό σύνολο δεδομένων που αποτελείται από απλές αλυσίδες καθώς και αλυσίδες με τυχαίες αντίστροφες ακμές, το μοντέλο γενικεύεται καλά σε διάφορα σενάρια αξιολόγησης.

Επεκτείνοντας τα αποτελέσματα σχετικά με τη γενίκευση μήκους σε εργασίες NLP, ανακάλυψαν τη σημασία των ενσωματώσεων θέσης για τη διασφάλιση της αιτιώδους γενίκευσης σε όλο το μήκος και σε άλλες διαστάσεις. Το μοντέλο τους με τις καλύτερες επιδόσεις δεν είχε κωδικοποίηση θέσης, αλλά διαπίστωσαν επίσης ότι η ημιτονοειδής κωδικοποίηση λειτουργούσε καλά σε ορισμένες περιπτώσεις.

Αυτή η μέθοδος εκπαίδευσης αξιωμάτων μπορεί επίσης να γενικευτεί σε ένα πιο δύσκολο πρόβλημα, όπως φαίνεται στο Σχήμα 5. Δηλαδή, με βάση τις υποθέσεις που περιέχουν δηλώσεις στατιστικής ανεξαρτησίας, ο στόχος της εργασίας είναι να διακρίνει τη συσχέτιση από την αιτιότητα. Η επίλυση αυτής της εργασίας απαιτεί γνώση πολλών αξιωμάτων, συμπεριλαμβανομένων των ιδιοτήτων d-separation και Markov.



Η ομάδα δημιούργησε συνθετικά δεδομένα εκπαίδευσης χρησιμοποιώντας την ίδια μέθοδο όπως παραπάνω, στη συνέχεια εκπαίδευσε ένα μοντέλο και διαπίστωσε ότι ο Transformer που εκπαιδεύτηκε σε μια επίδειξη εργασίας που περιέχει 3-4 μεταβλητές μπορούσε να μάθει να λύνει μια εργασία γραφήματος που περιέχει 5 μεταβλητές. Και σε αυτήν την εργασία, η ακρίβεια αυτού του μοντέλου είναι υψηλότερη από αυτή μεγαλύτερων LLM όπως το GPT-4 και το Gemini Pro.



Η ομάδα είπε: «Η έρευνά μας παρέχει ένα νέο παράδειγμα για τη διδασκαλία μοντέλων για την εκμάθηση αιτιατού συλλογισμού μέσω συμβολικών επιδείξεων αξιωμάτων, που ονομάζουμε αξιωματική εκπαίδευση εκφράζεται με τη μορφή μιας συμβολικής πλειάδας, μπορεί να μαθευτεί χρησιμοποιώντας αυτή τη μέθοδο.