Εγκαταλείποντας τον μη αυτόματο σχολιασμό, η μέθοδος AutoAlign βασίζεται σε μεγάλα μοντέλα για την πλήρη αυτοματοποίηση της γνώσης graph alignment

Εγκαταλείποντας τον χειροκίνητο σχολιασμό, η μέθοδος AutoAlign καθιστά τα γραφήματα γνώσης πλήρως αυτοματοποιημένα με βάση μεγάλα μοντέλα

2024-07-26

Η στήλη AIxiv είναι μια στήλη όπου το Machine Heart δημοσιεύει ακαδημαϊκό και τεχνικό περιεχόμενο. Τα τελευταία χρόνια, η στήλη Heart of the Machine AIxiv έχει λάβει περισσότερες από 2.000 αναφορές, που καλύπτουν κορυφαία εργαστήρια από μεγάλα πανεπιστήμια και εταιρείες σε όλο τον κόσμο, προωθώντας αποτελεσματικά τις ακαδημαϊκές ανταλλαγές και τη διάδοση. Εάν έχετε εξαιρετική δουλειά που θέλετε να μοιραστείτε, μη διστάσετε να συνεισφέρετε ή να επικοινωνήσετε μαζί μας για αναφορά. Email υποβολής: [email protected], [email protected]

Αυτή η εργασία ολοκληρώθηκε από κοινού από μια ομάδα μελετητών, συμπεριλαμβανομένων των Rui Zhang, Yixin Su, Bayu Distiawan Trisedya, Xiaoyan Zhao, Min Yang, Hong Cheng και Jianzhong Qi από το Πανεπιστήμιο Tsinghua, το Πανεπιστήμιο της Μελβούρνης, το Κινεζικό Πανεπιστήμιο του Χονγκ Κονγκ και το Πανεπιστήμιο του Κινεζική Ακαδημία Επιστημών. Η ομάδα εστιάζει στην έρευνα για μεγάλα μοντέλα, γραφήματα γνώσης, προτεινόμενη αναζήτηση, επεξεργασία φυσικής γλώσσας, μεγάλα δεδομένα και άλλες κατευθύνσεις.

Ως σημαντικός φορέας δομημένης γνώσης, τα γραφήματα γνώσης χρησιμοποιούνται ευρέως σε πολλούς τομείς όπως η ανάκτηση πληροφοριών, το ηλεκτρονικό εμπόριο και η συλλογιστική λήψης αποφάσεων. Ωστόσο, επειδή τα γραφήματα γνώσης που κατασκευάζονται από διαφορετικά ιδρύματα ή μεθόδους έχουν διαφορές στις μεθόδους αναπαράστασης, την κάλυψη κ.λπ., ο τρόπος αποτελεσματικής ενσωμάτωσης διαφορετικών γραφημάτων γνώσης για να αποκτήσετε ένα πιο ολοκληρωμένο και πλούσιο σύστημα γνώσης έχει καταστεί σημαντικό ζήτημα για τη βελτίωση της κάλυψης και της κάλυψης γραφήματα γνώσης Το σημαντικό ζήτημα της ακρίβειας είναι η βασική πρόκληση που πρέπει να επιλυθεί από την εργασία Ευθυγράμμιση Γραφημάτων Γνώσης.

Οι παραδοσιακές μέθοδοι ευθυγράμμισης γραφημάτων γνώσης πρέπει να βασίζονται σε μη αυτόματο σχολιασμό για την ευθυγράμμιση ορισμένων οντοτήτων και κατηγορημάτων ως ζεύγη οντοτήτων σποράς. Τέτοιες μέθοδοι είναι ακριβές, αναποτελεσματικές και παρέχουν κακή ευθυγράμμιση. Μελετητές από το Πανεπιστήμιο Tsinghua, το Πανεπιστήμιο της Μελβούρνης, το Κινεζικό Πανεπιστήμιο του Χονγκ Κονγκ και το Πανεπιστήμιο της Κινεζικής Ακαδημίας Επιστημών πρότειναν από κοινού μια πλήρως αυτόματη μέθοδο ευθυγράμμισης γραφημάτων γνώσης βασισμένη σε μεγάλα μοντέλα - AutoAlign. Το AutoAlign δεν απαιτεί χειροκίνητο σχολιασμό στοιχειωδών οντοτήτων ή ζευγών κατηγορημάτων.

论文：AutoAlign: Πλήρως αυτόματη και αποτελεσματική στοίχιση γραφημάτων γνώσης ενεργοποιημένη από μεγάλα μοντέλα γλώσσας，36 (6) TKDE 2024

Σύνδεσμος χαρτιού: https://arxiv.org/abs/2307.11772

Σύνδεσμος κωδικού: https://github.com/ruizhang-ai/AutoAlign

Εισαγωγή μοντέλου

Το AutoAlign αποτελείται κυρίως από δύο μέρη:

Χρησιμοποιείται για την ευθυγράμμιση κατηγορημάτωνΜονάδα ενσωμάτωσης κατηγορήματος(Μονάδα Ενσωμάτωσης Κατηγορήματος).

Το τμήμα εκμάθησης που ενσωματώνει οντότητα για την ευθυγράμμιση οντοτήτων περιλαμβάνει δύο ενότητες:Μονάδα ενσωμάτωσης ιδιοκτησίας(Module ενσωμάτωσης χαρακτηριστικών)Δομική Ενσωματωμένη Μονάδα(Μονάδα ενσωμάτωσης δομής).

Η συνολική διαδικασία φαίνεται στο παρακάτω σχήμα:

Μονάδα ενσωμάτωσης κατηγορήματος : Η ενότητα ενσωμάτωσης κατηγορήματος στοχεύει στην ευθυγράμμιση κατηγορημάτων που αντιπροσωπεύουν το ίδιο νόημα σε δύο γραφήματα γνώσης. Για παράδειγμα, ευθυγραμμίστε το "is_in" και το "located_in". Για την επίτευξη αυτού του στόχου, η ερευνητική ομάδα δημιούργησε ένα γράφημα εγγύτητας κατηγόρημα, συγχωνεύοντας τα δύο γραφήματα γνώσης σε ένα γράφημα και αντικαθιστώντας τις οντότητες σε αυτό με τους αντίστοιχους τύπους τους (Τύπος οντότητας). Αυτή η μέθοδος βασίζεται στην ακόλουθη υπόθεση: τα ίδια (ή παρόμοια) κατηγορήματα, οι αντίστοιχοι τύποι οντοτήτων τους θα πρέπει επίσης να είναι παρόμοιοι (για παράδειγμα, οι τύποι οντοτήτων στόχου "is_in" και "located_in" έχουν μεγάλη πιθανότητα να ανήκουν σε τοποθεσία ή πόλη). Η σημασιολογική κατανόηση των τύπων μέσω μεγάλων γλωσσικών μοντέλων ευθυγραμμίζει περαιτέρω αυτούς τους τύπους, βελτιώνοντας την ακρίβεια της εκμάθησης τρίδυμων. Τέλος, το γράφημα γειτονικού κατηγορήματος μαθαίνεται μέσω μεθόδων κωδικοποίησης γραφήματος (όπως το TransE), έτσι ώστε τα ίδια (ή παρόμοια) κατηγορήματα να έχουν παρόμοιες ενσωματώσεις, επιτυγχάνοντας έτσι την ευθυγράμμιση κατηγορημάτων.

Όσον αφορά τη συγκεκριμένη εφαρμογή, η ερευνητική ομάδα κατασκεύασε αρχικά ένα γράφημα εγγύτητας κατηγορήματος. Ένα γράφημα εγγύτητας κατηγορήματος είναι ένα γράφημα που περιγράφει τις σχέσεις μεταξύ των τύπων οντοτήτων. Οι τύποι οντοτήτων αντιπροσωπεύουν ευρείες κατηγορίες οντοτήτων και μπορούν να συνδέουν αυτόματα διαφορετικές οντότητες. Ακόμα κι αν οι επιφανειακές μορφές ορισμένων κατηγορημάτων είναι διαφορετικές (π.χ. "lgd:is_in" και "dbp:located_in"), οι ομοιότητές τους μπορούν να εντοπιστούν αποτελεσματικά μαθαίνοντας το γράφημα εγγύτητας κατηγορήματος. Τα βήματα για την κατασκευή ενός γραφήματος εγγύτητας κατηγορήματος είναι τα εξής:

Εξαγωγή τύπου οντότητας : Η ερευνητική ομάδα εξήγαγε τον τύπο οντότητας λαμβάνοντας την τιμή του κατηγορήματος rdfs:type κάθε οντότητας στο γράφημα γνώσης. Συνήθως, κάθε οντότητα έχει πολλούς τύπους. Για παράδειγμα, η οντότητα της Γερμανίας μπορεί να έχει πολλούς τύπους στο γράφημα γνώσης, όπως "πράγμα", "τόπος", "τοποθεσία" και "χώρα". Στο γράφημα εγγύτητας κατηγορήματος, αντικαθιστούν τις οντότητες κεφαλής και ουράς κάθε τριπλού με ένα σύνολο τύπων οντοτήτων.

ευθυγράμμιση τύπου : Εφόσον οι τύποι οντοτήτων σε διαφορετικά γραφήματα γνώσης μπορεί να χρησιμοποιούν διαφορετικές μορφές επιφάνειας (π.χ. "πρόσωπο" και "άτομα"), η ερευνητική ομάδα πρέπει να ευθυγραμμίσει αυτούς τους τύπους. Για το σκοπό αυτό, η ερευνητική ομάδα αξιοποιεί υπερσύγχρονα μοντέλα μεγάλων γλωσσών, όπως το ChatGPT και το Claude, για αυτόματη ευθυγράμμιση αυτών των τύπων. Για παράδειγμα, μια ερευνητική ομάδα μπορεί να χρησιμοποιήσει το Claude2 για να αναγνωρίσει παρόμοια ζεύγη τύπων σε δύο γραφήματα γνώσης και στη συνέχεια να ευθυγραμμίσει όλους τους παρόμοιους τύπους σε μια ενοποιημένη αναπαράσταση. Για το σκοπό αυτό, η ερευνητική ομάδα σχεδίασε ένα σύνολο αυτοματοποιημένων προτροπών (προτροπών) που μπορούν να λάβουν αυτόματα λέξεις ευθυγράμμισης με βάση διαφορετικά γραφήματα γνώσης.

Προκειμένου να καταγραφεί η ομοιότητα κατηγορήματος, πρέπει να συγκεντρωθούν πολλαπλοί τύποι οντοτήτων. Η ερευνητική ομάδα πρότεινε δύο μεθόδους συγκέντρωσης: σταθμισμένες και βασισμένες στην προσοχή συναρτήσεις. Σε πειράματα, διαπίστωσαν ότι οι λειτουργίες που βασίζονται στην προσοχή αποδίδουν καλύτερα. Συγκεκριμένα, υπολογίζουν το βάρος προσοχής κάθε τύπου οντότητας και λαμβάνουν την τελική ενσωμάτωση ψευδοτύπου μέσω σταθμισμένης άθροισης. Στη συνέχεια, η ερευνητική ομάδα εκπαίδευσε τις ενσωματώσεις κατηγορημάτων ελαχιστοποιώντας την αντικειμενική συνάρτηση έτσι ώστε παρόμοια κατηγορήματα να έχουν παρόμοιες διανυσματικές αναπαραστάσεις.

Μονάδα ενσωμάτωσης ιδιοκτησίας και μονάδα ενσωμάτωσης δομής : Τόσο η λειτουργική μονάδα ενσωμάτωσης χαρακτηριστικών όσο και η λειτουργική μονάδα ενσωμάτωσης δομής χρησιμοποιούνται για τη στοίχιση οντοτήτων. Οι ιδέες τους είναι παρόμοιες με την ενσωμάτωση κατηγορήματος, δηλαδή, για την ίδια (ή παρόμοια) οντότητα, η κατηγόρηση στην αντίστοιχη τριάδα και μια άλλη οντότητα θα πρέπει επίσης να είναι παρόμοια. Επομένως, στην περίπτωση της στοίχισης κατηγορήματος (μέσω της ενότητας ενσωμάτωσης κατηγορήματος) και της στοίχισης χαρακτηριστικών (μέσω της μεθόδου ενσωμάτωσης χαρακτήρων χαρακτηριστικών), μπορούμε να επιτρέψουμε σε παρόμοιες οντότητες να μάθουν παρόμοιες ενσωματώσεις μέσω του TransE. ΕΙΔΙΚΑ:

Ενσωμάτωση της μάθησης χαρακτηριστικών : Η λειτουργική μονάδα ενσωμάτωσης χαρακτηριστικών καθορίζει τη σχέση μεταξύ της οντότητας κεφαλίδας και της τιμής του χαρακτηριστικού κωδικοποιώντας την ακολουθία χαρακτήρων της τιμής του χαρακτηριστικού. Η ερευνητική ομάδα πρότεινε τρεις συναρτήσεις συνδυασμού για την κωδικοποίηση τιμών χαρακτηριστικών: συνάρτηση συνδυασμού αθροίσματος, συνάρτηση συνδυασμού που βασίζεται σε LSTM και συνάρτηση συνδυασμού που βασίζεται σε N-gram. Μέσω αυτών των συναρτήσεων, είμαστε σε θέση να συλλάβουμε την ομοιότητα μεταξύ των τιμών των χαρακτηριστικών, έτσι ώστε τα χαρακτηριστικά των οντοτήτων στα δύο γραφήματα γνώσης να μπορούν να ευθυγραμμιστούν.

μάθηση δομικής ενσωμάτωσης : Η μονάδα ενσωμάτωσης δομής βελτιώνεται με βάση τη μέθοδο TransE και μαθαίνει την ενσωμάτωση οντοτήτων δίνοντας διαφορετικά βάρη σε διαφορετικούς γείτονες. Τα ευθυγραμμισμένα και σιωπηρά κατηγορήματα θα λάβουν υψηλότερα βάρη, ενώ τα μη ευθυγραμμισμένα κατηγορήματα θεωρούνται θόρυβος. Με αυτόν τον τρόπο, η μονάδα δομικής ενσωμάτωσης μπορεί να μαθαίνει από ευθυγραμμισμένες τριάδες πιο αποτελεσματικά.

κοινή εκπαίδευση : Οι τρεις ενότητες της ενότητας ενσωμάτωσης κατηγορήματος, της ενότητας ενσωμάτωσης χαρακτηριστικών και της ενότητας ενσωμάτωσης δομής μπορούν να εκπαιδευτούν εναλλάξ, να επηρεάσουν η μία την άλλη μέσω εναλλακτικής μάθησης και να επιτύχουν το συνολικό βέλτιστο στην αναπαράσταση κάθε δομής βελτιστοποιώντας την ενσωμάτωση. Μετά την εκπαίδευση, η ερευνητική ομάδα έλαβε ενσωματωμένες αναπαραστάσεις οντοτήτων, κατηγορημάτων, χαρακτηριστικών και τύπων. Τέλος, συγκρίνουμε την ομοιότητα οντοτήτων (όπως η ομοιότητα συνημιτόνου) στα δύο γραφήματα γνώσης και βρίσκουμε τα ζεύγη οντοτήτων με υψηλή ομοιότητα (πρέπει να είναι υψηλότερα από ένα όριο) για τη στοίχιση οντοτήτων.

Πειραματικά αποτελέσματα

Η ερευνητική ομάδα πραγματοποίησε πειράματα στο πιο πρόσφατο σύνολο δεδομένων αναφοράς DWY-NB (Rui Zhang, 2022) και τα κύρια αποτελέσματα φαίνονται στον παρακάτω πίνακα.

Το AutoAlign έχει βελτιώσει σημαντικά την απόδοση της ευθυγράμμισης γραφημάτων γνώσης, ειδικά σε περίπτωση απουσίας αρχικών σχολίων με μη αυτόματο τρόπο. Χωρίς ανθρώπινο σχολιασμό, τα υπάρχοντα μοντέλα είναι σχεδόν αδύνατο να ευθυγραμμιστούν αποτελεσματικά. Ωστόσο, το AutoAlign εξακολουθεί να είναι σε θέση να επιτύχει εξαιρετική απόδοση υπό τέτοιες συνθήκες. Και στα δύο σύνολα δεδομένων, το AutoAlign επιτυγχάνει σημαντικές βελτιώσεις σε σχέση με τα υπάρχοντα καλύτερα μοντέλα βασικής γραμμής (ακόμη και με μη αυτόματο σχολιασμό) χωρίς μη αυτόματο σχολιασμό των σπόρων. Αυτά τα αποτελέσματα καταδεικνύουν ότι το AutoAlign όχι μόνο ξεπερνά τις υπάρχουσες μεθόδους σε ό,τι αφορά την ακρίβεια στοίχισης, αλλά παρουσιάζει επίσης ισχυρά πλεονεκτήματα σε πλήρως αυτοματοποιημένες εργασίες ευθυγράμμισης.

βιβλιογραφικές αναφορές:

Rui Zhang, Bayu D. Trisedya, Miao Li, Yong Jiang και Jianzhong Qi (2022). Σημείο αναφοράς και ολοκληρωμένη έρευνα για την ευθυγράμμιση οντοτήτων γραφήματος γνώσης μέσω εκμάθησης αναπαράστασης. VLDB Journal, 31 (5), 1143–1168, 2022.

Νέα

Εγκαταλείποντας τον χειροκίνητο σχολιασμό, η μέθοδος AutoAlign καθιστά τα γραφήματα γνώσης πλήρως αυτοματοποιημένα με βάση μεγάλα μοντέλα

Εισαγωγή

τα στοιχεία επικοινωνίας μου