Γιατί το μοντέλο καθυστερημένης αλληλεπίδρασης είναι πρότυπο για την επόμενη γενιά RAG;

2024-08-05

Η στήλη AIxiv είναι μια στήλη όπου το Machine Heart δημοσιεύει ακαδημαϊκό και τεχνικό περιεχόμενο. Τα τελευταία χρόνια, η στήλη Heart of the Machine AIxiv έχει λάβει περισσότερες από 2.000 αναφορές, που καλύπτουν κορυφαία εργαστήρια από μεγάλα πανεπιστήμια και εταιρείες σε όλο τον κόσμο, προωθώντας αποτελεσματικά τις ακαδημαϊκές ανταλλαγές και τη διάδοση. Εάν έχετε εξαιρετική δουλειά που θέλετε να μοιραστείτε, μη διστάσετε να συνεισφέρετε ή να επικοινωνήσετε μαζί μας για αναφορά. Email υποβολής: [email protected], [email protected]

Zhang Yingfeng: Συνιδρυτής της Infra, με πολυετή εμπειρία στην αναζήτηση, την τεχνητή νοημοσύνη και την ανάπτυξη υποδομών Infra, εργάζεται επί του παρόντος στην κατασκευή της επόμενης γενιάς βασικών προϊόντων RAG.

Στην ανάπτυξη του συστήματος RAG, ένα καλό μοντέλο Reranker είναι ένας απαραίτητος σύνδεσμος και χρησιμοποιείται πάντα σε διάφορες αξιολογήσεις. Αυτό, σχηματίζοντας έτσι μια αρχιτεκτονική ταξινόμησης δύο σταδίων χρησιμοποιώντας διανυσματική αναζήτηση ως χονδρική διαλογή και το μοντέλο Reranker ως λεπτή ταξινόμηση.

Υπάρχουν επί του παρόντος δύο κύριοι τύποι αρχιτεκτονικών για την κατάταξη μοντέλων:

1. Διπλός κωδικοποιητής. Λαμβάνοντας ως παράδειγμα το μοντέλο BERT, κωδικοποιεί ερωτήματα και έγγραφα χωριστά και, τέλος, περνά μέσα από ένα επίπεδο συγκέντρωσης, έτσι ώστε η έξοδος να περιέχει μόνο ένα διάνυσμα. Στο στάδιο Κατάταξης του ερωτήματος, χρειάζεται μόνο να υπολογίσετε την ομοιότητα δύο διανυσμάτων, όπως φαίνεται στο παρακάτω σχήμα. Οι διπλοί κωδικοποιητές μπορούν να χρησιμοποιηθούν και για τα στάδια κατάταξης και επανακατάταξης και η διανυσματική αναζήτηση είναι στην πραγματικότητα αυτό το μοντέλο κατάταξης. Δεδομένου ότι ο διπλός κωδικοποιητής κωδικοποιεί το ερώτημα και το έγγραφο χωριστά, δεν μπορεί να καταγράψει τη σύνθετη διαδραστική σχέση μεταξύ του ερωτήματος και των διακριτικών του εγγράφου και θα υπάρξει μεγάλη σημασιολογική απώλεια, καθώς απαιτείται μόνο διανυσματική αναζήτηση για την ολοκλήρωση της ταξινόμησης υπολογισμός βαθμολόγησης, η απόδοση εκτέλεσης βελτιώνεται πολύ ψηλά.

2. Cross Encoder. Το Cross-Encoder χρησιμοποιεί ένα μοντέλο μεμονωμένου κωδικοποιητή για την ταυτόχρονη κωδικοποίηση ερωτημάτων και εγγράφων. Το Cross-Encoder δεν εξάγει το διάνυσμα που αντιστοιχεί στο Token του ερωτήματος και του εγγράφου, αλλά προσθέτει έναν ταξινομητή για να εξάγει απευθείας τη βαθμολογία ομοιότητας του ερωτήματος και του εγγράφου. Το μειονέκτημά του είναι ότι λόγω της ανάγκης κωδικοποίησης κάθε εγγράφου και ερωτήματος μαζί τη στιγμή του ερωτήματος, γεγονός που καθιστά την ταξινόμηση πολύ αργή, το Cross-Encoder μπορεί να χρησιμοποιηθεί μόνο για την αναδιάταξη των τελικών αποτελεσμάτων. Για παράδειγμα, η αναδιάταξη του Top 10 των προκαταρκτικών αποτελεσμάτων διαλογής διαρκεί ακόμη δευτερόλεπτα για να ολοκληρωθεί.

Από φέτος, ένας άλλος τύπος εργασίας που αντιπροσωπεύεται από τον ColBERT [Αναφορά 1] έχει προσελκύσει ευρεία προσοχή στην κοινότητα ανάπτυξης RAG Όπως φαίνεται στο παρακάτω σχήμα, έχει ορισμένα χαρακτηριστικά που διαφέρουν σημαντικά από τους δύο παραπάνω τύπους μοντέλων κατάταξης.

Το ένα είναι ότι σε σύγκριση με το Cross Encoder, το ColBERT εξακολουθεί να χρησιμοποιεί μια στρατηγική διπλού κωδικοποιητή για την κωδικοποίηση ερωτημάτων και εγγράφων χρησιμοποιώντας ανεξάρτητους κωδικοποιητές. Επομένως, το Query Token και το Token δεν επηρεάζουν το ένα το άλλο κατά τη διάρκεια της κωδικοποίησης. Μπορεί να υποβληθεί σε επεξεργασία εκτός σύνδεσης και μόνο το ερώτημα κωδικοποιείται κατά την υποβολή ερωτημάτων, επομένως η ταχύτητα επεξεργασίας είναι πολύ υψηλότερη από το Cross Encoder.

Το δεύτερο είναι ότι σε σύγκριση με τον διπλό κωδικοποιητή, το ColBERT εξάγει πολλαπλά διανύσματα αντί για ένα μόνο διάνυσμα, το οποίο λαμβάνεται απευθείας από το τελευταίο στρώμα εξόδου του Μετασχηματιστή, ενώ ο διπλός κωδικοποιητής μετατρέπει πολλαπλά διανύσματα σε ένα διάνυσμα μέσω μιας εξόδου συγκέντρωσης. χάνοντας έτσι κάποια σημασιολογία.

Στον υπολογισμό ταξινόμησης, το ColBERT εισάγει μια καθυστερημένη διαδραστική συνάρτηση ομοιότητας υπολογισμού και την ονομάζει μέγιστη ομοιότητα (MaxSim). παρακολουθήστε τη μέγιστη βαθμολογία για κάθε διακριτικό ερωτήματος. Η συνολική βαθμολογία για το ερώτημα και το έγγραφο είναι το άθροισμα αυτών των μέγιστων βαθμολογιών συνημίτονου. Για παράδειγμα, για ένα ερώτημα με 32 διανύσματα Token (το μέγιστο μήκος του ερωτήματος είναι 32) και ένα έγγραφο με 128 Tokens, πρέπει να εκτελεστούν λειτουργίες ομοιότητας 32*128, όπως φαίνεται στο παρακάτω σχήμα.

Έτσι, σε σύγκριση, μπορεί να ονομαστεί Cross EncoderΜοντέλο πρώιμης αλληλεπίδρασης, και το έργο που αντιπροσωπεύει ο ColBERT μπορεί να ονομαστείΜοντέλο όψιμης αλληλεπίδρασης.

Το παρακάτω σχήμα συγκρίνει τα παραπάνω μοντέλα ταξινόμησης ως προς την απόδοση και την ποιότητα ταξινόμησης. Δεδομένου ότι το μοντέλο καθυστερημένης αλληλεπίδρασης ικανοποιεί την ικανότητα καταγραφής των πολύπλοκων αλληλεπιδράσεων μεταξύ ερωτημάτων και εγγράφων κατά τη διαδικασία ταξινόμησης και επίσης αποφεύγει την επιβάρυνση των κουπονιών κωδικοποίησης εγγράφων, μπορεί όχι μόνο να εξασφαλίσει καλά αποτελέσματα ταξινόμησης, αλλά και να επιτύχει ταχύτερη απόδοση ταξινόμησης—— Κάτω από Στην ίδια κλίμακα δεδομένων, η απόδοση του ColBERT μπορεί να είναι μεγαλύτερη από 100 φορές μεγαλύτερη από αυτή του Cross Encoder. Επομένως, το μοντέλο καθυστερημένης αλληλεπίδρασης είναι ένα πολλά υποσχόμενο μοντέλο ταξινόμησης. Μια φυσική ιδέα είναι:Μπορεί το μοντέλο καθυστερημένης αλληλεπίδρασης να χρησιμοποιηθεί απευθείας στο RAG για να αντικαταστήσει την αρχιτεκτονική ταξινόμησης δύο σταδίων της διανυσματικής αναζήτησης + λεπτής ταξινόμησης;

Για το σκοπό αυτό, πρέπει να εξετάσουμε ορισμένα ζητήματα στη μηχανική ColBERT:

1. Η συνάρτηση καθυστερημένης διαδραστικής ομοιότητας MaxSim του ColBERT έχει πολύ υψηλότερη υπολογιστική απόδοση από το Cross Encoder, αλλά σε σύγκριση με τη συνηθισμένη διανυσματική αναζήτηση, η υπολογιστική επιβάρυνση εξακολουθεί να είναι πολύ υψηλή: επειδή η ομοιότητα μεταξύ του ερωτήματος και του εγγράφου είναι ένας πολυδιανυσματικός υπολογισμός, το MaxSim's The Η γενική επιβάρυνση είναι M * N φορές αυτή του συνηθισμένου υπολογισμού ομοιότητας διανυσμάτων (M είναι ο αριθμός των διακριτικών στο ερώτημα, N είναι ο αριθμός των διακριτικών στο έγγραφο). Σε απάντηση σε αυτά, ο συγγραφέας του ColBERT κυκλοφόρησε το ColBERT v2 το 2021 [Αναφορά 2], το οποίο βελτιώνει την ποιότητα της παραγόμενης ενσωμάτωσης μέσω Cross Encoder και απόσταξης μοντέλων και χρησιμοποιεί τεχνολογία συμπίεσης για να κβαντίσει το δημιουργούμενο διάνυσμα εγγράφου, βελτιώνοντας έτσι τον υπολογισμό του Απόδοση MaxSim. Το Project RAGatouille [Αναφορά 3] που βασίζεται στη συσκευασία ColBERT v2 γίνεται μια λύση για υψηλής ποιότητας ταξινόμηση RAG. Ωστόσο, το ColBERT v2 είναι απλώς μια βιβλιοθήκη αλγορίθμων και εξακολουθεί να είναι δύσκολο να χρησιμοποιηθεί από άκρο σε άκρο σε συστήματα RAG σε εταιρικό επίπεδο.

2. Δεδομένου ότι το ColBERT είναι ένα εκ των προτέρων εκπαιδευμένο μοντέλο και τα δεδομένα εκπαίδευσης προέρχονται από ερωτήματα μηχανών αναζήτησης και επιστρεφόμενα αποτελέσματα, αυτά τα δεδομένα κειμένου δεν είναι μεγάλα. , τα οποία είναι τυπικά όρια μήκους. Επομένως, όταν χρησιμοποιείται το ColBERT για πραγματικά δεδομένα, το μήκος που υπερβαίνει το όριο θα περικοπεί, κάτι που δεν είναι φιλικό για μακροσκελή ανάκτηση εγγράφων.

Με βάση τα παραπάνω προβλήματα, η εγγενής βάση δεδομένων AI ανοιχτού κώδικα Infinity παρέχει τον τύπο δεδομένων Tensor στην πιο πρόσφατη έκδοση και παρέχει εγγενώς τη λύση ColBERT από άκρο σε άκρο. Όταν το Tensor χρησιμοποιείται ως τύπος δεδομένων, πολλαπλά διανύσματα που παράγονται με κωδικοποίηση ColBERT μπορούν να αποθηκευτούν απευθείας σε ένα Tensor, έτσι ώστε η ομοιότητα μεταξύ των Tensor να μπορεί να παράγει άμεσα τη βαθμολογία MaxSim. Ως απάντηση στο πρόβλημα του μεγάλου όγκου υπολογισμών του MaxSim, το Infinity έδωσε δύο λύσεις για βελτιστοποίηση: η μία είναι η δυαδική κβαντοποίηση, η οποία μπορεί να κάνει τον χώρο του αρχικού Tensor μόνο το 1/32 του αρχικού μεγέθους, αλλά δεν αλλάζει τη σχετική σειρά αποτέλεσμα υπολογισμών MaxSim. Αυτή η λύση χρησιμοποιείται κυρίως για το Reranker, επειδή είναι απαραίτητο να εξαχθεί ο αντίστοιχος Tensor με βάση τα αποτελέσματα του προηγούμενου σταδίου χονδρικής διαλογής. Το άλλο είναι το Tensor Index Το ColBERTv2 είναι στην πραγματικότητα η υλοποίηση του Tensor Index που ξεκίνησε από τον συγγραφέα του ColBERT το Infinity χρησιμοποιεί το EMVB [Αναφορά 4], το οποίο μπορεί να θεωρηθεί ως βελτίωση του ColBERT v2, κυρίως μέσω της τεχνολογίας κβαντοποίησης και προφιλτραρίσματος. εισάγονται οδηγίες για βασικές λειτουργίες για την επιτάχυνση της υλοποίησης. Το Tensor Index μπορεί να χρησιμοποιηθεί μόνο για την προβολή του Ranker και όχι του Reranker. Επιπλέον, για μεγάλο κείμενο που υπερβαίνει το όριο Token, το Infinity εισάγει τον τύπο Tensor Array:

Ένα έγγραφο που υπερβαίνει το όριο του ColBERT θα χωριστεί σε πολλές παραγράφους Μετά την κωδικοποίηση και τη δημιουργία Tensors αντίστοιχα, θα αποθηκευτούν στην ίδια γραμμή με το αρχικό έγγραφο. Κατά τον υπολογισμό του MaxSim, το ερώτημα και αυτές οι παράγραφοι υπολογίζονται χωριστά και, στη συνέχεια, η μέγιστη τιμή λαμβάνεται ως βαθμολογία ολόκληρου του εγγράφου. Οπως φαίνεται παρακάτω:

Επομένως, χρησιμοποιώντας το Infinity, ένα μοντέλο καθυστερημένης αλληλεπίδρασης μπορεί να εισαχθεί από άκρο σε άκρο για να εξυπηρετήσει το RAG με υψηλή ποιότητα. Επομένως, πρέπει το ColBERT να χρησιμοποιείται ως Ranker ή Reranker; Παρακάτω χρησιμοποιούμε το Infinity για τη διεξαγωγή αξιολόγησης σε πραγματικά σύνολα δεδομένων. Δεδομένου ότι η πιο πρόσφατη έκδοση του Infinity εφαρμόζει την πιο ολοκληρωμένη λύση υβριδικής αναζήτησης στην ιστορία, οι μέθοδοι ανάκλησης περιλαμβάνουν διανυσματική αναζήτηση, αναζήτηση πλήρους κειμένου, αναζήτηση αραιού διανύσματος, το Tensor που αναφέρεται παραπάνω και οποιονδήποτε συνδυασμό αυτών των μεθόδων και παρέχει μια ποικιλία μεθόδων Reranker , όπως το RRF και το ColBERT Reranker, επομένως συμπεριλαμβάνουμε διάφορους συνδυασμούς υβριδικής αναζήτησης και Reranker στην ανασκόπηση.

Χρησιμοποιούμε το σύνολο δεδομένων MLDR για αξιολόγηση. Το MLDR είναι ένα σύνολο σημείων αναφοράς που χρησιμοποιείται από το MTEB [Αναφορά 5] για την αξιολόγηση της ποιότητας των μοντέλων ενσωμάτωσης Το MLDR είναι ένα από τα σύνολα δεδομένων, το οποίο ονομάζεται Multi Long Document Retrieval και περιέχει συνολικά 200.000 μεγάλα δεδομένα κειμένου. Η αξιολόγηση χρησιμοποιεί το BGE-M3 [Αναφορά 6] ως μοντέλο ενσωμάτωσης, το Jina-ColBERT [Αναφορά 7] για τη δημιουργία Tensor και το σενάριο αξιολόγησης τοποθετείται επίσης στην αποθήκη Infinity [Αναφορά 8].

Αξιολόγηση 1: Είναι το ColBERT αποτελεσματικό ως Reranker; Χρησιμοποιήστε το BGE-M3 για να δημιουργήσετε πυκνά διανύσματα και αραιά διανύσματα από 200.000 δεδομένα MLDR και να τα εισαγάγετε στη βάση δεδομένων Infinity Η βάση δεδομένων περιέχει 4 στήλες, οι οποίες αποθηκεύουν αρχικό κείμενο, διανύσματα, αραιά διανύσματα και τανυστές και δημιουργούν αντίστοιχα ευρετήρια πλήρους κειμένου. και διανύσματα αντίστοιχα. Η αξιολόγηση περιλαμβάνει όλους τους συνδυασμούς ανάκλησης, συμπεριλαμβανομένης της ανάκλησης μονής κατεύθυνσης, της ανάκλησης διπλής κατεύθυνσης και της ανάκλησης τριών κατευθύνσεων, ως εξής:

Ο δείκτης αξιολόγησης υιοθετεί το nDCG@10. Άλλες παράμετροι: Όταν χρησιμοποιείτε το RRF Reranker, το Top N = 1000 επιστρέφεται με χονδρική εξέταση, ο συνολικός αριθμός ερωτημάτων είναι 800 και το μέσο μήκος ερωτήματος είναι περίπου 10 διακριτικά.

Όπως φαίνεται από το σχήμα, όλες οι λύσεις ανάκλησης έχουν σημαντικά βελτιωμένα αποτελέσματα μετά τη χρήση του ColBERT Reranker. Ως μοντέλο καθυστερημένης αλληλεπίδρασης, το ColBERT μπορεί να παρέχει ποιότητα κατάταξης συγκρίσιμη με εκείνες που βρίσκονται στην κορυφή της κατάταξης Reranker του MTEB, αλλά η απόδοση είναι 100 φορές υψηλότερη, επομένως η ανακατάταξη μπορεί να πραγματοποιηθεί σε μεγαλύτερη κλίμακα. Τα αποτελέσματα που εμφανίζονται στο σχήμα είναι για το Top 100 Reranker και το Top 1000 χρησιμοποιείται για την αναδιάταξη ColBERT Οι τιμές δεν αλλάζουν σημαντικά και η απόδοση πέφτει σημαντικά, επομένως δεν συνιστάται. Παραδοσιακά, όταν χρησιμοποιείται ένας εξωτερικός Reranker που βασίζεται σε Cross Encoder, το Top 10 θα έχει καθυστέρηση δεύτερου επιπέδου, ωστόσο, το Infinity εφαρμόζει το υψηλής απόδοσης ColBERT Reranker εσωτερικά Η εμπειρία δεν θα επηρεαστεί, ωστόσο, το εύρος της ανάκλησης αυξάνεται σημαντικά, επομένως το αποτέλεσμα της τελικής κατάταξης μπορεί να βελτιωθεί σημαντικά. Επιπλέον, αυτός ο υπολογισμός του ColBERT Reranker χρειάζεται μόνο να εκτελεστεί σε μια καθαρή αρχιτεκτονική CPU, η οποία μειώνει επίσης σημαντικά το κόστος ανάπτυξης.

Αξιολόγηση 2: Η σύγκριση βασίζεται στον ColBERT ως Ranker και όχι ως Reranker. Επομένως, είναι απαραίτητο να κατασκευαστεί ένας δείκτης τανυστή για τα δεδομένα της στήλης τανυστή. Ταυτόχρονα, για την αξιολόγηση της απώλειας ακρίβειας που εισάγει ο Δείκτης Tensor, πραγματοποιήθηκε επίσης αναζήτηση ωμής βίας.

Μπορεί να φανεί ότι σε σύγκριση με το Reranker, ακόμη και με τη χρήση αναζήτησης ωμής δύναμης χωρίς απώλεια ακρίβειας, δεν υπάρχει σημαντική βελτίωση και η ποιότητα ταξινόμησης με βάση τον δείκτη Tensor είναι ακόμη χαμηλότερη από τη χρήση του Reranker. Ωστόσο, ο χρόνος ερωτήματος ως Ranker είναι πολύ πιο αργός: το σύνολο δεδομένων MLDR περιέχει 200.000 δεδομένα εγγράφων, τα οποία είναι περίπου 2 GB Μετά τη χρήση του Jina-ColBERT για τη μετατροπή του σε δεδομένα Tensor, είναι έως και 320 G. Αυτό συμβαίνει επειδή το Ο τύπος δεδομένων Tensor είναι ένα έγγραφο Το διάνυσμα που αντιστοιχεί σε κάθε Token του εγγράφου πρέπει να αποθηκευτεί , θα χρειαστούν κατά μέσο όρο 7 δευτερόλεπτα για να ρωτήσετε τόσα πολλά δεδομένα Επιστρέφει ένα ερώτημα, αλλά δεν λαμβάνει καλύτερα αποτελέσματα.

Επομένως, είναι προφανές ότι ο ColBERT είναι πολύ πιο κερδοφόρος ως Reranker παρά ως Ranker. Η τρέχουσα καλύτερη λύση ανάκτησης RAG είναι να προσθέσετε το ColBERT Reranker βάσει υβριδικής αναζήτησης 3 κατευθύνσεων (αναζήτηση πλήρους κειμένου + διάνυσμα + αραιό διάνυσμα). Μερικοί συνεργάτες μπορεί να ρωτήσουν, για να χρησιμοποιήσετε το ColBERT Reranker, είναι απαραίτητο να προσθέσετε μια ξεχωριστή στήλη Tensor και η στήλη θα επεκταθεί κατά 2 τάξεις μεγέθους σε σύγκριση με το αρχικό σύνολο δεδομένων. Πρώτα απ 'όλα: Το Infinity παρέχει τη μέθοδο Binary quantization για το Tensor Ως Reranker, δεν επηρεάζει πολύ τα αποτελέσματα ταξινόμησης, αλλά μπορεί να κάνει τα τελικά δεδομένα μόνο το 1/32 του αρχικού μεγέθους Tensor. Δεύτερον, ακόμα κι έτσι, κάποιοι θα πιστεύουν ότι αυτά τα γενικά έξοδα είναι πολύ υψηλά. Ωστόσο, από την πλευρά του χρήστη, εξακολουθεί να αξίζει τον κόπο να χρησιμοποιείτε περισσότερο χώρο αποθήκευσης με αντάλλαγμα υψηλότερη ποιότητα ταξινόμησης και φθηνότερο κόστος (η διαδικασία ταξινόμησης δεν απαιτεί GPU). Τέλος, πιστεύω ότι σύντομα θα κυκλοφορήσει ένα μοντέλο Late Interaction με ελαφρώς μειωμένη απόδοση αλλά πολύ μειωμένο κόστος αποθήκευσης Ως υποδομή δεδομένων Infra, είναι διαφανές σε αυτές τις αλλαγές και είναι σοφή επιλογή να παραδοθούν αυτές οι Trade Off στους χρήστες.

Τα παραπάνω βασίζονται στην αξιολόγηση ανάκλησης πολλαπλών καναλιών του Infinity στο σύνολο δεδομένων MLDR Τα αποτελέσματα της αξιολόγησης σε άλλα σύνολα δεδομένων μπορεί να είναι διαφορετικά, αλλά το γενικό συμπέρασμα δεν θα αλλάξει - υβριδική αναζήτηση 3 κατευθύνσεων + αναδιάταξη βάσει τανυστήρα είναι Η τρέχουσα ανάκληση. μέθοδος με τα υψηλότερα ποιοτικά αποτελέσματα αναζήτησης.

Από αυτό μπορεί να φανεί ότι το ColBERT και το μοντέλο καθυστερημένης αλληλεπίδρασής του έχουν μεγάλη αξία εφαρμογής σε σενάρια RAG. Αυτό είναι το ColPali [Αναφορά 9], το οποίο αλλάζει τη ροή εργασίας του RAG, όπως φαίνεται στην παρακάτω εικόνα:

Όταν το RAG αντιμετωπίζει έγγραφα σύνθετης μορφής, το τρέχον SOTA χρησιμοποιεί ένα μοντέλο αναγνώρισης εγγράφων για να προσδιορίσει τη διάταξη του εγγράφου και, στη συνέχεια, καλεί το αντίστοιχο μοντέλο για τις προσδιορισμένες επιμέρους δομές, όπως γραφήματα, εικόνες κ.λπ., για να τα μετατρέψει σε αντίστοιχες Το κείμενο αποθηκεύεται στη συνέχεια στη βάση δεδομένων που υποστηρίζει το RAG σε διάφορες μορφές. Το ColPali καταργεί αυτά τα βήματα και χρησιμοποιεί απευθείας πολυτροπικά μοντέλα για τη δημιουργία περιεχομένου ενσωμάτωσης. Όταν κάνετε ερωτήσεις, μπορείτε να απαντήσετε απευθείας με βάση τα γραφήματα στο έγγραφο:

Η εκπαίδευση του μοντέλου ColPali είναι παρόμοια με το ColBERT, χρησιμοποιώντας επίσης τη μορφή ζευγών σελίδων ερωτήματος-έγγραφου για την καταγραφή της σημασιολογικής συσχέτισης μεταξύ ερωτήματος και πολυτροπικών δεδομένων εγγράφου, αλλά χρησιμοποιώντας το PaliGemma [Αναφορά 10] για τη δημιουργία πολυτροπικής ενσωμάτωσης. Σε σύγκριση με το BiPali, το οποίο δεν χρησιμοποιεί τον μηχανισμό Late Interaction, αλλά χρησιμοποιεί επίσης το PaliGemma για τη δημιουργία Embedding, η σύγκριση του δείκτη αξιολόγησης του nDCG@5 είναι 81,3 έναντι 58,8. Αυτό το κενό είναι η διαφορά μεταξύ "εξαιρετικού" και "δεν λειτουργεί καθόλου".

Επομένως, αν και έχουν περάσει 4 χρόνια από την εμφάνιση του ColBERT, η εφαρμογή του μοντέλου Late Interaction στο RAG θα επεκτείνει σίγουρα τα σενάρια χρήσης του RAG και θα παρέχει υψηλής ποιότητας σημασιολογική ανάκληση σε πολύπλοκες σκηνές RAG. Το Infinity είναι ήδη έτοιμο για την εφαρμογή του από άκρο σε άκρο.

βιβλιογραφικές αναφορές

1. Colbert: Αποτελεσματική και αποτελεσματική αναζήτηση αποσπάσματος μέσω συμφραζομένων καθυστερημένης αλληλεπίδρασης πάνω από το bert, SIGIR 2020.

2. Colbertv2: Αποτελεσματική και αποτελεσματική ανάκτηση μέσω ελαφριάς όψιμης αλληλεπίδρασης, arXiv:2112.01488, 2021.

3. RAGatouille https://github.com/bclavie/RAGatouille

4. Αποτελεσματική πυκνή ανάκτηση πολλαπλών διανυσμάτων με διανύσματα bit, ECIR 2024.

5. https://huggingface.co/mteb

6. https://huggingface.co/BAAI/bge-m3

7. https://huggingface.co/jinaai/jina-colbert-v1-en

8. https://github.com/infiniflow/infinity/tree/main/python/benchmark/mldr_benchmark

9. ColPali: Efficient Document Retrieval with Vision Language Models, arXiv:2407.01449, 2024.

10. https://github.com/google-research/big_vision/tree/main/big_vision/configs/proj/paligemma

Νέα

Γιατί το μοντέλο καθυστερημένης αλληλεπίδρασης είναι πρότυπο για την επόμενη γενιά RAG;

Εισαγωγή

τα στοιχεία επικοινωνίας μου