Τα στοιχεία επικοινωνίας μου
Ταχυδρομείο[email protected]
2024-08-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Νέα Έκθεση Σοφίας
Επιμέλεια: LRST Τόσο υπνηλία
[Εισαγωγή στη Νέα Σοφία]Το Mini-Monkey είναι ένα ελαφρύ πολυτροπικό μοντέλο γλώσσας μεγάλης κλίμακας που ανακουφίζει αποτελεσματικά το εφέ αλλοίωσης που προκαλείται από τις παραδοσιακές στρατηγικές τμηματοποίησης εικόνας χρησιμοποιώντας τη στρατηγική προσαρμοστικής τμηματοποίησης πολλαπλής κλίμακας (MSAC) και τον μηχανισμό συμπίεσης κλίμακας (SCM). -Εργασίες επεξεργασίας εικόνας ανάλυσης και κατανόησης εγγράφων. Επιτυγχάνει κορυφαία αποτελέσματα σε πολλαπλά σημεία αναφοράς, αποδεικνύοντας τις δυνατότητές του στους τομείς της πολυτροπικής κατανόησης και της ευφυΐας εγγράφων.
Πρόσφατα, η βελτίωση της ικανότητας πολυτροπικών μεγάλων μοντέλων να επεξεργάζονται εικόνες υψηλής ανάλυσης έχει προσελκύσει αυξανόμενη προσοχή σε αυτόν τον τομέα.
Οι περισσότερες μέθοδοι επικεντρώνονται στη βελτίωση της ικανότητας των πολυτροπικών μεγάλων μοντέλων να κατανοούν τις λεπτομέρειες της εικόνας μέσω της στρατηγικής τμηματοποίησης και επανασύνδεσης εικόνων.
Ωστόσο, λόγω της λειτουργίας τμηματοποίησης της εικόνας, είναι αναπόφευκτο να προκληθεί κατακερματισμός του στόχου και των συνδεδεμένων περιοχών, γεγονός που επηρεάζει την ικανότητα αναγνώρισης των MLMM για στόχους μικρών ή ακανόνιστου σχήματος. Αυτό το φαινόμενο είναι εξαιρετικά προφανές στις εργασίες κατανόησης εγγράφων, επειδή η πλευρά του κειμένου διακόπτεται συχνά.
Ως απάντηση σε αυτήν την πρόκληση, το Πανεπιστήμιο Επιστήμης και Τεχνολογίας Huazhong και το Τεχνολογικό Πανεπιστήμιο της Νότιας Κίνας κυκλοφόρησαν πρόσφατα από κοινού ένα πολυτροπικό μεγάλο μοντέλο Mini-Monkey, το οποίο χρησιμοποιεί μια προσαρμόσιμη στρατηγική πολλαπλής κλίμακας (MSAC) με δυνατότητα σύνδεσης σε ελαφριά πολυτροπικά μεγάλα μοντέλα .
Το Mini-Monkey δημιουργεί προσαρμοστικά αναπαραστάσεις πολλαπλής κλίμακας, επιτρέποντας στο μοντέλο να επιλέγει μη τμηματοποιημένα αντικείμενα από διάφορες κλίμακες και η απόδοσή του φτάνει στο νέο SOTA των 2Β πολυτροπικών μεγάλων μοντέλων.
Διεύθυνση χαρτιού: https://arxiv.org/pdf/2408.02034
Διεύθυνση έργου: https://github.com/Yuliang-Liu/Monkey
Προκειμένου να μετριαστεί η υπολογιστική επιβάρυνση που προκαλείται από το MSAC, προτείνουμε έναν μηχανισμό συμπίεσης κλίμακας (SCM) για την αποτελεσματική συμπίεση των διακριτικών εικόνων.
Το Mini-Monkey όχι μόνο πέτυχε κορυφαία απόδοση σε πολλαπλές εργασίες ευφυΐας εγγράφων, αλλά πέτυχε επίσης σταθερές βελτιώσεις απόδοσης σε γενικές εργασίες κατανόησης πολυτροπικών μοντέλων, επιτυγχάνοντας απόδοση 2B SOTA.
Στο OCRBench, το Mini-Monkey σημείωσε 802 βαθμούς, κάτι που είναι καλύτερο από μοντέλα με μεγαλύτερες παραμέτρους όπως το GLM-4v-9B.
Σχήμα 3 Μέθοδος μπλοκ διάγραμμα: Η L-Attn αντιπροσωπεύει χαμηλό βάρος προσοχής θα φιλτράρει το κοινό επίπεδο LLM αντιπροσωπεύει το επίπεδο μπλοκ χρησιμοποιώντας LLM
Ερευνητικό υπόβαθρο
Τα πολυτροπικά μοντέλα μεγάλων γλωσσών (MLMM) έχουν προσελκύσει μεγάλη προσοχή τα τελευταία χρόνια. Οι ερευνητές διερευνούν ενεργά αποτελεσματικούς τρόπους για την ενσωμάτωση οπτικών κωδικοποιητών με το LLM.
Ορισμένες μέθοδοι, όπως το Flamingo, το BLIP-2, το MiniGPT4 και το Qwen-VL και το LLaVA, έχουν επιτύχει αυτά τα επιτεύγματα, αλλά τα προηγούμενα πολυτροπικά μοντέλα μεγάλων γλωσσών δεν έχουν επιτύχει λεπτομερή κατανόηση της σκηνής λόγω περιορισμένης ανάλυσης επεξεργασίας.
Σχήμα 1 Το εφέ τμηματοποίησης που προκαλείται από την κατάτμηση σε καθολικά αντικείμενα: (α) εισαγόμενη εικόνα (β) στρατηγική επέκτασης τμηματοποίησης (δ) στρατηγικές προσαρμογής τμηματοποίησης πολλαπλών κλιμάκων
Οι ερευνητές άρχισαν να λύνουν αυτό το πρόβλημα επεκτείνοντας την ανάλυση εισόδου της εικόνας. Η στρατηγική τεμαχισμού είναι μια από τις πιο συχνά χρησιμοποιούμενες μεθόδους. Για παράδειγμα, Monkey, LLaVA 1.6, InternVL 1.5 και LLama3-V, κ.λπ.
Παρά τη σημαντική πρόοδο στα πολυτροπικά γλωσσικά μοντέλα μεγάλης κλίμακας, εξακολουθούν να υπάρχουν προκλήσεις στη λεπτομερή κατανόηση της σκηνής λόγω των στρατηγικών τμηματοποίησης.
Οι λειτουργίες τμηματοποίησης σε εικόνες αναπόφευκτα τμηματοποιούν αντικείμενα και συνδεδεμένες περιοχές, αποδυναμώνοντας έτσι την ικανότητα του MLLM να αναγνωρίζει μικρά αντικείμενα ή αντικείμενα ακανόνιστου σχήματος, ειδικά στο πλαίσιο της κατανόησης εγγράφων.
Αυτή η στρατηγική θα εισάγει δύο τύπους σημασιολογικής ασυνέπειας:
1. Εάν ένα αντικείμενο ή ένας χαρακτήρας είναι τμηματοποιημένος, ενδέχεται να μην αναγνωρίζεται. Για παράδειγμα, η τμηματοποιημένη μύτη μοιάζει πολύ με μαϊμού, όπως φαίνεται στο Σχήμα 1(β).
2. Εάν μια λέξη ή πρόταση είναι τμηματοποιημένη, θα προκαλέσει σημασιολογική βλάβη στην τμηματοποιημένη λέξη. Για παράδειγμα, η λέξη "Classrooms" μπορεί να χωριστεί σε "Class" και "rooms", κάτι που θα προκαλούσε σημασιολογική βλάβη στις τμηματοποιημένες λέξεις.
Για λόγους απλότητας, οι συγγραφείς αποκαλούν αυτό το πρόβλημα το φαινόμενο του πριονιού. Μια πολύ απλή ιδέα είναι να χρησιμοποιήσετε μια επικαλυπτόμενη στρατηγική τμηματοποίησης για να λύσετε αυτό το πρόβλημα, όπως φαίνεται στο Σχήμα 1(γ).
Ωστόσο, οι συγγραφείς διαπίστωσαν ότι η επικαλυπτόμενη στρατηγική τμηματοποίησης εισήγαγε ορισμένες ψευδαισθήσεις που είχαν ως αποτέλεσμα την υποβάθμιση της απόδοσης και όχι τη βελτίωση.
Ιδέες μεθόδων
Ο συγγραφέας προτείνει το Mini-Monkey, ένα ελαφρύ πολυτροπικό μοντέλο γλώσσας μεγάλης κλίμακας που έχει σχεδιαστεί για να ανακουφίζει το πριονωτό αποτέλεσμα που προκαλείται από στρατηγικές τμηματοποίησης. Το μπλοκ διάγραμμα μεθόδου φαίνεται στο σχήμα 2.
Εικόνα 2 Το οδοντωτό εφέ που προκαλείται από την περικοπή σε εικόνες κειμένου.
Σε αντίθεση με τις υπάρχουσες μεθόδους που τμηματοποιούν απευθείας την εικόνα εισόδου, το Mini-Monkey υιοθετεί μια προσέγγιση plug-and-play που ονομάζεται Στρατηγική Προσαρμοστικής Τμηματοποίησης Πολυκλίμακας (MSAC).
Το MSAC μπορεί να συμπληρώσει αποτελεσματικά χαρακτηριστικά σε διαφορετικές κλίμακες, όπως φαίνεται στο Σχήμα 1(δ).
Στρατηγική προσαρμοστικής τμηματοποίησης πολλαπλής κλίμακας (MSAC)
Το MSAC εκτελεί πρώτα μια λειτουργία στρώσης σε αυτά τα πλέγματα, χωρίζοντάς τα σε τρεις ομάδες με βάση την αναλογία διαστάσεων τους. Ο συγγραφέας θα επιλέξει έναν λόγο διαστάσεων για κάθε επίπεδο. Διαφορετικά επίπεδα παρέχουν διαφορετικές πληροφορίες στο μοντέλο.
Το επίπεδο λεπτομερειών είναι υπεύθυνο για την παροχή λεπτομερών πληροφοριών. Περιορίζει τόσο τη μέγιστη ανάλυση εικόνας όσο και την ελάχιστη ανάλυση εικόνας, κάνοντας την εικόνα όσο το δυνατόν μεγαλύτερη και κάνοντας τα αντικείμενα στην εικόνα πιο καθαρά. Λόγω της στρατηγικής τμηματοποίησης που χρησιμοποιείται για την περικοπή της εικόνας, οι εικόνες που δημιουργούνται από αυτό το επίπεδο ενδέχεται να έχουν σημασιολογικές ασυνέπειες.
Επομένως, οι συγγραφείς χρησιμοποιούν προσαρμοστικά επίπεδα σε συνδυασμό με επίπεδα λεπτομέρειας για να επιτρέψουν στο μοντέλο να επιλέξει μη τμηματοποιημένα αντικείμενα από διάφορες κλίμακες. Το προσαρμοστικό επίπεδο θα δημιουργήσει προσαρμοστικά την αναλογία διαστάσεων σύμφωνα με το επίπεδο λεπτομέρειας, διασφαλίζοντας ότι η γραμμή τμηματοποίησης στο επίπεδο λεπτομέρειας δεν επικαλύπτεται με τη γραμμή τμηματοποίησης στο προσαρμοστικό επίπεδο, αποτρέποντας έτσι την τμηματοποίηση του ίδιου αντικειμένου δύο φορές σε διαφορετικά επίπεδα. Αυτή η διαδικασία διασφαλίζει ότι το επίπεδο λεπτομέρειας και το επίπεδο προσαρμογής παρέχουν διαφορετικές σημασιολογικές πληροφορίες και οπτικά χαρακτηριστικά στο μοντέλο.
μηχανισμός συμπίεσης κλίμακας
Το MSAC ενδέχεται να εισαγάγει κάποια πρόσθετη υπολογιστική επιβάρυνση. Ως εκ τούτου, ο συγγραφέας προτείνει έναν μηχανισμό συμπίεσης κλίμακας (SCM) για καταστάσεις όπου υπάρχουν υπολογιστικοί γενικοί περιορισμοί. Το SCM είναι ένας μηχανισμός που δεν απαιτεί εκπαίδευση και παραμέτρους για τη μείωση των υπολογιστικών επιβαρύνσεων.
Ο συγγραφέας επιλέγει τα οπτικά διακριτικά του προσαρμοστικού επιπέδου, τα οπτικά διακριτικά του καθολικού επιπέδου και τα διακριτικά κειμένου για να επικεντρωθεί στους οπτικούς δείκτες του επιπέδου λεπτομέρειας και, στη συνέχεια, δημιουργεί τον χάρτη προσοχής και, στη συνέχεια, εξάγει τα οπτικά χαρακτηριστικά του επάνω K του χάρτη προσοχής.
Ένα καλά εκπαιδευμένο LLM μπορεί να επιλέξει αποτελεσματικά τα απαραίτητα οπτικά χαρακτηριστικά με βάση το πρόβλημα εισαγωγής. Επομένως, το SCM χρησιμοποιεί το πρώτο και το δεύτερο επίπεδο του LLM για να επιλέξει οπτικά διακριτικά χωρίς να δημιουργεί πρόσθετες παραμέτρους.
Το ισχυρότερο πολυτροπικό μεγάλο μοντέλο 2B της Mini-Monkey
Οι συγγραφείς δοκίμασαν τη μέθοδό τους στη γενική κατανόηση πολλαπλών τρόπων και στην κατανόηση εγγράφων.
Πίνακας 1 Αποτελέσματα για τη γενική πολυτροπική κατανόηση
Πίνακας 2 Αποτελέσματα για την κατανόηση εγγράφων
Ο συγγραφέας συγκρίνει το προτεινόμενο MSAC με τις υπάρχουσες μεθόδους Η πρώτη σειρά είναι μια μέθοδος δυναμικής τμηματοποίησης, η δεύτερη σειρά είναι μια μέθοδος τμηματοποίησης σταθερής ανάλυσης, η τρίτη σειρά είναι μια επικαλυπτόμενη τμηματοποίηση και η τέταρτη σειρά είναι μια στρατηγική S2 πολλαπλής κλίμακας.
Ο Πίνακας 3 συγκρίνει με διαφορετικές στρατηγικές τμηματοποίησης
Το MSAC μπορεί να εφαρμοστεί σε διαφορετικές πολυτροπικές αρχιτεκτονικές, σταθεροποιώντας και βελτιώνοντας
Ταυτόχρονα, ο συγγραφέας εφάρμοσε επίσης το MSAC σε άλλες μεθόδους σύγκρισης και μπορεί να φανεί ότι υπάρχουν σταθερές βελτιώσεις στις γενικές εργασίες κατανόησης πολλαπλών μέσων και κατανόησης εγγράφων.
Ο Πίνακας 4 εφαρμόζει το MSAC σε διαφορετικά πλαίσια
Μετριάστε αποτελεσματικά τα «επακόλουθα» που προκαλούνται από την κατάτμηση για να αυξήσετε την ανάλυση
Ταυτόχρονα, ο συγγραφέας παρέχει επίσης κάποια ποιοτική ανάλυση, όπως φαίνεται στο Σχήμα 4. Ο συγγραφέας θέτει ερωτήσεις σχετικά με τις τμηματοποιημένες τοποθεσίες, όπως "τάξεις" και "σχολείο" που είναι τμηματοποιημένες.
Μπορεί να φανεί ότι το Mini-Monkey μπορεί να ανακουφίσει αποτελεσματικά τα «επακόλουθα» που προκαλούνται από την αύξηση της ανάλυσης της τμηματοποίησης μέσω του MSAC.
Σχήμα 4 Ποιοτικά αποτελέσματα: (α) εικόνα εισόδου και Αλήθεια βάσης (β) αποτελέσματα που χρησιμοποιούν επικαλυπτόμενη στρατηγική τμηματοποίησης
Οπτική σύγκριση
Το Mini-Monkey μπορεί να εξαγάγει με ακρίβεια το περιεχόμενο του κειμένου σε διφορούμενα αρχαία βιβλία, ενώ το MiniCPM-V 2.6 και το InternVL2-2B έχασαν και τα δύο πολύ κείμενο.
(α) Εισαγωγή εικόνας
(β)Mimi-Monkey: αναγνωρίζει με ακρίβεια όλο το κείμενο
(γ) MiniCPM-V 2.6: Χάθηκε πολύ κείμενο.
(δ)InternVL2-2B: Λείπει μια ολόκληρη πρόταση σχετικά αόριστου κειμένου
(ε)GPT-4o: Αρνηθείτε να απαντήσετε
Συνοψίζω
Οι μέθοδοι που χρησιμοποιούν τμηματοποίηση για την επέκταση της ανάλυσης συχνά τμηματοποιούν αντικείμενα και συνδεδεμένες περιοχές, γεγονός που περιορίζει την αναγνώριση μικρών ή ακανόνιστου σχήματος αντικειμένων και κειμένου Αυτό το πρόβλημα είναι ιδιαίτερα εμφανές σε ελαφρύ MLLM.
Σε αυτή τη μελέτη, ο συγγραφέας προτείνει το Mini-Monkey, ένα 2Β πολυτροπικό μεγάλο μοντέλο που επιτυγχάνει απόδοση SOTA, με στόχο την επίλυση των περιορισμών των υπαρχουσών στρατηγικών τμηματοποίησης για τη βελτίωση της ικανότητας του MLLM να επεξεργάζεται εικόνες υψηλής ανάλυσης.
Το Mini-Monkey υιοθετεί μια στρατηγική προσαρμοστικής τμηματοποίησης πολλαπλής κλίμακας (MSAC) για τη δημιουργία αναπαραστάσεων πολλαπλής κλίμακας, επιτρέποντας στο μοντέλο να επιλέγει μη τμηματοποιημένα αντικείμενα σε διαφορετικές κλίμακες, μειώνοντας έτσι αυτό το πρόβλημα.
Ταυτόχρονα, ο συγγραφέας επαλήθευσε επίσης την αποτελεσματικότητα της στρατηγικής προσαρμοστικής τμηματοποίησης πολλαπλής κλίμακας σε πολυτροπικά μεγάλα μοντέλα άλλων αρχιτεκτονικών, παρέχοντας μια απλή και αποτελεσματική λύση για την ανακούφιση των «επακόλουθων» που προκαλούνται από την αυξημένη ανάλυση του σχεδίου τμηματοποίησης .
Παραπομπές:
[1] Chen Z, Wang W, Tian H, et al. Πόσο μακριά είμαστε στο gpt-4v; κλείνοντας το χάσμα στα εμπορικά πολυτροπικά μοντέλα με σουίτες ανοιχτού κώδικα[J]. arXiv προεκτύπωση arXiv:2404.16821, 2024.
[2] Li J, Li D, Savarese S, et al. Blip-2: Εκκίνηση προεκπαίδευσης γλώσσας-εικόνας με παγωμένους κωδικοποιητές εικόνας και μεγάλα μοντέλα γλώσσας[C]//Διεθνές συνέδριο για τη μηχανική εκμάθηση. PMLR, 2023: 19730-19742.
[3] Liu Y, Yang B, Liu Q, et al. Textmonkey: Ένα μεγάλο πολυτροπικό μοντέλο χωρίς ocr για την κατανόηση του εγγράφου[J]. arXiv προεκτύπωση arXiv:2403.04473, 2024.
[4] Bai J, Bai S, Yang S, et al. Qwen-vl: Ένα μοντέλο με μεγάλη όραση με ευέλικτες ικανότητες[J]. arXiv προεκτύπωση arXiv:2308.12966, 2023.
[5] Dubey A, Jauhri A, Pandey A, et al. The Llama 3 Herd of Models[J]. arXiv προεκτύπωση arXiv:2407.21783, 2024.