Εγκαταλείποντας τον οπτικό κωδικοποιητή, αυτό το πολυτροπικό μεγάλο μοντέλο "εγγενής έκδοση" είναι επίσης συγκρίσιμο με το mainstream method

Εγκαταλείποντας τον οπτικό κωδικοποιητή, αυτό το πολυτροπικό μεγάλο μοντέλο "εγγενής έκδοση" είναι επίσης συγκρίσιμο με τις κύριες μεθόδους

2024-07-16

Η στήλη AIxiv είναι μια στήλη όπου το Machine Heart δημοσιεύει ακαδημαϊκό και τεχνικό περιεχόμενο. Τα τελευταία χρόνια, η στήλη Heart of the Machine AIxiv έχει λάβει περισσότερες από 2.000 αναφορές, που καλύπτουν κορυφαία εργαστήρια από μεγάλα πανεπιστήμια και εταιρείες σε όλο τον κόσμο, προωθώντας αποτελεσματικά τις ακαδημαϊκές ανταλλαγές και τη διάδοση. Εάν έχετε εξαιρετική δουλειά που θέλετε να μοιραστείτε, μη διστάσετε να συνεισφέρετε ή να επικοινωνήσετε μαζί μας για αναφορά. Email υποβολής: [email protected], [email protected]

Ο Diao Haiwen είναι διδακτορικός φοιτητής στο Dalian University of Technology και επιβλέπων του είναι ο καθηγητής Lu Huchuan. Επί του παρόντος εργάζεται ως ασκούμενος στο Ερευνητικό Ινστιτούτο Τεχνητής Νοημοσύνης του Beijing Zhiyuan, υπό την καθοδήγηση του Δρ. Wang Xinlong. Τα ερευνητικά του ενδιαφέροντα είναι το όραμα και η γλώσσα, η αποτελεσματική μεταφορά μεγάλων μοντέλων, τα πολυτροπικά μεγάλα μοντέλα κ.λπ. Ο συν-συγγραφέας Cui Yufeng αποφοίτησε από το Πανεπιστήμιο Beihang και είναι ερευνητής αλγορίθμων στο Vision Center του Beijing Zhiyuan Artificial Intelligence Research Institute. Τα ερευνητικά του ενδιαφέροντα είναι τα πολυτροπικά μοντέλα, τα γενετικά μοντέλα και η υπολογιστική όραση και η κύρια δουλειά του περιλαμβάνει τη σειρά Emu.

Πρόσφατα, η έρευνα για πολυτροπικά μεγάλα μοντέλα βρίσκεται σε πλήρη εξέλιξη και η βιομηχανία έχει επενδύσει όλο και περισσότερο σε αυτό. Καυτά μοντέλα έχουν κυκλοφορήσει στο εξωτερικό, όπως τα GPT-4o (OpenAI), Gemini (Google), Phi-3V (Microsoft), Claude-3V (Anthropic) και Grok-1.5V (xAI) κ.λπ. Ταυτόχρονα, εγχώρια GLM-4V (Wisdom Spectrum AI), Step-1.5V (Step Star), Emu2 (Beijing Zhiyuan), Intern-VL (Shanghai AI Laboratory), Qwen-VL (Alibaba) κ.λπ. σε πλήρη άνθιση.

Το τρέχον μοντέλο οπτικής γλώσσας (VLM) συνήθως βασίζεται στον οπτικό κωδικοποιητή (Vision Encoder, VE) για την εξαγωγή οπτικών χαρακτηριστικών και στη συνέχεια συνδυάζει τις οδηγίες χρήστη με το μοντέλο μεγάλης γλώσσας (LLM) για επεξεργασία και απάντηση οπτικός κωδικοποιητής και μεγάλη γλώσσα Μοντέλο διαχωρισμού εκπαίδευσης. Αυτός ο διαχωρισμός αναγκάζει τους οπτικούς κωδικοποιητές να εισάγουν ζητήματα μεροληψίας οπτικής επαγωγής κατά τη διασύνδεση με μεγάλα γλωσσικά μοντέλα, όπως περιορισμένη ανάλυση εικόνας και λόγο διαστάσεων και ισχυρές οπτικές σημασιολογικές προτεραιότητες. Καθώς η χωρητικότητα των οπτικών κωδικοποιητών συνεχίζει να επεκτείνεται, η αποτελεσματικότητα ανάπτυξης μεγάλων μοντέλων πολλαπλών μέσων στην επεξεργασία οπτικών σημάτων είναι επίσης πολύ περιορισμένη. Επιπλέον, ο τρόπος εύρεσης της βέλτιστης διαμόρφωσης χωρητικότητας οπτικών κωδικοποιητών και μεγάλων μοντέλων γλώσσας γίνεται όλο και πιο περίπλοκος και δύσκολος.

Σε αυτό το πλαίσιο, γρήγορα προέκυψαν μερικές πιο πρωτοποριακές ιδέες:

Μπορούμε να αφαιρέσουμε τον οπτικό κωδικοποιητή, δηλαδή να δημιουργήσουμε απευθείας ένα μεγάλο εγγενές πολυτροπικό μοντέλο χωρίς οπτικό κωδικοποιητή;
Πώς να εξελίξετε αποτελεσματικά και ομαλά ένα μεγάλο μοντέλο γλώσσας σε ένα εγγενές πολυτροπικό μεγάλο μοντέλο χωρίς οπτικούς κωδικοποιητές;
Πώς να γεφυρωθεί το χάσμα απόδοσης μεταξύ εγγενών πολυτροπικών πλαισίων χωρίς κωδικοποιητή και πολυτροπικών παραδειγμάτων που βασίζονται σε κύριους κωδικοποιητές;

Η Adept AI κυκλοφόρησε τη σειρά μοντέλων Fuyu στα τέλη του 2023 και έκανε κάποιες σχετικές προσπάθειες, αλλά δεν αποκάλυψε καμία στρατηγική εκπαίδευσης, πόρους δεδομένων και πληροφορίες εξοπλισμού. Ταυτόχρονα, υπάρχει ένα σημαντικό χάσμα απόδοσης μεταξύ του μοντέλου Fuyu και των mainstream αλγορίθμων στους δείκτες αξιολόγησης δημόσιου οπτικού κειμένου. Κατά την ίδια περίοδο, ορισμένα πιλοτικά πειράματα που πραγματοποιήσαμε έδειξαν ότι ακόμη και αν η κλίμακα των δεδομένων προεκπαίδευσης αυξηθεί σε μεγάλη κλίμακα, το εγγενές πολυτροπικό μεγάλο μοντέλο χωρίς κωδικοποιητή εξακολουθεί να αντιμετωπίζει ακανθώδες προβλήματα όπως αργή ταχύτητα σύγκλισης και κακή απόδοση.

Ως απάντηση σε αυτές τις προκλήσεις, η ομάδα οράματος του Ερευνητικού Ινστιτούτου Zhiyuan συνεργάστηκε με εγχώρια πανεπιστήμια όπως το Τεχνολογικό Πανεπιστήμιο Dalian και το Πανεπιστήμιο του Πεκίνου για να λανσάρουν μια νέα γενιά οπτικού γλωσσικού μοντέλου EVE χωρίς κωδικοποιητή. Μέσω εκλεπτυσμένων στρατηγικών εκπαίδευσης και πρόσθετης οπτικής επίβλεψης, το EVE ενσωματώνει οπτικο-γλωσσική αναπαράσταση, ευθυγράμμιση και συμπέρασμα σε μια ενοποιημένη αρχιτεκτονική καθαρού αποκωδικοποιητή. Χρησιμοποιώντας δημόσια διαθέσιμα δεδομένα, το EVE έχει καλές επιδόσεις σε πολλαπλά οπτικο-γλωσσικά σημεία αναφοράς, ανταγωνίζεται τις κύριες πολυτροπικές μεθόδους που βασίζονται σε κωδικοποιητές παρόμοιας χωρητικότητας και ξεπερνώντας σημαντικά τους συναδέλφους Fuyu-8B. Το EVE προτείνεται να παρέχει μια διαφανή και αποτελεσματική διαδρομή για την ανάπτυξη εγγενών πολυτροπικών αρχιτεκτονικών για καθαρούς αποκωδικοποιητές.

Διεύθυνση χαρτιού: https://arxiv.org/abs/2406.11832
Κωδικός έργου: https://github.com/baaivision/EVE
Διεύθυνση μοντέλου: https://huggingface.co/BAAI/EVE-7B-HD-v1.0

1. Τεχνικά Χαρακτηριστικά

Μοντέλο εγγενούς οπτικής γλώσσας: σπάει το σταθερό παράδειγμα των βασικών πολυτροπικών μοντέλων, αφαιρεί τον οπτικό κωδικοποιητή και μπορεί να χειριστεί οποιαδήποτε αναλογία διαστάσεων εικόνας. Είναι σημαντικά καλύτερο από τον ίδιο τύπο μοντέλου Fuyu-8B σε πολλαπλά σημεία αναφοράς οπτικής γλώσσας και είναι κοντά στην κύρια αρχιτεκτονική οπτικής γλώσσας που βασίζεται σε οπτικό κωδικοποιητή.
Χαμηλό κόστος δεδομένων και εκπαίδευσης: Η προεκπαίδευση του μοντέλου EVE έλεγξε μόνο δημόσια δεδομένα από OpenImages, SAM και LAION και χρησιμοποίησε 665.000 LLaVA δεδομένα οδηγιών και επιπλέον 1,2 εκατομμύρια δεδομένα οπτικού διαλόγου για τη δημιουργία κανονικών και υψηλού επιπέδου εκδόσεων αντίστοιχα έκδοση του EVE-7B. Η εκπαίδευση διαρκεί περίπου 9 ημέρες για να ολοκληρωθεί σε δύο κόμβους 8-A100 (40G) ή 5 ημέρες σε τέσσερις κόμβους 8-A100.
Διαφανής και αποτελεσματική εξερεύνηση: Η EVE προσπαθεί να εξερευνήσει μια αποτελεσματική, διαφανή και πρακτική διαδρομή προς το μοντέλο της εγγενούς οπτικής γλώσσας, παρέχοντας νέες ιδέες και πολύτιμη εμπειρία για την ανάπτυξη μιας νέας γενιάς καθαρής αρχιτεκτονικής οπτικής γλώσσας αποκωδικοποιητή για μελλοντικές πολυτροπικές Η ανάπτυξη των μοντέλων ανοίγει νέες κατευθύνσεις για εξερεύνηση.

2. Δομή μοντέλου

Πρώτον, αρχικοποιείται μέσω του γλωσσικού μοντέλου Vicuna-7B, ώστε να έχει πλούσια γλωσσική γνώση και ισχυρές δυνατότητες παρακολούθησης οδηγιών. Σε αυτή τη βάση, αφαιρείται ο βαθύς οπτικός κωδικοποιητής, κατασκευάζεται ένα ελαφρύ επίπεδο οπτικής κωδικοποίησης, η είσοδος εικόνας κωδικοποιείται αποτελεσματικά και χωρίς απώλειες και εισάγεται σε έναν ενοποιημένο αποκωδικοποιητή μαζί με εντολές γλώσσας χρήστη. Επιπλέον, το επίπεδο οπτικής ευθυγράμμισης εκτελεί ευθυγράμμιση χαρακτηριστικών με έναν γενικό οπτικό κωδικοποιητή για να βελτιώσει την κωδικοποίηση και την αναπαράσταση λεπτομερών οπτικών πληροφοριών.

2.1 Επίπεδο ενσωμάτωσης ενημερωμένης έκδοσης κώδικα

Χρησιμοποιήστε πρώτα ένα μόνο συνελικτικό επίπεδο για να αποκτήσετε τον δισδιάστατο χάρτη χαρακτηριστικών της εικόνας και, στη συνέχεια, πραγματοποιήστε μείωση δειγματοληψίας μέσω ενός μέσου επιπέδου συγκέντρωσης.
Χρησιμοποιήστε τη μονάδα διασταυρούμενης προσοχής (CA1) για να αλληλεπιδράσετε σε ένα περιορισμένο δεκτικό πεδίο για να βελτιώσετε τις τοπικές δυνατότητες κάθε ενημέρωσης κώδικα.
Χρησιμοποιήστε το διακριτικό <CLS> και συνδυάστε το με τη μονάδα διασταυρούμενης προσοχής (CA2) για να παρέχετε γενικές πληροφορίες για κάθε επόμενη δυνατότητα ενημέρωσης κώδικα.
Ένα διακριτικό <SPL> με δυνατότητα εκμάθησης εισάγεται στο τέλος κάθε γραμμής χαρακτηριστικών ενημέρωσης κώδικα για να βοηθήσει το δίκτυο να κατανοήσει τη δισδιάστατη χωρική δομή της εικόνας.

2.2 Επίπεδο ευθυγράμμισης επιδιόρθωσης

Καταγράψτε το δισδιάστατο σχήμα μιας έγκυρης ενημέρωσης κώδικα <CLS>/.
μάρκες και χρησιμοποιήστε το προσαρμοστικό στρώμα συγκέντρωσης για να επαναφέρετε το αρχικό δισδιάστατο σχήμα.
Μέσω της ιεραρχικής μονάδας πολλαπλής προσοχής (CA3), ενσωματώνονται οπτικά χαρακτηριστικά δικτύου πολλαπλών επιπέδων για την επίτευξη λεπτής ευθυγράμμισης με την έξοδο οπτικού κωδικοποιητή.

3. Στρατηγική εκπαίδευσης

Το στάδιο της προεκπαίδευσης καθοδηγείται από το μοντέλο της μεγάλης γλώσσας: καθιερώνει την αρχική σύνδεση μεταξύ της όρασης και της γλώσσας, θέτοντας τα θεμέλια για μετέπειτα σταθερή και αποτελεσματική προ-προπόνηση μεγάλης κλίμακας.
Δημιουργικό στάδιο προ-κατάρτισης: περαιτέρω βελτίωση της ικανότητας του μοντέλου να κατανοεί οπτικο-γλωσσικό περιεχόμενο και να επιτύχει μια ομαλή μετάβαση από ένα μοντέλο καθαρής γλώσσας σε ένα μοντέλο πολλαπλών τρόπων.
Εποπτευόμενο στάδιο λεπτομέρειας: τυποποιήστε περαιτέρω την ικανότητα του μοντέλου να ακολουθεί γλωσσικές οδηγίες και να μαθαίνει μοτίβα διαλόγου για να ανταποκρίνεται στις απαιτήσεις διαφόρων οπτικών γλωσσικών σημείων αναφοράς.

Στο στάδιο της προεκπαίδευσης, ελέγχθηκαν 33 εκατομμύρια δημόσια δεδομένα από SA-1B, OpenImages και LAION και διατηρήθηκαν μόνο δείγματα εικόνων με ανάλυση μεγαλύτερη από 448×448. Συγκεκριμένα, για να αντιμετωπιστεί το πρόβλημα του υψηλού πλεονασμού στις εικόνες LAION, δημιουργήθηκαν 50.000 συστάδες με την εφαρμογή K-means clustering στα χαρακτηριστικά εικόνας που εξήχθησαν από το EVA-CLIP, και επιλέχθηκαν οι 300 εικόνες που βρίσκονται πιο κοντά σε κάθε κέντρο συμπλέγματος επέλεξε 15 εκατομμύρια δείγματα εικόνων LAION. Στη συνέχεια, οι περιγραφές εικόνων υψηλής ποιότητας αναδημιουργούνται χρησιμοποιώντας Emu2 (17B) και LLaVA-1.5 (13B).
Στο στάδιο της εποπτευόμενης μικρορύθμισης, το σύνολο δεδομένων μικρορύθμισης LLaVA-mix-665K χρησιμοποιείται για την εκπαίδευση της τυπικής έκδοσης του EVE-7B και μικτών συνόλων δεδομένων όπως AI2D, Synthdog, DVQA, ChartQA, DocVQA, Vision-Flan και το Bunny-695K είναι ενσωματωμένα για να εκπαιδεύσουν την έκδοση υψηλής ανάλυσης του EVE-7B.

4. Ποσοτική ανάλυση

Το μοντέλο EVE ξεπερνά σημαντικά το παρόμοιο μοντέλο Fuyu-8B σε πολλαπλά σημεία αναφοράς οπτικών γλωσσών και αποδίδει στο ίδιο επίπεδο με μια ποικιλία μοντέλων οπτικής γλώσσας που βασίζονται σε κύριους κωδικοποιητές. Ωστόσο, λόγω της χρήσης μεγάλου όγκου οπτικών γλωσσικών δεδομένων για εκπαίδευση, υπάρχουν προκλήσεις όσον αφορά την ακριβή ανταπόκριση σε συγκεκριμένες οδηγίες και η απόδοσή του σε ορισμένες δοκιμές αναφοράς πρέπει να βελτιωθεί. Αυτό που είναι συναρπαστικό είναι ότι μέσω αποτελεσματικών στρατηγικών εκπαίδευσης, το EVE χωρίς κωδικοποιητή μπορεί να επιτύχει συγκρίσιμη απόδοση με το μοντέλο οπτικής γλώσσας που βασίζεται σε κωδικοποιητή, λύνοντας ουσιαστικά τα προβλήματα ευελιξίας μεγέθους εισόδου, αποτελεσματικότητας ανάπτυξης και τροπικότητας των βασικών μοντέλων αντιστοίχισης χωρητικότητας.

Σε σύγκριση με μοντέλα με κωδικοποιητές, τα οποία είναι ευαίσθητα σε προβλήματα όπως η απλοποίηση της δομής της γλώσσας και η απώλεια πλούσιας γνώσης, το EVE έχει δείξει σταδιακή και σταθερή βελτίωση στην απόδοση καθώς αυξάνεται το μέγεθος των δεδομένων, πλησιάζοντας σταδιακά το επίπεδο απόδοσης των μοντέλων που βασίζονται σε κωδικοποιητές. Αυτό μπορεί να οφείλεται στο ότι η κωδικοποίηση και η ευθυγράμμιση οπτικών και γλωσσικών τρόπων σε ένα ενοποιημένο δίκτυο είναι πιο δύσκολη, καθιστώντας τα μοντέλα χωρίς κωδικοποιητές λιγότερο επιρρεπή σε υπερπροσαρμογή σε σχέση με μοντέλα με κωδικοποιητές.

5. Τι πιστεύουν οι συνομήλικοί σας;

Ο Ali Hatamizadeh, ανώτερος ερευνητής της NVIDIA, είπε ότι το EVE είναι αναζωογονητικό και επιχειρεί να προτείνει μια νέα αφήγηση, η οποία διαφέρει από την κατασκευή πολύπλοκων προτύπων αξιολόγησης και προοδευτικές βελτιώσεις μοντέλων οπτικής γλώσσας.

Ο Armand Joulin, κύριος ερευνητής στο Google Deepmind, είπε ότι είναι συναρπαστικό να δημιουργούμε ένα καθαρό μοντέλο οπτικής γλώσσας αποκωδικοποιητή.

Ο μηχανικός μηχανικής εκμάθησης της Apple, Prince Canuma, είπε ότι η αρχιτεκτονική EVE είναι πολύ ενδιαφέρουσα και είναι μια καλή προσθήκη στο σύνολο έργων MLX VLM.

6.Future Outlook

Ως μοντέλο μητρικής οπτικής γλώσσας χωρίς κωδικοποιητή, το EVE έχει επιτύχει προς το παρόν ενθαρρυντικά αποτελέσματα. Σε αυτό το μονοπάτι, υπάρχουν μερικές ενδιαφέρουσες κατευθύνσεις που αξίζει να εξερευνήσετε στο μέλλον:

Περαιτέρω βελτίωση της απόδοσης: Τα πειράματα διαπίστωσαν ότι η προεκπαίδευση χρησιμοποιώντας μόνο οπτικο-γλωσσικά δεδομένα μείωσε σημαντικά τη γλωσσική ικανότητα του μοντέλου (η βαθμολογία SQA μειώθηκε από 65,3% σε 63,0%), αλλά σταδιακά βελτίωσε την πολυτροπική απόδοση του μοντέλου. Αυτό δείχνει ότι υπάρχει μια εσωτερική καταστροφική λήθη της γνώσης της γλώσσας όταν ενημερώνονται μεγάλα γλωσσικά μοντέλα. Συνιστάται η κατάλληλη ενσωμάτωση δεδομένων προεκπαίδευσης καθαρής γλώσσας ή η χρήση μιας στρατηγικής μίξης ειδικών (MoE) για τη μείωση της παρέμβασης μεταξύ οπτικών και γλωσσικών τρόπων.
Το όραμα της αρχιτεκτονικής χωρίς κωδικοποιητές: Με κατάλληλες στρατηγικές και εκπαίδευση με δεδομένα υψηλής ποιότητας, τα μοντέλα οπτικής γλώσσας χωρίς κωδικοποιητές μπορούν να ανταγωνιστούν μοντέλα με κωδικοποιητές. Έτσι, με την ίδια χωρητικότητα μοντέλου και τα τεράστια δεδομένα εκπαίδευσης, ποια είναι η απόδοση των δύο; Υποθέτουμε ότι επεκτείνοντας τη χωρητικότητα του μοντέλου και την ποσότητα δεδομένων εκπαίδευσης, η αρχιτεκτονική χωρίς κωδικοποιητή μπορεί να φτάσει ή ακόμα και να ξεπεράσει την αρχιτεκτονική που βασίζεται σε κωδικοποιητή, επειδή η πρώτη εισάγει εικόνες σχεδόν χωρίς απώλειες και αποφεύγει την a priori μεροληψία του οπτικού κωδικοποιητή.
Κατασκευή εγγενών πολυτροπικών μοντέλων: Το EVE δείχνει πλήρως τον τρόπο κατασκευής εγγενών πολυτροπικών μοντέλων αποτελεσματικά και σταθερά, γεγονός που ανοίγει έναν διαφανή και εφικτό τρόπο για την ενσωμάτωση περισσότερων τρόπων (όπως ήχο, βίντεο, θερμική απεικόνιση, βάθος κ.λπ.) στο μέλλον. Η βασική ιδέα είναι να προ-ευθυγραμμιστούν αυτές οι μέθοδοι μέσω ενός παγωμένου μοντέλου μεγάλης γλώσσας πριν από την εισαγωγή μεγάλης κλίμακας ενοποιημένης εκπαίδευσης και να χρησιμοποιηθούν οι αντίστοιχοι κωδικοποιητές μονής μορφής και η ευθυγράμμιση γλωσσικών εννοιών για επίβλεψη.

Νέα

Εγκαταλείποντας τον οπτικό κωδικοποιητή, αυτό το πολυτροπικό μεγάλο μοντέλο "εγγενής έκδοση" είναι επίσης συγκρίσιμο με τις κύριες μεθόδους

Εισαγωγή

τα στοιχεία επικοινωνίας μου