τα στοιχεία επικοινωνίας μου
Ταχυδρομείο[email protected]
2024-07-16
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Η στήλη AIxiv είναι μια στήλη όπου το Machine Heart δημοσιεύει ακαδημαϊκό και τεχνικό περιεχόμενο. Τα τελευταία χρόνια, η στήλη Heart of the Machine AIxiv έχει λάβει περισσότερες από 2.000 αναφορές, που καλύπτουν κορυφαία εργαστήρια από μεγάλα πανεπιστήμια και εταιρείες σε όλο τον κόσμο, προωθώντας αποτελεσματικά τις ακαδημαϊκές ανταλλαγές και τη διάδοση. Εάν έχετε εξαιρετική δουλειά που θέλετε να μοιραστείτε, μη διστάσετε να συνεισφέρετε ή να επικοινωνήσετε μαζί μας για αναφορά. Email υποβολής: [email protected], [email protected]
Ο Diao Haiwen είναι διδακτορικός φοιτητής στο Dalian University of Technology και επιβλέπων του είναι ο καθηγητής Lu Huchuan. Επί του παρόντος εργάζεται ως ασκούμενος στο Ερευνητικό Ινστιτούτο Τεχνητής Νοημοσύνης του Beijing Zhiyuan, υπό την καθοδήγηση του Δρ. Wang Xinlong. Τα ερευνητικά του ενδιαφέροντα είναι το όραμα και η γλώσσα, η αποτελεσματική μεταφορά μεγάλων μοντέλων, τα πολυτροπικά μεγάλα μοντέλα κ.λπ. Ο συν-συγγραφέας Cui Yufeng αποφοίτησε από το Πανεπιστήμιο Beihang και είναι ερευνητής αλγορίθμων στο Vision Center του Beijing Zhiyuan Artificial Intelligence Research Institute. Τα ερευνητικά του ενδιαφέροντα είναι τα πολυτροπικά μοντέλα, τα γενετικά μοντέλα και η υπολογιστική όραση και η κύρια δουλειά του περιλαμβάνει τη σειρά Emu.
Πρόσφατα, η έρευνα για πολυτροπικά μεγάλα μοντέλα βρίσκεται σε πλήρη εξέλιξη και η βιομηχανία έχει επενδύσει όλο και περισσότερο σε αυτό. Καυτά μοντέλα έχουν κυκλοφορήσει στο εξωτερικό, όπως τα GPT-4o (OpenAI), Gemini (Google), Phi-3V (Microsoft), Claude-3V (Anthropic) και Grok-1.5V (xAI) κ.λπ. Ταυτόχρονα, εγχώρια GLM-4V (Wisdom Spectrum AI), Step-1.5V (Step Star), Emu2 (Beijing Zhiyuan), Intern-VL (Shanghai AI Laboratory), Qwen-VL (Alibaba) κ.λπ. σε πλήρη άνθιση.
Το τρέχον μοντέλο οπτικής γλώσσας (VLM) συνήθως βασίζεται στον οπτικό κωδικοποιητή (Vision Encoder, VE) για την εξαγωγή οπτικών χαρακτηριστικών και στη συνέχεια συνδυάζει τις οδηγίες χρήστη με το μοντέλο μεγάλης γλώσσας (LLM) για επεξεργασία και απάντηση οπτικός κωδικοποιητής και μεγάλη γλώσσα Μοντέλο διαχωρισμού εκπαίδευσης. Αυτός ο διαχωρισμός αναγκάζει τους οπτικούς κωδικοποιητές να εισάγουν ζητήματα μεροληψίας οπτικής επαγωγής κατά τη διασύνδεση με μεγάλα γλωσσικά μοντέλα, όπως περιορισμένη ανάλυση εικόνας και λόγο διαστάσεων και ισχυρές οπτικές σημασιολογικές προτεραιότητες. Καθώς η χωρητικότητα των οπτικών κωδικοποιητών συνεχίζει να επεκτείνεται, η αποτελεσματικότητα ανάπτυξης μεγάλων μοντέλων πολλαπλών μέσων στην επεξεργασία οπτικών σημάτων είναι επίσης πολύ περιορισμένη. Επιπλέον, ο τρόπος εύρεσης της βέλτιστης διαμόρφωσης χωρητικότητας οπτικών κωδικοποιητών και μεγάλων μοντέλων γλώσσας γίνεται όλο και πιο περίπλοκος και δύσκολος.
Σε αυτό το πλαίσιο, γρήγορα προέκυψαν μερικές πιο πρωτοποριακές ιδέες:
Η Adept AI κυκλοφόρησε τη σειρά μοντέλων Fuyu στα τέλη του 2023 και έκανε κάποιες σχετικές προσπάθειες, αλλά δεν αποκάλυψε καμία στρατηγική εκπαίδευσης, πόρους δεδομένων και πληροφορίες εξοπλισμού. Ταυτόχρονα, υπάρχει ένα σημαντικό χάσμα απόδοσης μεταξύ του μοντέλου Fuyu και των mainstream αλγορίθμων στους δείκτες αξιολόγησης δημόσιου οπτικού κειμένου. Κατά την ίδια περίοδο, ορισμένα πιλοτικά πειράματα που πραγματοποιήσαμε έδειξαν ότι ακόμη και αν η κλίμακα των δεδομένων προεκπαίδευσης αυξηθεί σε μεγάλη κλίμακα, το εγγενές πολυτροπικό μεγάλο μοντέλο χωρίς κωδικοποιητή εξακολουθεί να αντιμετωπίζει ακανθώδες προβλήματα όπως αργή ταχύτητα σύγκλισης και κακή απόδοση.
Ως απάντηση σε αυτές τις προκλήσεις, η ομάδα οράματος του Ερευνητικού Ινστιτούτου Zhiyuan συνεργάστηκε με εγχώρια πανεπιστήμια όπως το Τεχνολογικό Πανεπιστήμιο Dalian και το Πανεπιστήμιο του Πεκίνου για να λανσάρουν μια νέα γενιά οπτικού γλωσσικού μοντέλου EVE χωρίς κωδικοποιητή. Μέσω εκλεπτυσμένων στρατηγικών εκπαίδευσης και πρόσθετης οπτικής επίβλεψης, το EVE ενσωματώνει οπτικο-γλωσσική αναπαράσταση, ευθυγράμμιση και συμπέρασμα σε μια ενοποιημένη αρχιτεκτονική καθαρού αποκωδικοποιητή. Χρησιμοποιώντας δημόσια διαθέσιμα δεδομένα, το EVE έχει καλές επιδόσεις σε πολλαπλά οπτικο-γλωσσικά σημεία αναφοράς, ανταγωνίζεται τις κύριες πολυτροπικές μεθόδους που βασίζονται σε κωδικοποιητές παρόμοιας χωρητικότητας και ξεπερνώντας σημαντικά τους συναδέλφους Fuyu-8B. Το EVE προτείνεται να παρέχει μια διαφανή και αποτελεσματική διαδρομή για την ανάπτυξη εγγενών πολυτροπικών αρχιτεκτονικών για καθαρούς αποκωδικοποιητές.
1. Τεχνικά Χαρακτηριστικά
2. Δομή μοντέλου
Πρώτον, αρχικοποιείται μέσω του γλωσσικού μοντέλου Vicuna-7B, ώστε να έχει πλούσια γλωσσική γνώση και ισχυρές δυνατότητες παρακολούθησης οδηγιών. Σε αυτή τη βάση, αφαιρείται ο βαθύς οπτικός κωδικοποιητής, κατασκευάζεται ένα ελαφρύ επίπεδο οπτικής κωδικοποίησης, η είσοδος εικόνας κωδικοποιείται αποτελεσματικά και χωρίς απώλειες και εισάγεται σε έναν ενοποιημένο αποκωδικοποιητή μαζί με εντολές γλώσσας χρήστη. Επιπλέον, το επίπεδο οπτικής ευθυγράμμισης εκτελεί ευθυγράμμιση χαρακτηριστικών με έναν γενικό οπτικό κωδικοποιητή για να βελτιώσει την κωδικοποίηση και την αναπαράσταση λεπτομερών οπτικών πληροφοριών.
2.1 Επίπεδο ενσωμάτωσης ενημερωμένης έκδοσης κώδικα
2.2 Επίπεδο ευθυγράμμισης επιδιόρθωσης
3. Στρατηγική εκπαίδευσης
4. Ποσοτική ανάλυση
Το μοντέλο EVE ξεπερνά σημαντικά το παρόμοιο μοντέλο Fuyu-8B σε πολλαπλά σημεία αναφοράς οπτικών γλωσσών και αποδίδει στο ίδιο επίπεδο με μια ποικιλία μοντέλων οπτικής γλώσσας που βασίζονται σε κύριους κωδικοποιητές. Ωστόσο, λόγω της χρήσης μεγάλου όγκου οπτικών γλωσσικών δεδομένων για εκπαίδευση, υπάρχουν προκλήσεις όσον αφορά την ακριβή ανταπόκριση σε συγκεκριμένες οδηγίες και η απόδοσή του σε ορισμένες δοκιμές αναφοράς πρέπει να βελτιωθεί. Αυτό που είναι συναρπαστικό είναι ότι μέσω αποτελεσματικών στρατηγικών εκπαίδευσης, το EVE χωρίς κωδικοποιητή μπορεί να επιτύχει συγκρίσιμη απόδοση με το μοντέλο οπτικής γλώσσας που βασίζεται σε κωδικοποιητή, λύνοντας ουσιαστικά τα προβλήματα ευελιξίας μεγέθους εισόδου, αποτελεσματικότητας ανάπτυξης και τροπικότητας των βασικών μοντέλων αντιστοίχισης χωρητικότητας.
Σε σύγκριση με μοντέλα με κωδικοποιητές, τα οποία είναι ευαίσθητα σε προβλήματα όπως η απλοποίηση της δομής της γλώσσας και η απώλεια πλούσιας γνώσης, το EVE έχει δείξει σταδιακή και σταθερή βελτίωση στην απόδοση καθώς αυξάνεται το μέγεθος των δεδομένων, πλησιάζοντας σταδιακά το επίπεδο απόδοσης των μοντέλων που βασίζονται σε κωδικοποιητές. Αυτό μπορεί να οφείλεται στο ότι η κωδικοποίηση και η ευθυγράμμιση οπτικών και γλωσσικών τρόπων σε ένα ενοποιημένο δίκτυο είναι πιο δύσκολη, καθιστώντας τα μοντέλα χωρίς κωδικοποιητές λιγότερο επιρρεπή σε υπερπροσαρμογή σε σχέση με μοντέλα με κωδικοποιητές.
5. Τι πιστεύουν οι συνομήλικοί σας;
Ο Ali Hatamizadeh, ανώτερος ερευνητής της NVIDIA, είπε ότι το EVE είναι αναζωογονητικό και επιχειρεί να προτείνει μια νέα αφήγηση, η οποία διαφέρει από την κατασκευή πολύπλοκων προτύπων αξιολόγησης και προοδευτικές βελτιώσεις μοντέλων οπτικής γλώσσας.
Ο Armand Joulin, κύριος ερευνητής στο Google Deepmind, είπε ότι είναι συναρπαστικό να δημιουργούμε ένα καθαρό μοντέλο οπτικής γλώσσας αποκωδικοποιητή.
Ο μηχανικός μηχανικής εκμάθησης της Apple, Prince Canuma, είπε ότι η αρχιτεκτονική EVE είναι πολύ ενδιαφέρουσα και είναι μια καλή προσθήκη στο σύνολο έργων MLX VLM.
6.Future Outlook
Ως μοντέλο μητρικής οπτικής γλώσσας χωρίς κωδικοποιητή, το EVE έχει επιτύχει προς το παρόν ενθαρρυντικά αποτελέσματα. Σε αυτό το μονοπάτι, υπάρχουν μερικές ενδιαφέρουσες κατευθύνσεις που αξίζει να εξερευνήσετε στο μέλλον: