νέα

Δείτε μια ταινία 2 ωρών σε 4 δευτερόλεπτα! Η Alibaba κυκλοφορεί το καθολικό πολυτροπικό μοντέλο ανοιχτού κώδικα mPLUG-Owl3 |

2024-08-19

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Μετά την παρακολούθηση μιας ταινίας 2 ωρών σε 4 δευτερόλεπτα, αποκαλύφθηκαν επίσημα τα νέα επιτεύγματα της ομάδας Alibaba——

ξεδιπλώστεUniversal πολυτροπικό μεγάλο μοντέλο mPLUG-Owl3, χρησιμοποιείται ειδικά για την κατανόηση πολλών εικόνων και μεγάλων βίντεο.



Συγκεκριμένα, λαμβάνοντας το LLaVA-Next-Interleave ως σημείο αναφοράς, mPLUG-Owl3Το First Token Latency συρρικνώθηκε 6 φορές, και ο αριθμός των εικόνων που μπορούν να μοντελοποιηθούν από ένα μόνο A100 έχει αυξηθεί κατά 8 φορές, φτάνοντας400 φωτογραφίες, σύμφωνα με το πραγματικό τεστ, μπορείτε να παρακολουθήσετε μια ταινία 2 ωρών σε 4 δευτερόλεπτα.

Με άλλα λόγια, η συλλογιστική αποτελεσματικότητα του μοντέλου έχει βελτιωθεί σημαντικά.

καιΧωρίς να θυσιάζει την ακρίβεια του μοντέλου

Το mPLUG-Owl3 πέτυχε επίσης πολλά σημεία αναφοράς σε διάφορα σενάρια που εμπλέκονται σε πολυτροπικά μεγάλα μοντέλα, συμπεριλαμβανομένων πεδίων μεμονωμένης εικόνας, πολλαπλών εικόνων και βίντεο.SOTA



Ο συγγραφέας της εργασίας είναι απόΗ ομάδα Alibaba mPLUG, έχουν εμπλακεί βαθιά σε πολυτροπικές βάσεις μεγάλων μοντέλων και πριν από αυτό πρότειναν επίσης:

  • Αποτελεσματική σειρά mPLUG βάσης πολλαπλών μέσων
  • Αρθρωτό πολυτροπικό μοντέλο μεγάλης γλώσσας βάσης σειράς mPLUG-Owl
  • Βάση κατανόησης εγγράφων σειρά mPLUG-DocOwl

Ας ρίξουμε μια ματιά σε ποια μαύρη τεχνολογία φέρνει αυτή η έκδοση του mPLUG-Owl3.

Το παιχνίδι ξεκλείδωτο

Η ομάδα έδειξε αρκετές κοινές χρήσεις του mPLUG-Owl3.

Βελτίωση πολυτροπικής ανάκτησης

Σε γενικές γραμμές, είναι μια κοινή πρακτική να συμπληρώνεται η γνώση που δεν έχει μάθει το μοντέλο μέσω του συστήματος ανάκτησης. Αυτό απαιτεί από το μοντέλο να κατανοήσει με ακρίβεια την εισερχόμενη πολυτροπική γνώση και να τη χρησιμοποιήσει για να απαντήσει σε ερωτήσεις.

Στο παρακάτω παράδειγμα, το mPLUG-Owl3 όχι μόνο μπορεί να απαντήσει σωστά με βάση τις ανακτηθείσες γνώσεις, αλλά και να τις δώσειΣε ποιο κομμάτι γνώσης βασίζεται η κρίση;και παρέχει λεπτομερή βάση κρίσης. Αυτό είναι πολύ φιλικό προς το μεταγενέστερο προσωπικό Ε&Α για ανάπτυξη και εντοπισμό σφαλμάτων.

Τμήμα αναζήτησης: Παρακάτω παρατίθενται πολλές πολυτροπικές γνώσεις που ανακτήθηκαν για να λάβετε μια απόφαση.

Κάντε μια ερώτηση: Με βάση τις παρατηρήσεις σας στις τέσσερις φωτογραφίες σκύλου παραπάνω, μπορείτε να κατατάξετε τον σκύλο στην εικόνα 5; Δώστε λόγους.

απάντηση: Με βάση τις παρατηρήσεις των τεσσάρων φωτογραφιών σκύλων, ο σκύλος στην εικόνα 5 μπορεί να ταξινομηθεί ως ιρλανδικό τεριέ. Ο σκύλος στην εικόνα 1 περιγράφεται ως ιρλανδικό τεριέ και ο σκύλος στην εικόνα 5 έχει φυσικά χαρακτηριστικά παρόμοια με τον σκύλο στην εικόνα 1…



Συλλογισμός πολλαπλών γραφημάτων

Τέτοιες καταστάσεις συμβαίνουν συχνά στη ζωή——

Πολλοί χρήστες δεν κάνουν μόνο μια συζήτηση γύρω από μια εικόνα, αλλά ο χρήστης μπορεί να έχει πολλά υλικά και το μοντέλο πρέπει να μπορεί να κατανοήσει σωστά τη σχέση μεταξύ του περιεχομένου σε διαφορετικά υλικά.

Στο παρακάτω παράδειγμα, το mPLUG-Owl3 μπορεί να ενεργοποιήσει τη γνώση της κοινής λογικής του γλωσσικού μοντέλου μέσω αυτού που βλέπει σε δύο εικόνες και να αιτιολογήσει τις δύο εικόνες.

Κάντε μια ερώτηση: Μπορεί το ζώο στα αριστερά να επιβιώσει στο περιβάλλον στα δεξιά; Απαιτούνται απαντήσεις και εξηγήσεις.

απάντηση(Η σωστή απάντηση σημειώνεται με πράσινο χρώμα): Η γενική ιδέα είναι ότι δεν μπορεί να επιβιώσει επειδή το περιβάλλον είναι πολύ κρύο.



Σε ένα άλλο παράδειγμα, το mPLUG-Owl3 όχι μόνο μπορεί να ανιχνεύσει τη διαφορά στο στυλ μεταξύ δύο εικόνων, αλλά και να συνειδητοποιήσει ότι αν και οι χαρακτήρες στις δύο εικόνες έχουν διαφορετικά στυλ, στην πραγματικότητα είναι ο ίδιος χαρακτήρας.

πρώτη φορά ερώτηση: Ποια στυλ τέχνης απεικονίζονται στην εικόνα και πώς διαφέρουν;

απάντηση: Η πρώτη φωτογραφία είναι σε στυλ pixel, η δεύτερη εικόνα είναι σε στυλ καρτούν... (δώστε λόγους)

δεύτερη ερώτηση: Ποιος εμφανίζεται και στους δύο πίνακες; Ποια είναι τα χαρακτηριστικά τους;

απάντηση: Και στους δύο πίνακες εμφανίζεται ένας άντρας με καουμπόικο καπέλο και απεικονίζεται σε δύο διαφορετικά στυλ.



Μεγάλη κατανόηση βίντεο

Η παρακολούθηση πολύ μεγάλων βίντεο είναι μια εργασία που τα περισσότερα τρέχοντα μοντέλα δεν μπορούν να ολοκληρώσουν από άκρο σε άκρο Εάν βασίζεται στο πλαίσιο Agent, είναι δύσκολο να εγγυηθεί κανείς την ταχύτητα απόκρισης.

Το mPLUG-Owl3 μπορεί να παρακολουθήσει μια ταινία 2 ωρών καιΞεκινήστε να απαντάτε σε ερωτήσεις χρήστη σε 4 δευτερόλεπτα

Είτε ο χρήστης κάνει ερωτήσεις σχετικά με πολύ λεπτομερή κλιπ στην αρχή, στη μέση και στο τέλος της ταινίας, το mPLUG-Owl3 μπορεί να απαντήσει άπταιστα.



Πώς το έκανες;

Σε αντίθεση με τα παραδοσιακά μοντέλα, το mPLUG-Owl3Δεν χρειάζεται να συνδέσετε εκ των προτέρων την οπτική ακολουθία στην ακολουθία κειμένου του γλωσσικού μοντέλου

Με άλλα λόγια, ανεξάρτητα από το τι εισάγεται (δεκάδες φωτογραφίες ή ώρες βίντεο), δεν καταλαμβάνει τη χωρητικότητα ακολουθίας του μοντέλου γλώσσας, γεγονός που αποφεύγει την τεράστια υπολογιστική επιβάρυνση και τη χρήση μνήμης βίντεο που προκαλείται από μεγάλες οπτικές ακολουθίες.

Κάποιος μπορεί να ρωτήσει, πώς ενσωματώνονται οπτικές πληροφορίες στο γλωσσικό μοντέλο;



Για να επιτευχθεί αυτό, η ομάδα πρότεινε αΕλαφριά μονάδα υπερπροσοχής, το οποίο μπορεί να επεκτείνει ένα υπάρχον Transformer Block που μπορεί να μοντελοποιήσει κείμενο μόνο σε μια νέα λειτουργική μονάδα που μπορεί να κάνει τόσο αλληλεπίδραση γραφικών όσο και χαρακτηριστικών κειμένου και μοντελοποίηση κειμένου.



Διαδίδοντας αραιά σε όλο το γλωσσικό μοντέλο4Το Transformer Block, mPLUG-Owl3 μπορεί να αναβαθμίσει το LLM σε πολυτροπικό LLM με πολύ μικρό κόστος.

Αφού εξαχθούν τα οπτικά χαρακτηριστικά από τον οπτικό κωδικοποιητή, οι διαστάσεις ευθυγραμμίζονται με τις διαστάσεις του μοντέλου γλώσσας μέσω μιας απλής γραμμικής αντιστοίχισης.

Στη συνέχεια, τα οπτικά χαρακτηριστικά θα αλληλεπιδρούν μόνο με το κείμενο σε αυτά τα τέσσερα επίπεδα του Transformer Block Δεδομένου ότι το οπτικό διακριτικό δεν έχει υποστεί καμία συμπίεση, μπορούν να διατηρηθούν λεπτομερείς πληροφορίες.

Ρίξτε μια ματιά παρακάτωΠώς σχεδιάζεται η Υπερπροσοχή;

Για να επιτρέψει στο γλωσσικό μοντέλο να αντιληφθεί οπτικά χαρακτηριστικά, το Hyper Attention εισάγει αΔιασταυρούμενη ΠροσοχήΣτη λειτουργία, τα οπτικά χαρακτηριστικά χρησιμοποιούνται ως κλειδί και τιμή και η κρυφή κατάσταση του μοντέλου γλώσσας χρησιμοποιείται ως Ερώτημα για την εξαγωγή των οπτικών χαρακτηριστικών.

Τα τελευταία χρόνια, άλλες έρευνες εξέτασαν το ενδεχόμενο χρήσης Cross-Attention για πολυτροπική σύντηξη, όπως το Flamingo και το IDEFICS, αλλά αυτές οι εργασίες απέτυχαν να επιτύχουν καλή απόδοση.

Σε μια τεχνική αναφορά για το mPLUG-Owl3, η ομάδαΣυγκρίνοντας το σχέδιο του Flamingo, για να εξηγήσουμε περαιτέρω την ΥπερπροσοχήΒασικά τεχνικά σημεία



Πρώτα απ 'όλα, το Hyper Attention δεν υιοθετεί το σχέδιο του καταρράκτη Cross-Attention και Self-Attention, αλλά είναι ενσωματωμένο στο μπλοκ Self-Attention.

Το πλεονέκτημά του είναι ότι μειώνει σημαντικά τον αριθμό των πρόσθετων νέων παραμέτρων που εισάγονται, καθιστώντας το μοντέλο ευκολότερο στην εκπαίδευση και η αποτελεσματικότητα εκπαίδευσης και συμπερασμάτων μπορεί να βελτιωθεί περαιτέρω.

Δεύτερον, επιλογή ΥπερπροσοχήLayerNorm για μοντέλα κοινής γλώσσας, επειδή η έξοδος διανομής από το LayerNorm είναι η σταθερή κατανομή που έχει εκπαιδευτεί από το επίπεδο Προσοχή Η κοινή χρήση αυτού του επιπέδου είναι ζωτικής σημασίας για τη σταθερή εκμάθηση του πρόσφατα εισαγόμενου Cross-Attention.

Στην πραγματικότητα, το Hyper Attention υιοθετεί μια παράλληλη στρατηγική Cross-Attention και Self-Attention, χρησιμοποιώντας ένα κοινό Query για να αλληλεπιδράσει με οπτικά χαρακτηριστικά και ενσωματώνοντας τις δύο λειτουργίες μέσω μιας Adaptive Gate.

Αυτό επιτρέπει στο Query να επιλέγει επιλεκτικά σχετικά οπτικά χαρακτηριστικά με βάση τη δική του σημασιολογία.

Ανακάλυψη ομάδας, εικόνασχετική θέση με το κείμενο στο αρχικό πλαίσιοΕίναι πολύ σημαντικό για το μοντέλο να κατανοήσει καλύτερα την εισαγωγή πολλαπλών τρόπων.

Προκειμένου να μοντελοποιήσουν αυτήν την ιδιότητα, εισήγαγαν μια πολυτροπική θέση περιστροφής που κωδικοποιεί το MI-Rope για να μοντελοποιήσει τις πληροφορίες θέσης για το οπτικό κλειδί.

Συγκεκριμένα, προ-ηχογραφούσαν τις πληροφορίες θέσης κάθε εικόνας στο αρχικό κείμενο και χρησιμοποίησαν αυτή τη θέση για να υπολογίσουν την αντίστοιχη ενσωμάτωση Σχοινιού και κάθε μπάλωμα της ίδιας εικόνας θα μοιράζεται αυτήν την ενσωμάτωση.

Επιπλέον, κάνουν και Cross-AttentionΠαρουσιάζεται μάσκα προσοχής, έτσι ώστε το κείμενο πριν από την εικόνα στο αρχικό περιβάλλον να μην μπορεί να δει τα χαρακτηριστικά που αντιστοιχούν στις επόμενες εικόνες.

Συνοπτικά, αυτά τα σημεία σχεδίασης του Hyper Attention έχουν φέρει περαιτέρω βελτιώσεις στην απόδοση στο mPLUG-Owl3 και διασφάλισαν ότι μπορεί να έχει ακόμα πρώτης τάξεως δυνατότητες πολλαπλών μεταφορών.



Πειραματικά αποτελέσματα

Διεξάγοντας πειράματα σε ένα ευρύ φάσμα συνόλων δεδομένων, το mPLUG-Owl3Τα περισσότερα πολυτροπικά σημεία αναφοράς μιας εικόναςΌλοι μπορούν να επιτύχουν αποτελέσματα SOTA και πολλές δοκιμές μπορούν να ξεπεράσουν ακόμη και μοντέλα με μεγαλύτερα μεγέθη μοντέλων.



συγχρόνως,Στην αξιολόγηση πολλαπλών εικόνων, το mPLUG-Owl3 ξεπέρασε επίσης τα LLAVA-Next-Interleave και Mantis, τα οποία είναι ειδικά βελτιστοποιημένα για σκηνές πολλαπλών εικόνων.



Επιπλέον, στο LongVideoBench (52,1 βαθμοί), ένα εξειδικευμένο μοντέλο αξιολόγησηςΚατανόηση μεγάλων βίντεοΞεπερνά τα υπάρχοντα μοντέλα στη λίστα.



Η ομάδα Ε&Α πρότεινε επίσης ένα ενδιαφέρονΜέθοδος αξιολόγησης μακράς οπτικής ακολουθίας

Όπως όλοι γνωρίζουμε, σε πραγματικά σενάρια αλληλεπίδρασης ανθρώπου-υπολογιστή, δεν εξυπηρετούν όλες οι εικόνες προβλήματα του χρήστη.

Για την αξιολόγηση της απόδοσης του μοντέλου σε εισόδους μακράς οπτικής ακολουθίαςΙκανότητα κατά των παρεμβολών, έχτισαν ένα με βάση το MMBench-devΝέο σύνολο δεδομένων αξιολόγησης

Με την εισαγωγή άσχετων εικόνων για κάθε δείγμα αξιολόγησης του κύκλου MMBench και τη διατάραξη της σειράς των εικόνων, τίθενται στη συνέχεια ερωτήσεις σχετικά με τις αρχικές εικόνες για να διαπιστωθεί εάν το μοντέλο μπορεί να ανταποκριθεί σωστά και σταθερά. (Για την ίδια ερώτηση, θα κατασκευαστούν τέσσερα δείγματα με διαφορετική σειρά επιλογών και εικόνες παρεμβολών και μόνο μία σωστή απάντηση θα καταγραφεί εάν απαντηθούν όλα σωστά.)

Το πείραμα χωρίζεται σε πολλαπλά επίπεδα ανάλογα με τον αριθμό των εικόνων εισόδου.

Μπορεί να φανεί ότι μοντέλα χωρίς εκπαίδευση πολλαπλών γραφημάτων όπως το Qwen-VL και το mPLUG-Owl2 απέτυχαν γρήγορα.



Τα LLAVA-Next-Interleave και Mantis, τα οποία έχουν εκπαιδευτεί με πολλές εικόνες, μπορούν να διατηρήσουν παρόμοια καμπύλη εξασθένησης με το mPLUG-Owl3 στην αρχή, αλλά καθώς ο αριθμός των εικόνων φτάνει50Σε αυτό το μέγεθος, αυτά τα μοντέλα δεν μπορούν πλέον να απαντήσουν σωστά.

Και το mPLUG-Owl3 παρέμεινε400 φωτογραφίεςΜπορεί ακόμα να διατηρηθεί40% ακρίβεια

Ωστόσο, υπάρχει ένα πράγμα που πρέπει να πούμε Αν και το mPLUG-Owl3 ξεπερνά τα υπάρχοντα μοντέλα, η ακρίβειά του απέχει πολύ από το να φτάσει σε ένα εξαιρετικό επίπεδο. να βελτιωθεί περαιτέρω στο μέλλον.

Για περισσότερες λεπτομέρειες, ανατρέξτε στο χαρτί και τον κωδικό.