το μοντέλο οπτικής γλώσσας δεύτερης γενιάς alibaba cloud tongyi qianwen qwen2-vl είναι open source

alibaba cloud tongyi qianwen qwen2-vl δεύτερης γενιάς μοντέλο οπτικής γλώσσας ανοιχτού κώδικα

2024-09-02

το it house ανέφερε στις 2 σεπτεμβρίου ότι η alibaba cloud tongyi qianwen ανακοίνωσε σήμερα τον ανοιχτό κώδικα του μοντέλου οπτικής γλώσσας δεύτερης γενιάς qwen2-vl και κυκλοφόρησε δύο μεγέθη 2β και 7β και το μοντέλο της ποσοτικοποιημένης έκδοσης. ταυτόχρονα, το api του εμβληματικού μοντέλου qwen2-vl-72b έχει κυκλοφορήσει στην πλατφόρμα alibaba cloud bailian και οι χρήστες μπορούν να το καλούν απευθείας.

σύμφωνα με την επίσημη εισαγωγή του alibaba cloud, σε σύγκριση με το μοντέλο προηγούμενης γενιάς, η βασική απόδοση του qwen2-vl έχει βελτιωθεί πλήρως:

μπορεί να κατανοήσει εικόνες διαφορετικών αναλύσεων και αναλογιών διαστάσεων, επιτυγχάνοντας κορυφαίες επιδόσεις παγκοσμίως σε δοκιμές αναφοράς όπως το docvqa, το realworldqa και το mtvqa.

κατανοήστε μεγάλα βίντεο διάρκειας άνω των 20 λεπτών και υποστηρίξτε εφαρμογές q&a, διαλόγους, δημιουργία περιεχομένου και άλλες εφαρμογές που βασίζονται σε βίντεο.

διαθέτει ισχυρές δυνατότητες οπτικής νοημοσύνης και μπορεί να χειριστεί κινητά τηλέφωνα και ρομπότ αυτόνομα με πολύπλοκες δυνατότητες συλλογιστικής και λήψης αποφάσεων, το qwen2-vl μπορεί να ενσωματωθεί σε κινητά τηλέφωνα, ρομπότ και άλλες συσκευές για να εκτελεί αυτόματες λειτουργίες με βάση το οπτικό περιβάλλον και τις οδηγίες κειμένου. ;

κατανοήστε πολύγλωσσο κείμενο σε εικόνες και βίντεο, συμπεριλαμβανομένων των κινεζικών, των αγγλικών, των περισσότερων ευρωπαϊκών γλωσσών, των ιαπωνικών, κορεατικών, αραβικών, βιετναμέζων και άλλων.

το qwen2-vl συνεχίζει τη δομή της σειράς του vit plus qwen2 τα μοντέλα τριών μεγεθών χρησιμοποιούν όλα κλίμακας 600m vit για την υποστήριξη ενοποιημένης εισαγωγής εικόνων και βίντεο.

αλλά για να επιτρέψει στο μοντέλο να αντιλαμβάνεται οπτικές πληροφορίες και να κατανοεί τα βίντεο πιο καθαρά, η ομάδα έκανε ορισμένες αναβαθμίσεις στην αρχιτεκτονική:

πρώτον, επιτυγχάνεται πλήρης υποστήριξη για εγγενή δυναμική ανάλυση. διαφορετικό από το μοντέλο προηγούμενης γενιάς, το qwen2-vl μπορεί να χειριστεί την εισαγωγή εικόνας οποιασδήποτε ανάλυσης. αυτός ο σχεδιασμός προσομοιώνει τον φυσικό τρόπο της ανθρώπινης οπτικής αντίληψης, εξασφαλίζει υψηλό βαθμό συνέπειας μεταξύ της εισαγωγής του μοντέλου και των πληροφοριών της αρχικής εικόνας και δίνει στο μοντέλο την ισχυρή ικανότητα να επεξεργάζεται εικόνες οποιουδήποτε μεγέθους, επιτρέποντάς του να εκτελεί την επεξεργασία εικόνας πιο ευέλικτα και αποτελεσματικά.

το δεύτερο είναι να χρησιμοποιήσετε τη μέθοδο ενσωμάτωσης θέσης περιστροφής πολλαπλών τρόπων (m-rope). η παραδοσιακή ενσωμάτωση θέσης περιστροφής μπορεί να καταγράψει μόνο τις πληροφορίες θέσης μονοδιάστατων ακολουθιών το m-rope επιτρέπει σε μοντέλα γλώσσας μεγάλης κλίμακας να συλλαμβάνουν και να ενσωματώνουν ταυτόχρονα τις πληροφορίες θέσης μονοδιάστατων ακολουθιών κειμένου, δισδιάστατων οπτικών εικόνων και τρισδιάστατων. βίντεο, δίνοντας στο μοντέλο γλώσσας ισχυρές δυνατότητες πολυτροπικής επεξεργασίας και συλλογισμού, επιτρέπουν στα μοντέλα να κατανοούν καλύτερα και να μοντελοποιούν πολύπλοκα πολυτροπικά δεδομένα.

το api του εμβληματικού μοντέλου qwen2-vl-72b μεταξύ των πολλαπλών μοντέλων που έχει ανοιχτού κώδικα το qwen2-vl αυτή τη φορά έχει κυκλοφορήσει στην πλατφόρμα alibaba cloud bailian και οι χρήστες μπορούν να καλούν απευθείας το api μέσω της πλατφόρμας alibaba cloud bailian.

ταυτόχρονα, η ομάδα tongyi qianwen έχει ανοιχτού κώδικα qwen2-vl-2b και qwen2-vl-7b υπό το πρωτόκολλο apache 2.0 ο ανοιχτός κώδικας έχει ενσωματωθεί σε hugging face transformers, vllm και άλλα πλαίσια τρίτων. οι προγραμματιστές μπορούν να κατεβάσουν και να χρησιμοποιήσουν το μοντέλο μέσω του hugging face και του moda modelscope ή να χρησιμοποιήσουν το μοντέλο μέσω της κύριας σελίδας διαλόγου του επίσημου ιστότοπου tongyi και της εφαρμογής tongyi.

νέα

alibaba cloud tongyi qianwen qwen2-vl δεύτερης γενιάς μοντέλο οπτικής γλώσσας ανοιχτού κώδικα

εισαγωγή

τα στοιχεία επικοινωνίας μου