Τα στοιχεία επικοινωνίας μου
Ταχυδρομείο[email protected]
2024-08-14
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Αναφορά Machine Heart
Τμήμα Σύνταξης Machine Heart
Υπάρχουν και πάλι καλά νέα στο πεδίο ανοιχτού κώδικα.
Τα μεγάλα γλωσσικά μοντέλα (LLM) έχουν υποστεί σημαντική εξέλιξη και πρόσφατα, γίναμε επίσης μάρτυρες μιας έκρηξης στα πολυτροπικά μοντέλα μεγάλων γλωσσών (MLLMs), τα οποία παρουσιάζουν εκπληκτικές πολυτροπικές δυνατότητες.
Συγκεκριμένα, η εμφάνιση του GPT-4o έχει προωθήσει σημαντικά την ανάπτυξη του πεδίου MLLM. Ωστόσο, τα μοντέλα ανοιχτού κώδικα που αντιστοιχούν σε αυτά τα μοντέλα είναι σημαντικά ανεπαρκή. Η επείγουσα ανάγκη για την κοινότητα ανοιχτού κώδικα να προχωρήσει περαιτέρω το πεδίο δεν μπορεί να υπερεκτιμηθεί.
Σε αυτό το άρθρο, ερευνητές από το Tencent Youtu Lab και άλλα ιδρύματα προτείνουν το VITA, το οποίο είναι το πρώτο ανοιχτού κώδικα πολυτροπικό μοντέλο μεγάλης γλώσσας (MLLM), το οποίο μπορεί να επεξεργάζεται και να αναλύει τρόπους βίντεο, εικόνας, κειμένου και ήχου ταυτόχρονα Ταυτόχρονα, διαθέτει μια προηγμένη πολυτροπική διαδραστική εμπειρία.
Οι ερευνητές χρησιμοποίησαν το Mixtral 8×7B ως γλωσσική βάση, στη συνέχεια επέκτειναν το κινεζικό του λεξιλόγιο και βελτίωσαν τις δίγλωσσες οδηγίες. Επιπλέον, οι ερευνητές προίκισαν περαιτέρω το γλωσσικό μοντέλο με οπτικές και ακουστικές δυνατότητες μέσω της εκμάθησης πολλαπλών εργασιών σε δύο στάδια της ευθυγράμμισης πολλαπλών τρόπων και της τελειοποίησης των οδηγιών.
Το VITA επιδεικνύει ισχυρές ικανότητες κατανόησης πολλαπλών γλωσσών, οπτικής και ακουστικής κατανόησης, όπως αποδεικνύεται από την εξαιρετική απόδοσή του σε μονότροπα και πολυτροπικά σημεία αναφοράς.
Εκτός από τις βασικές δυνατότητες, αυτή η έρευνα έχει επίσης σημειώσει μεγάλη πρόοδο στη βελτίωση της φυσικής πολυτροπικής εμπειρίας αλληλεπίδρασης ανθρώπου-υπολογιστή. Από όσο γνωρίζουμε, αυτή είναι η πρώτη μελέτη που εκμεταλλεύεται αλληλεπιδράσεις και διακοπές ήχου στο MLLM. Οι ερευνητές σχεδίασαν επίσης πρόσθετα διακριτικά κατάστασης και αντίστοιχα δεδομένα εκπαίδευσης και στρατηγικές για να αντιληφθούν διάφορα σενάρια αλληλεπίδρασης.
Το VITA αναπτύσσεται χρησιμοποιώντας μια προσέγγιση διπλής όψης, με ένα μοντέλο να είναι υπεύθυνο για τη δημιουργία απαντήσεων σε ερωτήματα των χρηστών και ένα άλλο μοντέλο να παρακολουθεί συνεχώς τις εισροές του περιβάλλοντος. Αυτό δίνει στο VITA εντυπωσιακές δυνατότητες αλληλεπίδρασης ανθρώπου-υπολογιστή.
Το VITA είναι το πρώτο βήμα για την κοινότητα ανοιχτού κώδικα για να εξερευνήσει την απρόσκοπτη ενσωμάτωση της πολυτροπικής κατανόησης και αλληλεπίδρασης. Ενώ υπάρχει ακόμη πολλή δουλειά που πρέπει να γίνει για το VITA για να προσεγγίσουμε τα αντίστοιχα κλειστού κώδικα, η μελέτη ελπίζει ότι ο ρόλος του VITA ως πρωτοπόρος μπορεί να χρησιμεύσει ως ακρογωνιαίος λίθος για μετέπειτα έρευνα.
视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==∣=2650930230&idx=4&sn=9438b7c9c53ffa71dc8ffm38b38b38b38b38b38b38b38b38b38b4b38b4b38b38b38b38b38b38b38b38b4000 5ede2b21d694dde6ee5d90c364b94e53f09728faef1db5b5524cd4dbe49dee&token=2010422951⟨=zh_CN#rd
Στο παραπάνω βίντεο, οι χρήστες μπορούν να επικοινωνούν χωρίς φραγμούς με το VITA Αφού δει το λευκό μπλουζάκι που φοράει, θα του δοθεί το χρώμα του παντελονιού όταν του ζητηθεί μια μαθηματική ερώτηση σε πραγματικό χρόνο και να δώσεις ακριβείς απαντήσεις όταν μιλάς με άλλους, επειδή γνωρίζει ότι ο χρήστης δεν επικοινωνεί μαζί του κατά τη διάρκεια της διαδικασίας της εξόδου VITA, μπορείτε επίσης να διακόψετε μια συνομιλία σε πραγματικό χρόνο και να ξεκινήσετε ένα άλλο θέμα.
视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==∣=2650930230&idx=4&sn=9438b7c9c53ffa71dc8ffm38b38b38b38b38b38b38b38b38b38b4b38b4b38b38b38b38b38b38b38b38b4000 5ede2b21d694dde6ee5d90c364b94e53f09728faef1db5b5524cd4dbe49dee&token=2010422951⟨=zh_CN#rd
Σε αυτό το βίντεο, ο χρήστης κρατά ένα μπισκότο και ρωτά VITA τι τρώει, του λέει ότι τρώει μπισκότα και προτείνει ότι τα μπισκότα έχουν καλύτερη γεύση με γάλα ή τσάι.
Όταν γυμνάζεστε, χρησιμεύστε ως συνεργάτης συνομιλίας σας:
视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==∣=2650930230&idx=4&sn=9438b7c9c53ffa71dc8ffm38b38b38b38b38b38b38b38b38b38b4b38b4b38b38b38b38b38b38b38b38b4000 5ede2b21d694dde6ee5d90c364b94e53f09728faef1db5b5524cd4dbe49dee&token=2010422951⟨=zh_CN#rd
Σημείωση: Τα παραπάνω βίντεο παίζονται σε πραγματικό χρόνο με ταχύτητα 1x και δεν έχουν επιταχυνθεί.
Με βάση το διάγραμμα ροής που παρέχεται από τον χρήστη, το VITA μπορεί να γράψει κώδικα:
Δώστε μια εικόνα και το VITA μπορεί επίσης να απαντήσει σε ερωτήσεις με βάση το περιεχόμενο της εικόνας:
Μπορείτε επίσης να παρακολουθήσετε βίντεο και να απαντήσετε σε ερωτήσεις Όταν οι χρήστες κάνουν την ερώτηση "Περιγράψτε τις κινήσεις του σκύλου λεπτομερώς", το VITA μπορεί επίσης να δώσει ακριβείς απαντήσεις:
Εισαγωγή μεθόδου
Όπως φαίνεται στο Σχήμα 3, η συνολική διαδικασία εκπαίδευσης του VITA περιλαμβάνει τρία στάδια: λεπτομέρεια εντολών LLM, ευθυγράμμιση πολλαπλών τρόπων και μικρορύθμιση εντολών πολλαπλών τρόπων.
Βελτιστοποίηση οδηγιών LLM
Η απόδοση του Mixtral 8x7B είναι μεταξύ των κορυφαίων LLM ανοιχτού κώδικα, επομένως χρησιμοποιήθηκε ως βάση για αυτήν τη μελέτη. Ωστόσο, οι ερευνητές παρατήρησαν ότι το επίσημο μοντέλο Mixtral έχει περιορισμένη ικανότητα κατανόησης των κινεζικών. Για να εισαγάγει τις δυνατότητες κατανόησης δίγλωσσων (κινέζικα και αγγλικά), η μελέτη επέκτεινε το κινεζικό λεξιλόγιο στο βασικό μοντέλο, αυξάνοντας το λεξιλόγιο από 32.000 σε 51.747. Μετά την επέκταση του λεξιλογίου, οι ερευνητές χρησιμοποίησαν ένα συνθετικό δίγλωσσο σώμα 5 εκατομμυρίων για να τελειοποιήσουν τις οδηγίες απλού κειμένου.
Πολυτροπική ευθυγράμμιση
Για να γεφυρωθεί το χάσμα αναπαράστασης μεταξύ κειμένου και άλλων τρόπων, θέτοντας έτσι τα θεμέλια για πολυτροπική κατανόηση. Οι οπτικοί σύνδεσμοι εκπαιδεύονται μόνο κατά τη φάση οπτικής ευθυγράμμισης. Ο Πίνακας 1 συνοψίζει τα δεδομένα εκπαίδευσης που χρησιμοποιήθηκαν, εκτός από το τμήμα απλού κειμένου.
οπτική τροπικότητα
Το πρώτο είναι ο οπτικός κωδικοποιητής. Οι ερευνητές χρησιμοποίησαν το InternViT-300M-448px ως οπτικό κωδικοποιητή, ο οποίος πήρε μια εικόνα με ανάλυση 448×448 ως είσοδο και δημιούργησε 256 διακριτικά αφού χρησιμοποίησε έναν οπτικό σύνδεσμο ως απλό MLP δύο επιπέδων. Για εισαγωγή εικόνας υψηλής ανάλυσης, οι ερευνητές χρησιμοποιούν στρατηγικές δυναμικής επιδιόρθωσης για να καταγράψουν τοπικές λεπτομέρειες.
Το βίντεο θεωρείται ειδική περίπτωση χρήσης για εικόνες. Εάν η διάρκεια του βίντεο είναι μικρότερη από 4 δευτερόλεπτα, θα γίνει ομοιόμορφη δειγματοληψία 4 καρέ ανά δευτερόλεπτο. Εάν η διάρκεια του βίντεο είναι μεταξύ 4 δευτερολέπτων και 16 δευτερολέπτων, γίνεται δειγματοληψία ενός καρέ κάθε δευτερόλεπτο. Για βίντεο διάρκειας άνω των 16 δευτερολέπτων, γίνεται ομοιόμορφη δειγματοληψία 16 καρέ.
Το δεύτερο είναι η οπτική ευθυγράμμιση. Εκπαιδεύσαμε τον οπτικό σύνδεσμο μόνο κατά τη φάση οπτικής ευθυγράμμισης και δεν χρησιμοποιήσαμε ερωτήσεις ήχου κατά τη διάρκεια αυτής της φάσης.
Τέλος, υπάρχει καταρράκτη δεδομένων. Για δεδομένα απλού κειμένου και δεδομένα εικόνας, αυτή η έρευνα στοχεύει να συνδέσει το μήκος του περιβάλλοντος σε 6K διακριτικά, όπως φαίνεται στο Σχήμα 4. Αξίζει να σημειωθεί ότι τα δεδομένα βίντεο δεν συνδέονται.
Η καταρράκτη ανόμοια δεδομένα έχει δύο πλεονεκτήματα:
Επιπλέον, η μελέτη διαπίστωσε ότι τα μοντέλα που εκπαιδεύτηκαν χρησιμοποιώντας διαδοχικά δεδομένα είχαν συγκρίσιμες επιδόσεις με μοντέλα που εκπαιδεύτηκαν με χρήση ακατέργαστων δεδομένων.
ηχητική λειτουργία
Στη μία πλευρά είναι ο κωδικοποιητής ήχου. Ο ήχος εισόδου υφίσταται αρχικά επεξεργασία μέσω ενός μπλοκ φίλτρου Mel, το οποίο αποσυνθέτει το ηχητικό σήμα σε μεμονωμένες ζώνες συχνοτήτων εντός του εύρους συχνοτήτων mel, μιμούμενος τη μη γραμμική ανθρώπινη αντίληψη του ήχου. Στη συνέχεια, οι ερευνητές χρησιμοποίησαν ένα στρώμα μείωσης δειγματοληψίας 4×CNN και έναν μετασχηματιστή 24 επιπέδων, με συνολικά 341 εκατομμύρια παραμέτρους, για να επεξεργαστούν τα χαρακτηριστικά εισόδου. Επίσης χρησιμοποιούν ένα απλό MLP δύο επιπέδων ως τροπικό σύνδεσμο ήχου-κειμένου. Τέλος, κάθε 2 δευτερόλεπτα εισόδου ήχου κωδικοποιείται σε 25 διακριτικά.
Μια άλλη πτυχή είναι η ευθυγράμμιση ήχου. Για την εργασία ευθυγράμμισης, οι ερευνητές χρησιμοποίησαν την αυτόματη αναγνώριση ομιλίας (ASR). Τα σύνολα δεδομένων περιλαμβάνουν το Wenetspeech (με περισσότερες από 10.000 ώρες δεδομένων αναγνώρισης ομιλίας πολλών τομέων, κυρίως εστιασμένες σε κινεζικές εργασίες) και το Gigaspeech (με 10.000 ώρες δεδομένων ήχου υψηλής ποιότητας, τα περισσότερα από τα οποία προσανατολίζονται σε εργασίες αναγνώρισης ομιλίας στα αγγλικά). Για την εργασία υποτίτλων ήχου, οι ερευνητές χρησιμοποίησαν το υποσύνολο AudioSet SL των Wavcaps, το οποίο περιέχει 400k ηχητικά κλιπ με αντίστοιχους υπότιτλους ήχου. Κατά τη διαδικασία ευθυγράμμισης, εκπαιδεύονται τόσο οι κωδικοποιητές ήχου όσο και οι υποδοχές σύνδεσης.
Πολυτροπική λεπτομέρεια εντολών
Η μελέτη προσάρμοσε το μοντέλο για να ενισχύσει την ικανότητά του να ακολουθεί οδηγίες, είτε κείμενο είτε ήχο.
Κατασκευή δεδομένων. Οι πηγές δεδομένων για τη φάση συντονισμού εντολών είναι οι ίδιες με αυτές για τη φάση ευθυγράμμισης στον Πίνακα 1, αλλά αυτή η μελέτη έκανε τις ακόλουθες βελτιώσεις:
Οι ερωτήσεις αντικαθίστανται τυχαία (περίπου οι μισές) με τις ηχητικές τους εκδόσεις (χρησιμοποιώντας τεχνολογία TTS, όπως το GPT-SoVITS6), με στόχο να βελτιωθεί η κατανόηση του μοντέλου των ερωτημάτων ήχου και η ικανότητά του να ακολουθεί οδηγίες.
Ορίστε διαφορετικές προτροπές συστήματος για να αποφύγετε τις συγκρούσεις μεταξύ διαφορετικών τύπων δεδομένων, όπως φαίνεται στον Πίνακα 2. Για παράδειγμα, ορισμένες ερωτήσεις μπορούν να απαντηθούν με βάση οπτικές πληροφορίες ή με βάση τις γνώσεις του ίδιου του μοντέλου, οδηγώντας σε συγκρούσεις. Επιπλέον, τα δεδομένα εικόνας έχουν επιδιορθωθεί, παρόμοια με τα δεδομένα βίντεο πολλαπλών καρέ, γεγονός που μπορεί να προκαλέσει σύγχυση στο μοντέλο. Η προτροπή συστήματος διακρίνει ρητά τους διαφορετικούς τύπους δεδομένων, κάτι που βοηθά στην πιο διαισθητική κατανόηση.
Προκειμένου να πραγματοποιηθούν δύο διαδραστικές λειτουργίες, δηλαδή η αλληλεπίδραση χωρίς αφύπνιση και η αλληλεπίδραση διακοπής ήχου, αυτή η μελέτη προτείνει ένα πλαίσιο ανάπτυξης διπλής όψης, δηλαδή, δύο μοντέλα VITA αναπτύσσονται ταυτόχρονα, όπως φαίνεται στο Σχήμα 1.
Συνήθως, ένα μοντέλο παραγωγής απαντά σε ερωτήματα χρήστη. Ταυτόχρονα, το μοντέλο παρακολούθησης ανιχνεύει περιβαλλοντικούς ήχους κατά τη διαδικασία παραγωγής. Αγνοεί τις φωνές των χρηστών που δεν έχουν ερωτήματα, αλλά σταματά την πρόοδο της δημιουργίας του μοντέλου όταν αναγνωρίζεται ήχος ερωτήματος. Στη συνέχεια, το μοντέλο παρακολούθησης ενσωματώνει το ιστορικό πλαίσιο και απαντά στα πιο πρόσφατα ερωτήματα των χρηστών και οι ταυτότητες των μοντέλων δημιουργίας και παρακολούθησης αλλάζουν.
Πειραματική αξιολόγηση
γλωσσική απόδοση. Προκειμένου να επαληθεύσουν την αποτελεσματικότητα της διαδικασίας εκπαίδευσης γλωσσικού μοντέλου, οι ερευνητές χρησιμοποίησαν τέσσερα σύνολα δεδομένων, συγκεκριμένα C-EVAL, AGIEVAL, MMLU και GSM8K. Αυτά τα σύνολα δεδομένων καλύπτουν μια ποικιλία σεναρίων, συμπεριλαμβανομένων γενικών ερωτήσεων πολλαπλής επιλογής, ερωτήσεων κουίζ πολλαπλών ειδικοτήτων και μαθηματικών και λογικών εργασιών συλλογισμού, που καλύπτουν τόσο κινεζικά όσο και αγγλικά πλαίσια.
Τα αποτελέσματα στον Πίνακα 3 παρακάτω δείχνουν ότι η εκπαίδευση σε αυτό το άρθρο ενισχύει σημαντικά την ικανότητα του γλωσσικού μοντέλου στο κινεζικό σύνολο αξιολόγησης (C-EVAL και AGIEVAL), ενώ διατηρεί το αρχικό επίπεδο απόδοσης στο κριτήριο αναφοράς που σχετίζεται με τα αγγλικά (MMLU) και βελτίωση του μαθηματικού συλλογισμού Έχει επιτευχθεί σημαντική βελτίωση στην εργασία (GSM8K).
ηχητική απόδοση. Προκειμένου να επαληθευτεί η ευρωστία της αναπαράστασης ομιλίας που έμαθε το μοντέλο, οι ερευνητές πραγματοποίησαν δοκιμές σε δύο σύνολα δεδομένων: Wenetspeech και Librispeech.
Μεταξύ αυτών, το Wenetspeech έχει δύο δείκτες αξιολόγησης, δηλαδή το test_net και το test_meeting. Ως το συγκρατημένο σύνολο δεδομένων του μοντέλου, το Librispeech αξιολογεί την ικανότητα γενίκευσης του μοντέλου σε μη ορατά σύνολα αξιολόγησης. Αυτό που ξεκινά με "dev" είναι το σύνολο επαλήθευσης. είναι το σετ δοκιμών, το "Καθαρό" αντιπροσωπεύει ένα λιγότερο απαιτητικό σύνολο και το "άλλο" αντιπροσωπεύει ένα πιο απαιτητικό σύνολο.
Όπως φαίνεται από τα αποτελέσματα στον Πίνακα 4 παρακάτω, το VITA πέτυχε πολύ καλά αποτελέσματα στη δοκιμή αναφοράς ASR.
Πολυτροπική απόδοση. Για την αξιολόγηση των πολλαπλών δυνατοτήτων, η μελέτη αξιολόγησε το VITA σε τέσσερα σημεία αναφοράς, συμπεριλαμβανομένων των MME, OCRBench, HallusionBench και Video-MME. Τα αποτελέσματα φαίνονται στο Σχήμα 5.
Όσον αφορά την κατανόηση της εικόνας, το VITA είναι καλύτερο από το μοντέλο ανοιχτού κώδικα LLaVA-Next για συγκεκριμένη εικόνα και κοντά στο μοντέλο κλειστού κώδικα Gemini 1.5 Pro.
Όσον αφορά την κατανόηση βίντεο, το VITA ξεπερνά το Video-CCAM, ένα μοντέλο βίντεο ανοιχτού κώδικα. Αν και υπάρχει ένα κενό μεταξύ του VITA και του LLaVA-Next-Video που είναι ειδικά για βίντεο, αυτό είναι αποδεκτό δεδομένου ότι το VITA υποστηρίζει ένα ευρύτερο φάσμα τρόπων και δίνει προτεραιότητα στη διαδραστικότητα.
Τέλος, αξίζει να σημειωθεί ότι εξακολουθεί να υπάρχει μεγάλο κενό στις δυνατότητες κατανόησης βίντεο μεταξύ μοντέλων ανοιχτού κώδικα και ιδιόκτητων μοντέλων.