Το AI μπορεί επίσης να "ανανεώσει το TikTok"! Το Πανεπιστήμιο Tsinghua πρωτοστατεί στην κυκλοφορία ενός νέου μοντέλου για σύντομο βίντεο ICML 2024

2024-07-31

Νέα Έκθεση Σοφίας

Επιμέλεια: LRST Τόσο υπνηλία

[Εισαγωγή στη Νέα Σοφία] Τα μοντέλα μεγάλων γλωσσών ήχου και βίντεο συχνά αποτυγχάνουν να παίξουν πλήρως τον ρόλο της ομιλίας κατά την επεξεργασία περιεχομένου βίντεο. Το μοντέλο video-SALMONN καινοτομεί μέσω τριών τμημάτων: κωδικοποίηση ήχου και βίντεο και χρονική ευθυγράμμιση, αιτιατό Q-Former πολλαπλής ανάλυσης, λειτουργία απώλειας διαφοροποίησης και εκπαίδευση δεδομένων μεικτής μη ζεύξης ήχου και βίντεο. Το μοντέλο όχι μόνο αποδίδει καλά σε εργασίες μεμονωμένων τρόπων, αλλά επιδεικνύει επίσης εξαιρετική απόδοση σε κοινές οπτικοακουστικές εργασίες, αποδεικνύοντας την πληρότητα και την ακρίβειά του.

Εάν θέλετε να κατανοήσετε σύντομα βίντεο, εκτός από το οπτικό περιεχόμενο, οι ακουστικές πληροφορίες όπως η φωνή και ο ήχος, όπως η μουσική βίντεο, τα ηχητικά εφέ, το φωνητικό περιεχόμενο κ.λπ., παίζουν επίσης βασικό ρόλο στην κατανόηση σύντομων βίντεο.

Τα οπτικοακουστικά μοντέλα μεγάλων γλωσσών (av-LLM) έχουν σημειώσει σημαντική πρόοδο τα τελευταία χρόνια, αλλά η ομιλία, ως ο κύριος φορέας της ανθρώπινης γλώσσας στα βίντεο, δεν έχει ακόμη διερευνηθεί πλήρως σε αυτά τα μοντέλα. Η ομιλία όχι μόνο παρέχει πλούσιες γλωσσικές και σημασιολογικές πληροφορίες, αλλά βοηθά επίσης στην κατανόηση του συναισθήματος και της υποκείμενης σημασίας στο βίντεο.

Ταυτόχρονα, τα σήματα ομιλίας περιέχουν επίσης πλούσιες παραγλωσσικές πληροφορίες, όπως το ύψος και τον τόνο, καθώς και διάφορα χαρακτηριστικά των ομιλητών (όπως ηλικία, φύλο, προφορά και ταυτότητα), τα οποία είναι απαραίτητα στοιχεία στην κατανόηση βίντεο.

Ωστόσο, η ενίσχυση των δυνατοτήτων ομιλίας των οπτικοακουστικών μεγάλων γλωσσικών μοντέλων γενικής χρήσης είναι εξαιρετικά προκλητική, απαιτώντας χρονικά λεπτή μοντελοποίηση και σύνθετες αλληλεπιδράσεις με άλλους τρόπους σε χονδροειδή (π.χ. θέμα βίντεο) και λεπτή (π.χ. κινήσεις των χειλιών) χρονική κλίμακα.

Πρόσφατα, η εργασία "video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models" που δημοσιεύτηκε στο ICML 2024 έγινε το πρώτο μοντέλο μεγάλης κλίμακας που ενσωμάτωσε όλα τα στοιχεία ήχου και βίντεο στο βίντεο (φυσικές εικόνες, κείμενο, ομιλία, ηχητικά συμβάντα, Μουσική).

σύνδεσμος βίντεο-SALMONN σε χαρτί: https://openreview.net/pdf?id=nYsh5GFIqX

Σύνδεσμος από χαρτί SALMONN: https://arxiv.org/abs/2310.13289

Σελίδα Github：https://github.com/bytedance/SALMONN

Μέσα από τα ακόλουθα παραδείγματα, ας ρίξουμε μια ματιά στον τρόπο με τον οποίο το video-SALMONN ερμηνεύει το περιεχόμενο βίντεο μέσω πληροφοριών φωνής-ήχου-βίντεο!

Πρώτον, εδώ είναι ένα κλασικό κλιπ από τον "Τιτανικό"

Αφήστε το video-SALMONN να μιλήσει για το γιατί αυτό το βίντεο είναι τόσο ρομαντικό:

ερώτηση:

Συνδυάστε τον διάλογο βίντεο, ήχου και χαρακτήρων για να εξηγήσετε γιατί το βίντεο είναι ρομαντικό

απάντηση:

Το βίντεο δείχνει μια ρομαντική σκηνή ανάμεσα σε έναν άνδρα και μια γυναίκα σε μια βάρκα. Ο άντρας κράτησε τη γυναίκα στην αγκαλιά του και είδαν μαζί το ηλιοβασίλεμα. Η μουσική υπόκρουση είναι ένα τραγούδι που προσθέτει στη ρομαντική ατμόσφαιρα. Οι γυναίκες λένε «πετάω» και «Τζακ», κάτι που δείχνει ότι είναι χαρούμενες και απολαμβάνουν τη στιγμή. Το φόντο του σκάφους και το ηλιοβασίλεμα δημιουργούν ένα όμορφο και γαλήνιο περιβάλλον που ενισχύει τη ρομαντική αίσθηση του βίντεο. Η γλώσσα του σώματος και οι εκφράσεις του προσώπου ανδρών και γυναικών μεταδίδουν επίσης την αγάπη και τη στοργή τους ο ένας για τον άλλον. Συνολικά, το βίντεο αποτυπώνει τέλεια μια ρομαντική και οικεία στιγμή μεταξύ των δύο.

Εκτός από την περιγραφή των σκηνών που είδε, το video-SALMONN ενσωμάτωσε επίσης τη μουσική που άκουγε και τους διαλόγους των χαρακτήρων στην περιγραφή του.

Αυτό που προκαλεί ακόμη μεγαλύτερη έκπληξη είναι ότι το video-SALMONN μπορεί επίσης να γνωρίζει ότι ήταν μια γυναίκα που είπε "Πετάω".

Επιπλέον, το video-SALMONN μπορεί επίσης να συμπεράνει ότι το όνομα του άνδρα είναι "Τζακ".

Όλοι γνωρίζουμε ότι ήταν αυτές οι δύο γραμμές διαλόγου που δημιούργησαν αυτήν την κλασική σκηνή και το video-SALMONN μόλις κατέγραψε την ουσία αυτής της σκηνής!

Εδώ είναι ένα άλλο κλιπ κινουμένων σχεδίων από το "Zootopia":

Ρίξτε μια ματιά στο πώς το βίντεο-SALMONN καταλαβαίνει τα αστεία πράγματα για τους νωθρούς:

ερώτηση:

Υπάρχει ένα κουνέλι, μια αλεπού και μια νωθρότητα στη σκηνή Τι είπε η τεμπελιά; Γιατί είναι ενδιαφέρουσες οι τεμπέληδες;

απάντηση:

Ο νωθρός λέει "Nick" στο τέλος του βίντεο. Ο νωθρός είναι αστείος γιατί είναι ένα ζώο που κινείται αργά και φαίνεται πολύ τεμπέλης στο βίντεο, αργεί πολύ να κάνει πράγματα. Αυτό έρχεται σε αντίθεση με τη δραστήρια και ενεργητική φύση άλλων ζώων, όπως τα κουνέλια και οι αλεπούδες, κάνοντας την τεμπελιά να ξεχωρίζει και προσθέτει στο χιούμορ. Επιπλέον, η αργή κίνηση και οι εκφράσεις του προσώπου του τεμπέλης στο βίντεο προσθέτουν στο κωμικό του αποτέλεσμα.

Αυτό το παράδειγμα δείχνει την αναγνώριση του ηχείου μέσω του συνδυασμού ήχου και βίντεο, δεν ξέρουμε ότι ο νωθρός μιλάει μόνο με την όραση καταλαβαίνουμε πραγματικά το βίντεο!

Και αυτό το πολύ δημοφιλές meme:

Ρωτήστε το video-SALMONN γιατί αυτό το βίντεο είναι αστείο:

ερώτηση:

Μπορείτε να εξηγήσετε γιατί αυτό το βίντεο είναι αστείο;

απάντηση:

Το βίντεο είναι αστείο γιατί δείχνει έναν άντρα να κάνει μια αστεία γκριμάτσα και μετά να λέει «ωραία». Η αντίθεση ανάμεσα στη σοβαρή του έκφραση και τη λέξη «ωραίο» δημιουργεί χιούμορ και αίσθηση έκπληξης. Επιπλέον, τα ηχητικά εφέ ενός άνδρα που ρέψιμο και δυνατά σκάσματα προσθέτουν στην ψυχαγωγική αξία του βίντεο.

Ας ρίξουμε μια άλλη ματιά σε ένα κλιπ ντοκιμαντέρ του National Geographic για να δούμε πώς μπορεί να βοηθήσει η κατανόηση της ομιλίας:

Επιτρέψτε μου να σας ρωτήσω τι είδους καρχαρίας είναι στο βίντεο-βίντεο SALMONN:

ερώτηση:

Τι είδους καρχαρίας είναι αυτός στο βίντεο;

Απάντηση με είσοδο ήχου:

Ο καρχαρίας στο βίντεο είναι ένας φαλαινοκαρχαρίας

Απάντηση χωρίς είσοδο ήχου:

Ο καρχαρίας στο βίντεο είναι ένας μεγάλος λευκός καρχαρίας

Μόλις παρακολουθώ το βίντεο, πραγματικά δεν ξέρω τι είδους καρχαρίας είναι χωρίς καμία επαγγελματική γνώση, οπότε το μοντέλο μπορεί μόνο να μαντέψει, το οποίο είναι επιρρεπές σε παραισθήσεις.

Αλλά αφού ακούσει την ηχητική εξήγηση, το video-SALMONN μπορεί να γνωρίζει με ακρίβεια ότι το βίντεο αφορά φαλαινοκαρχαρίες, επομένως δεν χρειάζεται να μαντέψουμε.

Υπάρχει και ένα βίντεο από τη συνομιλία των μεγάλων:

Όχι μόνο κατανοεί το περιεχόμενο της συνομιλίας, το video-SALMONN συνδέει επίσης τον ομιλητή και το περιεχόμενο της συνομιλίας:

Ερώτηση:

Με βάση το βίντεο και τη φωνή, ήταν άντρας ή γυναίκα που πέταξε στη Φλωρεντία στο βίντεο;

απάντηση:

Ήταν μια γυναίκα που πέταξε στη Φλωρεντία

Αυτό το παράδειγμα δείχνει περαιτέρω την ολοκληρωμένη κατανόηση της ομιλίας από το video-SALMONN στα βίντεο.

Εάν εισάγετε απευθείας το κείμενο της μεταγραφής της ομιλίας, είναι αδύνατο για το μοντέλο να γνωρίζει ποιος πέταξε στη Φλωρεντία, αλλά το video-SALMONN μπορεί να συνδυάσει στενά το περιεχόμενο της ομιλίας και τις πληροφορίες του ομιλητή.

Ακολουθεί το πρακτικό μέρος: ας ρίξουμε μια ματιά στο πώς το video-SALMONN επιτυγχάνει ολοκληρωμένη κατανόηση της φωνής-ήχου-βίντεο!

Βασική Τεχνολογία

βίντεο-μοντέλο SALMONN

Αντιμετωπίζοντας την πρόκληση της κατανόησης της ομιλίας σε μεγάλα μοντέλα ήχου και βίντεο, το video-SALMONN διαθέτει τα ακόλουθα τρία μέρη καινοτομίας που του επιτρέπουν να χειρίζεται διάφορα βασικά στοιχεία βίντεο όπως φυσικές εικόνες, ακολουθίες οπτικών πλαισίων, ομιλία, ηχητικά συμβάντα και μουσικά στοιχεία:

Μέρος 1: Κωδικοποίηση ήχου και βίντεο και στοίχιση χρόνου

βίντεο- SALMONN χρησιμοποιεί τον κωδικοποιητή ομιλίας Whisper και τον κωδικοποιητή ήχου BEATs για να αποκτήσει τις διανυσματικές αλληλουχίες κωδικοποίησης ομιλίας και ήχου αντίστοιχα (50 διανύσματα για κάθε δευτερόλεπτο ήχου) και χρησιμοποιεί επίσης τον οπτικό κωδικοποιητή InstructBLIP για να αποκτήσει την εικόνα με ρυθμό δειγματοληψίας βίντεο Διανυσματική ακολουθία κωδικοποίησης 2 FPS (2 καρέ ανά 1 δευτερόλεπτο βίντεο, που αντιστοιχούν σε 64 διανύσματα).

Στη διάσταση του χρόνου, οι τρεις ακολουθίες ευθυγραμμίζονται και συνδυάζονται κάθε 0,5 δευτερόλεπτα με βάση το πλαίσιο βίντεο (χρονικός λεπτόκοκκος συγχρονισμός), επειδή η ακολουθία ήχου ομιλίας είναι ελαφρώς μικρότερη από την οπτική ακολουθία και προστίθεται μηδενική συμπλήρωση στο σύντομο μέρος.

Μέρος 2: Αιτιακή Q-Πρώην πολλαπλής ανάλυσης

Η δομή πολλαπλής ανάλυσης αιτιατού (MRC) Q-Former είναι ο καινοτόμος πυρήνας του video-SALMONN, ο οποίος όχι μόνο ευθυγραμμίζει χωρικά συγχρονισμένα χαρακτηριστικά οπτικοακουστικής εισόδου με αναπαραστάσεις κειμένου σε πολλές διαφορετικές χρονικές κλίμακες, ικανοποιώντας εργασίες που βασίζονται σε διαφορετικά βίντεο απαιτήσεις στοιχείων, και προκειμένου να ενισχυθεί η χρονική αιτιότητα των γεγονότων μεταξύ διαδοχικών καρέ βίντεο, εισάγεται μια δομή αιτιώδους αυτοπροσοχής με ειδική αιτιακή μάσκα.

MRC Q-Πρώην δομή

Πρώτον, το MRC Q-Former διαιρεί την ακολουθία εισόδου σε παράθυρα διαφορετικού μήκους. Στη συνέχεια, μέσα σε κάθε παράθυρο, το Q-Former χρησιμοποιείται για την αντιστοίχιση της ματισμένης πολυτροπικής αναπαράστασης στον χώρο σημασιολογικής αναπαράστασης. Τέλος, τα διανύσματα που εξάγονται από κάθε παράθυρο Q-Former σε κάθε επίπεδο ανάλυσης ενώνονται για να σχηματίσουν μια διανυσματική ακολουθία στον σημασιολογικό χώρο.

Διασφαλίζοντας ότι ο αριθμός των διανυσμάτων εξόδου και η αναλογία μήκους παραθύρου είναι σταθεροί, το MRC Q-Former διασφαλίζει ότι οι ακολουθίες εξόδου σε διαφορετικά επίπεδα ανάλυσης μπορούν να συνδεθούν απευθείας στη διάσταση του χαρακτηριστικού Τα ματισμένα διανύσματα αντιστοιχίζονται μέσω ενός γραμμικού επιπέδου και χρησιμοποιείται ως είσοδος στο μοντέλο της μεγάλης γλώσσας.

Μέσω της εκπαίδευσης, το Q-Former υψηλής ανάλυσης μπορεί να συλλάβει λεπτομερείς πληροφορίες, όπως το περιεχόμενο ομιλίας και τη σύνδεση μεταξύ της ομιλίας και των κινήσεων των χειλιών Το Q-Former χαμηλής ανάλυσης μπορεί να εξάγει αποτελεσματικά πληροφορίες σε επίπεδο βίντεο και το συνολικό περιεχόμενο το βίντεο και Καλύτερη κατανόηση των σχέσεων μεταξύ πολλαπλών καρέ.

(Σημείωση: Η δομή MRC Q-Former είναι επίσης κατάλληλη για πολλαπλή ανάλυση στο διάστημα. Η εργασία προτείνει τη μέθοδο του προβολέα εικόνας για πρώτη φορά, η οποία μπορεί να χωρίσει την εικόνα σε ακολουθίες υποεικόνων διαφορετικής ακρίβειας ως είσοδο, βελτιώνοντας έτσι σημαντικά η απόδοση της κατανόησης εικόνας)

Μέρος 3: Λειτουργία απώλειας διαφορετικότητας και εκπαίδευση σε μικτά μη συζευγμένα δεδομένα ήχου και βίντεο

Επιπλέον, για να αποφευχθεί η κυριαρχία ενός συγκεκριμένου καρέ στο βίντεο, το video-SALMONN προτείνει και χρησιμοποιεί μια νέα συνάρτηση απώλειας ποικιλομορφίας βασισμένη στη διασταυρούμενη εντροπία, η οποία ενθαρρύνει το μοντέλο να εξερευνήσει διαφορετικά μέρη ολόκληρης της ακολουθίας.

Ταυτόχρονα, προκειμένου να αποφευχθεί η κυριαρχία μιας μεμονωμένης μεθόδου στα ζευγαρωμένα δεδομένα ήχου και εικόνας (για παράδειγμα, ο μη ομιλικός ήχος σε βίντεο συχνά παρέχει μόνο πολύ μικρή ποσότητα βοηθητικών πληροφοριών και αγνοείται εύκολα), video-SALMONN χρησιμοποιεί μια στρατηγική μίξης μη ζευγαρωμένου ήχου και βίντεο.

Κύρια αποτελέσματα

Το έγγραφο Video-SALMONN προτείνει το κριτήριο αξιολόγησης ομιλίας-οπτικοακουστικής αξιολόγησης (SAVE) για δοκιμές και δείχνει εξαιρετική απόδοση σε εργασίες ομιλίας, ήχου χωρίς ομιλία, εικόνας και βίντεο.

Οι δοκιμαστικές εργασίες του SAVE περιλαμβάνουν αναγνώριση ομιλίας (ASR), περιγραφή ήχου (AAC), περιγραφή εικόνας (IC), αναγνώριση οπτικού κειμένου (OCR), ερώτηση και απάντηση εικόνας (VQA), ερώτηση και απάντηση βίντεο (Video QA) και άλλα οπτικά και ακουστικά Τρόποι μονής εισόδου Οι εργασίες περιλαμβάνουν επίσης οπτικοακουστική αναγνώριση ομιλίας (AVSR), απάντηση σε ερωτήσεις ήχου και βίντεο (AVQA), ανίχνευση πηγής ήχου και βίντεο (AVSSD) και αντιστοίχιση ήχου και βίντεο (AVM), τέσσερις κοινές εισόδους ήχου και βίντεο. εργασίες αντίληψης.

Μεταξύ αυτών, το AVQA είναι ένα πρόσφατα προτεινόμενο σύνολο δοκιμών και το AVM είναι μια πρόσφατα προτεινόμενη εργασία, η οποία απαιτεί από το μοντέλο να προσδιορίσει εάν ταιριάζουν ο ήχος και το βίντεο.

Πρώτα απ 'όλα, το video-SALMONN επιτυγχάνει τα ίδια ή και καλύτερα αποτελέσματα σε εργασίες εισαγωγής μονής μορφής από τα μοντέλα που μπορούν να επεξεργαστούν μόνο οπτική ή ακουστική τροπική είσοδο.

Σε σύγκριση με το Video-LLaMA, ένα μεγάλο μοντέλο που μπορεί επίσης να επεξεργάζεται ήχο και βίντεο, το video-SALMONN όχι μόνο αυξάνει την ικανότητά του να κατανοεί την είσοδο ομιλίας, αλλά και υπερβαίνει κατά πολύ την απόδοσή του σε διάφορες εργασίες μεμονωμένων τρόπων.

Στην κατανόηση της κοινής εισόδου ήχου και εικόνας, το video-SALMONN έχει δείξει πολύ ανώτερη απόδοση από άλλα μοντέλα.

Χάρη στην ικανότητά του να κατανοεί την ομιλία, το video-SALMONN ξεπερνά σημαντικά το παρόμοιο μεγάλο μοντέλο Video-LLaMA στο AVQA.

Το πιο σημαντικό, το video-SALMONN επιδεικνύει εξαιρετικές δυνατότητες εμφάνισης μηδενικού δείγματος για κοινή ομιλία-οπτικοακουστική συλλογιστική σε AVM και AVSSD, δύο εντελώς ανεκπαίδευτες εργασίες.

Η εμφάνιση αυτών των κοινών συλλογιστικών ικανοτήτων απαιτεί το μοντέλο να δίνει ίση προσοχή στις εισερχόμενες οπτικές και ακουστικές πληροφορίες ταυτόχρονα και να μπορεί να κατανοήσει τις πολύπλοκες συνδέσεις μεταξύ ήχου και οπτικής.

Ωστόσο, τα υπάρχοντα μοντέλα ανοιχτού κώδικα είτε δεν μπορούν να κατανοήσουν πλήρως τον ήχο είτε μπορούν να περιγράψουν μόνο κάθε μεμονωμένη μέθοδο εισαγωγής ξεχωριστά.

συμπέρασμα

Η κυκλοφορία του video-SALMONN θα συμβάλει στη βελτίωση της πληρότητας και της ακρίβειας της τεχνολογίας κατανόησης βίντεο και θα φέρει νέες ευκαιρίες στην ανάλυση περιεχομένου βίντεο, την αναγνώριση συναισθημάτων, την πολυτροπική αλληλεπίδραση και άλλους τομείς.

Αυτό το μοντέλο δεν έχει μόνο μεγάλη σημασία στην ακαδημαϊκή έρευνα, αλλά παρέχει επίσης ισχυρή τεχνική υποστήριξη για πρακτικές εφαρμογές.

Βιβλιογραφικές αναφορές:

https://openreview.net/pdf?id=nYsh5GFIqX

Νέα

Το AI μπορεί επίσης να "ανανεώσει το TikTok"! Το Πανεπιστήμιο Tsinghua πρωτοστατεί στην κυκλοφορία ενός νέου μοντέλου για σύντομο βίντεο ICML 2024

Εισαγωγή

τα στοιχεία επικοινωνίας μου