Τα στοιχεία επικοινωνίας μου
Ταχυδρομείο[email protected]
2024-08-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Από την κυκλοφορία του Sora, ο τομέας της δημιουργίας βίντεο AI έχει γίνει πιο «απασχολημένος». Τους τελευταίους μήνες, είδαμε τους Jimeng, Runway Gen-3, Luma AI και Kuaishou Keling να εκρήγνυνται εναλλάξ.
Σε αντίθεση με το παρελθόν, όπου μπορείτε να πείτε με μια ματιά ότι τα μοντέλα παράγονται από AI, αυτή η παρτίδα μεγάλων μοντέλων βίντεο μπορεί να είναι τα «καλύτερα» που έχουμε δει ποτέ.
Ωστόσο, η εκπληκτική απόδοση των μοντέλων μεγάλης γλώσσας βίντεο (LLM) είναι αδιαχώριστη από ένα μεγάλο και λεπτομερώς σχολιασμένο σύνολο δεδομένων βίντεο, το οποίο απαιτεί πολύ υψηλό κόστος. Πρόσφατα, αναδείχθηκαν διάφορες καινοτόμες μέθοδοι στον ερευνητικό τομέα που δεν απαιτούν πρόσθετη εκπαίδευση: χρήση εκπαιδευμένων μοντέλων μεγάλης γλώσσας εικόνας για την άμεση επεξεργασία εργασιών βίντεο, παρακάμπτοντας έτσι την «δαπανηρή» εκπαιδευτική διαδικασία.
Επιπλέον, τα περισσότερα υπάρχοντα βίντεο LLM υποφέρουν από δύο σημαντικές ελλείψεις: (1) μπορούν να χειριστούν μόνο την είσοδο βίντεο με περιορισμένο αριθμό καρέ, γεγονός που καθιστά δύσκολο για το μοντέλο να καταγράψει το διακριτικό χωρικό και χρονικό περιεχόμενο στο βίντεο (2 ) στερούνται σχεδιασμού χρονικής μοντελοποίησης, αλλά απλώς εισάγουν λειτουργίες βίντεο στο LLM, βασιζόμενοι πλήρως στην ικανότητα του LLM να μοντελοποιεί την κίνηση.
Ως απάντηση στα παραπάνω ζητήματα,Οι ερευνητές της Apple πρότειναν το SlowFast-LLaVA (SF-LLaVA για συντομία). Αυτό το μοντέλο βασίζεται στην αρχιτεκτονική LLaVA-NeXT που αναπτύχθηκε από την ομάδα Byte Δεν απαιτεί πρόσθετη ρύθμιση και μπορεί να χρησιμοποιηθεί εκτός συσκευασίας.. Εμπνευσμένη από το επιτυχημένο δίκτυο δύο ροών στον τομέα της αναγνώρισης ενεργειών, η ερευνητική ομάδα σχεδίασε έναν νέο μηχανισμό εισόδου SlowFast για βίντεο LLM.
Με απλά λόγια, το SF-LLaVA θα κατανοήσει τις λεπτομέρειες και την κίνηση στα βίντεο μέσω δύο διαφορετικών ταχυτήτων προβολής (Αργή και Γρήγορη).
Αργή διαδρομή: εξάγετε λειτουργίες με χαμηλό ρυθμό καρέ, διατηρώντας παράλληλα όσο το δυνατόν περισσότερες χωρικές λεπτομέρειες (για παράδειγμα, διατηρώντας 24×24 διακριτικά κάθε 8 καρέ)
Γρήγορη διαδρομή: τρέξτε με υψηλό ρυθμό καρέ, αλλά μειώστε την ανάλυση του βίντεο με ένα μεγαλύτερο βήμα χωρικής συγκέντρωσης για να προσομοιώσετε μεγαλύτερο χρονικό πλαίσιο και να εστιάσετε περισσότερο στην κατανόηση της συνοχής των ενεργειών.
Αυτό ισοδυναμεί με το μοντέλο να έχει δύο «μάτια»: το ένα κοιτάζει αργά και προσέχει τις λεπτομέρειες, το άλλο κοιτάζει γρήγορα και προσέχει τις κινήσεις. Αυτό λύνει τα σημεία πόνου των περισσότερων υπαρχόντων LLM βίντεο και μπορεί να αποτυπώσει τόσο λεπτομερή χωρική σημασιολογία όσο και μεγαλύτερο χρονικό πλαίσιο.
Σύνδεσμος χαρτιού: https://arxiv.org/pdf/2407.15841
Τα πειραματικά αποτελέσματα δείχνουν ότι το SF-LLaVA ξεπερνά τις υπάρχουσες μεθόδους χωρίς εκπαίδευση με σημαντικά πλεονεκτήματα σε όλες τις δοκιμές αναφοράς. Σε σύγκριση με το προσεκτικά ρυθμισμένο μοντέλο SFT, το SF-LLaVA μπορεί να επιτύχει την ίδια απόδοση ή ακόμα καλύτερα.
Μοντέλο αρχιτεκτονικής
Όπως φαίνεται στο παρακάτω σχήμα, το SF-LLaVA ακολουθεί την τυπική διαδικασία LLM βίντεο χωρίς εκπαίδευση. Παίρνει το βίντεο V και την ερώτηση Q ως είσοδο και βγάζει την αντίστοιχη απάντηση Α.
Για την είσοδο, γίνεται δειγματοληψία N καρέ ομοιόμορφα από κάθε βίντεο οποιουδήποτε μεγέθους και μήκους, I = {I_1, I_2, ..., I_N} και δεν απαιτείται ειδικός συνδυασμός ή διάταξη των επιλεγμένων καρέ βίντεο. Το χαρακτηριστικό συχνότητας που εξάγεται ανεξάρτητα στη μονάδα πλαισίου είναι F_v ∈ R^N×H×W, όπου H και W είναι το ύψος και το πλάτος του χαρακτηριστικού πλαισίου αντίστοιχα.
Πειραματικά αποτελέσματα
Η ερευνητική ομάδα πραγματοποίησε μια ολοκληρωμένη αξιολόγηση απόδοσης του SF-LLaVA, συγκρίνοντάς το με τα τρέχοντα μοντέλα SOTA χωρίς εκπαίδευση (όπως το IG-VLM και το LLoVi) σε πολλαπλές εργασίες απάντησης ερωτήσεων βίντεο. Επιπλέον, το συνέκριναν με βίντεο LLM όπως το VideoLLaVA και το PLLaVA που εποπτεύονταν με ακρίβεια (SFT) σε σύνολα δεδομένων βίντεο.
Ανοίξτε το βίντεο Q&A
Όπως φαίνεται στον παρακάτω πίνακα, στην εργασία απάντησης ερωτήσεων βίντεο ανοιχτού τύπου, το SF-LLaVA αποδίδει καλύτερα από τις υπάρχουσες μεθόδους χωρίς εκπαίδευση σε όλα τα σημεία αναφοράς. Συγκεκριμένα, όταν είναι εξοπλισμένα με LLM μεγέθη παραμέτρων 7B και 34B αντίστοιχα, το SF-LLaVA είναι 2,1% και 5,0% υψηλότερο από το IGVLM στο MSRVTT-QA, 5,7% και 1,5% υψηλότερο στο TGIF-QA και 5,7% και 1,5% υψηλότερο στο ActivityNet. -2,0% και 0,8% υψηλότερα στο QA.
Ακόμη και σε σύγκριση με τη λεπτομερή μέθοδο SFT, το SF-LLaVA δείχνει συγκρίσιμες επιδόσεις στα περισσότερα σημεία αναφοράς, μόνο στο σημείο αναφοράς ActivityNet-QA, τα PLLaVA και LLaVA-NeXT-VideoDPO είναι ελαφρώς καλύτερα.
Βίντεο πολλαπλών επιλογών Q&A
Όπως φαίνεται από τον παρακάτω πίνακα, το SF-LLaVA ξεπερνά τις άλλες μεθόδους χωρίς εκπαίδευση στην απάντηση ερωτήσεων βίντεο πολλαπλής επιλογής σε όλα τα σημεία αναφοράς. Στο σύνολο δεδομένων EgoSchema που απαιτεί πολύπλοκη μακροπρόθεσμη συλλογιστική, οι εκδόσεις SF-LLaVA7B και 34B σημείωσαν 11,4% και 2,2% υψηλότερη βαθμολογία από το μοντέλο IG-VLM αντίστοιχα.
Αν και το VideoTree προηγείται στη δοκιμή αναφοράς, επειδή είναι ένα ιδιόκτητο μοντέλο που βασίζεται στο GPT-4, η απόδοσή του είναι πολύ υψηλότερη από το LLM ανοιχτού κώδικα. Σε σύγκριση με τη μέθοδο SFT, το μοντέλο SF-LLaVA 34B επιτυγχάνει επίσης καλύτερα αποτελέσματα στο EgoSchema, γεγονός που επιβεβαιώνει την ισχυρή ικανότητα του σχεδιασμού SlowFast να χειρίζεται μεγάλα βίντεο.
Δημιουργία κειμένου
Vincent Βίντεο
Όπως φαίνεται στον Πίνακα 3, το SF-LLaVA δείχνει επίσης ορισμένα πλεονεκτήματα για την εργασία δημιουργίας βίντεο. Το SF-LLaVA-34B ξεπέρασε όλα τα σημεία αναφοράς χωρίς εκπαίδευση στη συνολική απόδοση. Αν και όσον αφορά τον προσανατολισμό της λεπτομέρειας, το SF-LLaVA είναι ελαφρώς κατώτερο από το LLaVA-NeXT-Image. Με βάση τη σχεδίαση SlowFast, το SF-LLaVA μπορεί να καλύψει μεγαλύτερο χρονικό πλαίσιο με λιγότερα οπτικά διακριτικά, επομένως αποδίδει ιδιαίτερα καλά σε εργασίες χρονικής κατανόησης.
Επιπλέον, το SF-LLaVA-34B ξεπερνά τις περισσότερες μεθόδους SFT όσον αφορά την απόδοση βίντεο Vincent.
Για περισσότερες λεπτομέρειες, ανατρέξτε στο πρωτότυπο έγγραφο.