Νέα

Εκμάθηση βίντεο με βάση τα συμφραζόμενα! Το μεγαλόσωμο μοντέλο μαθαίνει να «μιμείται μια γάτα και να σχεδιάζει μια τίγρη», από το MSRA

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Συνεισφορά από την ομάδα Vid-ICL
Qubits | Δημόσιος λογαριασμός QbitAI

Μπορεί η δημιουργία βίντεο να αναφέρεται επίσης στο "πλαίσιο"; !

Η MSRA προτείνειΕκμάθηση πλαισίου βίντεο(Video In-Context Learning, Vid-ICL), αφήστε το μεγάλο μοντέλο να μάθει να «μιμείται τη γάτα και να σχεδιάζει την τίγρη»γενιά μίμησης

Το Vid-ICL χρησιμοποιεί ένα δείγμα βίντεο για να καθοδηγήσει τη δημιουργία του μοντέλου σε νέα σενάρια, έτσι ώστε τα αποτελέσματα που δημιουργούνται να μπορούν να «μιμηθούν» τις εργασίες που ολοκληρώθηκαν στα δείγματα βίντεο σε νέα σενάρια.

Για παράδειγμα, η προοπτική του δείγματος βιντεοκάμερας μετακινείται προς τα κάτω (αριστερά) και το βίντεο που δημιουργείται μετακινεί επίσης την προοπτική προς τα κάτω (δεξιά):



Το δείγμα του αντικειμένου βίντεο μετακινείται προς τα πάνω (αριστερά) και το βίντεο που δημιουργείται κινείται επίσης προς τα πάνω (δεξιά):



Η αρπαγή αντικειμένου μπορεί επίσης να προσομοιωθεί:



△Αριστερά: Παράδειγμα βίντεο, ο βραχίονας ρομπότ αρπάζει αντικείμενα Δεξιά: Δημιουργήθηκε βίντεο

Το άνοιγμα του συρταριού μπορεί επίσης να γίνει όπως φαίνεται στο παράδειγμα:



△Αριστερά: Δείγμα βίντεο, ανοίξτε το μεσαίο συρτάρι Δεξιά: Δημιουργήστε βίντεο

Στο ίδιο σενάριο ηλεκτρικού ανεμιστήρα, χρησιμοποιήστε διαφορετικά παραδείγματα βίντεο για να καθοδηγήσετε το μοντέλο να δημιουργήσει εφέ όπως:



△Αριστερά: δείγμα βίντεο, κάμερα μετακινήθηκε προς τα αριστερά: δημιουργήθηκε βίντεο



△Αριστερά: Δείγμα βίντεο, η κάμερα μετακινήθηκε προς τα δεξιά: Δημιουργήθηκε βίντεο

Πρέπει να γνωρίζετε ότι σε ένα ιδανικό παγκόσμιο μοντέλο, η αλληλεπίδραση μεταξύ του μοντέλου και του εξωτερικού περιβάλλοντος θα πρέπει να είναι διαφορετική.Οι περισσότερες υπάρχουσες εργασίες επικεντρώνονται στη χρήσηΤο κείμενο ως ο πρωταρχικός τρόπος αλληλεπίδρασης, γεγονός που καθιστά δύσκολο τον έλεγχο της λεπτομέρειας και της ποικιλομορφίας των παραγόμενων αποτελεσμάτων.

καιΤο βίντεο είναι πολύ συγκεκριμένο και καθολικό, ικανό να μεταφέρει ένα ευρύ φάσμα πληροφοριών, όπως παραδείγματα ολοκλήρωσης ποικίλων εργασιών, συμπεριλαμβανομένης της μετακίνησης ή της αρπαγής αντικειμένων.

Η μέθοδος Vid-ICL που προτείνεται από την ερευνητική ομάδα παρέχει μια εναλλακτική λύση στη γλώσσα και τις εικόνες.νέα διεπαφή, κάνοντας την αλληλεπίδραση μεταξύ του μοντέλου και του πραγματικού κόσμου πιο διαφοροποιημένη.



Εκτός από το βίντεο που δημιουργήθηκε παραπάνω,Το Vid-ICL μπορεί επίσης να συνδυαστεί με εξομοιωτές, χρησιμοποιήστε το παραγόμενο βίντεο και την τρέχουσα κατάσταση για να προβλέψετε τις αντίστοιχες ενέργειες για σωστή αλληλεπίδραση με το περιβάλλον.Συνειδητοποιήστε την αλληλεπίδραση με το πραγματικό περιβάλλον

Το παρακάτω σχήμα δείχνει το Vid-ICL να αλληλεπιδρά με το πραγματικό περιβάλλον Ξεκινώντας από την κατάσταση t=0, αλληλεπιδρά με τον προσομοιωτή RoboDesk για να ολοκληρώσει την εργασία "Push_red". Το Vid-ICL παρέχει πιο ακριβή έλεγχο στις αλληλεπιδράσεις του περιβάλλοντος:



Καλέ, η ταινία "Iron Armor" έγινε πραγματικότητα.

Πώς ακριβώς λειτουργεί το Vid-ICL;

Ερμηνεία του πλαισίου Vid-ICL

Το Vid-ICL λειτουργεί με το βίντεο ως βασική μονάδα.

Συγκεκριμένα, δεδομένου ενός ερωτήματος βίντεο κλιπ και κ παραδειγμάτων βίντεο κλιπ, ο στόχος του Vid-ICL είναι να δημιουργήσει ένα βίντεο κλιπ που θα πρέπει πρώτα ναΔιατηρήστε την αντιληπτική συνοχή με τα ερωτήματα βίντεο κλιπΤαυτόχρονα στη σημασιολογία(όπως κίνηση κάμερας, δράση)Τα παραπάνω συμβαδίζουν με το παράδειγμα βίντεο



  • Αυτοπαλινδρομικό μοντέλο εκπαίδευσης

Το Vid-ICL χρησιμοποιεί το Transformer ως δομή μοντέλου.

Ως βασική αρχιτεκτονική των μεγάλων μοντέλων κειμένου, το Transformer έχει επιδείξει ισχυρές δυνατότητες στη συλλογιστική του γλωσσικού πλαισίου και στις εργασίες δημιουργίας. Η εκπαίδευση οπτικών πληροφοριών του Generative Transformer αποτελείται από δύο στάδια:

Αρχικά, εκπαιδεύστε έναν οπτικό κωδικοποιητή, όπως το VQ-VAE, να μετατρέπει κάθε εικόνα σε ένα διακριτό διακριτικό.

Δεύτερον, κάθε δείγμα εκπαίδευσης κατασκευάζεται ως μια ακολουθία συμβολικών και ο στόχος του αποκωδικοποιητή Transformer είναι να ανακτήσει αυτήν την ακολουθία διακριτικών.

Όσον αφορά τη συγκεκριμένη υλοποίηση, το Vid-ICLΧρησιμοποιώντας την αρχιτεκτονική Llama,χρήσηΚανονικοποίηση RMSNormκαιΕνσωμάτωση θέσης περιστροφής (RoPE), εκπαιδεύστε τον αποκωδικοποιητή Transformer με αυτοπαλινδρομικό τρόπο. Κατά τη διάρκεια της φάσης εκπαίδευσης, κάθε ακολουθία λαμβάνεται από ένα ακατέργαστο βίντεο χωρίς να συνδυάζονται βίντεο κλιπ από διαφορετικά βίντεο.

  • Μηδενική ικανότητα δειγματοληψίας

Η ερευνητική ομάδα κάνει μια βασική παρατήρηση σε αυτό το άρθρο:

Το μοντέλο μπορεί να ξεκινήσει από δεδομένα βίντεο χωρίς ρητή μορφή περιβάλλοντος, π.χ.Αυθόρμητες συλλογιστικές ικανότητες με βάση τα συμφραζόμενα από διαδοχικά βίντεο κλιπ, δηλαδή τη «μηδενική ικανότητα δείγματος» για Video In-context Learning.

Αυτό μπορεί να αποδοθεί σε δύο βασικούς παράγοντες. Πρώτον, δεν εισάγονται ειδικοί οριοθέτες μεταξύ κάθε καρέ βίντεο, κάτι που επιτρέπει στο μοντέλο να αντιμετωπίζει σιωπηρά συνεχείς ακολουθίες βίντεο ως παραδείγματα βίντεο + βίντεο ερωτημάτων κατά τη διάρκεια της εκπαίδευσης. Αυτό σημαίνει ότι το μοντέλο έχει μάθει να επεξεργάζεται ακολουθίες παρόμοιων δομών παραδειγμάτων-ερωτημάτων.

Δεύτερον, τα χαρακτηριστικά αυτόματης παλινδρόμησης του Transformer του επιτρέπουν να επεκτείνει την ικανότητα πρόβλεψης ακολουθίας βίντεο μιας μεμονωμένης σκηνής σε σκηνές όπου παραδείγματα και ερωτήματα προέρχονται από διαφορετικά βίντεο και να γενικεύει απρόσκοπτα το παράδειγμα της εκμάθησης περιβάλλοντος κειμένου στη μάθηση με περιβάλλον βίντεο.

  • Ενσωματώστε άλλους τρόπους

Αν και το Vid-ICL εστιάζει στο βίντεο ως παράδειγμα, μπορεί να επεκταθεί και σε άλλους τρόπους, όπως το κείμενο.

Για να το κάνετε αυτό, απλώς μετατρέψτε την περιγραφή του αρχικού κειμένου σε λανθάνουσα αναπαράσταση μέσω ενός προεκπαιδευμένου γλωσσικού μοντέλου και, στη συνέχεια, χρησιμοποιήστε αυτήν την λανθάνουσα αναπαράσταση ως πρόθεμα κατά την εκπαίδευση του Μετασχηματιστή και την εκτέλεση συλλογισμών με βάση τα συμφραζόμενα και ευθυγραμμίστε την στον λανθάνοντα χώρο του Μετασχηματιστή μέσω του στρώματος προβολής.

Τα πειράματα δείχνουν ότι το Vid-ICLΜπορεί να λάβει κείμενο και βίντεο ως παράδειγμακαι η προσθήκη κειμένου μπορεί να βελτιώσει περαιτέρω την ποιότητα των δημιουργούμενων αποτελεσμάτων.

  • Δεδομένα και μέγεθος μοντέλου

Μπορεί να φανεί ότι το Vid-ICL μπορεί να μάθει τις σημασιολογικές πληροφορίες που περιέχονται στα παραδείγματα βίντεο και να τις μεταφέρει σε νέες σκηνές για παραγωγή. Αυτό απαιτεί τα δεδομένα εκπαίδευσης να περιέχουν κυρίως βίντεο με σαφείς αιτιώδεις σχέσεις και ισχυρή αλληλεπίδραση.

Ως εκ τούτου, οι ερευνητές επέλεξαν δύο σύνολα δεδομένων ως κύριες πηγές δεδομένων εκπαίδευσης: Ego4d και Kinetics-600.

Επιπλέον, για να αυξηθεί η ποικιλομορφία του περιεχομένου βίντεο, ένα μικρό μέρος των δεδομένων στο Webvid προστίθεται επίσης στο εκπαιδευτικό σετ.

Η ομάδα επαλήθευσε επίσης ότι λόγω του γεγονότος ότι οι σημασιολογικές πληροφορίες που περιέχονται στα βίντεο του Διαδικτύου είναι σχετικά ασαφείς και αποκλίνουσες, το μέγεθος των δεδομένων μπορεί να αυξηθεί απλώς προσθέτοντας περισσότερα βίντεο στο Διαδίκτυο.δεν βοηθά στη βελτίωση της απόδοσης του μοντέλου με βάση τα συμφραζόμενα

Όσον αφορά το μέγεθος του μοντέλου, η ομάδα εκπαίδευσε μοντέλα τριών μεγεθών: 300M, 700M και 1.1B και διαπίστωσε ότι η ποιότητα και η απόδοση των βίντεο που δημιουργούνται από το μοντέλο ακολουθούσαν τον νόμο κλιμάκωσης.

Πειραματικά αποτελέσματα

Κυρίως περνάει το Vid-ICLΠαρέχετε δείγματα βίντεο με διαφορετική σημασιολογία για το ίδιο βίντεο ερωτήματος, για την αξιολόγηση της αποτελεσματικότητας και της ακρίβειας της εκμάθησης περιεχομένου βίντεο.

Για παράδειγμα, για ένα ερωτηματολόγιο βίντεο μετακίνησης ενός αντικειμένου προς τα αριστερά, μπορούν να δημιουργηθούν διαφορετικά βίντεο δίνοντας παραδείγματα βίντεο με κίνηση προς τα αριστερά, τυχαία κίνηση και κίνηση προς την αντίθετη κατεύθυνση και μπορεί να χρησιμοποιηθεί η αξιολόγηση των αποτελεσμάτων που δημιουργούνται για να προσδιορίσετε εάν το μοντέλο έχει όντως δημιουργήσει σχετικά βίντεο.

Όσον αφορά τα ποιοτικά αποτελέσματα, το παρακάτω σχήμα δείχνει τα βίντεο που δημιουργήθηκαν κάτω από διαφορετικά παραδείγματα βίντεο (για περισσότερα παραδείγματα, ανατρέξτε στο αρχικό κείμενο της εργασίας).

Μπορεί να παρατηρηθεί:

1) ΓιαΕνιαία γενιά βίντεοΗ ποιότητα, το Vid-ICL διατηρεί τη συνοχή του παραγόμενου βίντεο και του ερωτήματος βίντεο, και τα δύο έχουν καλή ποιότητα παραγωγής.

2) ΓιαΣημασιολογική συνέπεια μεταξύ παραγόμενων και παραδειγμάτων βίντεο, μπορεί να παρατηρηθεί ότι όλα τα βίντεο που δημιουργούνται ακολουθούν τη διαδικασία του παραδείγματος βίντεο, το οποίο δείχνει ότι το Vid-ICL έχει τη δυνατότητα να αποκτά αυθόρμητα τις σημασιολογικές πληροφορίες του παραδείγματος βίντεο και να δημιουργεί το αντίστοιχο βίντεο.

Όπως φαίνεται στο παρακάτω σχήμα, για το ίδιο βίντεο κλιπ ερωτήματος, το Vid-ICL επιλέγει να μετακινήσει το παραγόμενο βίντεο ανάλογα με βάση την κίνηση του φακού στο παράδειγμα βίντεο.



Όσον αφορά τα ποσοτικά αποτελέσματα, η ερευνητική ομάδα πρότεινε δείκτες αυτόματης αξιολόγησης σε δύο πτυχές:

1)Ποιότητα βίντεοΑπό την άλλη πλευρά, χρησιμοποιούνται δείκτες που βασίζονται σε αντιστοίχιση εικονοστοιχείων ή κατανομή σε παραδοσιακές οπτικές εργασίες, όπως PSNR, FID κ.λπ.

2)σημασιολογική συνέπειαπαραπάνω, χρησιμοποιούνται δύο δείκτες που βασίζονται στην ακρίβεια ταξινόμησης: ακρίβεια ταξινόμησης βίντεο και ακρίβεια ταξινόμησης ανιχνευτή.

Σε διαφορετικούς δείκτες, το Vid-ICL εμφανίζει καλύτερα αποτελέσματα από το βασικό μοντέλο. Μπορεί να φανεί ότι υπό την καθοδήγηση παρόμοιων παραδειγμάτων βίντεο, το Vid-ICL δημιουργεί πιο ρεαλιστικά και σημασιολογικά συνεπή βίντεο.



Ανατρέξτε στο πρωτότυπο έγγραφο για περισσότερες λεπτομέρειες.

Αρχική σελίδα του έργου: https://aka.ms/vid-icl
Σύνδεσμος χαρτιού: https://arxiv.org/abs/2407.0735