Νέα

Απεριόριστη δημιουργία βίντεο, σχεδιασμός και λήψη αποφάσεων, εξαναγκασμένη διάχυση ενσωμάτωση της επόμενης πρόβλεψης και πλήρης διάχυση ακολουθίας

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Αναφορά Machine Heart

Επιμέλεια: Panda W

Επί του παρόντος, τα αυτοπαλινδρομικά γλωσσικά μοντέλα μεγάλης κλίμακας που χρησιμοποιούν το επόμενο πρότυπο πρόβλεψης έχουν γίνει δημοφιλή σε όλο τον κόσμο.

Πρόσφατα, μια ερευνητική ομάδα στο MIT CSAIL (ένας από τους οποίους είναι ο Chen Boyuan, διδακτορικός φοιτητής στο MIT) ενσωμάτωσε με επιτυχία τις ισχυρές δυνατότητες του μοντέλου διάχυσης πλήρους ακολουθίας και του επόμενου μοντέλου διακριτικού και πρότεινε ένα παράδειγμα εκπαίδευσης και δειγματοληψίας: Επιβολή διάχυσης (Diffusion Forcing). DF).

Τίτλος χαρτιού: Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion

Διεύθυνση χαρτιού: https://arxiv.org/pdf/2407.01392

Ιστοσελίδα του έργου: https://boyuan.space/diffusion-forcing

Διεύθυνση κώδικα: https://github.com/buoyancy99/diffusion-forcing

Όπως φαίνεται παρακάτω, η εξαναγκασμός διάχυσης υπερτερεί σημαντικά τόσο της διάχυσης πλήρους ακολουθίας όσο και της επιβολής δασκάλου όσον αφορά τη συνέπεια και τη σταθερότητα.

Σε αυτό το πλαίσιο, κάθε διακριτικό συσχετίζεται με ένα τυχαίο, ανεξάρτητο επίπεδο θορύβου και ένα κοινό μοντέλο πρόβλεψης επόμενου διακριτικού ή μοντέλο πρόβλεψης επόμενου διακριτικού μπορεί να χρησιμοποιηθεί σύμφωνα με ένα αυθαίρετο, ανεξάρτητο σχήμα ανά διακριτικό.

Αυτή η μέθοδος εμπνεύστηκε από την παρατήρηση ότι η διαδικασία προσθήκης θορύβου σε ένα διακριτικό είναι μια μορφή μερικής κάλυψης - μηδενικός θόρυβος σημαίνει ότι το διακριτικό δεν καλύπτεται, ενώ ο πλήρης θόρυβος καλύπτει πλήρως το διακριτικό. Επομένως, το DF αναγκάζει το μοντέλο να μάθει μια μάσκα που αφαιρεί οποιοδήποτε μεταβλητό σύνολο θορυβωδών διακριτικών (Εικόνα 2).

Ταυτόχρονα, παραμετροποιώντας τη μέθοδο πρόβλεψης ως συνδυασμό πολλαπλών μοντέλων πρόβλεψης επόμενου διακριτικού, το σύστημα μπορεί να δημιουργήσει ευέλικτα ακολουθίες διαφορετικού μήκους και να γενικεύσει σε νέες τροχιές με συνδυαστικό τρόπο (Εικόνα 1).

Η ομάδα εφάρμοσε το DF για τη δημιουργία ακολουθίας στο Causal Diffusion Forcing (CDF), στο οποίο τα μελλοντικά διακριτικά εξαρτώνται από προηγούμενα διακριτικά μέσω μιας αιτιακής αρχιτεκτονικής. Εκπαίδευσαν το μοντέλο να διαγράφει όλα τα διακριτικά μιας ακολουθίας ταυτόχρονα (όπου κάθε διακριτικό έχει ένα ανεξάρτητο επίπεδο θορύβου).

Κατά τη δειγματοληψία, το CDF σταδιακά αφαιρεί από θόρυβο μια ακολουθία πλαισίων Gaussian θορύβου σε καθαρά δείγματα, όπου διαφορετικά πλαίσια μπορεί να έχουν διαφορετικά επίπεδα θορύβου σε κάθε βήμα αποθορύφωσης. Παρόμοια με το επόμενο μοντέλο πρόβλεψης διακριτικού, το CDF μπορεί να δημιουργήσει ακολουθίες μεταβλητού μήκους, σε αντίθεση με την επόμενη πρόβλεψη διακριτικού, η απόδοση του CDF είναι πολύ σταθερή - είτε προβλέπει το επόμενο διακριτικό είτε χιλιάδες μάρκες στο μέλλον ή ακόμα και συνεχώς.

Επιπλέον, παρόμοια με τη διάχυση πλήρους ακολουθίας, μπορεί επίσης να λάβει καθοδήγηση, επιτρέποντας τη δημιουργία υψηλών ανταμοιβών. Με τη συλλογική μόχλευση της αιτιότητας, του ευέλικτου εύρους και του μεταβλητού προγραμματισμού θορύβου, το CDF ενεργοποιεί ένα νέο χαρακτηριστικό: Monte Carlo Tree Guidance (MCTG). Σε σύγκριση με το μη αιτιολογικό μοντέλο διάχυσης πλήρους ακολουθίας, το MCTG μπορεί να βελτιώσει σημαντικά το ποσοστό δειγματοληψίας της παραγωγής υψηλής ανταμοιβής. Το Σχήμα 1 δίνει μια επισκόπηση αυτών των δυνατοτήτων.

πείραμα

Η ομάδα αξιολόγησε τα πλεονεκτήματα της επιβολής διάχυσης ως μοντέλου γενετικής ακολουθίας σε μια ποικιλία εφαρμογών, όπως η πρόβλεψη βίντεο και χρονοσειρών, ο σχεδιασμός και η εκμάθηση μίμησης.

Πρόβλεψη βίντεο: συνεπής και σταθερή δημιουργία ακολουθίας και άπειρη επέκταση

Για την εργασία μοντελοποίησης δημιουργίας βίντεο, εκπαίδευσαν μια συνεκτική υλοποίηση RNN για αιτιακή διάχυση με βάση βίντεο παιχνιδιών Minecraft και πλοήγηση DMLab.

Το Σχήμα 3 δείχνει τα ποιοτικά αποτελέσματα του εξαναγκασμού διάχυσης έναντι της γραμμής βάσης.

Μπορεί να φανεί ότι ο εξαναγκασμός διάχυσης μπορεί να επεκταθεί σταθερά, ακόμη και πέρα ​​από το εύρος εκπαίδευσής του, ενώ τα σημεία αναφοράς του εξαναγκασμού και της διάχυσης πλήρους ακολουθίας θα αποκλίνουν γρήγορα.

Σχεδιασμός διάχυσης: MCTG, αιτιώδης αβεβαιότητα, ευέλικτος έλεγχος εύρους

Η ικανότητα διάχυσης του εξαναγκασμού φέρνει μοναδικά οφέλη στη λήψη αποφάσεων. Η ομάδα αξιολόγησε το πρόσφατα προτεινόμενο πλαίσιο λήψης αποφάσεων χρησιμοποιώντας το D4RL, ένα τυπικό πλαίσιο ενισχυτικής μάθησης εκτός σύνδεσης.

Ο Πίνακας 1 παρουσιάζει τα ποιοτικά και ποσοτικά αποτελέσματα της αξιολόγησης. Όπως φαίνεται, η επιβολή διάχυσης υπερτερεί του Diffuser και όλων των βασικών γραμμών και στα 6 περιβάλλοντα.

Ελεγχόμενη δημιουργία συνδυασμού ακολουθιών

Η ομάδα διαπίστωσε ότι ήταν δυνατός ο ευέλικτος συνδυασμός υποακολουθιών αλληλουχιών που παρατηρήθηκαν κατά την προπόνηση απλώς τροποποιώντας το σχήμα δειγματοληψίας.

Διεξήγαγαν πειράματα χρησιμοποιώντας ένα σύνολο δεδομένων τροχιών 2D: σε ένα τετράγωνο επίπεδο, όλες οι τροχιές ξεκινούν από τη μία γωνία και καταλήγουν στην αντίθετη γωνία, σχηματίζοντας ένα είδος σταυρού.

Όπως φαίνεται στο Σχήμα 1 παραπάνω, όταν δεν απαιτείται συμπεριφορά συνδυασμού, μπορεί να επιτραπεί στο DF να διατηρεί πλήρη μνήμη και να αναπαράγει την κατανομή σε σχήμα σταυρού. Όταν απαιτείται συνδυασμός, το μοντέλο μπορεί να χρησιμοποιηθεί για να δημιουργήσει ένα μικρότερο σχέδιο χωρίς μνήμη χρησιμοποιώντας MPC, συρράπτοντας έτσι τις υποτροχιές σε σχήμα σταυρού για να ληφθεί μια τροχιά σχήματος V.

Ρομποτική: Εκμάθηση μίμησης μεγάλης εμβέλειας και ισχυρός οπτικοκινητικός έλεγχος

Ο εξαναγκασμός διάχυσης φέρνει επίσης νέες ευκαιρίες για οπτικό έλεγχο της κίνησης πραγματικών ρομπότ.

Η μάθηση μίμησης είναι μια συχνά χρησιμοποιούμενη τεχνική χειρισμού ρομπότ που μαθαίνει τις αντιστοιχίσεις των παρατηρούμενων ενεργειών που επιδεικνύονται από ειδικούς. Ωστόσο, η έλλειψη μνήμης συχνά καθιστά δύσκολη τη μάθηση μίμησης για εργασίες μεγάλης εμβέλειας. Το DF όχι μόνο μπορεί να μετριάσει αυτό το μειονέκτημα, αλλά και να κάνει πιο ισχυρή τη μάθηση μίμησης.

Χρήση μνήμης για μάθηση μίμησης. Με τον απομακρυσμένο έλεγχο του ρομπότ Franka, η ομάδα συνέλεξε ένα σύνολο δεδομένων βίντεο και κίνησης. Όπως φαίνεται στο Σχήμα 4, ο στόχος είναι να χρησιμοποιήσετε την τρίτη θέση για να ανταλλάξετε τις θέσεις των μήλων και των πορτοκαλιών. Η αρχική θέση του καρπού είναι τυχαία, επομένως υπάρχουν δύο πιθανές καταστάσεις στόχου.

Επιπλέον, όταν υπάρχει ένα φρούτο στην τρίτη θέση, το επιθυμητό αποτέλεσμα δεν μπορεί να συναχθεί από την τρέχουσα παρατήρηση - η πολιτική πρέπει να θυμάται την αρχική διαμόρφωση προκειμένου να αποφασίσει ποιο φρούτο θα μετακινηθεί. Σε αντίθεση με τις κοινώς χρησιμοποιούμενες μεθόδους κλωνοποίησης συμπεριφοράς, το DF μπορεί φυσικά να ενσωματώσει τις μνήμες στη δική του κρυφή κατάσταση. Διαπιστώθηκε ότι το DF μπορούσε να επιτύχει ποσοστό επιτυχίας 80%, ενώ η στρατηγική διάχυσης (επί του παρόντος ο καλύτερος αλγόριθμος μάθησης μίμησης χωρίς μνήμη) απέτυχε.

Επιπλέον, το DF μπορεί να είναι πιο ανθεκτικό στο θόρυβο και να διευκολύνει την προεκπαίδευση του ρομπότ.

Πρόβλεψη χρονοσειρών: Ο εξαναγκασμός διάχυσης είναι ένα εξαιρετικό μοντέλο γενικής ακολουθίας

Για εργασίες πρόβλεψης πολυμεταβλητών χρονοσειρών, η έρευνα της ομάδας δείχνει ότι το DF είναι αρκετό για να συγκριθεί ευνοϊκά με προηγούμενα μοντέλα διάχυσης και βασίζεται σε Μετασχηματιστής το μοντέλο είναι συγκρίσιμο.

Ανατρέξτε στο πρωτότυπο έγγραφο για περισσότερες τεχνικές λεπτομέρειες και πειραματικά αποτελέσματα.