νέα

Ο Yang Likun δεν είναι αισιόδοξος για την ενισχυτική μάθηση: "Προτιμώ το MPC"

2024-08-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Αυθεντικός τίτλος: Ο Yann LeCun δεν είναι αισιόδοξος για την ενισχυτική μάθηση: "I do προτιμώ MPC"

Επιμέλεια: Zhang Qian, Xiaozhou

Αξίζει να μελετηθεί ξανά η θεωρία πριν από πενήντα και πλέον χρόνια;

«Προτιμώ τον προγνωστικό έλεγχο μοντέλων (MPC) από την ενισχυτική μάθηση (RL) Το λέω αυτό τουλάχιστον από το 2016. Η ενίσχυση της μάθησης απαιτεί έναν εξαιρετικά μεγάλο αριθμό δοκιμών για την εκμάθηση οποιασδήποτε νέας εργασίας. Αντίθετα, ο προγνωστικός έλεγχος του μοντέλου είναι μηδενικός. -shot: εάν έχετε ένα καλό μοντέλο του κόσμου και έναν καλό στόχο εργασίας, ο προγνωστικός έλεγχος του μοντέλου μπορεί να λύσει νέες εργασίες χωρίς να απαιτείται μάθηση για συγκεκριμένη εργασία. Αυτό δεν σημαίνει ότι η ενίσχυση της μάθησης είναι άχρηστη Η χρήση θα πρέπει να είναι η τελευταία λύση».

Σε πρόσφατη ανάρτησή του, ο Yann LeCun, επικεφαλής επιστήμονας τεχνητής νοημοσύνης στο Meta, εξέφρασε αυτή την άποψη.

Ο Yann LeCun είναι από καιρό επικριτής της ενισχυτικής μάθησης. Πιστεύει ότι η ενισχυτική μάθηση απαιτεί πολλά πειράματα και είναι πολύ αναποτελεσματική. Αυτό είναι πολύ διαφορετικό από το πώς μαθαίνουν οι άνθρωποι - αντί να αναγνωρίζουν αντικείμενα κοιτάζοντας ένα εκατομμύριο δείγματα του ίδιου αντικειμένου ή δοκιμάζοντας επικίνδυνα πράγματα και μαθαίνοντας από αυτά, τα μωρά μαθαίνουν από αυτά παρατηρώντας, προβλέποντας και αλληλεπιδρώντας μαζί τους, ακόμη και χωρίς επίβλεψη .

Σε μια ομιλία του πριν από μισό χρόνο, υποστήριξε ακόμη και την «εγκατάλειψη της ενισχυτικής μάθησης» (βλ. «Η ερευνητική πορεία του GPT-4 δεν έχει μέλλον; Ο Yann LeCun καταδίκασε την αυτοπαλίνδρομη σε θάνατο»). Αλλά σε μια επόμενη συνέντευξη, εξήγησε ότι δεν ήθελε να τα παρατήσει εντελώς, αλλά να ελαχιστοποιήσει τη χρήση της ενισχυτικής μάθησης και ότι ο σωστός τρόπος για να εκπαιδεύσεις ένα σύστημα είναι πρώτα να το κάνεις να μάθει από κυρίως παρατηρήσεις (και ίσως μικρή αλληλεπίδραση) Εκμάθηση καλών αναπαραστάσεων κόσμων και μοντέλων κόσμου.

Ταυτόχρονα, ο LeCun επεσήμανε επίσης ότι προτιμά το MPC (model predictive control) από την ενισχυτική μάθηση.

Το MPC είναι μια τεχνολογία που χρησιμοποιεί μαθηματικά μοντέλα για τη βελτιστοποίηση των συστημάτων ελέγχου σε πραγματικό χρόνο σε περιορισμένο χρόνο Από την εμφάνισή του στις δεκαετίες του 1960 και του 1970, έχει χρησιμοποιηθεί ευρέως σε διάφορους τομείς όπως η χημική μηχανική, η διύλιση πετρελαίου, η προηγμένη κατασκευή, η ρομποτική. και της αεροδιαστημικής. Για παράδειγμα, πριν από λίγο καιρό, η Boston Dynamics μοιράστηκε την πολυετή εμπειρία της στη χρήση MPC για έλεγχο ρομπότ (βλ. "Boston Dynamics Technology Revealed: Backflips, Push-ups and Rollovers, Summary of 6 Years of Experience and Lessons").

Μία από τις τελευταίες εξελίξεις στο MPC είναι η ενσωμάτωσή του με τεχνικές μηχανικής μάθησης, γνωστές ως ML-MPC. Σε αυτήν την προσέγγιση, οι αλγόριθμοι μηχανικής μάθησης χρησιμοποιούνται για την εκτίμηση μοντέλων συστημάτων, την πραγματοποίηση προβλέψεων και τη βελτιστοποίηση ενεργειών ελέγχου. Αυτός ο συνδυασμός μηχανικής μάθησης και MPC έχει τη δυνατότητα να προσφέρει σημαντικές βελτιώσεις στην απόδοση και την αποδοτικότητα του ελέγχου.

Η έρευνα του LeCun που σχετίζεται με το παγκόσμιο μοντέλο χρησιμοποιεί επίσης θεωρίες που σχετίζονται με το MPC.

Πρόσφατα, η προτίμηση του LeCun για το MPC έχει προσελκύσει κάποια προσοχή στην κοινότητα AI.

Κάποιοι λένε ότι το MPC λειτουργεί καλά εάν το πρόβλημά μας είναι καλά μοντελοποιημένο και έχει προβλέψιμη δυναμική.

Ίσως για τους επιστήμονες υπολογιστών, υπάρχουν ακόμα πολλά που αξίζει να διερευνηθούν στον τομέα της επεξεργασίας και του ελέγχου σήματος.

Ωστόσο, μερικοί άνθρωποι επεσήμαναν ότι η επίλυση ενός ακριβούς μοντέλου MPC είναι ένα δύσκολο πρόβλημα και η υπόθεση κατά την άποψη του LeCun - "αν έχετε ένα καλό παγκόσμιο μοντέλο" είναι δύσκολο να επιτευχθεί από μόνη της.

Μερικοί άνθρωποι λένε επίσης ότι η ενισχυτική μάθηση και το MPC δεν είναι απαραιτήτως μια σχέση ενός ή ενός και και τα δύο μπορεί να έχουν τα δικά τους εφαρμόσιμα σενάρια.

Υπήρξαν κάποιες προηγούμενες μελέτες που χρησιμοποιούν συνδυασμό και των δύο, με καλά αποτελέσματα.

Ενισχυτική μάθηση έναντι MPC

Στην προηγούμενη συζήτηση, ορισμένοι χρήστες του Διαδικτύου συνέστησαν ένα άρθρο Medium που ανέλυε και συνέκρινε την ενισχυτική μάθηση και το MPC.

Στη συνέχεια, ας αναλύσουμε τα πλεονεκτήματα και τα μειονεκτήματα των δύο λεπτομερώς με βάση αυτό το τεχνικό ιστολόγιο.

Η ενισχυτική μάθηση (RL) και ο προγνωστικός έλεγχος μοντέλων (MPC) είναι δύο ισχυρές τεχνικές για τη βελτιστοποίηση των συστημάτων ελέγχου. Και οι δύο προσεγγίσεις έχουν τα πλεονεκτήματα και τα μειονεκτήματά τους και ο καλύτερος τρόπος επίλυσης ενός προβλήματος εξαρτάται από τις συγκεκριμένες απαιτήσεις ενός συγκεκριμένου προβλήματος.

Λοιπόν, ποια είναι τα πλεονεκτήματα και τα μειονεκτήματα των δύο μεθόδων και ποια προβλήματα είναι κατάλληλα για επίλυση;

ενισχυτική μάθηση

Η ενισχυτική μάθηση είναι μια μέθοδος μηχανικής μάθησης που μαθαίνει μέσω δοκιμής και λάθους. Είναι ιδιαίτερα κατάλληλο για την επίλυση προβλημάτων με πολύπλοκα δυναμικά ή άγνωστα μοντέλα συστημάτων. Στην ενισχυτική μάθηση, ένας πράκτορας μαθαίνει να αναλαμβάνει ενέργειες στο περιβάλλον για να μεγιστοποιήσει τα σήματα ανταμοιβής. Ο πράκτορας αλληλεπιδρά με το περιβάλλον, παρατηρεί τις καταστάσεις που προκύπτουν και αναλαμβάνει ενέργειες. Στη συνέχεια, ο πράκτορας ανταμείβεται ή τιμωρείται με βάση τα αποτελέσματα. Με τον καιρό, ο πράκτορας θα μάθει να κάνει ενέργειες που οδηγούν σε πιο θετικές ανταμοιβές. Η ενισχυτική μάθηση έχει μια ποικιλία εφαρμογών σε συστήματα ελέγχου, με στόχο την παροχή δυναμικών προσαρμοστικών μεθόδων για τη βελτιστοποίηση της συμπεριφοράς του συστήματος. Μερικές κοινές εφαρμογές περιλαμβάνουν:

Αυτόνομα συστήματα: Η ενισχυτική μάθηση χρησιμοποιείται σε συστήματα αυτόνομου ελέγχου, όπως αυτόνομη οδήγηση, drones και ρομπότ, για την εκμάθηση βέλτιστων στρατηγικών ελέγχου για την πλοήγηση και τη λήψη αποφάσεων.

Ρομποτική: Η ενισχυτική μάθηση δίνει τη δυνατότητα στα ρομπότ να μαθαίνουν και να προσαρμόζουν τις στρατηγικές ελέγχου τους για να ολοκληρώσουν εργασίες όπως η σύλληψη αντικειμένων, ο χειρισμός και η μετακίνηση σε πολύπλοκα δυναμικά περιβάλλοντα.

......

Ροή εργασιών ενισχυτικής μάθησης (RL).

Πράκτορες: μαθητές και υπεύθυνοι λήψης αποφάσεων.

Περιβάλλον: Το περιβάλλον ή η οντότητα με την οποία αλληλεπιδρά ο πράκτορας. Οι πράκτορες παρατηρούν και αναλαμβάνουν ενέργειες για να επηρεάσουν το περιβάλλον.

Κατάσταση: Μια πλήρης περιγραφή της κατάστασης του κόσμου. Ο πράκτορας μπορεί να παρατηρήσει πλήρως ή εν μέρει την κατάσταση.

Ανταμοιβή: Κλιμακωτή ανατροφοδότηση που υποδεικνύει την απόδοση του πράκτορα. Ο στόχος του πράκτορα είναι να μεγιστοποιήσει τη μακροπρόθεσμη συνολική ανταμοιβή. Ο πράκτορας αλλάζει τη στρατηγική του με βάση τις ανταμοιβές.

Χώρος ενεργειών: Ένα σύνολο έγκυρων ενεργειών που μπορεί να εκτελέσει ένας πράκτορας σε ένα δεδομένο περιβάλλον. Οι πεπερασμένες ενέργειες αποτελούν έναν διακριτό χώρο δράσης.

μοντέλο προγνωστικού ελέγχου

Το Model Predictive Control (MPC) είναι μια ευρέως χρησιμοποιούμενη στρατηγική ελέγχου που έχει εφαρμοστεί σε πολλούς τομείς, συμπεριλαμβανομένου του ελέγχου διεργασιών, της ρομποτικής, των αυτόνομων συστημάτων κ.λπ.

Το βασικό δόγμα του MPC είναι η χρήση ενός μαθηματικού μοντέλου ενός συστήματος για την πρόβλεψη της μελλοντικής συμπεριφοράς και στη συνέχεια η χρήση αυτής της γνώσης για τη δημιουργία ενεργειών ελέγχου για τη μεγιστοποίηση ορισμένων στόχων απόδοσης.

Μετά από χρόνια συνεχούς βελτίωσης και τελειοποίησης, η MPC μπορεί τώρα να χειριστεί όλο και πιο περίπλοκα συστήματα και δύσκολα προβλήματα ελέγχου. Όπως φαίνεται στο παρακάτω σχήμα, σε κάθε διάστημα ελέγχου, ο αλγόριθμος MPC υπολογίζει μια ακολουθία ανοιχτού βρόχου της περιοχής ελέγχου για να βελτιστοποιήσει τη συμπεριφορά της εγκατάστασης εντός του προβλεπόμενου εύρους.

Διακριτό σχήμα MPC.

Οι εφαρμογές του MPC σε συστήματα ελέγχου περιλαμβάνουν:

βιομηχανία επεξεργασίας

σύστημα ισχύος

έλεγχος αυτοκινήτου

ρομποτική

Μεταξύ αυτών, το MPC χρησιμοποιείται σε ρομποτικά συστήματα για τον σχεδιασμό και τη βελτιστοποίηση τροχιών κίνησης για να διασφαλιστεί η ομαλή και αποτελεσματική κίνηση των ρομποτικών βραχιόνων και των ρομποτικών πλατφορμών σε διάφορες εφαρμογές, συμπεριλαμβανομένης της κατασκευής και της εφοδιαστικής.

Ο παρακάτω πίνακας παραθέτει τις διαφορές μεταξύ ενισχυτικής μάθησης και MPC όσον αφορά τα μοντέλα, τις μεθόδους εκμάθησης, την ταχύτητα, την ευρωστία, την αποτελεσματικότητα του δείγματος, τα εφαρμόσιμα σενάρια κ.λπ. Γενικά, η ενισχυτική μάθηση είναι μια κατάλληλη επιλογή για προβλήματα που είναι δύσκολο να μοντελοποιηθούν ή έχουν πολύπλοκη δυναμική. Το MPC είναι μια καλή επιλογή για προβλήματα που είναι καλά μοντελοποιημένα και δυναμικά προβλέψιμα.

Μία από τις τελευταίες εξελίξεις στο MPC είναι η ενσωμάτωση με την τεχνολογία μηχανικής εκμάθησης, γνωστή ως ML-MPC. Το ML-MPC υιοθετεί μια διαφορετική μέθοδο από την παραδοσιακή MPC για έλεγχο, χρησιμοποιώντας αλγόριθμους μηχανικής μάθησης για την εκτίμηση μοντέλων συστημάτων, την πρόβλεψη και τη δημιουργία ενεργειών ελέγχου. Η κύρια ιδέα πίσω από αυτό είναι η χρήση μοντέλων που βασίζονται σε δεδομένα για να ξεπεραστούν οι περιορισμοί του παραδοσιακού MPC.

Το MPC που βασίζεται στη μηχανική μάθηση μπορεί να προσαρμοστεί στις μεταβαλλόμενες συνθήκες σε πραγματικό χρόνο, καθιστώντας το κατάλληλο για δυναμικά και απρόβλεπτα συστήματα. Σε σύγκριση με το MPC που βασίζεται σε μοντέλα, το MPC που βασίζεται σε μηχανική μάθηση μπορεί να παρέχει υψηλότερη ακρίβεια, ειδικά σε πολύπλοκα και δύσκολα στη μοντελοποίηση συστήματα.

Επιπλέον, το MPC που βασίζεται σε μηχανική μάθηση μπορεί να μειώσει την πολυπλοκότητα του μοντέλου, καθιστώντας ευκολότερη την ανάπτυξη και τη διατήρησή του. Ωστόσο, σε σύγκριση με το παραδοσιακό MPC, το ML-MPC έχει επίσης ορισμένους περιορισμούς, όπως η ανάγκη για μεγάλο όγκο δεδομένων για την εκπαίδευση του μοντέλου, κακή ερμηνεία κ.λπ.

Φαίνεται ότι οι επιστήμονες υπολογιστών έχουν ακόμη πολύ δρόμο μπροστά τους για να μπορέσουν να εισαγάγουν πραγματικά το MPC στον τομέα της τεχνητής νοημοσύνης.

Σύνδεσμος αναφοράς: https://medium.com/@airob/reinforcement-learning-vs-model-predictive-control-f43f97a0be27