Νέα

Αρχιτεκτονική νευρωνικών δικτύων "διαφορετικά μονοπάτια οδηγούν στον ίδιο στόχο"; ICML 2024 Paper: Διαφορετικά μοντέλα, αλλά το ίδιο μαθησιακό περιεχόμενο

2024-07-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Νέα Έκθεση Σοφίας

Επιμέλεια: Qiao Yang

[Εισαγωγή στη Νέα Σοφία] Τα βαθιά νευρωνικά δίκτυα διατίθενται σε πολλά μεγέθη και αρχιτεκτονικές, και είναι γενικά αποδεκτό ότι αυτό επηρεάζει τις αφηρημένες αναπαραστάσεις που μαθαίνει το μοντέλο. Ωστόσο, η πρώτη εργασία που δημοσιεύτηκε από δύο μελετητές του UCL στο ICML 2024 επεσήμανε ότι εάν η αρχιτεκτονική του μοντέλου είναι αρκετά ευέλικτη, ορισμένες συμπεριφορές δικτύου είναι ευρέως διαδεδομένες μεταξύ των διαφορετικών αρχιτεκτονικών.

Από τότε που η τεχνητή νοημοσύνη εισήλθε στην εποχή των μεγάλων μοντέλων, το Scaling Law έχει σχεδόν γίνει συναίνεση.


Διεύθυνση χαρτιού: https://arxiv.org/abs/2001.08361

Οι ερευνητές του OpenAI πρότειναν σε αυτό το έγγραφο το 2020 ότι η απόδοση του μοντέλου έχει σχέση ισχύος-νόμου με τρεις δείκτες: ποσότητα παραμέτρων N, μέγεθος συνόλου δεδομένων D και υπολογιστική ισχύς εκπαίδευσης C.


Εκτός από αυτές τις τρεις πτυχές, παράγοντες όπως η επιλογή των υπερπαραμέτρων και το πλάτος και το βάθος του μοντέλου έχουν μικρή επίδραση στην απόδοση εντός ενός λογικού εύρους.

Επιπλέον, η ύπαρξη αυτής της σχέσης εξουσίας-νόμου δεν θέτει καμία προϋπόθεση για την αρχιτεκτονική του μοντέλου. Με άλλα λόγια, μπορούμε να σκεφτούμε ότι ο νόμος κλιμάκωσης είναι εφαρμόσιμος σχεδόν σε οποιαδήποτε αρχιτεκτονική μοντέλου.

Επιπλέον, μια εργασία που δημοσιεύτηκε στον τομέα της νευροεπιστήμης το 2021 φαίνεται να αγγίζει αυτό το φαινόμενο από άλλη οπτική γωνία.


Διεύθυνση χαρτιού: https://www.frontiersin.org/journals/computational-neuroscience/articles/10.3389/fncom.2021.625804/full

Διαπίστωσαν ότι παρόλο που δίκτυα όπως το AlexNet, το VGG και το ResNet που έχουν σχεδιαστεί για οπτικές εργασίες έχουν μεγάλες δομικές διαφορές, φαίνεται ότι μπορούν να μάθουν πολύ παρόμοια σημασιολογία, όπως η ιεραρχική σχέση κατηγοριών αντικειμένων, μετά από εκπαίδευση στο ίδιο σύνολο δεδομένων. .


Ποιος είναι όμως ο λόγος πίσω από αυτό; Εάν υπερβείτε την επιφανειακή εμπειρία, σε ποιο βαθμό οι διάφορες αρχιτεκτονικές δικτύων είναι παρόμοιες στο ουσιαστικό επίπεδο;

Δύο ερευνητές στο UCL δημοσίευσαν μια εργασία φέτος, προσπαθώντας να απαντήσουν σε αυτό το ερώτημα εξετάζοντας την αφηρημένη αναπαράσταση που μαθαίνουν τα νευρωνικά δίκτυα.


Διεύθυνση χαρτιού: https://arxiv.org/abs/2402.09142

Ανήγαγαν μια θεωρία που συνοψίζει αποτελεσματικά τη δυναμική της μάθησης αναπαράστασης σε πολύπλοκες αρχιτεκτονικές μοντέλων μεγάλης κλίμακας, ανακαλύπτοντας τα «πλούσια» και «τεμπέλικα» χαρακτηριστικά της. Όταν το μοντέλο είναι αρκετά ευέλικτο, ορισμένες συμπεριφορές δικτύου μπορεί να είναι ευρέως διαδεδομένες σε διαφορετικές αρχιτεκτονικές.

Αυτή η εργασία έγινε αποδεκτή από το συνέδριο ICML 2024.

Διαδικασία μοντελοποίησης

Το καθολικό θεώρημα προσέγγισης δηλώνει ότι με την παροχή επαρκών παραμέτρων, ένα μη γραμμικό νευρωνικό δίκτυο μπορεί να μάθει και να προσεγγίσει οποιαδήποτε ομαλή συνάρτηση.

Με έμπνευση από αυτό το θεώρημα, η εργασία υποθέτει πρώτα ότι η αντιστοίχιση κωδικοποίησης από την είσοδο στην κρυφή αναπαράσταση και η αντιστοίχιση αποκωδικοποίησης από την κρυφή αναπαράσταση στην έξοδο είναι αυθαίρετες ομαλές συναρτήσεις.

Επομένως, ενώ αγνοούνται οι λεπτομέρειες της αρχιτεκτονικής του δικτύου, η λειτουργική δυναμική μπορεί να μοντελοποιηθεί με τον ακόλουθο τρόπο:

Η διαδικασία εκπαίδευσης ενός νευρωνικού δικτύου μπορεί να θεωρηθεί ως η βελτιστοποίηση μιας συνάρτησης εξομάλυνσης σε ένα συγκεκριμένο σύνολο δεδομένων, αλλάζοντας συνεχώς τις παραμέτρους του δικτύου για την ελαχιστοποίηση της συνάρτησης απώλειας MSE:


σε⟨⋅⟩Τα σύμβολα αντιπροσωπεύουν μέσους όρους σε ολόκληρο το σύνολο δεδομένων.

Δεδομένου ότι μας ενδιαφέρει να μελετήσουμε τις δυναμικές διεργασίες που αντιπροσωπεύουν το χώρο, η συνάρτηση μπορεί να χωριστεί σε έναν συνδυασμό δύο ομαλών χαρτών: τον χάρτη κωδικοποίησηςℎ:→, και αποκωδικοποίηση χαρτογράφησης:→, αυτή τη στιγμή η συνάρτηση απώλειας στην εξίσωση (1) μπορεί να γραφτεί ως:


Στη συνέχεια, η διαδικασία ενημέρωσης παραμέτρων χρησιμοποιώντας τον κανόνα gradient descent μπορεί να γραφτεί ως:

όπου είναι το αντίστροφο του ποσοστού μάθησης.

Αν και η εξίσωση (4) είναι αρκετά ακριβής, το πρόβλημα είναι ότι εξαρτάται ρητά από τις παραμέτρους του δικτύου και μια αρκετά γενική μαθηματική έκφραση απαιτεί να αγνοηθεί αυτή η λεπτομέρεια υλοποίησης.

Στην ιδανική περίπτωση, εάν η εκφραστική ικανότητα του νευρωνικού δικτύου είναι αρκετά πλούσια, η βελτιστοποίηση της συνάρτησης απώλειας θα πρέπει να εκφράζεται άμεσα ως περίπου δύο αντιστοιχίσειςκαι λειτουργία.


Ωστόσο, το πώς επιτυγχάνεται αυτό μαθηματικά παραμένει ασαφές. Επομένως, ας ξεκινήσουμε με την απλούστερη περίπτωση - όχι λαμβάνοντας υπόψη ολόκληρο το σύνολο δεδομένων, αλλά δύο σημεία δεδομένων.

Κατά τη διάρκεια της προπόνησης, λόγω της λειτουργίας χαρτογράφησηςΚαθώς το άθροισμα αλλάζει, οι αναπαραστάσεις διαφορετικών σημείων δεδομένων μετακινούνται στον κρυφό χώρο, πλησιάζουν το ένα στο άλλο ή αλληλεπιδρούν μεταξύ τους.

Για παράδειγμα, για δύο σημεία στο σύνολο δεδομένων, εάν⁢(1) και⁢(2) είναι αρκετά κοντά καικαι είναι μια ομαλή συνάρτηση, τότε ο μέσος όρος των δύο σημείων μπορεί να χρησιμοποιηθεί για την εκτέλεση μιας γραμμικής προσέγγισης των δύο συναρτήσεων χαρτογράφησης:


σεκαι αντίστοιχακαι ο Ιακωβιανός πίνακας του .

Υποθέτοντας ότι το νευρωνικό δίκτυο έχει επαρκή εκφραστικότητα και βαθμούς ελευθερίας, οι παράμετροι γραμμικοποίησης, και μπορεί να βελτιστοποιηθεί αποτελεσματικά, τότε η διαδικασία gradient descent μπορεί να εκφραστεί ως:


Η εξίσωση (6) περιγράφει την κύρια υπόθεση μοντελοποίησης της εργασίας, η οποία προορίζεται να είναι μια ισοδύναμη θεωρία για σύνθετα συστήματα αρχιτεκτονικής μεγάλης κλίμακας και δεν υπόκειται σε συγκεκριμένες μεθόδους παραμετροποίησης.


Το σχήμα 1 είναι μια οπτική έκφραση της παραπάνω διαδικασίας μοντελοποίησης Προκειμένου να απλοποιηθεί το πρόβλημα, υποτίθεται ότι δύο σημεία δεδομένων θα μετακινηθούν μόνο πιο κοντά ή πιο μακριά στον κρυφό χώρο, αλλά δεν θα περιστραφούν.

Ο κύριος δείκτης που μας ενδιαφέρει είναι η απόσταση ‖ℎ‖ στον κρυφό χώρο, που μας επιτρέπει να γνωρίζουμε τη δομή αναπαράστασης που μαθαίνουμε από το μοντέλο και την απόσταση ‖‖ εξόδου από το μοντέλο, η οποία βοηθά στη μοντελοποίηση της καμπύλης απώλειας.

Επιπλέον, εισάγεται μια εξωτερική μεταβλητή για τον έλεγχο της ταχύτητας αναπαράστασης ή μπορεί να θεωρηθεί ως ευθυγράμμιση εξόδου, που αντιπροσωπεύει τη γωνιακή διαφορά μεταξύ της προβλεπόμενης εξόδου και της πραγματικής εξόδου.

Από αυτό, λαμβάνουμε ένα ανεξάρτητο σύστημα τριών βαθμωτών μεταβλητών:



Μεταξύ αυτών, οι λεπτομέρειες υλοποίησης του νευρωνικού δικτύου έχουν εκφραστεί αφηρημένα ως δύο σταθερές: 1/και 1/, υποδεικνύοντας το αποτελεσματικό ποσοστό μάθησης.

Μαθησιακή δυναμική συνέπεια

Αφού ολοκληρώθηκε η μοντελοποίηση, το χαρτί εκπαίδευσε νευρωνικά δίκτυα διαφορετικών αρχιτεκτονικών στο σύνολο δεδομένων δύο σημείων και συνέκρινε την πραγματική δυναμική μάθησης με την αριθμητική λύση της ισοδύναμης θεωρίας.


Η προεπιλεγμένη δομή αναφέρεται σε ένα δίκτυο 20 επιπέδων, 500 νευρώνες ανά στρώμα και σε διαρροή ReLU.

Μπορεί να φανεί ότι αν και υπάρχουν μόνο δύο σταθερές που πρέπει να προσαρμοστούν, η θεωρία της ισοδυναμίας που μόλις περιγράφηκε μπορεί να ταιριάζει καλά στην πραγματική κατάσταση διαφόρων νευρωνικών δικτύων.

Οι ίδιες εξισώσεις μπορούν να περιγράψουν με ακρίβεια τη δυναμική πολλών πολύπλοκων μοντέλων και αρχιτεκτονικών κατά τη διάρκεια της εκπαίδευσης, κάτι που φαίνεται να δείχνει ότι εάν το μοντέλο είναι αρκετά εκφραστικό, τελικά θα συγκλίνει σε μια κοινή συμπεριφορά δικτύου.

Τοποθετήστε το σε ένα μεγαλύτερο σύνολο δεδομένων όπως το MNIST και παρακολουθήστε τη δυναμική εκμάθησης δύο σημείων δεδομένων και η θεωρία ισοδυναμίας εξακολουθεί να ισχύει.


Η αρχιτεκτονική του δικτύου περιλαμβάνει 4 πλήρως συνδεδεμένα επίπεδα, κάθε επίπεδο περιλαμβάνει 100 νευρώνες και χρησιμοποιεί τη λειτουργία ενεργοποίησης ReLU με διαρροή

Ωστόσο, αξίζει να σημειωθεί ότι όταν το αρχικό βάρος αυξάνεται σταδιακά (Εικόνα 3), τα μοτίβα αλλαγής των ‖ℎ‖, ‖⁢‖ και των τριών μεταβλητών θα αλλάξουν.

Επειδή όταν το αρχικό βάρος είναι μεγάλο, τα δύο σημεία δεδομένων θα απέχουν πολύ μεταξύ τους στην αρχή της προπόνησης, οπότε η γραμμική προσέγγιση του τύπου (5) δεν ισχύει πλέον και το παραπάνω θεωρητικό μοντέλο αποτυγχάνει.


δομημένη αναπαράσταση

Από τους περιορισμούς ομαλότητας και την προαναφερθείσα θεωρία ισοδυναμίας, μπορούμε να συνοψίσουμε τους κανόνες στη δομή αναπαράστασης των νευρωνικών δικτύων;

Σύμφωνα με τον τύπο (7), μπορεί να συναχθεί ότι υπάρχει ένα μοναδικό σταθερό σημείο, το οποίο είναι η τελική απόσταση αναπαράστασης δύο σημείων δεδομένων:


Εάν το αρχικό βάρος είναι μεγάλο, η τελική απόσταση αναπαράστασης θα συγκλίνει σε υψηλή και η τιμή εξαρτάται από την είσοδο δεδομένων και την τυχαία προετοιμασία, αντίστροφα, εάν το αρχικό βάρος είναι μικρό, θα συγκλίνει σε χαμηλό, το οποίο εξαρτάται από την είσοδο και την έξοδο δομή των δεδομένων.

Αυτός ο διαχωρισμός μεταξύ τυχαίων μηχανισμών και δομημένων μηχανισμών επαληθεύει περαιτέρω τον «πλούτο» και την «αδράνεια» στη διαδικασία εκμάθησης των βαθιών νευρωνικών δικτύων που προτάθηκαν σε προηγούμενες εργασίες, ειδικά λαμβάνοντας υπόψη ότι η κλίμακα των αρχικών βαρών θα γίνει βασικός παράγοντας.

Το έγγραφο δίνει μια διαισθητική εξήγηση για αυτό το φαινόμενο:

Εάν τα αρχικά βάρη είναι μεγάλα, τα δύο σημεία δεδομένων στον κρυφό χώρο θα απέχουν πολύ κατά την έναρξη της εκπαίδευσης, οπότε η ευελιξία του δικτύου επιτρέπει στον αποκωδικοποιητή να μαθαίνει ελεύθερα τη σωστή έξοδο για κάθε σημείο δεδομένων ξεχωριστά χωρίς να χρειάζεται σημαντικές προσαρμογές. Δομή αναπαράστασης. Επομένως, το τελικό μοτίβο εκμάθησης μοιάζει με τη δομή που ήταν ήδη παρούσα κατά την προετοιμασία.

Αντίθετα, όταν το βάρος είναι μικρό, τα δύο σημεία δεδομένων βρίσκονται πιο κοντά μεταξύ τους και λόγω των περιορισμών ομαλότητας, η λειτουργία αντιστοίχισης κωδικοποίησης πρέπει να ρυθμιστεί σύμφωνα με την έξοδο στόχο, μετακινώντας την αναπαράσταση των δύο σημείων δεδομένων ώστε να ταιριάζει στα δεδομένα .

Επομένως, θα δούμε ότι όταν τα βάρη είναι μικρά, η εκμάθηση αναπαράστασης θα δείξει ένα δομημένο αποτέλεσμα (Εικόνα 5).


Η αλλαγή της εργασίας του νευρωνικού δικτύου σε προσαρμογή μιας συνάρτησης αποκλειστικού OR (XOR) μπορεί να το δείξει πιο διαισθητικά. Όταν το βάρος αρχικοποίησης είναι μικρό, το μοντέλο προφανώς μαθαίνει τα δομικά χαρακτηριστικά της συνάρτησης XOR.


Στο νευρωνικό δίκτυο με μόνο 2 επίπεδα στα δεξιά, υπάρχει μεγάλη απόκλιση μεταξύ θεωρίας και πειράματος, γεγονός που καταδεικνύει τη σημασία της υπόθεσης υψηλής εκφραστικότητας του μοντέλου στην παραπάνω θεωρία.

Συμπερασματικά

Η κύρια συμβολή αυτής της εργασίας είναι η εισαγωγή μιας θεωρίας ισοδυναμίας που είναι σε θέση να εκφράσει κοινά μέρη της δυναμικής διαδικασίας μάθησης σε διαφορετικές αρχιτεκτονικές νευρωνικών δικτύων και έχει επιδείξει μια δομημένη αναπαράσταση.

Λόγω του περιορισμού της ομαλότητας της διαδικασίας μοντελοποίησης και της απλοποίησης της αλληλεπίδρασης των σημείων δεδομένων, αυτή η θεωρία δεν μπορεί ακόμα να γίνει ένα καθολικό μοντέλο για να περιγράψει τη διαδικασία εκπαίδευσης των βαθιών νευρωνικών δικτύων.

Ωστόσο, το πιο πολύτιμο σε αυτή τη μελέτη είναι ότι δείχνει ότι ορισμένα από τα στοιχεία που απαιτούνται για την εκμάθηση αναπαράστασης μπορεί ήδη να περιλαμβάνονται στη διαδικασία gradient descent, και όχι μόνο από την επαγωγική μεροληψία που περιέχεται στη συγκεκριμένη αρχιτεκτονική μοντέλου.

Επιπλέον, η θεωρία τονίζει επίσης ότι η κλίμακα των αρχικών βαρών είναι βασικός παράγοντας για την τελική διαμόρφωση της δομής αναπαράστασης.

Σε μελλοντική εργασία, πρέπει ακόμα να βρούμε έναν τρόπο να επεκτείνουμε τη θεωρία της ισοδυναμίας για να χειριστούμε μεγαλύτερα και πιο σύνθετα σύνολα δεδομένων, αντί να μοντελοποιούμε απλώς την αλληλεπίδραση δύο σημείων δεδομένων.

Ταυτόχρονα, πολλές αρχιτεκτονικές μοντέλων εισάγουν επαγωγικές προκαταλήψεις που επηρεάζουν τη μάθηση αναπαράστασης, δυνητικά αλληλεπιδρώντας με τα αναπαραστατικά αποτελέσματα της μοντελοποίησης.

Βιβλιογραφικές αναφορές:

https://arxiv.org/abs/2402.09142