τα στοιχεία επικοινωνίας μου
Ταχυδρομείο[email protected]
2024-07-15
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Αν και η βαθιά μάθηση έχει σημειώσει μεγάλη επιτυχία τα τελευταία χρόνια, η κατανόηση της θεωρίας της από τους ανθρώπους εξακολουθεί να υστερεί.
Για το λόγο αυτό, τα ερευνητικά θέματα που προσπαθούν να εξηγήσουν τη συνάρτηση απώλειας και τη διαδικασία βελτιστοποίησης της βαθιάς μάθησης από θεωρητική άποψη έχουν λάβει μεγαλύτερη προσοχή.
Αν και οι συναρτήσεις απώλειας που χρησιμοποιούνται στη βαθιά μάθηση θεωρούνται συχνά ως πολύπλοκες συναρτήσεις μαύρου κουτιού υψηλών διαστάσεων, πιστεύεται ότι αυτές οι λειτουργίες, ειδικά εκείνες που συναντώνται σε πραγματικές τροχιές εκπαίδευσης, περιέχουν πολύπλοκες καλοήθεις δομές που μπορούν να προωθήσουν αποτελεσματικά τη διαδικασία βελτιστοποίησης με βάση τις διαβαθμίσεις.
Όπως σε πολλούς άλλους επιστημονικούς κλάδους, ένα βασικό βήμα για την οικοδόμηση μιας θεωρίας βαθιάς μάθησης έγκειται στην κατανόηση των μη τετριμμένων φαινομένων που ανακαλύφθηκαν από πειράματα για την αποσαφήνιση των υποκείμενων μηχανισμών τους.
Πρόσφατα, μελετητές στον τομέα ανακάλυψαν ένα εντυπωσιακό φαινόμενο - Συνδεσιμότητα λειτουργίας.
Δηλαδή, διαφορετικά βέλτιστα σημεία που λαμβάνονται μέσω δύο ανεξάρτητων βελτιστοποιήσεων κλίσης μπορούν να συνδεθούν με μια απλή διαδρομή στο χώρο των παραμέτρων, ενώ η απώλεια ή η ακρίβεια κατά μήκος της διαδρομής παραμένει σχεδόν σταθερή.
Αυτό το φαινόμενο είναι αναμφίβολα εκπληκτικό γιατί τα διαφορετικά βέλτιστα σημεία μιας μη κυρτής συνάρτησης είναι πιθανό να βρίσκονται σε διαφορετικές και απομονωμένες «κοιλάδες».
Ωστόσο, αυτό δεν συμβαίνει για τα βέλτιστα σημεία που βρίσκονται στην πράξη.
Το πιο ενδιαφέρον είναι ότι ορισμένοι ερευνητές ανακάλυψαν τη συνδεσιμότητα γραμμικής λειτουργίας που είναι ισχυρότερη από τη συνδεσιμότητα λειτουργίας.
Η έρευνα σχετικά με τη συνδεσιμότητα γραμμικής λειτουργίας δείχνει ότι διαφορετικά βέλτιστα σημεία μπορούν να συνδεθούν με γραμμικά μονοπάτια.
Αν και δύο εντελώς ανεξάρτητα δίκτυα συνήθως δεν ικανοποιούν τη συνδεσιμότητα γραμμικής λειτουργίας, υπάρχουν δύο τρόποι για να αποκτήσετε ένα δίκτυο που ικανοποιεί:
Το πρώτο δίκτυο είναι η μέθοδος αναπαραγωγής.
Όταν το δίκτυο ξεκινά από την αρχικοποίηση και εκπαιδεύεται για μικρό αριθμό εποχών, οι παράμετροι αντιγράφονται για να ληφθούν δύο δίκτυα. Στη συνέχεια, τα δύο δίκτυα συνέχισαν να εκπαιδεύονται ανεξάρτητα κάτω από διαφορετικές στοχαστικότητες.
Το δεύτερο δίκτυο είναι η μέθοδος μετάθεσης.
Δηλαδή, τα δύο δίκτυα εκπαιδεύονται πρώτα ανεξάρτητα και στη συνέχεια οι νευρώνες του ενός δικτύου αναδιατάσσονται ώστε να ταιριάζουν με τους νευρώνες του άλλου δικτύου.
Σε μια προηγούμενη εργασία, ο Δρ. Zhou Zhanpeng του Πανεπιστημίου Shanghai Jiao Tong και συνεργάτες από το Εργαστήριο Τεχνητής Νοημοσύνης της Σαγκάης ήλπιζαν να εξηγήσουν τη Συνδεσιμότητα Γραμμικής λειτουργίας από την οπτική γωνία της εκμάθησης χαρακτηριστικών.
Και θέτει το ερώτημα: Τι συμβαίνει με τα εσωτερικά χαρακτηριστικά όταν παρεμβάλλονται γραμμικά τα βάρη δύο εκπαιδευμένων δικτύων;
Εικόνα |. Zhou Zhanpeng (Πηγή: Zhou Zhanpeng)
Μέσω της έρευνας, βρήκαν ότι τα χαρακτηριστικά σχεδόν σε όλα τα επίπεδα ικανοποιούν επίσης μια ισχυρή μορφή γραμμικής σύνδεσης: δηλαδή, οι χάρτες χαρακτηριστικών στο δίκτυο παρεμβολής βάρους είναι περίπου οι ίδιοι με τη γραμμική παρεμβολή των χαρτών χαρακτηριστικών στα δύο αρχικά δίκτυα.
Ονομάζουν αυτό το φαινόμενο Layerwise Linear Feature Connectivity.
Επιπλέον, διαπίστωσαν ότι η συνδεσιμότητα γραμμικών χαρακτηριστικών Layerwise εμφανίζεται πάντα ταυτόχρονα με τη συνδεσιμότητα γραμμικής λειτουργίας.
Και αποδεικνύει αυτόν τον κανόνα: εάν δύο μοντέλα που έχουν εκπαιδευτεί στο ίδιο σύνολο δεδομένων ικανοποιούν τη συνδεσιμότητα γραμμικών χαρακτηριστικών Layerwise, τότε μπορούν επίσης να ικανοποιήσουν τη Συνδεσιμότητα Γραμμικής λειτουργίας ταυτόχρονα.
Περαιτέρω, η ερευνητική ομάδα διεξήγαγε μια εις βάθος μελέτη των λόγων της Layerwise Linear Feature Connectivity.
Και εντοπίστηκαν δύο βασικές προϋποθέσεις: η ασθενής προσθετικότητα της συνάρτησης ReLU και η ανταλλακτική ιδιότητα μεταξύ των δύο εκπαιδευμένων δικτύων.
Ξεκινώντας από αυτές τις δύο συνθήκες, απέδειξαν ότι έλαβαν τη Συνδεσιμότητα Γραμμικών Χαρακτηριστικών Επιπέδων στο δίκτυο ReLU και επαλήθευσαν αυτές τις δύο συνθήκες πειραματικά.
Ταυτόχρονα, απέδειξαν επίσης ότι η μέθοδος μετάθεσης επιτρέπει σε δύο δίκτυα να ικανοποιούν τη συνδεσιμότητα γραμμικής λειτουργίας καθιστώντας τα εναλλάξιμα.
Γενικά, η ερευνητική ομάδα βρήκε μια γραμμική ιδιότητα που είναι πιο λεπτομερής από τη Συνδεσιμότητα Γραμμικής λειτουργίας και μπορεί να ικανοποιήσει καλύτερα το νευρωνικό δίκτυο.
Ωστόσο, τα παραπάνω ευρήματα βασίζονται όλα σε δίκτυα που έχουν εκπαιδευτεί στο ίδιο σύνολο δεδομένων.
Έτσι, έθεσαν ένα νέο ερώτημα: Μπορεί η Layerwise Linear Feature Connectivity να δημιουργηθεί σε δύο μοντέλα που έχουν εκπαιδευτεί σε διαφορετικά σύνολα δεδομένων;
Η ομάδα παρατήρησε ότι η Μέθοδος Ωοτοκίας είναι πολύ κοντά στο πρότυπο εκπαίδευσης πριν από την προπόνηση-βελτιστοποίηση. Δηλαδή, τόσο η μέθοδος αναπαραγωγής όσο και η λεπτομέρεια ξεκινούν από ένα μοντέλο που έχει εκπαιδευτεί για ένα χρονικό διάστημα για να πραγματοποιήσει περαιτέρω εκπαίδευση.
Ωστόσο, το μοντέλο στη μέθοδο αναπαραγωγής συνεχίζει να εκπαιδεύεται στο ίδιο σύνολο δεδομένων, ενώ το μοντέλο στη λεπτομέρεια μπορεί να εκπαιδευτεί σε διαφορετικά σύνολα δεδομένων.
Σε μια πρόσφατη εργασία, ανακάλυψαν ότι στο πλαίσιο του παραδείγματος προ-εκπαίδευσης-μικροσυντονισμού, διαφορετικά μοντέλα λεπτομέρειας ικανοποιούν επίσης τις ιδιότητες της Layerwise Linear Feature Connectivity, την οποία η ερευνητική ομάδα ονομάζει Cross-Task Linearity.
Διαπιστώθηκε ότι σύμφωνα με το παράδειγμα προ-εκπαίδευσης-λεπτής ρύθμισης, το δίκτυο είναι στην πραγματικότητα πιο προσεγγιστικό με μια γραμμική χαρτογράφηση από τον χώρο παραμέτρων σε χώρο χαρακτηριστικών.
Δηλαδή, το Cross-Task Linearity επεκτείνει τον ορισμό της Layerwise Linear Feature Connectivity σε μοντέλα που έχουν εκπαιδευτεί σε διαφορετικά σύνολα δεδομένων.
Είναι ενδιαφέρον ότι η ομάδα χρησιμοποίησε επίσης τα ευρήματα του Cross-Task Linearity για να εξηγήσει δύο κοινές τεχνικές σύντηξης μοντέλων:
Πρώτον, ο μέσος όρος μοντέλων λαμβάνει τον μέσο όρο των βαρών πολλών μοντέλων που έχουν συντονιστεί με ακρίβεια στο ίδιο σύνολο δεδομένων, αλλά χρησιμοποιώντας διαφορετικές διαμορφώσεις υπερπαραμέτρων, βελτιώνοντας έτσι την ακρίβεια και την ευρωστία.
Στη μελέτη, το μέσο βάρος της ερευνητικής ομάδας ερμηνεύτηκε ως ο μέσος όρος των χαρακτηριστικών σε κάθε επίπεδο, καθιερώνοντας έτσι μια στενή σύνδεση μεταξύ του μέσου όρου μοντέλων και της ολοκλήρωσης του μοντέλου, εξηγώντας έτσι την αποτελεσματικότητα του μέσου όρου μοντέλων.
Δεύτερον, με απλές αριθμητικές πράξεις, το Task Arithmetic μπορεί να συνδυάσει τα βάρη των μοντέλων που έχουν συντονιστεί με ακρίβεια σε διαφορετικές εργασίες για να ελέγξει τη συμπεριφορά του μοντέλου ανάλογα.
Κατά τη διάρκεια της έρευνας, η ομάδα μετέτρεψε τις αριθμητικές πράξεις στο χώρο παραμέτρων σε πράξεις στο χώρο χαρακτηριστικών, εξηγώντας έτσι την Αριθμητική Εργασίας από την προοπτική της εκμάθησης χαρακτηριστικών.
Στη συνέχεια, διερεύνησαν τις συνθήκες κάτω από τις οποίες συμβαίνει η γραμμικότητα Cross-Task και ανακάλυψαν τη σημασία της προεκπαίδευσης για τη Γραμμικότητα Cross-Task.
Τα πειραματικά αποτελέσματα δείχνουν ότι η κοινή γνώση που αποκτάται από το στάδιο της προεκπαίδευσης βοηθά στην κάλυψη των απαιτήσεων της Γραμμικότητας Cross-Task.
Κατά τη διάρκεια της μελέτης, έκανε επίσης μια προκαταρκτική προσπάθεια να αποδείξει τη γραμμικότητα Cross-Task Linearity και διαπίστωσε ότι η εμφάνιση της Cross-Task Linearity σχετίζεται με την επιπεδότητα του τοπίου του δικτύου και το χάσμα βάρους μεταξύ των δύο βελτιστοποιημένων μοντέλων.
Πρόσφατα, μια σχετική εργασία με τίτλο "On the Emergence of Cross-Task Linearity in Pretraining-Finetuning" δημοσιεύθηκε στο Διεθνές Συνέδριο για τη Μηχανική Μάθηση (ICML) 2024 [1].
Σχήμα |. Σχετικά έγγραφα (Πηγή: ICML 2024)
Η ερευνητική ομάδα εξέφρασε την ελπίδα ότι αυτή η ανακάλυψη μπορεί να εμπνεύσει καλύτερους αλγόριθμους σύντηξης μοντέλων.
Στο μέλλον, εάν είναι απαραίτητο να κατασκευαστεί ένα μεγάλο μοντέλο με λεπτομέρεια πολλαπλών ικανοτήτων, η σύντηξη μεγάλων μοντέλων θα γίνει μια από τις βασικές τεχνολογίες. Αυτή η εργασία παρέχει σταθερή πειραματική και θεωρητική υποστήριξη για τη σύντηξη μεγάλων μοντέλων και μπορεί να εμπνεύσει καλύτερους αλγόριθμους σύντηξης μεγάλων μοντέλων.
Στη συνέχεια, ελπίζουν να κατανοήσουν τη Συνδεσιμότητα γραμμικής λειτουργίας, τη συνδεσιμότητα γραμμικών χαρακτηριστικών σε επίπεδο επιπέδου και τη γραμμικότητα πολλαπλών εργασιών από την οπτική γωνία της Δυναμικής Εκπαίδευσης.
Παρόλο που έχουν λάβει κάποιες επεξηγήσεις από το επίπεδο χαρακτηριστικών, εξακολουθούν να μην μπορούν να εξηγήσουν τη συνδεσιμότητα γραμμικής λειτουργίας από την οπτική γωνία των πρώτων αρχών.
Για παράδειγμα, γιατί η Μέθοδος Ωοτοκίας χρειάζεται πρώτα να εκπαιδεύσει μόνο μερικές εποχές για να αποκτήσει τελικά δύο μοντέλα που πληρούν τη Συνδεσιμότητα Γραμμικής λειτουργίας;
Και, πώς να προβλέψετε έναν τέτοιο χρόνο ωοτοκίας; Για να απαντήσουμε σε αυτές τις ερωτήσεις, πρέπει να κατανοήσουμε τη Συνδεσιμότητα Γραμμικής λειτουργίας από την προοπτική της εκπαίδευσης και της βελτιστοποίησης, και αυτή είναι επίσης η προσπάθεια παρακολούθησης της ομάδας.
Βιβλιογραφικές αναφορές:
1.Zhou, Z., Chen, Z., Chen, Y., Zhang, B., & Yan, J. On the Emergence of Cross-Task Linearity in Pretraining-Finetuning Paradigm. Στο Σαράντα πρώτο Διεθνές Συνέδριο για τη Μηχανική Μάθηση.
Λειτουργία/δακτυλογράφηση: He Chenlong
01/ Η ομάδα της πόλης του Χονγκ Κονγκ αναπτύσσει έναν νέο τύπο μεμβράνης με νανοστρώσεις, που μπορεί να χρησιμοποιηθεί για επεξεργασία γλυκού νερού σε ειδικά σενάρια και βρίσκει ανακαλύψεις για την εφαρμογή δισδιάστατων υλικών.
02/ Δεκαετίες χημικών προβλημάτων έχουν δοθεί αξιόπιστες απαντήσεις Οι επιστήμονες έχουν προτείνει έναν νέο μικροσκοπικό μηχανισμό για τη διάλυση του υδροχλωρίου για να σχηματιστεί υδροχλωρικό οξύ, που θα προωθήσει την ανάπτυξη πολλαπλών επιστημονικών κλάδων.
03/ Οι επιστήμονες δημιουργούν μια νέα μέθοδο ελέγχου κβαντικής ανίχνευσης που μπορεί να ανιχνεύσει με ακρίβεια ασθενή σήματα και μπορεί να χρησιμοποιηθεί για τον εντοπισμό και τον έλεγχο μεμονωμένων πυρηνικών περιστροφών
04/ Ανακοινώθηκαν επίσημα οι νέοι νικητές της Κίνας "Top 35 Technological Innovators Under 35" του "MIT Technology Review"!Γίνετε μάρτυρας της καινοτόμου δύναμης της επιστημονικής και τεχνολογικής νεολαίας στη Σαγκάη
05/ Με δυναμική αντοχή 14 GPa, η ομάδα του Πανεπιστημίου του Πεκίνου ανέπτυξε με επιτυχία εξαιρετικά ισχυρές ίνες νανοσωλήνων άνθρακα, οι οποίες μπορούν να χρησιμοποιηθούν ως ελαφριά, υψηλής απόδοσης δομικά και προστατευτικά υλικά