Τα στοιχεία επικοινωνίας μου
Ταχυδρομείο[email protected]
2024-08-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Είναι 2024, υπάρχει κάποιος που ακόμα δεν έχει καταλάβει πώς λειτουργεί το Transformer; Ελάτε να δοκιμάσετε αυτό το διαδραστικό εργαλείο.
Το 2017, η Google πρότεινε το Transformer στο έγγραφο «Attention is all you need», το οποίο έγινε μια σημαντική ανακάλυψη στον τομέα της βαθιάς μάθησης. Ο αριθμός των αναφορών αυτής της εργασίας έχει φτάσει σχεδόν τις 130.000 Όλα τα επόμενα μοντέλα της οικογένειας GPT βασίζονται επίσης στην αρχιτεκτονική του Transformer, η οποία δείχνει την ευρεία επιρροή του.
Ως αρχιτεκτονική νευρωνικών δικτύων, το Transformer είναι δημοφιλές σε μια ποικιλία εργασιών από κείμενο έως όραμα, ειδικά στο επί του παρόντος καυτό πεδίο των chatbots AI.
Ωστόσο, για πολλούς μη ειδικούς, η εσωτερική λειτουργία του Transformer παραμένει αδιαφανής, εμποδίζοντας την κατανόηση και τη συμμετοχή τους. Ως εκ τούτου, είναι ιδιαίτερα απαραίτητο να απομυθοποιηθεί αυτή η αρχιτεκτονική. Ωστόσο, πολλά ιστολόγια, εκπαιδευτικά βίντεο και τρισδιάστατες απεικονίσεις συχνά τονίζουν την πολυπλοκότητα των μαθηματικών και της εφαρμογής μοντέλων, κάτι που μπορεί να προκαλέσει σύγχυση στους αρχάριους. Ταυτόχρονα, η εργασία οπτικοποίησης που έχει σχεδιαστεί για επαγγελματίες τεχνητής νοημοσύνης επικεντρώνεται στη νευρωνική και ιεραρχική ερμηνεία και είναι πρόκληση για τους μη ειδικούς.
Έτσι αναπτύχθηκαν αρκετοί ερευνητές της Georgia Tech και της IBM ResearchΈνα διαδικτυακό εργαλείο διαδραστικής οπτικοποίησης ανοιχτού κώδικα "Transformer Explainer" για να βοηθήσει τους μη επαγγελματίες να κατανοήσουν την προηγμένη δομή του μοντέλου του Transformer και τις μαθηματικές λειτουργίες χαμηλού επιπέδου. Όπως φαίνεται στο σχήμα 1 παρακάτω.
Το Transformer Explainer εξηγεί την εσωτερική λειτουργία του Transformer μέσω της δημιουργίας κειμένου, χρησιμοποιώνταςΣχεδιασμός απεικόνισης διαγράμματος Sankey, εμπνευσμένο από πρόσφατη εργασία που αντιμετωπίζει τους Transformers ως δυναμικά συστήματα, δίνοντας έμφαση στον τρόπο ροής δεδομένων εισόδου μέσω των στοιχείων του μοντέλου. Από τα αποτελέσματα, το διάγραμμα Sankey απεικονίζει αποτελεσματικά πώς μεταφέρονται οι πληροφορίες στο μοντέλο και δείχνει πώς η είσοδος επεξεργάζεται και μετασχηματίζεται μέσω των λειτουργιών του μετασχηματιστή.
Όσον αφορά το περιεχόμενο, το Transformer Explainer ενσωματώνει στενά μια επισκόπηση μοντέλου που συνοψίζει τη δομή του Transformer και επιτρέπει στους χρήστες να κάνουν ομαλή μετάβαση μεταξύ πολλαπλών επιπέδων αφαίρεσης για να οπτικοποιήσουν την αλληλεπίδραση μεταξύ μαθηματικών πράξεων χαμηλού επιπέδου και δομών μοντέλων υψηλού επιπέδου για να τους βοηθήσει να κατανοήσουν πλήρως περίπλοκες έννοιες στο Transformer.
Όσον αφορά τη λειτουργικότητα, το Transformer Explainer όχι μόνο παρέχει υλοποίηση μέσω web, αλλά διαθέτει και δυνατότητες συλλογιστικής σε πραγματικό χρόνο. Σε αντίθεση με πολλά υπάρχοντα εργαλεία που απαιτούν εγκατάσταση προσαρμοσμένου λογισμικού ή δεν διαθέτουν δυνατότητες συμπερασμάτων, ενσωματώνει ένα μοντέλο GPT-2 σε πραγματικό χρόνο που εκτελείται εγγενώς στο πρόγραμμα περιήγησης χρησιμοποιώντας ένα σύγχρονο πλαίσιο διεπαφής. Οι χρήστες μπορούν να πειραματιστούν διαδραστικά με το κείμενο εισαγωγής τους και να παρατηρήσουν σε πραγματικό χρόνο πώς συνεργάζονται τα εσωτερικά στοιχεία και οι παράμετροι του Transformer για να προβλέψουν το επόμενο διακριτικό.
Το Transformer Explainer επεκτείνει την πρόσβαση σε σύγχρονες τεχνολογίες παραγωγής τεχνητής νοημοσύνης χωρίς να απαιτεί προηγμένους υπολογιστικούς πόρους, δεξιότητες εγκατάστασης ή προγραμματισμού. Ο λόγος για τον οποίο επιλέχθηκε το GPT-2 είναι ότι το μοντέλο είναι γνωστό, έχει γρήγορη ταχύτητα συμπερασμάτων και μοιάζει στην αρχιτεκτονική με πιο προηγμένα μοντέλα όπως το GPT-3 και το GPT-4.
Διεύθυνση χαρτιού: https://arxiv.org/pdf/2408.04619
Διεύθυνση GitHub: http://poloclub.github.io/transformer-explainer/
Διεύθυνση διαδικτυακής εμπειρίας: https://t.co/jyBlJTMa7m
视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==∣=2650929831&idx=1&sn=d0e5c01537def9f92c63ch3MzI4MjgzMw==∣=2650929831&idx=1&sn=d0e5c01537def9f92c63ch4ks6b8b63ch3ch3000000000 f177414848deaed70ac2a5b1522a12e3399920d4862e398c113b96af7b76e&token=522918026⟨=zh_CN#rd
Δεδομένου ότι υποστηρίζει αυτόματη εισαγωγή, το Machine Heart δοκίμασε επίσης "τι όμορφη μέρα" και τα αποτελέσματα τρεξίματος φαίνονται στο παρακάτω σχήμα.
Πολλοί χρήστες του Διαδικτύου έχουν δώσει υψηλούς επαίνους στο Transformer Explainer. Μερικοί άνθρωποι λένε ότι αυτό είναι ένα πολύ ωραίο διαδραστικό εργαλείο.
Μερικοί άνθρωποι λένε ότι περίμεναν ένα διαισθητικό εργαλείο για να εξηγήσουν την αυτοπροσοχή και την κωδικοποίηση θέσης, το οποίο είναι το Transformer Explainer. Θα αλλάξει το παιχνίδι.
Κάποιος άλλος έχει κάνει μια μετάφραση στα κινέζικα.
Διεύθυνση εμφάνισης: http://llm-viz-cn.iiiai.com/llm
Εδώ δεν μπορώ παρά να σκεφτώ το Karpathy, μια άλλη μεγάλη προσωπικότητα στη δημοφιλή επιστήμη. Έχει γράψει πολλά μαθήματα για την αναπαραγωγή του GPT-2, συμπεριλαμβανομένου του "Pure C language hand-rolling GPT-2, του νέου έργου του πρώην OpenAI και της Tesla. στελέχη είναι δημοφιλές." ", "Το τελευταίο τετράωρο εκπαιδευτικό βίντεο της Karpathy: Αναπαράγετε το GPT-2 από την αρχή, εκτελέστε το κατά τη διάρκεια της νύχτας και ολοκληρώστε το", κ.λπ. Τώρα που υπάρχει ένα εργαλείο οπτικοποίησης για τις εσωτερικές αρχές του Transformer, φαίνεται ότι το αποτέλεσμα εκμάθησης θα είναι καλύτερο όταν τα δύο χρησιμοποιούνται μαζί.
Σχεδιασμός και υλοποίηση συστήματος Transformer Explainer
Το Transformer Explainer δείχνει οπτικά πώς το μοντέλο GPT-2 που βασίζεται σε Transformer εκπαιδεύεται να επεξεργάζεται την εισαγωγή κειμένου και να προβλέπει το επόμενο διακριτικό. Το front-end χρησιμοποιεί Svelte και D3 για την υλοποίηση διαδραστικής απεικόνισης και το back-end χρησιμοποιεί το χρόνο εκτέλεσης ONNX και τη βιβλιοθήκη Transformers του HuggingFace για την εκτέλεση του μοντέλου GPT-2 στο πρόγραμμα περιήγησης.
Μια σημαντική πρόκληση κατά το σχεδιασμό του Transformer Explainer ήταν η διαχείριση της πολυπλοκότητας της υποκείμενης αρχιτεκτονικής, καθώς η εμφάνιση όλων των λεπτομερειών ταυτόχρονα θα αποσπούσε την προσοχή από το σημείο. Για να λύσουν αυτό το πρόβλημα, οι ερευνητές έδωσαν μεγάλη προσοχή σε δύο βασικές αρχές σχεδιασμού.
Πρώτον, οι ερευνητές μειώνουν την πολυπλοκότητα μέσω πολλαπλών επιπέδων αφαίρεσης. Δομούν τα εργαλεία τους για να παρουσιάζουν πληροφορίες σε διαφορετικά επίπεδα αφαίρεσης. Αυτό αποφεύγει την υπερφόρτωση πληροφοριών, επιτρέποντας στους χρήστες να ξεκινήσουν με μια επισκόπηση υψηλού επιπέδου και να προχωρήσουν στις λεπτομέρειες, όπως απαιτείται. Στο υψηλότερο επίπεδο, το εργαλείο εμφανίζει την πλήρη ροή επεξεργασίας: από τη λήψη κειμένου που παρέχεται από τον χρήστη ως είσοδο (Εικόνα 1Α), την ενσωμάτωσή του, την επεξεργασία του μέσω πολλαπλών μπλοκ Transformer και τη χρήση των επεξεργασμένων δεδομένων για την πρόβλεψη της πιο πιθανής επόμενης πρόβλεψης διακριτικού Α ταξινομείται.
Ενδιάμεσες λειτουργίες, όπως ο υπολογισμός του πίνακα προσοχής (Εικόνα 1C), οι οποίες συμπτύσσονται από προεπιλογή για να εμφανιστεί οπτικά η σημασία των αποτελεσμάτων υπολογισμού, ο χρήστης μπορεί να επιλέξει να επεκτείνει και να δει τη διαδικασία παραγωγής του μέσω μιας κινούμενης ακολουθίας. Οι ερευνητές υιοθέτησαν μια σταθερή οπτική γλώσσα, όπως η στοίβαξη κεφαλών προσοχής και η σύμπτυξη επαναλαμβανόμενων μπλοκ Transformer, για να βοηθήσουν τους χρήστες να εντοπίσουν επαναλαμβανόμενα μοτίβα στην αρχιτεκτονική, διατηρώντας παράλληλα μια ροή δεδομένων από άκρο σε άκρο.
Δεύτερον, οι ερευνητές ενισχύουν την κατανόηση και τη δέσμευση μέσω της αλληλεπίδρασης. Η παράμετρος θερμοκρασίας είναι κρίσιμη για τον έλεγχο της κατανομής πιθανότητας εξόδου του Μετασχηματιστή. Θα επηρεάσει τη βεβαιότητα (σε χαμηλές θερμοκρασίες) ή την τυχαιότητα (σε υψηλές θερμοκρασίες) της επόμενης πρόβλεψης. Αλλά οι υπάρχοντες εκπαιδευτικοί πόροι στο Transformers συχνά αγνοούν αυτήν την πτυχή. Οι χρήστες μπορούν πλέον να χρησιμοποιούν αυτό το νέο εργαλείο για να προσαρμόζουν τις παραμέτρους θερμοκρασίας σε πραγματικό χρόνο (Εικόνα 1Β) και να απεικονίζουν τον κρίσιμο ρόλο τους στον έλεγχο της βεβαιότητας πρόβλεψης (Εικόνα 2).
Επιπλέον, οι χρήστες μπορούν να επιλέξουν από τα παρεχόμενα παραδείγματα ή να εισάγουν το δικό τους κείμενο (Εικόνα 1Α). Η υποστήριξη προσαρμοσμένου κειμένου εισαγωγής μπορεί να επιτρέψει στους χρήστες να συμμετέχουν σε βάθος Αναλύοντας τη συμπεριφορά του μοντέλου υπό διαφορετικές συνθήκες και δοκιμάζοντας διαδραστικά τις δικές τους υποθέσεις βάσει διαφορετικών εισροών κειμένου, η αίσθηση συμμετοχής του χρήστη ενισχύεται.
Ποια είναι λοιπόν τα πρακτικά σενάρια εφαρμογής;
Ο καθηγητής Rousseau εκσυγχρονίζει το περιεχόμενο των μαθημάτων στο μάθημα επεξεργασίας φυσικής γλώσσας για να τονίσει τις πρόσφατες εξελίξεις στη γενετική τεχνητή νοημοσύνη. Παρατήρησε ότι ορισμένοι μαθητές έβλεπαν τα μοντέλα που βασίζονταν στο Transformer ως άπιαστη «μαγεία», ενώ άλλοι ήθελαν να καταλάβουν πώς λειτουργούσαν τα μοντέλα, αλλά δεν ήταν σίγουροι από πού να ξεκινήσουν.
Για να λύσει αυτό το πρόβλημα, καθοδήγησε τους μαθητές να χρησιμοποιήσουν το Transformer Explainer, το οποίο παρέχει μια διαδραστική επισκόπηση του Transformer (Εικόνα 1) και ενθαρρύνει τους μαθητές να πειραματιστούν ενεργά και να μάθουν. Η τάξη της έχει περισσότερους από 300 μαθητές και η ικανότητα του Transformer Explainer να εκτελείται εξ ολοκλήρου στα προγράμματα περιήγησης των μαθητών, χωρίς να χρειάζεται εγκατάσταση λογισμικού ή ειδικού υλικού, είναι ένα σημαντικό πλεονέκτημα και εξαλείφει τις ανησυχίες των μαθητών σχετικά με τη διαχείριση λογισμικού ή εγκατάστασης υλικού.
Αυτό το εργαλείο εισάγει τους μαθητές σε πολύπλοκες μαθηματικές πράξεις, όπως υπολογισμούς προσοχής, μέσω κινούμενων και διαδραστικών αναστρέψιμων αφαιρέσεων (Εικόνα 1Γ). Αυτή η προσέγγιση βοηθά τους μαθητές να αποκτήσουν τόσο υψηλού επιπέδου κατανόηση των λειτουργιών όσο και βαθιά κατανόηση των υποκείμενων λεπτομερειών που παράγουν αυτά τα αποτελέσματα.
Ο καθηγητής Rousseau αναγνώρισε επίσης ότι οι τεχνικές δυνατότητες και οι περιορισμοί του Transformer μερικές φορές προσωποποιούνταν (π.χ., η θέαση των παραμέτρων θερμοκρασίας ως ελέγχους "δημιουργικότητας"). Ενθαρρύνοντας τους μαθητές να πειραματιστούν με το ρυθμιστικό θερμοκρασίας (Εικόνα 1Β), έδειξε στους μαθητές πώς η θερμοκρασία τροποποιεί πραγματικά την κατανομή πιθανοτήτων του επόμενου διακριτικού (Εικόνα 2), ελέγχοντας έτσι την τυχαιότητα των προβλέψεων με ντετερμινιστικό και πιο δημιουργικό τρόπο, επιτυγχάνοντας μια ισορροπία μεταξύ εξόδους.
Επιπλέον, όταν το σύστημα οπτικοποιεί τη διαδικασία επεξεργασίας διακριτικών, οι μαθητές μπορούν να δουν ότι δεν υπάρχει η λεγόμενη «μαγεία» εδώ - ανεξάρτητα από το ποιο είναι το κείμενο εισαγωγής (Εικόνα 1Α), το μοντέλο ακολουθεί μια καλά καθορισμένη ακολουθία πράξεων, χρησιμοποιώντας την αρχιτεκτονική του Transformer Δείγμα ένα διακριτικό τη φορά και επαναλάβετε τη διαδικασία.
μελλοντική εργασία
Οι ερευνητές ενισχύουν τις διαδραστικές εξηγήσεις του εργαλείου για να βελτιώσουν τη μαθησιακή εμπειρία. Ταυτόχρονα, βελτιώνουν επίσης την ταχύτητα συμπερασμάτων μέσω WebGPU και μειώνουν το μέγεθος του μοντέλου μέσω της τεχνολογίας συμπίεσης. Σκοπεύουν επίσης να διεξαγάγουν έρευνα χρηστών για να αξιολογήσουν την αποτελεσματικότητα και τη χρηστικότητα του Transformer Explainer, να παρατηρήσουν πώς χρησιμοποιούν το εργαλείο αρχάριοι, μαθητές, εκπαιδευτικοί και επαγγελματίες τεχνητής νοημοσύνης και να συγκεντρώσουν σχόλια για πρόσθετες λειτουργίες που θα ήθελαν να δουν να υποστηρίζονται.
Τι περιμένετε Ξεκινήστε και ζήστε το, σπάστε τη «μαγική» ψευδαίσθηση για το Transformer και κατανοήστε πραγματικά τις αρχές πίσω από αυτό;