Το iPhone μπορεί να τρέξει 2Β μικρό χαλύβδινο κανόνι! Έρχεται το Google Gemma 2, το πιο ισχυρό μικροσκόπιο μπορεί να ανατέμνει τον εγκέφαλο του LLM

Το iPhone μπορεί να τρέξει 2Β μικρό χαλύβδινο κανόνι!Έρχεται το Google Gemma 2, το πιο ισχυρό μικροσκόπιο μπορεί να ανατέμνει τον εγκέφαλο του LLM

2024-08-01

Νέα Έκθεση Σοφίας

Επιμέλεια: Τμήμα Σύνταξης

[Εισαγωγή στη Νέα Σοφία] Το μικρό μοντέλο πυρηνικής βόμβας της Google DeepMind είναι εδώ, η Gemma 2 2B νίκησε απευθείας το GPT-3.5 και το Mixtral 8x7B, που είχαν πολλές τάξεις μεγέθους μεγαλύτερες! Το Gemma Scope που κυκλοφόρησε την ίδια στιγμή διαπερνά το μαύρο κουτί του LLM σαν μικροσκόπιο, επιτρέποντάς μας να δούμε καθαρά πώς το Gemma 2 παίρνει αποφάσεις.

Το μικρό μοντέλο της Google DeepMind είναι και πάλι νέο!

Μόλις τώρα, το Google DeepMind κυκλοφόρησε το Gemma 2 2B.

Αποστάζεται από Gemma 2 27B.

Αν και οι παράμετροί του είναι μόνο 2,6Β, η βαθμολογία του στην αρένα LMSYS έχει ξεπεράσει το GPT-3,5 και το Mixtral 8x7B!

Στα σημεία αναφοράς MMLU και MBPP, πέτυχε εξαιρετικά αποτελέσματα 56,1 και 36,6 αντίστοιχα, ξεπέρασε το προηγούμενο μοντέλο Gemma 1 2B κατά περισσότερο από 10%.

Το μικρό μοντέλο νίκησε το μεγάλο μοντέλο που ήταν αρκετές τάξεις μεγέθους μεγαλύτερο, επιβεβαιώνοντας για άλλη μια φορά την κατεύθυνση των μικρών μοντέλων για την οποία ο κλάδος είναι πολύ αισιόδοξος πρόσφατα.

Σήμερα, η Google ανακοίνωσε συνολικά τρία νέα μέλη της οικογένειας Gemma 2:

Gemma 2 2B:Το ελαφρύ μοντέλο 2B επιτυγχάνει τη μεγαλύτερη ισορροπία μεταξύ απόδοσης και αποδοτικότητας
ShieldGemma:Ένα μοντέλο ασφαλούς ταξινομητή περιεχομένου που βασίζεται στο Gemma 2 για να φιλτράρει την είσοδο και την έξοδο του μοντέλου AI για τη διασφάλιση της ασφάλειας των χρηστών
Πεδίο εφαρμογής Gemma:Ένα εργαλείο ερμηνείας που παρέχει απαράμιλλη εικόνα για την εσωτερική λειτουργία του μοντέλου σας

Τον Ιούνιο γεννήθηκαν τα μοντέλα 27B και 9B Gemma 2.

Από την κυκλοφορία του, το μοντέλο 27B έγινε γρήγορα ένα από τα κορυφαία μοντέλα ανοιχτού κώδικα στις μεγάλες κατατάξεις μοντέλων, ξεπερνώντας ακόμη και τα δημοφιλή μοντέλα με διπλάσιο αριθμό παραμέτρων στις πραγματικές συνομιλίες.

Gemma 2 2B: άμεσα διαθέσιμο στη συσκευή σας

Το ελαφρύ μικρό μοντέλο Gemma 2 2B αποστάζεται από το μεγάλο μοντέλο και η απόδοσή του δεν είναι κατώτερη.

Στη μεγάλη αρένα μοντέλων LMSYS, το νέο μοντέλο πέτυχε μια εντυπωσιακή βαθμολογία 1130, η οποία είναι εφάμιλλη με μοντέλα με 10 φορές τις παραμέτρους.

Το GPT-3.5-Turbo-0613 σημείωσε 1117 και το Mixtral-8x7b σημείωσε 1114.

Αυτό δείχνει ότι το Gemma 2 2B είναι το καλύτερο μοντέλο end-to-side.

Μερικοί χρήστες του Διαδικτύου άφησαν το κβαντισμένο Gemma 2 2B να τρέχει στο MLX Swift στο iPhone 15 Pro και η ταχύτητα ήταν εκπληκτικά γρήγορη.

Συγκεκριμένα, μπορεί να αναπτυχθεί σε διάφορες τερματικές συσκευές, συμπεριλαμβανομένων κινητών τηλεφώνων, φορητών υπολογιστών, ακόμη και του ισχυρού cloud χρησιμοποιώντας το Vertex AI και το Google Kubernetes Engine (GKE).

Προκειμένου να επιταχυνθεί το μοντέλο, βελτιστοποιείται μέσω του NVIDIA TensorRT-LLM, το οποίο είναι επίσης διαθέσιμο στην πλατφόρμα NVIDIA NIM.

Το βελτιστοποιημένο μοντέλο λειτουργεί σε μια ποικιλία αναπτύξεων πλατφόρμας, συμπεριλαμβανομένων κέντρων δεδομένων, cloud, σταθμών εργασίας εσωτερικής εγκατάστασης, υπολογιστών και συσκευών αιχμής.

Μπορεί επίσης να υποστηρίξει μονάδες RTX, RTX GPU και Jetson για να ολοκληρώσει την οριακή ανάπτυξη AI.

Επιπλέον, το Gemma 2 2B ενσωματώνει απρόσκοπτα τα Keras, JAX, Hugging Face, NVIDIA NeMo, Ollama, Gemma.cpp κ.λπ., και σύντομα θα ενσωματωθεί στο MediaPipe για απλοποίηση της ανάπτυξης.

Φυσικά, όπως το Gemma 2, το μοντέλο 2B μπορεί επίσης να χρησιμοποιηθεί για έρευνα και εμπορική χρήση.

Ακόμη, επειδή ο όγκος παραμέτρων του είναι αρκετά χαμηλός, μπορεί να εκτελεστεί στο ελεύθερο επίπεδο GPU T4 του Google Colab, μειώνοντας το όριο ανάπτυξης.

Προς το παρόν, κάθε προγραμματιστής μπορεί να κατεβάσει τα βάρη μοντέλων του Gemma 2 από τα Kaggle, Hugging Face και Vertex AI Model Garden και μπορεί επίσης να δοκιμάσει τις λειτουργίες του στο Google AI Studio.

Διεύθυνση αποθήκης: https://huggingface.co/collections/google/gemma-2-2b-release-66a20f3796a2ff2a7c76f98f

ShieldGemma: ο υπερσύγχρονος ταξινομητής ασφαλείας

Όπως υποδηλώνει το όνομά του, το ShieldGemma είναι ο πιο προηγμένος ταξινομητής ασφαλείας, που διασφαλίζει ότι το περιεχόμενο εξόδου AI είναι ελκυστικό, ασφαλές και περιεκτικό και εντοπίζει και μειώνει την έξοδο επιβλαβούς περιεχομένου.

Το ShieldGemma έχει σχεδιαστεί για να στοχεύει συγκεκριμένα τέσσερις βασικές επιβλαβείς περιοχές:

- εχθρικός λόγος

- Περιεχόμενο παρενόχλησης

- Ρητό περιεχόμενο

- Επικίνδυνο περιεχόμενο

Αυτοί οι ταξινομητές ανοιχτού κώδικα συμπληρώνουν την υπάρχουσα σειρά ταξινομητών ασφαλείας της Google στην εργαλειοθήκη Responsible AI.

Η εργαλειοθήκη περιλαμβάνει μια μέθοδο για τη δημιουργία ταξινομητών για συγκεκριμένες πολιτικές που βασίζονται σε περιορισμένα σημεία δεδομένων, καθώς και ταξινομητές Google Cloud που παρέχονται μέσω API.

Το ShieldGemma είναι χτισμένο στο Gemma 2, τον κορυφαίο στον κλάδο ταξινομητή ασφαλείας.

Παρέχει διάφορα μεγέθη παραμέτρων μοντέλων, συμπεριλαμβανομένων των 2B, 9B και 27B, τα οποία είναι όλα βελτιστοποιημένα για ταχύτητα NVIDIA και μπορούν να λειτουργούν αποτελεσματικά σε διάφορα υλικά.

Μεταξύ αυτών, το 2B είναι πολύ κατάλληλο για εργασίες ταξινόμησης στο διαδίκτυο, ενώ οι εκδόσεις 9B και 27B παρέχουν υψηλότερη απόδοση για εφαρμογές εκτός σύνδεσης με χαμηλότερες απαιτήσεις καθυστέρησης.

Πεδίο εφαρμογής Gemma: Αποκάλυψη της διαδικασίας λήψης αποφάσεων AI μέσω αραιών αυτόματων κωδικοποιητών ανοιχτού κώδικα

Ένα άλλο χαρακτηριστικό που κυκλοφόρησε την ίδια στιγμή είναι ο αραιός αυτόματος κωδικοποιητής ανοιχτού κώδικα-Gemma Scope.

Τι συμβαίνει μέσα στο γλωσσικό μοντέλο; Αυτό το πρόβλημα έχει προβληματίσει τους ερευνητές και τους προγραμματιστές για μεγάλο χρονικό διάστημα.

Η εσωτερική λειτουργία των γλωσσικών μοντέλων είναι συχνά ένα μυστήριο, ακόμη και για τους ερευνητές που τα εκπαιδεύουν.

Το Gemma Scope είναι σαν ένα ισχυρό μικροσκόπιο που μεγεθύνει συγκεκριμένα σημεία του μοντέλου μέσω αραιών αυτόματων κωδικοποιητών (SAEs), κάνοντας την εσωτερική λειτουργία του μοντέλου πιο εύκολη στην ερμηνεία.

Με το Gemma Scope, οι ερευνητές και οι προγραμματιστές αποκτούν άνευ προηγουμένου διαφάνεια στη διαδικασία λήψης αποφάσεων του μοντέλου Gemma 2.

Το Gemma Scope είναι μια συλλογή από εκατοντάδες δωρεάν και ανοιχτούς αραιούς αυτόματους κωδικοποιητές (SAE) για το Gemma 2 9B και το Gemma 2 2B.

Αυτά τα SAE είναι ειδικά σχεδιασμένα νευρωνικά δίκτυα που μας βοηθούν να ερμηνεύσουμε τις πυκνές, πολύπλοκες πληροφορίες που επεξεργάζεται το Gemma 2 και να τις επεκτείνουμε σε μια μορφή που είναι πιο εύκολη στην ανάλυση και κατανόηση.

Μελετώντας αυτές τις διευρυμένες προβολές, οι ερευνητές μπορούν να αποκτήσουν πολύτιμες πληροφορίες σχετικά με το πώς το Gemma 2 αναγνωρίζει μοτίβα, επεξεργάζεται πληροφορίες και κάνει προβλέψεις.

Με το Gemma Scope, η κοινότητα AI μπορεί πιο εύκολα να δημιουργήσει συστήματα AI που είναι πιο κατανοητά, υπεύθυνα και αξιόπιστα.

Την ίδια στιγμή, το Google DeepMind κυκλοφόρησε επίσης μια τεχνική έκθεση 20 σελίδων.

Τεχνική αναφορά: https://storage.googleapis.com/gemma-scope/gemma-scope-report.pdf

Συνοπτικά, το Gemma Scope έχει τις ακόλουθες τρεις καινοτομίες -

SAE ανοιχτού κώδικα: Πάνω από 400 ελεύθερα διαθέσιμα SAE που καλύπτουν όλες τις βαθμίδες των Gemma 2 2B και 9B
Διαδραστική επίδειξη: Εξερευνήστε τις δυνατότητες SAE και αναλύστε τη συμπεριφορά του μοντέλου στο Neuronpedia χωρίς να γράψετε κώδικα
Εύχρηστη βιβλιοθήκη πόρων: παρέχει κώδικα και παραδείγματα για αλληλεπίδραση με SAE και Gemma 2

Ερμηνεύστε την εσωτερική λειτουργία των γλωσσικών μοντέλων

Γιατί είναι τόσο δύσκολο το πρόβλημα ερμηνείας των γλωσσικών μοντέλων;

Αυτό ξεκινά με την αρχή λειτουργίας του LLM.

Όταν κάνετε μια ερώτηση στο LLM, μετατρέπει την εισαγωγή κειμένου σας σε μια σειρά από "ενεργοποιήσεις". Αυτές οι ενεργοποιήσεις χαρτογραφούν τις σχέσεις μεταξύ των λέξεων που εισάγετε, βοηθώντας το μοντέλο να κάνει συνδέσεις μεταξύ διαφορετικών λέξεων και να δημιουργεί απαντήσεις ανάλογα.

Καθώς το μοντέλο επεξεργάζεται την εισαγωγή κειμένου, οι ενεργοποιήσεις διαφορετικών επιπέδων στο νευρωνικό δίκτυο του μοντέλου αντιπροσωπεύουν πολλαπλές έννοιες προοδευτικά υψηλότερου επιπέδου, οι οποίες ονομάζονται «χαρακτηριστικά».

Για παράδειγμα, τα πρώτα στρώματα του μοντέλου μπορεί να μάθουν γεγονότα όπως ο Τζόρνταν παίζει μπάσκετ, ενώ τα μεταγενέστερα στρώματα μπορεί να προσδιορίσουν πιο περίπλοκες έννοιες, όπως η αυθεντικότητα ενός κειμένου.

Παράδειγμα ερμηνείας ενεργοποιήσεων μοντέλων χρησιμοποιώντας αραιούς αυτόματους κωδικοποιητές - πώς το μοντέλο θυμάται το γεγονός ότι "η πόλη του φωτός είναι το Παρίσι".Μπορεί να φανεί ότι έννοιες που σχετίζονται με τα γαλλικά υπάρχουν, αλλά άσχετες έννοιες όχι

Ωστόσο, οι ερευνητές της ερμηνείας αντιμετωπίζουν ένα βασικό πρόβλημα: η ενεργοποίηση του μοντέλου είναι ένα μείγμα πολλών διαφορετικών χαρακτηριστικών.

Στα πρώτα στάδια της έρευνας, οι ερευνητές ήλπιζαν ότι τα χαρακτηριστικά στις ενεργοποιήσεις νευρωνικών δικτύων θα μπορούσαν να ευθυγραμμιστούν με μεμονωμένους νευρώνες ή κόμβους πληροφοριών.

Αλλά δυστυχώς, στην πράξη, οι νευρώνες είναι ενεργοί για πολλά άσχετα χαρακτηριστικά.

Αυτό σημαίνει ότι δεν υπάρχει προφανής τρόπος να ξεχωρίσετε ποιες λειτουργίες αποτελούν μέρος της ενεργοποίησης.

Και εδώ ακριβώς μπαίνουν οι αραιοί αυτοκωδικοποιητές.

Λάβετε υπόψη ότι μια συγκεκριμένη ενεργοποίηση θα είναι μόνο ένα μείγμα λίγων δυνατοτήτων, αν και ένα μοντέλο γλώσσας μπορεί να ανιχνεύσει εκατομμύρια ή και δισεκατομμύρια χαρακτηριστικά (δηλαδή, το μοντέλο χρησιμοποιεί αραιά χαρακτηριστικά).

Για παράδειγμα, ένα γλωσσικό μοντέλο μπορεί να σκέφτεται τη σχετικότητα όταν απαντά σε μια ερώτηση για τον Αϊνστάιν, αλλά μπορεί να μην σκέφτεται τη σχετικότητα όταν γράφει για μια ομελέτα.

Οι αραιοί αυτόματες κωδικοποιητές εκμεταλλεύονται αυτό το γεγονός για να ανακαλύψουν ένα σύνολο λανθάνοντων χαρακτηριστικών και να αποσυνθέσουν κάθε ενεργοποίηση σε μια χούφτα χαρακτηριστικά.

Οι ερευνητές ελπίζουν ότι ο καλύτερος τρόπος για τους αραιούς αυτόματους κωδικοποιητές να ολοκληρώσουν αυτό το έργο είναι να βρουν τα βασικά χαρακτηριστικά που χρησιμοποιούν πραγματικά τα γλωσσικά μοντέλα.

Είναι σημαντικό ότι κατά τη διάρκεια αυτής της διαδικασίας, οι ερευνητές δεν είπαν στον αραιό αυτόματο κωδικοποιητή ποιες δυνατότητες να αναζητήσει.

Ως αποτέλεσμα, μπόρεσαν να ανακαλύψουν πλούσιες δομές που δεν αναμενόταν προηγουμένως.

Ωστόσο, επειδή δεν γνωρίζουν αμέσως την ακριβή σημασία αυτών των χαρακτηριστικών που ανακαλύφθηκαν, αναζητούν ουσιαστικά μοτίβα στα παραδείγματα κειμένου που ο αραιός αυτόματος κωδικοποιητής θεωρεί ότι τα χαρακτηριστικά "πυροδοτούν".

Ακολουθεί ένα παράδειγμα όπου τα διακριτικά που ενεργοποιούνται από ένα χαρακτηριστικό επισημαίνονται με μια μπλε διαβάθμιση με βάση την ισχύ της ενεργοποίησης χαρακτηριστικών:

Παράδειγμα ανακάλυψης ενεργοποιήσεων χαρακτηριστικών με αραιούς αυτόματους κωδικοποιητές. Κάθε συννεφάκι αντιπροσωπεύει ένα Token (θραύσμα λέξης ή λέξης) και το μεταβλητό μπλε χρώμα δείχνει τη δύναμη αυτού του χαρακτηριστικού.Σε αυτή την περίπτωση, το χαρακτηριστικό σχετίζεται σαφώς με το ιδίωμα

Τι είναι μοναδικό στο Gemma Scope;

Σε σύγκριση με προηγούμενους αραιούς αυτόματους κωδικοποιητές, το Gemma Scope έχει πολλά μοναδικά χαρακτηριστικά.

Το πρώτο εστιάζει κυρίως στη μελέτη της εσωτερικής λειτουργίας μικρών μοντέλων ή μεμονωμένων στρωμάτων μεγάλων μοντέλων.

Αλλά αν θέλετε να εμβαθύνετε στην έρευνα ερμηνείας, αυτή περιλαμβάνει την αποκωδικοποίηση των πολυεπίπεδων πολύπλοκων αλγορίθμων σε μεγάλα μοντέλα.

Αυτή τη φορά, ερευνητές από το Google DeepMind εκπαίδευσαν αραιούς αυτόματους κωδικοποιητές στην έξοδο κάθε επιπέδου και υποστρώματος των Gemma 2 2B και 9B.

Το Gemma Scope που κατασκευάστηκε με αυτόν τον τρόπο δημιούργησε συνολικά περισσότερους από 400 αραιούς αυτόματους κωδικοποιητές και απέκτησε περισσότερα από 30 εκατομμύρια χαρακτηριστικά (αν και πολλά χαρακτηριστικά μπορεί να επικαλύπτονται).

Αυτό επιτρέπει στους ερευνητές να μελετήσουν πώς εξελίσσονται τα χαρακτηριστικά σε όλο το μοντέλο και πώς αλληλεπιδρούν και συνδυάζονται για να σχηματίσουν πιο σύνθετα χαρακτηριστικά.

Επιπλέον, το Gemma Scope εκπαιδεύεται χρησιμοποιώντας την πιο πρόσφατη και πιο προηγμένη αρχιτεκτονική JumpReLU SAE.

Η αρχική αραιή αρχιτεκτονική του αυτόματου κωδικοποιητή έχει συχνά μια δύσκολη ισορροπία μεταξύ των δύο στόχων της ανίχνευσης της παρουσίας χαρακτηριστικών και της εκτίμησης της έντασης. Η αρχιτεκτονική JumpReLU μπορεί πιο εύκολα να επιτύχει μια ισορροπία μεταξύ των δύο και να μειώσει σημαντικά τα σφάλματα.

Φυσικά, η εκπαίδευση τόσο πολλών αραιών αυτόματων κωδικοποιητών είναι επίσης μια μεγάλη πρόκληση μηχανικής και απαιτεί πολλούς υπολογιστικούς πόρους.

Σε αυτή τη διαδικασία, οι ερευνητές χρησιμοποίησαν περίπου το 15% των υπολογισμών εκπαίδευσης Gemma 2 9B (εξαιρουμένων των υπολογισμών που απαιτούνται για τη δημιουργία αποσταγμένων ετικετών) και εξοικονόμησαν περίπου 20 PiB ενεργοποιήσεων στο δίσκο (περίπου ισοδύναμο με ένα εκατομμύριο αντίγραφα του περιεχομένου της Αγγλικής Εγκυκλοπαίδειας Wiki) , δημιουργώντας συνολικά εκατοντάδες δισεκατομμύρια αραιές παραμέτρους αυτόματου κωδικοποιητή.

Βιβλιογραφικές αναφορές:

https://developers.googleblog.com/en/smaller-safer-more-transparent-advancing-responsible-ai-with-gemma/

Νέα

Το iPhone μπορεί να τρέξει 2Β μικρό χαλύβδινο κανόνι!Έρχεται το Google Gemma 2, το πιο ισχυρό μικροσκόπιο μπορεί να ανατέμνει τον εγκέφαλο του LLM

Εισαγωγή

τα στοιχεία επικοινωνίας μου