Αποκάλυψε! Έγγραφο 47 σελίδων που αποσυναρμολογεί τη νοημοσύνη της Apple, από την αρχιτεκτονική, τα δεδομένα μέχρι την εκπαίδευση και το optimization

Αποκάλυψε! Ένα έγγραφο 47 σελίδων που αποσυναρμολογεί τη νοημοσύνη της Apple, από την αρχιτεκτονική και τα δεδομένα μέχρι την εκπαίδευση και τη βελτιστοποίηση

2024-07-31

Αναφορά Machine Heart

Τμήμα Σύνταξης Machine Heart

Στο Παγκόσμιο Συνέδριο Προγραμματιστών του 2024, η Apple παρουσίασε το Apple Intelligence, ένα νέο εξατομικευμένο έξυπνο σύστημα που μπορεί να παρέχει πρακτικές έξυπνες υπηρεσίες, καλύπτοντας iPhone, iPad και Mac, και είναι βαθιά ενσωματωμένο στο iOS 18, το iPadOS 18 και το macOS Sequoia.

Ο Κουκ είπε κάποτε ότι το Apple Intelligence είναι ένα νέο κεφάλαιο στην καινοτομία της Apple και θα αλλάξει τον τρόπο με τον οποίο οι χρήστες χρησιμοποιούν τα προϊόντα. Τόνισε ότι η μοναδική προσέγγιση της Apple συνδυάζει τη γενετική τεχνητή νοημοσύνη και τις προσωπικές πληροφορίες των χρηστών για να παρέχει πραγματικά χρήσιμες έξυπνες υπηρεσίες. Επιπλέον, το Apple Intelligence παρέχει πλήρως ιδιωτική και ασφαλή πρόσβαση σε πληροφορίες, βοηθώντας τους χρήστες να επιτύχουν ό,τι έχει μεγαλύτερη σημασία για αυτούς. Αυτή είναι μια εμπειρία AI μοναδική για την Apple.

Τώρα, έχει περάσει περισσότερο από ένας μήνας από την επίσημη ανακοίνωση της Apple Intelligence Αυτή η τεχνολογία επιτέλους εφαρμόστηκε σε έξυπνες συσκευές και τα σχετικά τεχνικά έγγραφα κυκλοφόρησαν επιτέλους.

Την προηγούμενη ημέρα, οι χρήστες που έχουν το iPhone 15 Pro ή το iPhone 15 Pro Max μπορούν να κατεβάσουν την έκδοση beta ανάπτυξης του iOS 18.1 και να βιώσουν τις λειτουργίες του Apple Intelligence.

Με την κυκλοφορία αυτής της τεχνικής έκθεσης 47 σελίδων, μπορούμε να κατανοήσουμε βαθύτερα το μυστικό όπλο πίσω από το Apple Intelligence.

Διεύθυνση αναφοράς: https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.pdf

Η αναφορά περιγράφει λεπτομερώς δύο από τα μοντέλα –AFM-on-συσκευή, AFM σημαίνει Apple Foundation Model, το οποίο είναι ένα μοντέλο γλώσσας περίπου 3 δισεκατομμυρίων παραμέτρων, καθώς και ένα μεγαλύτερο μοντέλο γλώσσας που βασίζεται σε διακομιστήΔιακομιστής AFM, μπορεί να εκτελεί εξειδικευμένες εργασίες αποτελεσματικά, με ακρίβεια και υπευθυνότητα (Εικόνα 1).

Αυτά τα δύο βασικά μοντέλα υπάρχουν ως μέρος της μεγαλύτερης οικογένειας μοντέλων παραγωγής της Apple.

Δομή και εκπαίδευση

Το βασικό μοντέλο AFM είναι ένα πυκνό μοντέλο αποκωδικοποιητή που βασίζεται στην αρχιτεκτονική του Transformer και υιοθετεί τον ακόλουθο σχεδιασμό:

Κοινόχρηστοι πίνακες ενσωμάτωσης εισόδου/εξόδου για μείωση της χρήσης μνήμης για παραμέτρους.

Χρησιμοποιήστε το RMSNorm για προ-κανονικοποίηση για να βελτιώσετε τη σταθερότητα της προπόνησης.

Κανονικοποίηση ερωτήματος/κλειδιού για βελτίωση της σταθερότητας της προπόνησης.

Ομαδοποιημένο ερώτημα Προσοχή (GQA) με 8 κεφαλίδες κλειδιού-τιμής για μείωση του αποτυπώματος μνήμης προσωρινής μνήμης KV.

Το SwiGLU ενεργοποιείται για αυξημένη απόδοση.

Ενσωμάτωση θέσης RoPE, η βασική συχνότητα (βασική συχνότητα) έχει ρυθμιστεί στα 500k για υποστήριξη μεγάλου περιβάλλοντος.

Η διαδικασία προεκπαίδευσης AFM διαδραματίζει βασικό ρόλο στην ανάπτυξη μοντέλων γλώσσας υψηλής απόδοσης για την υποστήριξη μιας σειράς λειτουργιών Apple Intelligence. Η ερευνητική ομάδα εστιάζει στην αποτελεσματικότητα και την ποιότητα των δεδομένων για την επίτευξη μιας υψηλής ποιότητας εμπειρίας χρήστη από άκρο σε άκρο.

Όσον αφορά τη μετά την εκπαίδευση, η ερευνητική ομάδα διαπίστωσε ότι η βελτίωση της γενικής μετά την εκπαίδευση μπορεί να βελτιώσει την απόδοση όλων των λειτουργιών του Apple Intelligence, επειδή το μοντέλο θα έχει ισχυρότερη ικανότητα να ακολουθεί οδηγίες, να αιτιολογεί και να γράφει.

Για να διασφαλιστεί ότι αυτές οι λειτουργίες του μοντέλου συνάδουν με τη δέσμευση της Apple για προστασία του απορρήτου των χρηστών και τις αρχές της Υπεύθυνης τεχνητής νοημοσύνης της Apple, η εργασία μετά την εκπαίδευση περιλαμβάνει μια σειρά από συλλογή και παραγωγή δεδομένων, προσαρμογή οδηγιών και καινοτομία ευθυγράμμισης. Η διαδικασία μετά την εκπαίδευση αποτελείται από δύο στάδια: εποπτευόμενη τελειοποίηση (SFT) και ενισχυτική μάθηση από την ανθρώπινη ανάδραση (RLHF). Η ερευνητική ομάδα πρότεινε δύο νέους αλγόριθμους μετά την εκπαίδευση: (1) έναν αλγόριθμο λεπτομέρειας δειγματοληψίας απόρριψης με επιτροπή δασκάλων (iTeC) και (2) έναν αλγόριθμο RLHF για ενισχυτικές επαναλήψεις μάθησης με βελτιστοποίηση πολιτικής κατοπτρικής καταγωγής (βελτιστοποίηση πολιτικής καθρέφτη καθρέφτη ) και ο εκτιμητής πλεονεκτημάτων άδειας (MDLOO), βελτιώνοντας σημαντικά την ποιότητα του μοντέλου.

Χαρακτηριστικά Apple Intelligence

Το βασικό μοντέλο έχει σχεδιαστεί ειδικά για το Apple Intelligence, ένα σύστημα προσωπικής νοημοσύνης που υποστηρίζει iPhone, iPad και Mac.

Η Apple ανακάλυψε ότι θα μπορούσε να βελτιώσει την απόδοση των μικρών μοντέλων στα καλύτερα της κατηγορίας, προσαρμόζοντάς τα για συγκεκριμένες εργασίες σε δεκάδες τέτοιες εργασίες. Το Σχήμα 2 δείχνει μια επισκόπηση υψηλού επιπέδου.

αρχιτεκτονική προσαρμογέα

Η Apple χρησιμοποιεί προσαρμογείς LoRA για να τελειοποιήσει μοντέλα για συγκεκριμένες εργασίες. Για κάθε εργασία, οι ερευνητές προσαρμόζουν όλους τους πίνακες γραμμικής προβολής στο επίπεδο αυτο-προσοχής AFM και τα πλήρως συνδεδεμένα στρώματα στο δίκτυο προώθησης σημείων. Με απλή ρύθμιση του προσαρμογέα, οι αρχικές παράμετροι του βασικού προεκπαιδευμένου μοντέλου παραμένουν αμετάβλητες, επιτρέποντας τη διατήρηση της γενικής γνώσης του μοντέλου ενώ προσαρμόζεται ο προσαρμογέας ώστε να υποστηρίζει συγκεκριμένες εργασίες.

Ποσοτικοποίηση

Για να ενσωματωθεί το AFM σε συσκευές αιχμής με περιορισμένους προϋπολογισμούς μνήμης και να μειωθεί το κόστος συμπερασμάτων, πρέπει να ληφθούν υπόψη τεχνικές κβαντοποίησης. Προηγούμενη έρευνα διαπίστωσε ότι τα κβαντισμένα μοντέλα 4 bit υφίστανται πολύ μικρή απώλεια σε σύγκριση με την ακατέργαστη κινητή υποδιαστολή 32/16 bit.

Για να επιτύχει την καλύτερη ισορροπία μεταξύ της χωρητικότητας του μοντέλου και της απόδοσης συμπερασμάτων, η Apple ανέπτυξε προηγμένες μεθόδους κβαντισμού και ένα πλαίσιο που αξιοποιεί προσαρμογείς ανάκτησης ακρίβειας. Αυτό επιτρέπει στο μοντέλο να επιτύχει κβαντισμό σχεδόν χωρίς απώλειες όταν το μέσο βάρος κάθε βάρους είναι μικρότερο από 4 bit και παρέχει ευέλικτη επιλογή σχήματος κβαντισμού.

μέθοδος

Μετά την εκπαίδευση, το μοντέλο συμπιέζεται και κβαντοποιείται για να ληφθούν βάρη κάτω από 4 bit κατά μέσο όρο. Τα ποσοτικά μοντέλα παρουσιάζουν συνήθως μέτρια απώλεια ποιότητας. Ως εκ τούτου, η Apple δεν θα χρησιμοποιήσει το κβαντισμένο μοντέλο απευθείας για την ανάπτυξη χαρακτηριστικών, αλλά θα συνδέσει ένα σύνολο προσαρμογών LoRA αποδοτικών παραμέτρων για ανάκτηση ποιότητας.

Αξίζει να σημειωθεί ότι ο προσαρμογέας ακρίβειας εκπαίδευσης-ανάκτησης είναι αποδοτικός σε δείγμα και μπορεί να θεωρηθεί ως μια μίνι έκδοση του βασικού μοντέλου εκπαίδευσης. Στη φάση προ-εκπαίδευσης του προσαρμογέα, χρειάζονται μόνο περίπου 10 δισεκατομμύρια μάρκες (περίπου 0,15% της βασικής εκπαίδευσης του μοντέλου) για την πλήρη αποκατάσταση της ικανότητας του κβαντισμένου μοντέλου.

Επειδή οι προσαρμογείς εφαρμογών θα ρυθμιστούν με ακρίβεια από αυτούς τους προσαρμογείς ανάκτησης ακρίβειας, δεν επιβαρύνονται με επιπλέον κόστος χρήσης μνήμης ή εξαγωγής συμπερασμάτων. Όσον αφορά το μέγεθος του προσαρμογέα, η Apple διαπίστωσε ότι η κατάταξη προσαρμογέα 16 παρέχει την καλύτερη αντιστάθμιση μεταξύ της χωρητικότητας του μοντέλου και της απόδοσης συμπερασμάτων.

Ωστόσο, για ευελιξία, η Apple παρέχει ένα σύνολο προσαρμογέων ανάκτησης ακρίβειας με διαφορετικές τάξεις {8, 16, 32} για να επιλέξουν οι ομάδες εφαρμογών.

μικτή κβαντοποίηση ακριβείας

Υπάρχουν υπολειπόμενες συνδέσεις για κάθε μπλοκ μετασχηματιστή και κάθε στρώμα στο AFM. Επομένως, είναι απίθανο όλα τα στρώματα να έχουν την ίδια σημασία. Ακολουθώντας αυτή τη διαίσθηση, η Apple μείωσε περαιτέρω τη χρήση της μνήμης πιέζοντας ορισμένα επίπεδα να χρησιμοποιούν κβαντισμό 2 bit (η προεπιλογή είναι 4 bit). Κατά μέσο όρο, το AFM στη συσκευή μπορεί να συμπιεστεί μόνο σε περίπου 3,5 bit ανά βάρος (bpw) χωρίς σημαντική απώλεια ποιότητας.

Αξιολογώ

Η ερευνητική ομάδα χρησιμοποιεί κοινά εργαλεία αξιολόγησης ανοιχτού κώδικα και σημεία αναφοράς για την αξιολόγηση του προεκπαιδευμένου μοντέλου AFM. Ο Πίνακας 2 δείχνει τα αποτελέσματα του AFM-on-device και του AFM-server στο HELM MMLU v1.5.0.

Αυτά τα σημεία αναφοράς καταδεικνύουν ότι το προ-εκπαιδευμένο μοντέλο AFM έχει ισχυρές δυνατότητες γλώσσας και συμπερασμάτων, παρέχοντας μια σταθερή βάση για μετά την εκπαίδευση και τη βελτίωση των χαρακτηριστικών.

Τα αποτελέσματα σύγκρισης του AFM με μοντέλα ανοιχτού κώδικα (Phi-3, Gemma-1.1, Llama-3, Mistral, DBRX-Instruct) και εμπορικά μοντέλα (GPT3.5 και GPT-4) φαίνονται στο Σχήμα 3 παρακάτω. Τα μοντέλα AFM προτιμώνται από ανθρώπινους αξιολογητές σε σύγκριση με άλλα μοντέλα. Συγκεκριμένα, σε σύγκριση με το Phi-3-mini, το AFM-on-device πέτυχε ποσοστό νίκης 47,7% παρά το 25% μικρότερο μέγεθος μοντέλου, ακόμη καλύτερο από τις ισχυρές γραμμές βάσης ανοιχτού κώδικα Gemma-7B και Mistral-7B.

Για τη μέτρηση της ικανότητας του μοντέλου να δημιουργεί αποκρίσεις που ακολουθούν τις οδηγίες στις προτροπές, η ερευνητική ομάδα αξιολόγησε το AFM-on-device και το AFM-server στο σημείο αναφοράς IFEval. Τα αποτελέσματα φαίνονται στο σχήμα 4 παρακάτω:

Όπως φαίνεται στο Σχήμα 5, ο διακομιστής AFM επιτυγχάνει την καλύτερη συνολική ακρίβεια, καλύτερη από το Gemini-1.5-Pro-Preview-0514 και το GPT-4.

Η Apple συνέκρινε το AFM με μερικά από τα καλύτερα μοντέλα καθώς και με μικρότερα μοντέλα ανοιχτού κώδικα. Όπως φαίνεται στο Σχήμα 6, το AFM-on-device μπορεί να επιτύχει ισοδύναμη ή καλύτερη απόδοση σε σύγκριση με το Gemma-7B και το Mistral-7B. Η απόδοση του διακομιστή AFM είναι σημαντικά καλύτερη από το DBRX-Instruct και τον GPT3.5 και είναι συγκρίσιμη με τον GPT4.

Το Σχήμα 7 συγκρίνει την απόδοση του μετεκπαιδευμένου AFM σε μαθηματικά σημεία αναφοράς. Διαπιστώθηκε ότι το AFM-on-device είχε πολύ καλύτερη απόδοση από το Mistral-7B και το Gemma-7B, παρόλο που ήταν λιγότερο από το μισό του μεγέθους τους.

Το παρακάτω σχήμα δείχνει τους ανθρώπους που αξιολογούν την ποιότητα των προσαρμογέων AFM στη συσκευή, Phi-3-mini, Llama-3-8B και Gemma-7B σε μια συνοπτική εργασία. Το Σχήμα 8 δείχνει ότι ο προσαρμογέας AFM στη συσκευή έχει γενικά καλύτερη απόδοση από άλλα μοντέλα.

Υπεύθυνη AI

Το Apple Intelligence έχει αναπτυχθεί και σχεδιαστεί με γνώμονα το απόρρητο των χρηστών.

Το Σχήμα 9 συνοψίζει τα ποσοστά παραβίασης που δίνονται από ανθρώπους βαθμολογητές σε διαφορετικά μοντέλα, με τα χαμηλότερα να είναι καλύτερα. Τόσο το AFM-on-device όσο και ο AFM-server είναι ανθεκτικά σε αντίθετες προτροπές, με σημαντικά χαμηλότερα ποσοστά παραβίασης από τα μοντέλα ανοιχτού κώδικα και τα εμπορικά μοντέλα.

Το Σχήμα 10 δείχνει ότι το μοντέλο AFM προτιμάται περισσότερο από τους ανθρώπους που αξιολογούν σε σύγκριση με άλλα μοντέλα.

Νέα

Αποκάλυψε! Ένα έγγραφο 47 σελίδων που αποσυναρμολογεί τη νοημοσύνη της Apple, από την αρχιτεκτονική και τα δεδομένα μέχρι την εκπαίδευση και τη βελτιστοποίηση

Εισαγωγή

τα στοιχεία επικοινωνίας μου