Το AI της Apple κυκλοφορεί συγκλονιστικά στο iPhone, αλλά η εξελιγμένη έκδοση του Siri δεν έχει ChatGPT! Η τεχνική έκθεση 47 σελίδων αποκαλύπτει το μοντέλο

Το AI της Apple κυκλοφορεί συγκλονιστικά στο iPhone, αλλά η εξελιγμένη έκδοση του Siri δεν έχει ChatGPT! Η τεχνική έκθεση 47 σελίδων αποκαλύπτει το μοντέλο που έχει αναπτυχθεί μόνος του

2024-07-31

Νέα Έκθεση Σοφίας

Επιμέλεια: Τμήμα Σύνταξης

[Εισαγωγή στη Νέα Σοφία] Σήμερα το πρωί, όλοι οι προγραμματιστές έμειναν έκπληκτοι από την ξαφνική beta έκδοση του iOS 18.1! Απροσδόκητα, το Apple AI μπορεί πλέον να χρησιμοποιηθεί για πρώιμους χρήστες και ένας μεγάλος αριθμός κριτικών έχει κατακλύσει ολόκληρο το Διαδίκτυο. Αυτό που προκαλεί ακόμη μεγαλύτερη έκπληξη είναι ότι μια τεχνική έκθεση 47 σελίδων για το βασικό μοντέλο πίσω από το AI της Apple είναι επίσης online.

Νωρίς το πρωί, η πολυαναμενόμενη πρώτη έκδοση προεπισκόπησης του "Apple AI" προωθήθηκε επίσημα στους προγραμματιστές!

Οι πιο πρόσφατες δυνατότητες της Apple AI είναι ενσωματωμένες στα τρία κύρια συστήματα iOS 18.1, iPadOS 18.1 και macOS Sequoia 15.1.

Εκείνοι οι πρώτοι χρήστες που έλαβαν την έκδοση beta του iOS 18.1 επευφημούν ήδη από χαρά και κύμα μετάδοσης πραγματικών δοκιμών εξαπλώνονται σε ολόκληρο το δίκτυο.

Η τελευταία έκδοση προεπισκόπησης περιέχει πολλές εκπλήξεις (έκδοση γρήγορης προεπισκόπησης):

Νέο Siri: Ανάβει απαλά στην άκρη της οθόνης όταν αφυπνίζεται, επικοινωνεί με τους χρήστες με εναλλαγή μεταξύ κειμένου και φωνής
Εργαλεία γραφής: Μπορείτε να ξαναγράψετε, να διορθώσετε και να συνοψίσετε κείμενο σε οποιοδήποτε σενάριο. (Τα σημειώματα, τα έγγραφα και οι εφαρμογές τρίτων είναι όλα αποδεκτά)
Λειτουργία εστίασης (Μείωση διακοπών): Εμφάνιση μόνο των ειδοποιήσεων που πρέπει να δείτε αμέσως
Λειτουργίες φωτογραφίας: Αναζητήστε φωτογραφίες χρησιμοποιώντας φυσική γλώσσα και δημιουργήστε βίντεο
Δημιουργήστε περιλήψεις AI για email, μηνύματα και μεταγραφές τηλεφωνητή

Επιπλέον, υπάρχουν ορισμένα χαρακτηριστικά που η Apple είπε ότι θα κυκλοφορήσει το επόμενο έτος, όπως η ενσωμάτωση ChatGPT, η δημιουργία εικόνων/Emoji, ο αυτόματος καθαρισμός φωτογραφιών και το εξαιρετικά ισχυρό Siri με ευαισθητοποίηση οθόνης.

Παρεμπιπτόντως, επί του παρόντος, η έκδοση iOS 18.1 beta (συμπεριλαμβανομένου του iPadOS και του macOS) είναι διαθέσιμη μόνο στις Ηνωμένες Πολιτείες και δεν έχει κυκλοφορήσει ακόμη στην Κίνα.

Επιπλέον, μόνο τα iPhone 15 Pro και iPhone 15 Pro Max μεταξύ των κινητών τηλεφώνων υποστηρίζουν το νέο σύστημα.

Σύμφωνα με την εισαγωγή του συστήματος, η έκδοση iOS 18.1 beta καταλαμβάνει συνολικά 15,44 GB χώρου μνήμης, εκ των οποίων η χωρητικότητα του συστήματος iOS είναι 12,58 GB, ενώ η AI της Apple καταλαμβάνει μόνο 2,86 GB.

Αυτό οφείλεται στο γεγονός ότι το μοντέλο που χρησιμοποιεί η Apple σε συσκευές τελικής πλευράς έχει μόνο 3 δισεκατομμύρια παραμέτρους.

Μια πιο λεπτομερής εισαγωγή στο μοντέλο είναι κρυμμένη στην πρόσφατα κυκλοφόρησε τεχνική έκθεση της Apple AI.

Το έγγραφο 48 σελίδων καλύπτει το σχεδιασμό και την αξιολόγηση του LLM της Apple, συμπεριλαμβανομένης της αρχιτεκτονικής, της διαχείρισης δεδομένων, των συνταγών πριν και μετά την εκπαίδευση, της βελτιστοποίησης, της λειτουργικής προσαρμογής και των αποτελεσμάτων αξιολόγησης.

Διεύθυνση χαρτιού: https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.pdf

Συγκεκριμένα, η Apple έχει αναπτύξει δύο νέα βασικά μοντέλα γλώσσας, τα οποία αποτελούν τον πυρήνα της Apple AI:

Το ένα είναι το μοντέλο AFM-on-device, το οποίο έχει περίπου 3 δισεκατομμύρια παραμέτρους Μετά τη βελτιστοποίηση, μπορεί να λειτουργήσει σε iPhone και άλλες τερματικές συσκευές, με υψηλότερη απόδοση και απόκριση.

Το άλλο είναι ένα μοντέλο μεγαλύτερης παραμέτρου που μπορεί να εκτελεστεί στον διακομιστή cloud της Apple, που ονομάζεται AFM-server, ο οποίος έχει σχεδιαστεί για εντατικές εργασίες και χρησιμοποιεί ένα ιδιωτικό σύστημα υπολογιστικού νέφους (Private Cloud Compute) για την προστασία των δεδομένων χρήστη.

Θυμάμαι ακόμα ότι στο συνέδριο WWDC τον περασμένο μήνα, ο Cook ανακοίνωσε στον κόσμο τις ισχυρές λειτουργίες της AI της Apple, που έδωσε στον οικογενειακό κάδο της Apple μια επική αναβάθμιση.

Ολόκληρο το Διαδίκτυο πιστεύει ότι η τεχνητή νοημοσύνη δεν είναι πλέον καθόλου καλή και πρέπει ακόμα να δούμε την τεχνητή νοημοσύνη της Apple.

Σε γενικές γραμμές, η Apple συνήθως κυκλοφορεί πρώτα το κύριο σύστημα iOS18.

Αλλά δεν περίμενα ότι αυτή τη φορά η Apple θα έστελνε την έκδοση beta στην πρώτη παρτίδα προγραμματιστών σε τόσο σύντομο χρονικό διάστημα.

Από αυτή την άποψη, η τελευταία έκθεση του Bloomberg επεσήμανε ότι η Apple έσπασε τον συνήθη ρυθμό έκδοσης λογισμικού επειδή η Apple AI χρειάζεται ακόμα περισσότερο χρόνο δοκιμής.

Αναρωτιέμαι, ποιες νέες ηπείρους ανακάλυψαν οι πρώτοι υιοθέτες;

Πραγματική δοκιμή από χρήστες του Διαδικτύου

Ο τεχνολογικός blogger της Apple Brandon Butch δημιούργησε αμέσως μια επεξήγηση βίντεο που δείχνει τις πιο ολοκληρωμένες λειτουργίες Apple AI στην έκδοση iOS 18.1 beta.

Όσο σκληρός κι αν είσαι, θα είναι πάντα απαλό και γλυκό.

Είπε ότι το Apple AI τον βοήθησε να βρει έναν καλύτερο τρόπο να εκφράσει αυτό που ήθελε να πει.

Στη διεπαφή μηνυμάτων, γράψτε αυτό που θέλετε να πείτε στο πλαίσιο εισαγωγής.

Στη συνέχεια, επιλέξτε τα όλα και κάντε κλικ στο κουμπί Apple AI για να χρησιμοποιήσετε το "φιλικό" στο εργαλείο γραφής θα κάνει αμέσως τον τόνο αυτής της παραγράφου πιο διακριτικό.

Ας ρίξουμε μια άλλη ματιά σε έναν άλλο χρήστη του Διαδικτύου που έγραψε συγκεκριμένα μια κατάρα, η οποία ήταν πολύ πιο άνετη αφού την ξαναέγραψε το AI.

Διόρθωση γραμματικού λάθους

Επιπλέον, ο Μπουτς αναφώνησε ότι ο Grammarly σκοτώθηκε και αυτό είναι το πραγματικό AI της Apple.

Απλώς κοιτάξτε το παρακάτω απόσπασμα που είναι γραμμένο σωστά, το πρώτο γράμμα του τι δεν γράφεται με κεφαλαία και τι πιστεύετε ότι πρέπει να τελειώνει με ερωτηματικό αντί για τελεία.

Μπορεί να φανεί ότι το Apple AI έχει διορθώσει τα πάντα για εσάς.

Υπάρχουν επίσης οι δυνατότητες AI της Apple στα email, κάτι που τρελαίνει τον κόσμο όταν το ακούει.

Υποστηρίζει επίσης τις δυνατότητες των εργαλείων γραφής σε σημειώσεις και μηνύματα που αναφέρονται παραπάνω, συμπεριλαμβανομένης της διόρθωσης, της επανεγγραφής κ.λπ.

Μια περίληψη ενός email θα εμφανιστεί στην κορυφή.

Το εφέ κίνησης του εργαλείου γραφής τεχνητής νοημοσύνης της Apple είναι "πολύ Apple".

Ολοκαίνουργιο Siri, εξαιρετικά ομαλή απόκριση

Κοιτάζοντας το εφέ άκρων της οθόνης όταν καλείτε το Siri, πρέπει να πω ότι η Apple γνωρίζει καλύτερα το σχεδιασμό.

Ας δούμε την έκδοση iPad του Siri.

Ένας μηχανικός AI στο Humane και ένας πρώην μηχανικός της Apple επαίνεσαν το Siri αφού το δοκίμασαν, λέγοντας ότι το AI της Apple είναι πολύ, πολύ γρήγορο.

Ξυπνήστε τη Siri και ρωτήστε πόσο ψηλός είναι ο Πύργος του Άιφελ; Που βρίσκεται;

Παρεμπιπτόντως, αφήστε το να προωθήσει μερικές πρόσφατες ειδήσεις σχετικά με τους Ολυμπιακούς Αγώνες του Παρισιού και πώς να παρακολουθήσετε τα Ολυμπιακά γεγονότα.

Σε σύντομο χρονικό διάστημα, η Apple AI είχε την απάντηση.

Περίληψη μεταγραφής AI, σημαντικό περιεχόμενο τηλεφώνου δεν φοβάται να χαθεί

Επιπλέον, το Apple AI μπορεί επίσης να σας βοηθήσει να μεταγράψετε τις τηλεφωνικές κλήσεις σε σημειώσεις και να καταγράψετε αυτά για τα οποία μιλήσατε.

Εάν πατηθεί το κουμπί εγγραφής, θα αναπαραχθεί ένας ήχος τόσο για τον καλούντα όσο και για τον καλούμενο, υποδεικνύοντας ότι η κλήση θα ηχογραφηθεί.

Αφού ολοκληρωθεί η εγγραφή, μπορείτε να εισέλθετε απευθείας στο αναδυόμενο παράθυρο ειδοποίησης για να προβάλετε το περιεχόμενο της εγγραφής.

λειτουργία εστίασης

Χρησιμοποιήστε το Apple AI για αυτόματη ανάλυση του περιεχομένου ειδοποιήσεων και εντοπισμό σημαντικών ειδοποιήσεων!

Οι ειδοποιήσεις από σημαντικά άτομα θα καρφιτσωθούν στο κάτω μέρος της οθόνης.

Αναζήτηση φωτογραφιών, πολλά παράπονα

Φυσικά, ο λόγος για τον οποίο πρωτοκυκλοφόρησε το iOS 18.1 είναι να επιτρέψει στους προγραμματιστές να δοκιμάσουν περισσότερα, να ανακαλύψουν προβλήματα που έχουν αναφερθεί και να βελτιώσουν καλύτερα τις δυνατότητες AI της Apple.

Όχι, όταν ένας blogger του YouTube δοκίμαζε τη λειτουργία φωτογραφίας, διαπίστωσε ότι η Siri ήταν ακόμα «νοητικά καθυστερημένη».

Ο μπλόγκερ ρώτησε αρχικά: "Η Siri έδειξε μου φωτογραφίες από το ταξίδι των Ευχαριστιών του 2022". Η Siri απάντησε: Πόσες φορές έχει ανοίξει η εφαρμογή Health....

Στη συνέχεια, επανέλαβε την ερώτηση ξανά, «Σίρι, βρες φωτογραφίες για την Ημέρα των Ευχαριστιών σε φωτογραφίες».

Περιέργως, η Siri έψαξε μια δέσμη εικόνων που σχετίζονται με την Ημέρα των Ευχαριστιών απευθείας από το Διαδίκτυο.

Όταν ρώτησε ξανά, "Siri, δείξε μου φωτογραφίες από το ταξίδι μου στην Ταϊβάν", ο Siri άκουσε τις αρχικές λέξεις ως λέξεις-κλειδιά και αναζήτησε το "My Trip to Twaiwan" από το Διαδίκτυο.

Μετά συνέχισε να ρωτάει και η Σίρι ήταν ακόμα μπερδεμένη.

Επίμονη blogger, σπασμένη Siri, δεν μπορώ παρά να γελάσω...

Όπως αναφέρθηκε στην αρχή, η δυνατότητα εγκατάστασης της Apple AI σε τερματικές συσκευές βασίζεται στο βασικό μοντέλο που ανέπτυξε η ίδια η ομάδα, το οποίο λάμπει έντονα.

Η επανάσταση της τεχνητής νοημοσύνης του iPhone: 3 δισεκατομμύρια παράμετροι στην τσέπη σας

Συγκεκριμένα, το AFM είναι ένα πυκνό μοντέλο μόνο για αποκωδικοποιητή που βασίζεται στην αρχιτεκτονική του Transformer.

Οι σχεδιαστικές του ιδέες είναι οι εξής:

Κοινόχρηστοι πίνακες ενσωμάτωσης εισόδου/εξόδου για μείωση της χρήσης μνήμης παραμέτρων
Χρησιμοποιήστε την προ-κανονικοποίηση του RMSNorm για να βελτιώσετε τη σταθερότητα της προπόνησης
Κανονικοποίηση ερωτήματος/κλειδιού για βελτίωση της σταθερότητας της προπόνησης
Grouped Query Attention (GQA) με 8 κεφαλίδες κλειδιού-τιμής για μείωση του αποτυπώματος μνήμης της κρυφής μνήμης KV
Πιο αποτελεσματική ενεργοποίηση SwiGLU
Ενσωμάτωση θέσης RoPE με βασική συχνότητα 500k, υποστηρίζοντας μακρύ πλαίσιο

αρχιτεκτονική προσαρμογέα

Χρησιμοποιώντας τον προσαρμογέα LoRA, το βασικό μοντέλο της Apple μπορεί να εξειδικεύεται δυναμικά εν κινήσει με βάση την τρέχουσα εργασία.

Αυτές οι μικρές μονάδες νευρωνικών δικτύων μπορούν να συνδεθούν σε διάφορα στρώματα του βασικού μοντέλου και να χρησιμοποιηθούν για να τελειοποιήσουν το μοντέλο για συγκεκριμένες εργασίες.

Για να διευκολύνει την εκπαίδευση των προσαρμογέων, η Apple έχει δημιουργήσει επίσης μια αποτελεσματική υποδομή που επιτρέπει στους προσαρμογείς να προστίθενται γρήγορα, να επανεκπαιδεύονται, να δοκιμάζονται και να αναπτύσσονται όταν το υποκείμενο μοντέλο ή τα δεδομένα εκπαίδευσης ενημερώνονται ή απαιτούνται νέες δυνατότητες.

βελτιστοποίηση

Λόγω της ανάγκης να ικανοποιηθεί η καθημερινή χρήση των χρηστών, η ομάδα υιοθέτησε μια ποικιλία τεχνικών βελτιστοποίησης και ποσοτικοποίησης για να μειώσει σημαντικά τη χρήση μνήμης, τον λανθάνοντα χρόνο και την κατανάλωση ενέργειας, διατηρώντας παράλληλα την ποιότητα του μοντέλου.

μέθοδος

Στη φάση μετά την εκπαίδευση, η Apple συμπίεσε και κβαντοποίησε το μοντέλο σε λιγότερο από 4 bit ανά βάρος κατά μέσο όρο.

Τα κβαντισμένα μοντέλα συνήθως υφίστανται κάποιο βαθμό απώλειας ποιότητας. Ως εκ τούτου, η ομάδα Ε&Α δεν παραδίδει απευθείας το ποσοτικό μοντέλο στην ομάδα εφαρμογών για λειτουργική ανάπτυξη, αλλά επισυνάπτει ένα σύνολο προσαρμογών LoRA αποδοτικών παραμέτρων για την αποκατάσταση της ποιότητας του μοντέλου.

Στη συνέχεια, κάθε ομάδα προϊόντος ρυθμίζει με ακρίβεια τον προσαρμογέα LoRA για συγκεκριμένες λειτουργίες αρχικοποιώντας τα βάρη προσαρμογέων από προσαρμογείς ανάκτησης ακρίβειας, διατηρώντας αμετάβλητο το κβαντισμένο βασικό μοντέλο.

Αξίζει να σημειωθεί ότι ο προσαρμογέας ανάκτησης ακρίβειας προπόνησης είναι δειγματοληπτικός και μπορεί να θεωρηθεί ως μια μίνι έκδοση του βασικού μοντέλου εκπαίδευσης.

Μεταξύ αυτών, στο στάδιο προ-εκπαίδευσης του προσαρμογέα, χρειάζονται μόνο περίπου 10 δισεκατομμύρια μάρκες (περίπου το 0,15% της εκπαίδευσης του βασικού μοντέλου) για την πλήρη αποκατάσταση της ικανότητας του κβαντισμένου μοντέλου.

Επειδή οι προσαρμογείς εφαρμογών θα ρυθμιστούν με ακρίβεια από αυτούς τους προσαρμογείς ανάκτησης ακριβείας, δεν θα επιβαρύνονται με πρόσθετη χρήση μνήμης ή κόστος συμπερασμάτων.

Όσον αφορά το μέγεθος του προσαρμογέα, η ομάδα διαπίστωσε ότι ένας προσαρμογέας με κατάταξη 16 παρείχε την καλύτερη ισορροπία μεταξύ της χωρητικότητας του μοντέλου και της απόδοσης συμπερασμάτων.

Ωστόσο, για να παρέχει μεγαλύτερη ευελιξία, η Apple παρέχει ένα σύνολο διαφορετικών σειρών προσαρμογέων ανάκτησης ακριβείας για να επιλέξουν οι ομάδες εφαρμογών.

Ποσοτικοποίηση

Ένα άλλο πλεονέκτημα που προσφέρουν οι προσαρμογείς ανάκτησης ακριβείας είναι ότι επιτρέπουν μια πιο ευέλικτη επιλογή σχημάτων κβαντοποίησης.

Στο παρελθόν, κατά τον κβαντισμό μεγάλων γλωσσικών μοντέλων, ήταν σύνηθες να σπάνε τα βάρη σε μικρά κομμάτια, να κανονικοποιούν κάθε κομμάτι με την αντίστοιχη μέγιστη απόλυτη τιμή του για να φιλτράρουν τα ακραία σημεία και μετά να εφαρμόζουν τον αλγόριθμο κβαντοποίησης σε τεμάχια.

Ενώ τα μεγαλύτερα μεγέθη μπλοκ μειώνουν τον αριθμό των ενεργών bit ανά βάρος και αυξάνουν την απόδοση, η απώλεια κβαντισμού αυξάνεται επίσης. Για να εξισορροπηθεί αυτή η αντιστάθμιση, το μέγεθος του μπλοκ ορίζεται συνήθως σε μικρότερη τιμή, όπως 64 ή 32.

Αλλά στα πειράματα της Apple, η ομάδα διαπίστωσε ότι ο προσαρμογέας ανάκτησης ακρίβειας μπορεί να βελτιώσει σημαντικά το μέτωπο Pareto αυτής της ανταλλαγής.

Για πιο επιθετικά σχήματα κβαντισμού, θα ανακτηθούν περισσότερα σφάλματα. Ως αποτέλεσμα, η Apple είναι σε θέση να χρησιμοποιεί αποτελεσματικά σχήματα κβαντισμού για AFM χωρίς να ανησυχεί για απώλεια χωρητικότητας μοντέλου.

μικτή κβαντοποίηση ακριβείας

Υπάρχουν υπολειπόμενες συνδέσεις σε κάθε μπλοκ Transformer και σε κάθε στρώμα του AFM. Επομένως, είναι απίθανο όλα τα στρώματα να έχουν την ίδια σημασία.

Με βάση αυτή τη διαίσθηση, η Apple μείωσε περαιτέρω τη χρήση της μνήμης ωθώντας ορισμένα επίπεδα σε κβαντισμό 2 bit (η προεπιλογή είναι 4 bit).

Κατά μέσο όρο, τα μοντέλα σε συσκευές AFM μπορούν να συμπιεστούν σε περίπου 3,5 bit ανά βάρος (bpw) χωρίς σημαντική απώλεια ποιότητας.

Στην παραγωγή, η Apple επιλέγει να χρησιμοποιήσει 3,7 bpw, επειδή πληροί ήδη τις απαιτήσεις μνήμης.

αποτέλεσμα αξιολόγησης

προ-προπόνηση

Ο Πίνακας 2 δείχνει τα αποτελέσματα του AFM-on-device και του AFM-server στο HELM MMLU v1.5.0, το οποίο εξέτασε 5-δειγματοληπτικά ερωτήσεις πολλαπλής επιλογής σε 57 θέματα.

Οι πίνακες 3 και 4 δείχνουν τα αποτελέσματα του διακομιστή AFM στα σημεία αναφοράς κατάταξης HuggingFace OpenLLM V1 και HELM-Lite v1.5.0 αντίστοιχα.

Μπορεί να φανεί ότι το μοντέλο προ-προπόνησης AFM έχει ισχυρές γλωσσικές και συλλογιστικές δυνατότητες, παρέχοντας έτσι μια σταθερή βάση για μετά την προπόνηση και τη βελτίωση των χαρακτηριστικών.

μετά την εκπαίδευση ανθρώπινη αξιολόγηση

Για τα σενάρια εφαρμογών Apple AI, η ανθρώπινη αξιολόγηση είναι πιο κοντά στην εμπειρία του χρήστη.

Για να αξιολογήσει τις γενικές δυνατότητες του μοντέλου, η ομάδα συγκέντρωσε ένα ολοκληρωμένο σύνολο 1.393 υποδείξεων.

Οι προτροπές είναι all inclusive και καλύπτουν διαφορετικές κατηγορίες και επίπεδα δυσκολίας, όπως: Αναλυτικός συλλογισμός, καταιγισμός ιδεών, Chatbots, Ταξινόμηση, Απάντηση σε κλειστές ερωτήσεις, Κωδικοποίηση, Εξαγωγή, Μαθηματικός συλλογισμός, Απάντηση ανοιχτών ερωτήσεων, Επαναγραφή, Ασφάλεια, Σύνοψη και γραφή.

Το σχήμα 3 δείχνει τη σύγκριση του AFM με μοντέλα ανοιχτού κώδικα (Phi-3, Gemma-1.1, Llama-3, Mistral, DBRX-Instruct) και εμπορικά μοντέλα (GPT-3.5 και GPT-4).

Διαπιστώθηκε ότι οι ανθρώπινοι αξιολογητές προτιμούσαν το μοντέλο AFM από το μοντέλο ανταγωνιστή.

Συγκεκριμένα, αν και το μέγεθος του μοντέλου του AFM-on-device είναι 25% μικρότερο, σε σύγκριση με το Phi-3-mini, το ποσοστό κέρδους του είναι 47,7%, ακόμη και υπερβαίνοντας τις ισχυρές βασικές γραμμές ανοιχτού κώδικα Gemma-7B και Mistral- με περισσότερο από δύο φορές τον αριθμό των παραμέτρων 7Β.

Σε σύγκριση με το μοντέλο κλειστού κώδικα, ο διακομιστής AFM έδειξε επίσης κάποια ανταγωνιστικότητα, με ποσοστό νίκης άνω του 50% και ποσοστό κλήρωσης 27,4% έναντι του GPT-3,5.

Ακολουθώ οδηγίες

Η παρακολούθηση οδηγιών (IF) είναι μια βασική δυνατότητα που η ομάδα της Apple έχει μεγάλες ελπίδες για τα μοντέλα γλώσσας, επειδή οι εντολές ή οι οδηγίες του πραγματικού κόσμου είναι συχνά πολύπλοκες.

Εδώ, η ομάδα χρησιμοποίησε το δημόσιο σημείο αναφοράς IFEval για να αξιολογήσει εάν τα μοντέλα μεγάλων γλωσσών μπορούν να ακολουθήσουν με ακρίβεια τις οδηγίες στην προτροπή κατά τη δημιουργία απαντήσεων. Αυτά συχνά περιλαμβάνουν συγκεκριμένες απαιτήσεις για το μήκος, τη μορφή και το περιεχόμενο της απάντησης.

Όπως φαίνεται στο Σχήμα 4, το AFM-on-device και το AFM-server έχουν καλή απόδοση τόσο σε επίπεδο εντολών όσο και σε επίπεδο εντολών.

Επιπλέον, η ομάδα της Apple έκανε επίσης συγκριτική αξιολόγηση του μοντέλου AFM στο σημείο αναφοράς AlpacaEval 2.0 LC για να μετρήσει τις γενικές οδηγίες που ακολουθούν τις δυνατότητές του και τα αποτελέσματα έδειξαν ότι το μοντέλο της είναι εξαιρετικά ανταγωνιστικό.

Χρήση εργαλείου

Στα σενάρια χρήσης εργαλείου, αφού το μοντέλο λάβει ένα αίτημα χρήστη και μια λίστα πιθανών εργαλείων με περιγραφές, μπορεί να επιλέξει να καλέσει ένα συγκεκριμένο εργαλείο παρέχοντας δομημένη έξοδο και προσδιορίζοντας το όνομα εργαλείου και τις τιμές παραμέτρων.

Η ομάδα αξιολόγησε το μοντέλο στη δημόσια συγκριτική αξιολόγηση του Berkeley Function Calling Leaderboard χρησιμοποιώντας μετρήσεις AST με εγγενή υποστήριξη για κλήσεις συναρτήσεων.

Όπως φαίνεται στο Σχήμα 5, ο διακομιστής AFM αποδίδει καλύτερα σε συνολική ακρίβεια, ξεπερνώντας τα Gemini-1.5-Pro-Preview-0514 και GPT-4.

Γραφή

Η γραφή είναι μια από τις πιο σημαντικές δυνατότητες των μεγάλων γλωσσικών μοντέλων, καθώς υποστηρίζει μια ποικιλία μεταγενέστερων εφαρμογών, όπως η αλλαγή τόνου, η επανεγγραφή και η σύνοψη.

Η ομάδα αξιολογεί τις δεξιότητες γραφής του AFM σε εσωτερικά τεστ σύνοψης και συγγραφής συγκριτικής αξιολόγησης. Και ακολουθώντας την προσέγγιση LLM-as-a-judge, σχεδιάστηκαν οδηγίες βαθμολόγησης για κάθε εργασία σύνοψης και γραφής και το GPT-4 Turbo κλήθηκε να βαθμολογήσει την απόκριση του μοντέλου σε κλίμακα από 1 έως 10.

Όπως φαίνεται στο Σχήμα 6, το AFM-on-device δείχνει συγκρίσιμες ή καλύτερες επιδόσεις σε σύγκριση με το Gemma-7B και το Mistral-7B. Ο διακομιστής AFM είναι σημαντικά καλύτερος από τον DBRX-Instruct και τον GPT-3.5, ακόμη και συγκρίσιμος με τον GPT-4.

Αξίζει να σημειωθεί ότι υπάρχουν ορισμένοι περιορισμοί και προκαταλήψεις στη χρήση της βαθμολογίας LLM, όπως η προκατάληψη μήκους.

μαθηματικά

Στο Σχήμα 7, η ομάδα συγκρίνει την απόδοση του AFM σε ένα μαθηματικό σημείο αναφοράς.

Μεταξύ αυτών, οι ερευνητές χρησιμοποίησαν άκρες CoT 8 βολών για το GSM8K και συμβουλές CoT 4 βολών για ΜΑΘΗΜΑΤΑ.

Τα αποτελέσματα δείχνουν ότι το AFM-on-device ξεπερνά σημαντικά τα Mistral-7B και Gemma-7B ακόμη και σε λιγότερο από το μισό μέγεθος και των δύο.

Συνοπτική λειτουργία

Η ομάδα προϊόντων ανέπτυξε ένα προσαρμοσμένο σύνολο οδηγιών, μετρήσεων και εξειδικευμένων κριτηρίων βαθμολόγησης για τη σύνοψη μηνυμάτων ηλεκτρονικού ταχυδρομείου, μηνυμάτων και ειδοποιήσεων για την αξιολόγηση της ποιότητας της σύνοψης, χρησιμοποιώντας μια ποικιλία συνόλων δεδομένων ανοιχτού κώδικα, αδειοδοτημένων και αποκλειστικών δεδομένων.

Η περίληψη ταξινομείται ως "Κακή" εάν κάποια υποδιάσταση βαθμολογηθεί ως "Κακή" με βάση τις προκαθορισμένες προδιαγραφές του προϊόντος. Ομοίως, μια σύνοψη ταξινομείται ως "καλή" μόνο εάν όλες οι επιμέρους διαστάσεις βαθμολογούνται ως "καλές".

Το σχήμα 8 δείχνει ότι η συνολική απόδοση του προσαρμογέα AFM-on-device+ είναι καλύτερη από τα Phi-3-mini, Llama-3-8B και Gemma-7B.

αξιολογήσει την ασφάλεια

Το Σχήμα 9 δείχνει τα αποτελέσματα αξιολόγησης των ανθρώπινων αναθεωρητών για παραβιάσεις μοντέλων Όσο χαμηλότερη είναι η τιμή, τόσο το καλύτερο.

Μπορεί να φανεί ότι το AFM-on-device και ο AFM-server παρουσιάζουν ισχυρή στιβαρότητα στην αντιμετώπιση των αντίθετων προτροπών και το ποσοστό παραβίασης είναι σημαντικά χαμηλότερο από τα μοντέλα ανοιχτού κώδικα και τα εμπορικά μοντέλα.

Το Σχήμα 10 δείχνει τις προτιμήσεις των ανθρώπινων αναθεωρητών για προτροπές αξιολόγησης ασφάλειας.

Το μοντέλο AFM κέρδισε για άλλη μια φορά τον γύρο επειδή μπορούσε να παρέχει μια ασφαλέστερη και πιο χρήσιμη απόκριση.

Τα παραπάνω είναι μια βασική ματιά στο μοντέλο AI της Apple.

Πότε θα μπορούν όλοι να χρησιμοποιήσουν τις δυνατότητες AI της Apple;

Κάθε χρόνο, η Apple λανσάρει νέα προϊόντα στο φθινοπωρινό συνέδριο και η αρχική έκδοση του iOS 18 θα κυκλοφορήσει ταυτόχρονα με το iPhone 16.

Ωστόσο, όλοι θα πρέπει να περιμένουν μέχρι τον Οκτώβριο για να το ζήσουν.

Βιβλιογραφικές αναφορές:

https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.pdf

https://x.com/BrandonButch/status/1817982978540404776

Νέα

Εισαγωγή

τα στοιχεία επικοινωνίας μου