L'IA d'Apple est lancée de manière choquante sur l'iPhone, mais la version évoluée de Siri n'a pas ChatGPT ! Un rapport technique de 47 pages révèle un modèle auto-développé

2024-07-31

Nouveau rapport de sagesse

Editeur : Service éditorial

[Introduction à la nouvelle sagesse] Ce matin, tous les développeurs ont été stupéfaits par la soudaine version bêta d'iOS 18.1 ! De manière inattendue, l’IA d’Apple peut désormais être utilisée par les premiers utilisateurs, et un grand nombre d’avis ont inondé tout Internet. Ce qui est encore plus surprenant, c’est qu’un rapport technique de 47 pages sur le modèle de base derrière l’IA d’Apple est également en ligne.

Tôt le matin, la première version d'aperçu tant attendue de « Apple AI » a été officiellement proposée aux développeurs !

Les dernières fonctionnalités d'Apple AI sont intégrées dans les trois principaux systèmes iOS 18.1, iPadOS 18.1 et macOS Sequoia 15.1.

Les premiers utilisateurs qui ont obtenu la version bêta d'iOS 18.1 applaudissent déjà de joie et vague après vague de partage de tests réels se propagent sur l'ensemble du réseau.

La dernière version d'aperçu contient de nombreuses surprises (version d'aperçu rapide) :

Nouveau Siri : s'allume doucement sur le bord de l'écran au réveil ; communique avec les utilisateurs en basculant entre le texte et la voix ; peut comprendre les commandes même lorsque l'orateur trébuche et peut également répondre aux questions sur le dépannage des produits Apple ;
Outils d'écriture : vous pouvez réécrire, relire et résumer le texte dans n'importe quel scénario. (Les mémos, documents et applications tierces sont tous acceptables)
Mode Focus (réduire les interruptions) : affichez uniquement les notifications que vous devez voir immédiatement
Fonctionnalités photo : recherchez des photos en langage naturel et créez des vidéos
Générez des résumés IA pour les e-mails, les messages et les transcriptions de messages vocaux

En outre, Apple a annoncé qu'il lancerait certaines fonctionnalités l'année prochaine, notamment l'intégration de ChatGPT, la génération d'images/Emoji, le nettoyage automatique des photos et Siri super puissant avec reconnaissance d'écran.

D'ailleurs, actuellement, la version bêta d'iOS 18.1 (incluant iPadOS et macOS) n'est disponible qu'aux États-Unis et n'a pas encore été lancée en Chine.

De plus, seuls l’iPhone 15 Pro et l’iPhone 15 Pro Max parmi les téléphones mobiles prennent en charge le nouveau système.

Selon l'introduction du système, la version bêta d'iOS18.1 occupe un total de 15,44 Go d'espace mémoire, dont la capacité du système iOS est de 12,58 Go, tandis qu'Apple AI n'occupe que 2,86 Go.

En effet, le modèle utilisé par Apple sur les appareils finaux ne comporte que 3 milliards de paramètres.

Une introduction plus détaillée au modèle est cachée dans le rapport technique Apple AI récemment publié.

Le document de 48 pages couvre la conception et l'évaluation du LLM d'Apple, y compris l'architecture, la gestion des données, les recettes de pré-formation et de post-formation, l'optimisation, l'adaptation fonctionnelle et les résultats de l'évaluation.

Adresse papier : https://machinelearning.apple.com/papers/apple_intelligence_foundation_lingual_models.pdf

Plus précisément, Apple a développé deux nouveaux modèles de langage de base, qui constituent le cœur de l’IA d’Apple :

L'un d'entre eux est le modèle AFM-on-device, qui comporte environ 3 milliards de paramètres. Après optimisation, il peut fonctionner sur iPhone et d'autres terminaux, avec une efficacité et une réactivité supérieures.

L'autre est un modèle de paramètres plus grands qui peut s'exécuter sur le serveur cloud d'Apple, appelé serveur AFM, conçu pour des tâches intensives et utilisant un système de cloud computing privé (Private Cloud Compute) pour protéger les données des utilisateurs.

Je me souviens encore que lors de la conférence WWDC du mois dernier, Cook a annoncé au monde les puissantes fonctions de l’IA d’Apple, qui ont donné au seau familial d’Apple une mise à niveau épique.

L'ensemble d'Internet pense que l'IA n'est plus bonne du tout, et nous devons encore nous tourner vers l'IA d'Apple.

De manière générale, Apple publie généralement le système principal iOS18 en premier.

Mais je ne m’attendais pas à ce que cette fois Apple livre la version bêta au premier groupe de développeurs dans un laps de temps aussi court.

À cet égard, le dernier rapport de Bloomberg a souligné qu’Apple avait rompu son rythme habituel de publication de logiciels car l’IA d’Apple avait encore besoin de plus de temps de test.

Je me demande quels nouveaux continents les premiers utilisateurs ont-ils découverts ?

Test réel par les internautes

Le blogueur technologique Apple Brandon Butch a immédiatement produit une explication vidéo montrant les fonctions Apple AI les plus complètes de la version bêta d'iOS 18.1.

Peu importe à quel point vous êtes dur, ce sera toujours doux et doux.

Il a déclaré que l'IA d'Apple l'avait aidé à trouver une meilleure façon d'exprimer ce qu'il voulait dire.

Dans l'interface de message, écrivez ce que vous voulez dire dans la zone de saisie.

Ensuite, sélectionnez-les tous et cliquez sur le bouton Apple AI pour utiliser « convivial » dans l'outil d'écriture. L'IA rendra immédiatement le ton de ce paragraphe plus délicat.

Jetons un autre regard sur un autre internaute qui a spécifiquement écrit un gros mot, ce qui était beaucoup plus confortable après que l'IA l'ait réécrit.

Correction d'une faute de frappe grammaticale

De plus, Butch s'est exclamé que Grammarly avait été tué et qu'il s'agissait de la véritable IA d'Apple.

Regardez simplement le passage suivant. Informatif est mal orthographié, la première lettre de ce qui n'est pas en majuscule et, à votre avis, qu'est-ce qui devrait se terminer par un point d'interrogation au lieu d'un point.

On voit qu’Apple AI a tout corrigé pour vous.

Il existe également des capacités d'IA d'Apple dans les e-mails, ce qui rend les gens fous lorsqu'ils les entendent.

Il prend également en charge les capacités d'outils de rédaction de mémos et de messages, notamment la relecture, la réécriture, etc.

Un résumé d’un e-mail sera affiché en haut.

L'effet d'animation de l'outil d'écriture IA d'Apple est "très Apple". Comparé au flux dense de jetons lorsque le modèle répond, tout semble si fluide.

Tout nouveau Siri, réponse ultra fluide

En regardant l'effet de bord de l'écran lorsque vous appelez Siri, je dois dire qu'Apple connaît le mieux le design.

Regardons la version iPad de Siri.

Un ingénieur en IA chez Humane et un ancien ingénieur d’Apple ont testé Siri et en ont fait l’éloge, affirmant que l’IA d’Apple est très, très rapide.

Réveiller Siri et lui demander quelle est la hauteur de la Tour Eiffel ? Où est-il situé?

Au fait, laissez-le vous pousser quelques nouvelles récentes sur les Jeux olympiques de Paris et sur la manière de regarder les événements olympiques.

En peu de temps, Apple AI a eu la réponse.

Résumé de la transcription de l'IA, le contenu important du téléphone n'a pas peur de manquer

De plus, Apple AI peut également vous aider à transcrire les appels téléphoniques en notes et à enregistrer ce dont vous avez parlé.

Si le bouton d'enregistrement est enfoncé, une tonalité retentira à la fois pour l'appelant et pour l'appelé, indiquant que l'appel sera enregistré.

Une fois l'enregistrement terminé, vous pouvez accéder directement à la fenêtre contextuelle de notification pour afficher le contenu de l'enregistrement.

mode de mise au point

Utilisez Apple AI pour analyser automatiquement le contenu des notifications et détecter les notifications importantes !

Les notifications des personnes importantes seront épinglées en bas de l’écran.

Recherche de photos, beaucoup de plaintes

Bien entendu, la raison pour laquelle iOS 18.1 a été lancé en premier est de permettre aux développeurs de tester davantage, de découvrir les problèmes signalés et de mieux améliorer les capacités d'IA d'Apple.

Non, lorsqu'un blogueur YouTube testait la fonction photo, il a découvert que Siri était toujours « mentalement retardée ».

Le blogueur a d'abord demandé : "Siri, montre-moi des photos du voyage de Thanksgiving 2022." Siri a répondu : Le nombre de fois que l'application Santé a été ouverte....

Puis, il a répété la question : « Siri, trouve des photos de Thanksgiving dans les photos.

Curieusement, Siri a recherché de nombreuses images liées à Thanksgiving directement sur Internet.

Lorsqu'il a demandé à nouveau : « Siri, montre-moi des photos de mon voyage à Taiwan », Siri a écouté les mots originaux comme mots-clés et a recherché « Mon voyage à Twaiwan » sur Internet.

Puis il a continué à demander, et Siri était toujours confuse.

Blogueur têtu, Siri brisé, je ne peux m'empêcher de rire...

Comme mentionné au début, la possibilité d'installer l'IA Apple dans les terminaux est basée sur le modèle de base auto-développé par l'équipe, qui brille de mille feux.

La révolution IA de l’iPhone : 3 milliards de paramètres dans votre poche

Plus précisément, AFM est un modèle dense uniquement décodeur basé sur l’architecture Transformer.

Ses idées de conception sont les suivantes :

Matrices d'intégration d'entrées/sorties partagées pour réduire l'utilisation de la mémoire des paramètres
Utilisez la pré-normalisation de RMSNorm pour améliorer la stabilité de l'entraînement
Normalisation des requêtes/clés pour améliorer la stabilité de la formation
Grouped Query Attention (GQA) avec 8 en-têtes clé-valeur pour réduire l'empreinte mémoire du cache KV
Activation plus efficace de SwiGLU
Intégration de l'emplacement RoPE avec une fréquence de base de 500 000, prenant en charge un contexte long

architecture de l'adaptateur

En utilisant l'adaptateur LoRA, le modèle de base d'Apple peut se spécialiser dynamiquement à la volée en fonction de la tâche en cours.

Ces petits modules de réseau neuronal peuvent être connectés à différentes couches du modèle de base et utilisés pour affiner le modèle pour des tâches spécifiques.

Pour faciliter la formation des adaptateurs, Apple a également créé une infrastructure efficace qui permet d'ajouter, de recycler, de tester et de déployer rapidement les adaptateurs lorsque le modèle sous-jacent ou les données de formation sont mis à jour ou que de nouvelles fonctionnalités sont requises.

optimisation

En raison de la nécessité de répondre à l'utilisation quotidienne des utilisateurs, l'équipe a adopté diverses techniques d'optimisation et de quantification pour réduire considérablement l'utilisation de la mémoire, la latence et la consommation d'énergie tout en maintenant la qualité du modèle.

méthode

Au cours de la phase post-formation, Apple a compressé et quantifié le modèle à une moyenne de moins de 4 bits par poids.

Les modèles quantifiés subissent généralement un certain degré de perte de qualité. Par conséquent, l'équipe R&D ne transmet pas directement le modèle quantitatif à l'équipe d'application pour le développement fonctionnel, mais attache un ensemble d'adaptateurs LoRA efficaces en termes de paramètres pour restaurer la qualité du modèle.

Chaque équipe produit affine ensuite son adaptateur LoRA spécifique aux fonctionnalités en initialisant les poids des adaptateurs à partir des adaptateurs de récupération de précision tout en gardant le modèle de base quantifié inchangé.

Il convient de noter que l'adaptateur de récupération de précision de la formation est efficace en matière d'échantillons et peut être considéré comme une mini version du modèle de base de formation.

Parmi eux, dans la phase de pré-formation de l'adaptateur, seuls environ 10 milliards de jetons (environ 0,15 % de la formation de base du modèle) sont nécessaires pour restaurer complètement les capacités du modèle quantifié.

Étant donné que les adaptateurs d’application seront affinés à partir de ces adaptateurs de récupération de précision, ils n’entraîneront aucune utilisation de mémoire supplémentaire ni aucun coût d’inférence.

Concernant la taille de l'adaptateur, l'équipe a constaté qu'un adaptateur de rang 16 offrait le meilleur équilibre entre la capacité du modèle et les performances d'inférence.

Cependant, pour offrir plus de flexibilité, Apple propose un ensemble de différents rangs d'adaptateurs de récupération de précision parmi lesquels les équipes chargées des applications peuvent choisir.

Quantifier

Un autre avantage apporté par les adaptateurs de récupération de précision est qu'ils permettent une sélection plus flexible des schémas de quantification.

Dans le passé, lors de la quantification de grands modèles de langage, il était courant de diviser les pondérations en petits morceaux, de normaliser chaque morceau par sa valeur absolue maximale correspondante pour filtrer les valeurs aberrantes, puis d'appliquer un algorithme de quantification sur une base de morceaux.

Alors que des blocs de plus grande taille réduisent le nombre de bits effectifs par poids et augmentent le débit, la perte de quantification augmente également. Pour équilibrer ce compromis, la taille du bloc est généralement définie sur une valeur plus petite, telle que 64 ou 32.

Mais dans les expériences d'Apple, l'équipe a découvert que l'adaptateur de récupération de précision peut améliorer considérablement le front de Pareto de ce compromis.

Pour les schémas de quantification plus agressifs, davantage d’erreurs seront récupérées. En conséquence, Apple est en mesure d’utiliser des schémas de quantification efficaces pour l’AFM sans se soucier de la perte de capacité du modèle.

quantification de précision mixte

Il existe des connexions résiduelles dans chaque bloc Transformer et dans chaque couche de l'AFM. Il est donc peu probable que tous les niveaux aient la même importance.

Sur la base de cette intuition, Apple a encore réduit l'utilisation de la mémoire en poussant certaines couches vers une quantification sur 2 bits (la valeur par défaut est de 4 bits).

En moyenne, les modèles sur les appareils AFM peuvent être compressés à environ 3,5 bits par poids (bpw) sans perte significative de qualité.

En production, Apple choisit d'utiliser 3,7 bpw car cela répond déjà aux besoins en mémoire.

résultat de l'évaluation

pré-formation

Le tableau 2 montre les résultats de l'AFM-on-device et de l'AFM-server sur HELM MMLU v1.5.0, qui ont testé 5 échantillons de questions à choix multiples chez 57 sujets.

Les tableaux 3 et 4 montrent les résultats du serveur AFM sur les benchmarks HuggingFace OpenLLM V1 et HELM-Lite v1.5.0 respectivement.

On peut constater que le modèle de pré-formation AFM possède de puissantes capacités de langage et de raisonnement, fournissant ainsi une base solide pour la post-formation et le réglage fin des fonctionnalités.

après la formation évaluation humaine

Pour les scénarios d’application Apple AI, l’évaluation humaine est plus proche de l’expérience utilisateur.

Pour évaluer les capacités générales du modèle, l’équipe a collecté un ensemble complet de 1 393 indices.

Les invites sont complètes et couvrent différentes catégories et niveaux de difficulté, notamment : raisonnement analytique, brainstorming, chatbots, classification, réponse aux questions fermées, codage, extraction, raisonnement mathématique, réponse aux questions ouvertes, réécriture, sécurité, résumer et écrire.

La figure 3 montre la comparaison de l'AFM avec des modèles open source (Phi-3, Gemma-1.1, Llama-3, Mistral, DBRX-Instruct) et des modèles commerciaux (GPT-3.5 et GPT-4).

Il a été constaté que les évaluateurs humains préféraient le modèle AFM au modèle concurrent.

En particulier, bien que la taille du modèle de l'AFM sur appareil soit 25 % plus petite, son taux de réussite est de 47,7 % par rapport au Phi-3-mini, dépassant même les bases de référence open source fortes Gemma-7B et Mistral - avec plus de deux fois celui du Phi-3-mini. nombre de paramètres.

Par rapport au modèle open source, le serveur AFM a également fait preuve d'une certaine compétitivité, avec un taux de victoire de plus de 50 % et un taux de tirage de 27,4 % par rapport à GPT-3.5.

Suivre les instructions

Le suivi d'instructions (IF) est une fonctionnalité essentielle sur laquelle l'équipe Apple fonde de grands espoirs en matière de modèles de langage, car les invites ou instructions du monde réel sont souvent complexes.

Ici, l'équipe a utilisé le benchmark public IFEval pour évaluer si les grands modèles de langage peuvent suivre avec précision les instructions de l'invite lors de la génération de réponses. Celles-ci incluent souvent des exigences spécifiques concernant la longueur, le format et le contenu de la réponse.

Comme le montre la figure 4, l'AFM sur appareil et l'AFM sur serveur fonctionnent bien en termes de précision au niveau des commandes et des invites.

En outre, l'équipe Apple a également comparé le modèle AFM au benchmark AlpacaEval 2.0 LC pour mesurer ses capacités générales de suivi des instructions, et les résultats ont montré que son modèle est très compétitif.

Utilisation de l'outil

Dans les scénarios d'utilisation d'outils, une fois que le modèle a reçu une demande d'utilisateur et une liste d'outils potentiels avec des descriptions, il peut choisir d'appeler un outil spécifique en fournissant une sortie structurée et en spécifiant le nom de l'outil et les valeurs des paramètres.

L’équipe a évalué le modèle sur le benchmark public Berkeley Function Calling Leaderboard à l’aide de métriques AST avec prise en charge native des appels de fonction.

Comme le montre la figure 5, le serveur AFM offre les meilleures performances en termes de précision globale, surpassant Gemini-1.5-Pro-Preview-0514 et GPT-4.

en écrivant

L'écriture est l'une des fonctionnalités les plus importantes des grands modèles de langage, car elle prend en charge une variété d'applications en aval telles que le changement de ton, la réécriture et la synthèse.

L’équipe évalue les compétences rédactionnelles de l’AFM dans le cadre de tests internes de synthèse et de benchmark de rédaction. Et suivant l'approche LLM en tant que juge, des instructions de notation ont été conçues pour chaque tâche de résumé et de rédaction, et GPT-4 Turbo a été invité à noter la réponse du modèle sur une échelle de 1 à 10.

Comme le montre la figure 6, l'AFM sur appareil affiche des performances comparables ou supérieures à celles du Gemma-7B et du Mistral-7B. Le serveur AFM est nettement meilleur que DBRX-Instruct et GPT-3.5, et même comparable à GPT-4.

Il convient de noter qu'il existe certaines limites et biais dans l'utilisation de la notation LLM, tels que le biais de longueur.

mathématiques

Dans la figure 7, l’équipe compare les performances de l’AFM à un point de référence mathématique.

Parmi eux, les chercheurs ont utilisé des pointes CoT à 8 coups pour GSM8K et des pointes CoT à 4 coups pour MATH.

Les résultats montrent que l'AFM sur appareil surpasse considérablement Mistral-7B et Gemma-7B, même avec une taille inférieure à la moitié des deux.

Fonction récapitulative

L'équipe produit a développé un ensemble personnalisé de directives, de mesures et de critères de notation spécialisés pour le résumé des e-mails, des messages et des notifications afin d'évaluer la qualité du résumé, en utilisant une variété d'ensembles de données open source, sous licence et propriétaires.

Le résumé est classé comme « médiocre » si une sous-dimension est classée « médiocre » sur la base des spécifications de produit prédéfinies. De même, un résumé est classé comme « bon » uniquement si toutes les sous-dimensions sont notées « bonnes ».

La figure 8 montre que les performances globales de l'adaptateur AFM-on-device+ sont meilleures que celles du Phi-3-mini, du Llama-3-8B et du Gemma-7B.

évaluer la sécurité

La figure 9 montre les résultats de l'évaluation des examinateurs humains pour les violations du modèle. Plus la valeur est faible, mieux c'est.

On peut constater que l'AFM sur appareil et le serveur AFM font preuve d'une grande robustesse dans le traitement des invites contradictoires, et que le taux de violation est nettement inférieur à celui des modèles open source et commerciaux.

La figure 10 montre les préférences des évaluateurs humains pour les invites d’évaluation de sécurité.

Le modèle AFM a une fois de plus remporté la victoire car il pouvait fournir une réponse plus sûre et plus utile.

Ce qui précède est un aperçu clé du modèle d’IA d’Apple.

Quand tout le monde pourra-t-il utiliser les capacités d’IA d’Apple ?

Chaque année, Apple lance de nouveaux produits lors de la conférence d'automne, et la version initiale d'iOS 18 sera lancée en même temps que l'iPhone 16.

Il faudra cependant attendre octobre pour en faire l’expérience.

Les références:

https://machinelearning.apple.com/papers/apple_intelligence_foundation_lingual_models.pdf

https://x.com/BrandonButch/status/1817982978540404776

nouvelles

L'IA d'Apple est lancée de manière choquante sur l'iPhone, mais la version évoluée de Siri n'a pas ChatGPT ! Un rapport technique de 47 pages révèle un modèle auto-développé

Introduction

mes coordonnées