nouvelles

Révélé! Un document de 47 pages démantelant l'intelligence d'Apple, de l'architecture et des données à la formation et à l'optimisation

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Rapport sur le cœur de la machine

Département éditorial de Machine Heart

Lors de la Conférence mondiale des développeurs 2024, Apple a lancé Apple Intelligence, un nouveau système intelligent personnalisé capable de fournir des services intelligents pratiques, couvrant iPhone, iPad et Mac, et profondément intégré dans iOS 18, iPadOS 18 et macOS Sequoia.

Cook a déclaré un jour qu'Apple Intelligence constituait un nouveau chapitre dans l'innovation d'Apple et changerait la façon dont les utilisateurs utilisent les produits. Il a souligné que l'approche unique d'Apple combine l'intelligence artificielle générative et les informations personnelles des utilisateurs pour fournir des services intelligents véritablement utiles. De plus, Apple Intelligence offre un accès totalement privé et sécurisé aux informations, aidant ainsi les utilisateurs à accomplir ce qui compte le plus pour eux. Il s’agit d’une expérience d’IA unique à Apple.

Aujourd'hui, plus d'un mois s'est écoulé depuis l'annonce officielle d'Apple Intelligence. Cette technologie a enfin été implémentée sur les appareils intelligents, et les documents techniques pertinents ont enfin été publiés.

Au cours de la dernière journée, les utilisateurs possédant un iPhone 15 Pro ou un iPhone 15 Pro Max peuvent télécharger la version bêta de développement d'iOS 18.1 et découvrir les fonctions d'Apple Intelligence.

Avec la publication de ce rapport technique de 47 pages, nous pouvons mieux comprendre l’arme secrète derrière Apple Intelligence.



Adresse du rapport : https://machinelearning.apple.com/papers/apple_intelligence_foundation_lingual_models.pdf

Le rapport détaille deux des modèles –AFM sur appareil, AFM signifie Apple Foundation Model, qui est un modèle de langage d'environ 3 milliards de paramètres, ainsi qu'un modèle de langage plus vaste basé sur un serveur.Serveur AFM, peut effectuer des tâches spécialisées de manière efficace, précise et responsable (Figure 1).

Ces deux modèles de base font partie de la plus grande famille de modèles génératifs d'Apple.



Structure et formation

Le modèle de base AFM est un modèle de décodeur dense construit sur l'architecture Transformer et adopte la conception suivante :

Matrices d’intégration d’entrées/sorties partagées pour réduire l’utilisation de la mémoire pour les paramètres.

Utilisez RMSNorm pour la pré-normalisation afin d'améliorer la stabilité de l'entraînement.

Normalisation des requêtes/clés pour améliorer la stabilité de la formation.

Grouped Query Attention (GQA) avec 8 en-têtes clé-valeur pour réduire l'empreinte de la mémoire cache KV.

SwiGLU activé pour une efficacité accrue.

Intégration de la position RoPE, la fréquence de base (fréquence de base) est définie sur 500k pour prendre en charge un contexte long.



Le processus de pré-formation AFM joue un rôle clé dans le développement de modèles de langage hautes performances pour prendre en charge une gamme de fonctionnalités Apple Intelligence. L'équipe de recherche se concentre sur l'efficacité et la qualité des données pour obtenir une expérience utilisateur de bout en bout de haute qualité.

En termes de post-formation, l'équipe de recherche a constaté que l'amélioration générale de la post-formation peut améliorer les performances de toutes les fonctions d'Apple Intelligence, car le modèle aura une plus grande capacité à suivre des instructions, à raisonner et à écrire.

Pour garantir que ces fonctions du modèle sont conformes à l'engagement d'Apple à protéger la confidentialité des utilisateurs et aux principes d'IA responsable d'Apple, le travail post-formation comprend une série de collecte et de génération de données, d'ajustement des instructions et d'innovation en matière d'alignement. Le processus post-formation comprend deux étapes : le réglage fin supervisé (SFT) et l'apprentissage par renforcement à partir du feedback humain (RLHF). L'équipe de recherche a proposé deux nouveaux algorithmes post-formation : (1) un algorithme de réglage fin de l'échantillonnage de rejet avec un comité d'enseignants (iTeC) et (2) un algorithme RLHF pour les itérations d'apprentissage par renforcement avec optimisation de la politique de descente miroir ( optimisation de la politique de descente miroir ) et l'estimateur d'avantage sans intervention (MDLOO), améliorant considérablement la qualité du modèle.

Fonctionnalités Apple Intelligence

Le modèle de base est spécialement conçu pour Apple Intelligence, un système d'intelligence personnelle prenant en charge iPhone, iPad et Mac.

Apple a découvert qu'ils pouvaient améliorer les performances des petits modèles pour atteindre les meilleurs niveaux de leur catégorie en les ajustant pour des tâches spécifiques. De plus, ils ont développé une architecture basée sur des adaptateurs échangeables au moment de l'exécution pour permettre à un modèle de base unique de se spécialiser. dans des dizaines de tâches de ce type. La figure 2 montre un aperçu de haut niveau.



architecture de l'adaptateur

Apple utilise des adaptateurs LoRA pour affiner les modèles pour des tâches spécifiques. Pour chaque tâche, les chercheurs ajustent toutes les matrices de projection linéaire de la couche d’auto-attention de l’AFM et les couches entièrement connectées du réseau de rétroaction ponctuelle. En ajustant simplement l'adaptateur, les paramètres d'origine du modèle de base pré-entraîné restent inchangés, ce qui permet de préserver les connaissances générales du modèle tout en adaptant l'adaptateur pour prendre en charge des tâches spécifiques.

Quantifier

Pour intégrer l'AFM dans des appareils de pointe dotés de budgets de mémoire limités et réduire les coûts d'inférence, des techniques de quantification doivent être envisagées. Des recherches antérieures ont révélé que les modèles quantifiés 4 bits subissent très peu de pertes par rapport aux modèles bruts à virgule flottante 32/16 bits.

Pour obtenir le meilleur équilibre entre la capacité du modèle et les performances d’inférence, Apple a développé des méthodes de quantification de pointe et un cadre qui exploite des adaptateurs de récupération de précision. Cela permet au modèle d'obtenir une quantification presque sans perte lorsque le poids moyen de chaque poids est inférieur à 4 bits, et offre une sélection flexible du schéma de quantification.

méthode

Après post-formation, le modèle est compressé et quantifié pour obtenir des poids inférieurs à 4 bits en moyenne. Les modèles quantitatifs présentent généralement une perte de qualité modérée. Par conséquent, Apple n'utilisera pas le modèle quantifié directement pour le développement de fonctionnalités, mais joindra un ensemble d'adaptateurs LoRA efficaces en termes de paramètres pour une récupération de qualité.

Il convient de noter que l'adaptateur de récupération de précision de formation est efficace en matière d'échantillons et peut être considéré comme une mini version du modèle de base de formation. Dans la phase de pré-formation de l'adaptateur, seulement environ 10 milliards de jetons (environ 0,15 % de la formation de base du modèle) sont nécessaires pour restaurer complètement les capacités du modèle quantifié.

Étant donné que les adaptateurs d’application seront affinés à partir de ces adaptateurs de récupération de précision, ils n’entraînent aucune utilisation de mémoire supplémentaire ni aucun coût d’inférence. Concernant la taille de l'adaptateur, Apple a constaté qu'un rang d'adaptateur de 16 offre le meilleur compromis entre la capacité du modèle et les performances d'inférence.

Cependant, pour plus de flexibilité, Apple propose un ensemble d'adaptateurs de récupération de précision avec différents rangs {8, 16, 32} parmi lesquels les équipes chargées des applications peuvent choisir.

quantification de précision mixte

Des connexions résiduelles existent pour chaque bloc de transformateur et chaque couche de l'AFM. Il est donc peu probable que tous les niveaux aient la même importance. Suivant cette intuition, Apple a encore réduit l'utilisation de la mémoire en poussant certaines couches à utiliser une quantification sur 2 bits (la valeur par défaut est 4 bits). En moyenne, l'AFM sur appareil peut être compressé à seulement 3,5 bits environ par poids (bpw) sans perte de qualité significative.

Évaluer

L’équipe de recherche utilise des outils d’évaluation et des références open source communs pour évaluer le modèle pré-entraîné de l’AFM. Le tableau 2 montre les résultats de l'AFM sur appareil et du serveur AFM sur HELM MMLU v1.5.0.



Ces références démontrent que le modèle pré-entraîné AFM possède de solides capacités de langage et d'inférence, fournissant une base solide pour la post-formation et le réglage fin des fonctionnalités.





Les résultats de la comparaison de l'AFM avec des modèles open source (Phi-3, Gemma-1.1, Llama-3, Mistral, DBRX-Instruct) et des modèles commerciaux (GPT3.5 et GPT-4) sont présentés dans la figure 3 ci-dessous. Les modèles AFM sont préférés par les évaluateurs humains par rapport aux autres modèles. En particulier, par rapport au Phi-3-mini, l'AFM sur appareil a atteint un taux de réussite de 47,7 % malgré une taille de modèle 25 % plus petite, encore mieux que les bases de référence open source Gemma-7B et Mistral-7B.



Pour mesurer la capacité du modèle à générer des réponses qui suivent les instructions contenues dans les invites, l'équipe de recherche a évalué l'AFM sur appareil et l'AFM sur serveur sur le benchmark IFEval. Les résultats sont présentés dans la figure 4 ci-dessous :



Comme le montre la figure 5, le serveur AFM atteint la meilleure précision globale, meilleure que Gemini-1.5-Pro-Preview-0514 et GPT-4.



Apple a comparé l'AFM à certains des meilleurs modèles ainsi qu'à des modèles open source plus petits. Comme le montre la figure 6, l'AFM sur appareil peut atteindre des performances équivalentes ou supérieures à celles du Gemma-7B et du Mistral-7B. Les performances du serveur AFM sont nettement meilleures que celles de DBRX-Instruct et GPT3.5 et sont comparables à celles de GPT4.



La figure 7 compare les performances de l'AFM post-formé sur des références mathématiques. Il a été constaté que l'AFM sur appareil fonctionnait nettement mieux que Mistral-7B et Gemma-7B, même s'il faisait moins de la moitié de leur taille.



La figure ci-dessous montre des évaluateurs humains évaluant la qualité des adaptateurs AFM sur appareil, Phi-3-mini, Llama-3-8B et Gemma-7B dans le cadre d'une tâche récapitulative. La figure 8 montre que l'adaptateur AFM sur appareil surpasse généralement les autres modèles.



IA responsable

Apple Intelligence est développé et conçu dans le souci de la confidentialité des utilisateurs.

La figure 9 résume les taux de violation donnés par les évaluateurs humains sur différents modèles, le plus bas étant le meilleur. L'AFM sur appareil et l'AFM sur serveur sont robustes aux invites contradictoires, avec des taux de violation nettement inférieurs à ceux des modèles open source et commerciaux.



La figure 10 montre que le modèle AFM est plus favorisé par les évaluateurs humains que les autres modèles.