Nachricht

Enthüllt! Ein 47-seitiges Dokument, das die Intelligenz von Apple zerlegt, von Architektur und Daten bis hin zu Schulung und Optimierung

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Maschinenherzbericht

Redaktion von Machine Heart

Auf der Worldwide Developers Conference 2024 stellte Apple Apple Intelligence vor, ein neues personalisiertes intelligentes System, das praktische intelligente Dienste für iPhone, iPad und Mac bereitstellen kann und tief in iOS 18, iPadOS 18 und macOS Sequoia integriert ist.

Cook sagte einmal, dass Apple Intelligence ein neues Kapitel in der Innovation von Apple sei und die Art und Weise verändern werde, wie Benutzer Produkte nutzen. Er betonte, dass der einzigartige Ansatz von Apple generative künstliche Intelligenz und persönliche Daten der Benutzer kombiniert, um wirklich nützliche intelligente Dienste bereitzustellen. Darüber hinaus bietet Apple Intelligence einen völlig privaten und sicheren Zugriff auf Informationen und hilft Benutzern, das zu erreichen, was ihnen am wichtigsten ist. Dies ist ein KI-Erlebnis, das es nur bei Apple gibt.

Seit der offiziellen Ankündigung von Apple Intelligence ist nun mehr als ein Monat vergangen. Diese Technologie wurde endlich auf Smart-Geräten implementiert und die entsprechenden technischen Dokumente wurden endlich veröffentlicht.

Ab heute können Nutzer, die ein iPhone 15 Pro oder iPhone 15 Pro Max besitzen, die Entwicklungs-Beta für iOS 18.1 herunterladen und die Funktionen von Apple Intelligence erleben.

Mit der Veröffentlichung dieses 47-seitigen technischen Berichts können wir ein tieferes Verständnis der Geheimwaffe hinter Apple Intelligence erlangen.



Berichtsadresse: https://machinelearning.apple.com/papers/apple_intelligence_foundation_lingual_models.pdf

Der Bericht beschreibt zwei der Modelle –AFM-auf-GerätAFM steht für Apple Foundation Model, ein Sprachmodell mit etwa 3 Milliarden Parametern sowie ein größeres serverbasiertes SprachmodellAFM-Server, kann Fachaufgaben effizient, genau und verantwortungsbewusst ausführen (Abbildung 1).

Diese beiden Basismodelle sind Teil der größeren Familie generativer Modelle von Apple.



Struktur und Ausbildung

Das AFM-Basismodell ist ein dichtes Decodermodell, das auf der Transformer-Architektur basiert und das folgende Design übernimmt:

Gemeinsam genutzte Eingabe-/Ausgabe-Einbettungsmatrizen zur Reduzierung der Speichernutzung für Parameter.

Verwenden Sie RMSNorm zur Vornormalisierung, um die Trainingsstabilität zu verbessern.

Abfrage-/Schlüsselnormalisierung zur Verbesserung der Trainingsstabilität.

Grouped Query Attention (GQA) mit 8 Schlüsselwert-Headern zur Reduzierung des KV-Cache-Speicherbedarfs.

SwiGLU aktiviert für mehr Effizienz.

Beim Einbetten der RoPE-Position ist die Basisfrequenz (Basisfrequenz) auf 500.000 eingestellt, um langen Kontext zu unterstützen.



Der AFM-Vortrainingsprozess spielt eine Schlüsselrolle bei der Entwicklung leistungsstarker Sprachmodelle zur Unterstützung einer Reihe von Apple Intelligence-Funktionen. Das Forschungsteam konzentriert sich auf Effizienz und Datenqualität, um ein hochwertiges End-to-End-Benutzererlebnis zu erreichen.

Im Hinblick auf das Post-Training stellte das Forschungsteam fest, dass eine Verbesserung des allgemeinen Post-Trainings die Leistung aller Funktionen von Apple Intelligence verbessern kann, da das Modell besser in der Lage ist, Anweisungen zu befolgen, zu argumentieren und zu schreiben.

Um sicherzustellen, dass diese Modellfunktionen mit der Verpflichtung von Apple zum Schutz der Privatsphäre der Benutzer und den Prinzipien der verantwortungsvollen KI von Apple im Einklang stehen, umfasst die Arbeit nach dem Training eine Reihe von Datenerfassungen und -generierungen, Befehlsanpassungen und Ausrichtungsinnovationen. Der Post-Training-Prozess besteht aus zwei Phasen: Supervised Fine-Tuning (SFT) und Reinforcement Learning from Human Feedback (RLHF). Das Forschungsteam schlug zwei neue Post-Training-Algorithmen vor: (1) einen Feinabstimmungsalgorithmus für Ablehnungsstichproben mit Lehrerausschuss (iTeC) und (2) einen RLHF-Algorithmus für Verstärkungslerniterationen mit Spiegelabstiegsrichtlinienoptimierung (Spiegelabstiegsrichtlinienoptimierung). ) und Leave-One-Out Advantage Estimator (MDLOO), wodurch die Modellqualität deutlich verbessert wird.

Apple Intelligence-Funktionen

Das Basismodell wurde speziell für Apple Intelligence entwickelt, ein persönliches Intelligenzsystem, das iPhone, iPad und Mac unterstützt.

Apple hat herausgefunden, dass sie die Leistung kleiner Modelle auf ein erstklassiges Niveau steigern können, indem sie sie für bestimmte Aufgaben optimieren. Darüber hinaus haben sie eine Architektur entwickelt, die auf zur Laufzeit austauschbaren Adaptern basiert, um die Fähigkeit eines einzelnen Basismodells zu ermöglichen in Dutzenden solcher Aufgaben. Abbildung 2 zeigt eine allgemeine Übersicht.



Adapterarchitektur

Apple verwendet LoRA-Adapter, um Modelle für bestimmte Aufgaben zu optimieren. Für jede Aufgabe passen die Forscher alle linearen Projektionsmatrizen in der AFM-Selbstaufmerksamkeitsschicht und die vollständig verbundenen Schichten im punktweisen Feedforward-Netzwerk an. Durch eine einfache Feinabstimmung des Adapters bleiben die ursprünglichen Parameter des vorab trainierten Basismodells unverändert, sodass das allgemeine Wissen über das Modell erhalten bleibt und gleichzeitig der Adapter an die Unterstützung spezifischer Aufgaben angepasst wird.

Quantifizieren

Um AFM in Edge-Geräte mit begrenztem Speicherbudget zu integrieren und die Inferenzkosten zu reduzieren, müssen Quantisierungstechniken in Betracht gezogen werden. Frühere Untersuchungen ergaben, dass 4-Bit-quantisierte Modelle im Vergleich zu rohen 32/16-Bit-Gleitkommamodellen nur sehr geringe Verluste erleiden.

Um das beste Gleichgewicht zwischen Modellkapazität und Inferenzleistung zu erreichen, hat Apple hochmoderne Quantisierungsmethoden und ein Framework entwickelt, das Genauigkeitswiederherstellungsadapter nutzt. Dies ermöglicht dem Modell eine nahezu verlustfreie Quantisierung, wenn die durchschnittliche Gewichtung jeder Gewichtung weniger als 4 Bits beträgt, und bietet eine flexible Auswahl des Quantisierungsschemas.

Methode

Nach dem Training wird das Modell komprimiert und quantisiert, um durchschnittlich Gewichte unter 4 Bit zu erhalten. Quantitative Modelle weisen typischerweise einen moderaten Qualitätsverlust auf. Daher wird Apple das quantisierte Modell nicht direkt für die Funktionsentwicklung verwenden, sondern eine Reihe Parameter-effizienter LoRA-Adapter zur Qualitätswiederherstellung hinzufügen.

Es ist erwähnenswert, dass der Trainingsgenauigkeits-Wiederherstellungsadapter probeneffizient ist und als Miniversion des Trainingsbasismodells betrachtet werden kann. In der Vortrainingsphase des Adapters werden nur etwa 10 Milliarden Token (etwa 0,15 % des Basismodelltrainings) benötigt, um die Leistungsfähigkeit des quantisierten Modells vollständig wiederherzustellen.

Da die Anwendungsadapter anhand dieser Genauigkeitswiederherstellungsadapter fein abgestimmt werden, fallen für sie keine zusätzlichen Speichernutzungs- oder Inferenzkosten an. Hinsichtlich der Adaptergröße hat Apple herausgefunden, dass ein Adapterrang von 16 den besten Kompromiss zwischen Modellkapazität und Inferenzleistung bietet.

Aus Gründen der Flexibilität stellt Apple jedoch eine Reihe von Genauigkeitswiederherstellungsadaptern mit unterschiedlichen Rängen {8, 16, 32} zur Auswahl, aus denen Anwendungsteams wählen können.

Quantisierung mit gemischter Präzision

Für jeden Transformatorblock und jede Schicht im AFM gibt es Restverbindungen. Daher ist es unwahrscheinlich, dass alle Schichten gleich wichtig sind. Dieser Intuition folgend reduzierte Apple die Speichernutzung weiter, indem es bestimmte Ebenen dazu drängte, die 2-Bit-Quantisierung zu verwenden (der Standardwert ist 4-Bit). Im Durchschnitt kann AFM-on-Device ohne nennenswerten Qualitätsverlust auf nur etwa 3,5 Bits pro Gewicht (bpw) komprimieren.

Auswerten

Das Forschungsteam verwendet gängige Open-Source-Bewertungstools und Benchmarks, um das vorab trainierte AFM-Modell zu bewerten. Tabelle 2 zeigt die Ergebnisse von AFM-on-device und AFM-server auf HELM MMLU v1.5.0.



Diese Benchmarks zeigen, dass das vorab trainierte AFM-Modell über starke Sprach- und Inferenzfähigkeiten verfügt und eine solide Grundlage für die Feinabstimmung der Funktionen nach dem Training bietet.





Die Vergleichsergebnisse von AFM mit Open-Source-Modellen (Phi-3, Gemma-1.1, Llama-3, Mistral, DBRX-Instruct) und kommerziellen Modellen (GPT3.5 und GPT-4) sind in Abbildung 3 unten dargestellt. AFM-Modelle werden von menschlichen Bewertern gegenüber anderen Modellen bevorzugt. Insbesondere im Vergleich zu Phi-3-mini erzielte AFM-on-Device trotz einer um 25 % kleineren Modellgröße eine Erfolgsquote von 47,7 %, sogar besser als die Open-Source-starken Basislinien Gemma-7B und Mistral-7B.



Um die Fähigkeit des Modells zu messen, Antworten zu generieren, die den Anweisungen in Eingabeaufforderungen folgen, bewertete das Forschungsteam AFM-on-Device und AFM-Server anhand des IFEval-Benchmarks. Die Ergebnisse sind in Abbildung 4 unten dargestellt:



Wie in Abbildung 5 dargestellt, erreicht der AFM-Server die beste Gesamtgenauigkeit, besser als Gemini-1.5-Pro-Preview-0514 und GPT-4.



Apple verglich AFM mit einigen der besten Modelle sowie kleineren Open-Source-Modellen. Wie in Abbildung 6 dargestellt, kann AFM-on-Device im Vergleich zu Gemma-7B und Mistral-7B eine gleichwertige oder bessere Leistung erzielen. Die Leistung des AFM-Servers ist deutlich besser als die von DBRX-Instruct und GPT3.5 und mit GPT4 vergleichbar.



Abbildung 7 vergleicht die Leistung von nachtrainiertem AFM anhand mathematischer Benchmarks. Es wurde festgestellt, dass AFM-on-Device deutlich besser abschnitt als Mistral-7B und Gemma-7B, obwohl es weniger als halb so groß war.



Die folgende Abbildung zeigt menschliche Bewerter, die die Qualität der AFM-on-Device-Adapter Phi-3-mini, Llama-3-8B und Gemma-7B anhand einer zusammenfassenden Aufgabe bewerten. Abbildung 8 zeigt, dass der AFM-on-Device-Adapter im Allgemeinen andere Modelle übertrifft.



Verantwortungsvolle KI

Apple Intelligence wurde unter Berücksichtigung der Privatsphäre der Benutzer entwickelt und gestaltet.

Abbildung 9 fasst die Verstoßraten zusammen, die von menschlichen Bewertern für verschiedene Modelle angegeben wurden, wobei niedriger = besser ist. Sowohl AFM-on-Device als auch AFM-Server sind robust gegenüber gegnerischen Eingabeaufforderungen und weisen deutlich geringere Verstoßraten als Open-Source- und kommerzielle Modelle auf.



Abbildung 10 zeigt, dass das AFM-Modell im Vergleich zu anderen Modellen von menschlichen Bewertern bevorzugt wird.