Nachricht

Wie wird Apple Intelligence entwickelt?Die vollständigste Interpretation finden Sie hier

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Geschrieben von |. Ma Xuewei

Siri hat sich endlich in „AI Siri“ verwandelt und die mit Spannung erwartete Apple Intelligence ist da.

Mit der Einführung von Apple Intelligence für iOS 18, iPadOS 18 und macOS Sequoia veröffentlichte Apple auch einen technischen Bericht zum eigenen Großmodell, in dem zahlreiche technische Details bekannt gegeben wurden, was in der Branche große Aufmerksamkeit erregte.

Berichten zufolge enthält Apple Intelligence mehrere leistungsstarke generative Modelle, die schnell und effizient sind, auf die täglichen Aufgaben der Benutzer zugeschnitten sind und sich sofort an die aktuellen Aktivitäten der Benutzer anpassen können. Die in Apple Intelligence integrierten Grundmodelle sind bereits für Benutzererlebnisse wie das Schreiben und Verfeinern von Text, das Priorisieren und Zusammenfassen von Benachrichtigungen, das Erstellen interessanter Bilder für Gespräche mit Familie und Freunden und das Durchführen von In-App-Aktionen zur Optimierung der App-übergreifenden Interaktion optimiert.

Im technischen Bericht erläuterte das Apple-Team, wie zwei der Modelle – ein Sprachmodell AFM (Apple Foundation Model) mit etwa 3 Milliarden Parametern und ein größeres, serverbasiertes AFM-Server-Sprachmodell – konstruiert und an die Leistung angepasst wurden professionelle Aufgaben effizient und präzise erledigen.

Abbildung |. AFM-Modellübersicht

Diese beiden Grundmodelle sind Teil einer größeren Familie generativer Modelle, die von Apple zur Unterstützung von Benutzern und Entwicklern entwickelt wurden. Dazu gehören ein Programmiermodell, das auf dem AFM-Sprachmodell zum Aufbau von Intelligenz in Xcode basiert, und ein Diffusionsmodell, das Benutzern hilft, sich visuell auszudrücken. beispielsweise in Messaging-Anwendungen.

Wie funktioniert AFM?

AFM wurde während des Entwicklungsprozesses einer strengen Bewertung unterzogen. Die Bewertungsergebnisse zeigten, dass das Modell vor dem Training, nach dem Training und bei spezifischen Aufgaben eine gute Leistung erbrachte und den Grundwerten und verantwortungsvollen KI-Prinzipien von Apple entsprach.

1. Bewertung vor dem Training

Das Apple-Team nutzte öffentliche Bewertungsbenchmarks wie HELM MMLU, HELMLite und OpenLLM, um das Sprachverständnis und die Argumentationsfähigkeiten des AFM-Modells zu bewerten. Die Ergebnisse zeigen, dass das AFM-Modell bei mehreren Bewertungsindikatoren hervorragende Ergebnisse erzielte, ein starkes Sprachverständnis und Argumentationsvermögen zeigte und den Grundstein für spätere Post-Training- und spezifische Aufgabenanwendungen legte.

2. Bewertung nach dem Training

Das Apple-Team kombinierte menschliche Beurteilung und automatisierte Beurteilungsbenchmarks, um die allgemeinen Fähigkeiten und spezifischen Fähigkeiten des AFM-Modells zu bewerten, wie etwa das Befolgen von Anweisungen, die Verwendung von Werkzeugen und das Schreiben.Die Bewertungsergebnisse lauten wie folgt:

  • Menschliche Bewertung:Das AFM-Modell ist bei mehreren Aufgaben mit anderen Open-Source- und kommerziellen Modellen vergleichbar oder besser als diese und zeigt, dass das Modell komplexe Anweisungen verstehen und befolgen und qualitativ hochwertigen Text generieren kann.

Abbildung |. Beim Vergleich des AFM-Modells mit anderen Open-Source-Modellen und kommerziellen Modellen bevorzugen menschliche Bewerter das AFM-Modell.

Das Forschungsteam bewertete MAIA anhand des Neuronenbeschreibungsparadigmas. Die Studie zeigte, dass MAIA sowohl bei realen Modellen als auch bei synthetischen Neuronendatensätzen hervorragende Vorhersagefähigkeiten erzielte und mit denen menschlicher Experten vergleichbar war.

  • Bewertung der Anweisungskonformität:Das AFM-Modell erzielte bei Benchmarks wie IFEval und AlpacaEval 2.0 LC hervorragende Ergebnisse und zeigte, dass das Modell Anweisungen effektiv verstehen und befolgen kann.

Abbildung |. Vergleich der Befehlskonformitätsfähigkeiten des AFM-Modells und verwandter Modelle, gemessen mit IFEval. Je höher der Wert, desto besser die Fähigkeit.

  • Bewertung der Werkzeugnutzung:Das AFM-Modell erreichte beim Berkeley Function Calling Leaderboard-Benchmark die beste Gesamtgenauigkeit, was darauf hindeutet, dass das Modell das Tool effektiv nutzen kann.

Abbildung |. AFM-Server erreicht die beste Gesamtgenauigkeit, besser als Gemini-1.5-Pro-Preview-0514 und GPT-4.

  • Schreibbewertung:Das AFM-Modell schnitt bei internen Zusammenfassungen und Schreib-Benchmarks gut ab und demonstrierte die Fähigkeit des Modells, flüssigen und qualitativ hochwertigen Text zu generieren.

Abbildung |. AFM im Vergleich zu einigen der bekanntesten Modelle sowie kleineren Open-Source-Modellen. Im Vergleich zu Gemma-7B und Mistral-7B kann AFM-on-Device eine gleichwertige oder bessere Leistung erzielen. Der AFM-Server übertrifft die dbrx-Richtlinie deutlich und ist mit GPT-3.5 und GPT-4 vergleichbar.

  • Mathe-Bewertung:Das AFM-Modell hat bei Benchmarks wie GSM8K und MATH hervorragende Ergebnisse erzielt, was darauf hindeutet, dass das Modell mathematische Probleme effektiv lösen kann.

Abbildung |. Das Forschungsteam verglich die Leistung von AFM anhand mathematischer Benchmarks nach dem Training, einschließlich GSM8K und Mathematik. Die Leistung von AFM-on-device ist deutlich besser als bei Mistral-7B und Gemma-7B.

Darüber hinaus führte das Forschungsteam aufgabenspezifische Evaluierungen und Sicherheitsbewertungen des Modells durch. Sie verwendeten menschliche Bewertung und aufgabenspezifische Bewertungsbenchmarks, um die Leistung des AFM-Modells bei bestimmten Aufgaben zu bewerten, wie z. B. E-Mail-Zusammenfassung, Nachrichtenzusammenfassung und Benachrichtigungszusammenfassung. Den Bewertungsergebnissen zufolge ist die Leistung des AFM-Modells in der E-Mail-Zusammenfassung, Nachrichtenzusammenfassung und Benachrichtigungszusammenfassung in vielen Aspekten besser als andere Modelle, wie z. B. Genauigkeit, Vollständigkeit und Lesbarkeit.

Im Hinblick auf die Sicherheit nutzte das Forschungsteam kontroverse Datensätze und menschliche Auswertungen, um die Widerstandsfähigkeit des AFM-Modells gegenüber schädlichen Inhalten und sensiblen Themen zu bewerten. Die Evaluierungsergebnisse zeigen, dass das AFM-Modell eine gute Resistenz gegenüber kontroversen Daten und sensiblen Themen zeigt und schädliche oder unangemessene Reaktionen bis zu einem gewissen Grad vermeidet.

Wie wird AFM „praktiziert“?

Die Architektur

Wie die meisten Mainstream-Modelle basiert das AFM-Modell auf Transformator Architektur, sondern nutzt auch einige spezifische Designentscheidungen, um Effizienz und Leistung zu verbessern.Die Hauptkomponenten sind wie folgt:

  • Transformer-Modul: AFM verwendet das Standard-Transformer-Modul, einschließlich Multi-Head-Aufmerksamkeitsmechanismus und FeedforwardNeuronale Netze

  • Gemeinsame Eingabe-/Ausgabe-Einbettungsmatrix: Dieses Design reduziert die Anzahl der Modellparameter und verbessert die Speichereffizienz.

  • Pränormalisierung und RMSNorm: Diese Techniken verbessern die Stabilität des Trainings und helfen dem Modell, komplexere Muster zu lernen.

  • Abfrage-/Schlüsselnormalisierung: Diese Technik verbessert die Stabilität des Trainings weiter.

  • Grouped Query Attention (GQA): Der GQA-Mechanismus reduziert die Speichernutzung und verbessert die Recheneffizienz.

  • SwiGLU-Aktivierungsfunktion: Diese Aktivierungsfunktion verbessert die Effizienz des Modells.

  • Einbettung der RoPE-Position: Der RoPE-Mechanismus unterstützt die Kodierung von Langtext und verbessert die Fähigkeit des Modells, Kontext darzustellen.

Abbildung |. AFM-on-device hat 3072 Parameter und eignet sich für Rückschlüsse auf dem Gerät. Es verwendet 26 Transformer-Schichten, jede Schicht enthält 128 Header, 8 Abfrage-/Schlüssel-Header und 24 Abfrage-Header.

Vortraining

Der AFM-Modell-Vortrainingsprozess dient dazu, leistungsstarke Sprachmodelle zu trainieren, um verschiedene Funktionen des Apple Intelligence-Systems zu unterstützen. AFM-Modelle werden auf Cloud-TPU-Clustern mithilfe des AXLearn-Frameworks trainiert, das das Training großer Modelle und Sequenzlängen unterstützt und eine effiziente Trainings- und Inferenzleistung bietet.

Der AFM-Vortrainingsdatensatz besteht aus mehreren Arten hochwertiger Daten, darunter:

  • Webinhalt: öffentlich verfügbare Informationen, die mit Applebot gecrawlt und gefiltert wurden.

  • Lizenzierte Datensätze: Hochwertige Datensätze von Verlagen, die vielfältige Langtextdaten bereitstellen.

  • Code: Open-Source-Codedaten von GitHub, die mehrere Programmiersprachen abdecken.

  • Mathematik: Webdaten mit mathematischen Inhalten wie mathematischen Fragen, Foren, Blogs, Tutorials und Seminaren.

  • Öffentlicher Datensatz: Ein öffentlich verfügbarer Datensatz, der ausgewertet und überprüft wurde.

Das AFM-Vortraining ist in drei Phasen unterteilt:

  • Kernphase: Verwenden Sie den größten Datensatz für das Training. Das Hauptziel besteht darin, grundlegende Sprachkenntnisse und -muster zu erlernen.

  • Kontinuierliche Phase: Basierend auf der Kernphase werden Code und mathematische Daten hinzugefügt und das Gewicht der Webseitendaten reduziert, um den Wissensumfang des Modells weiter zu erweitern.

  • Kontexterweiterungsstufe: Basierend auf der kontinuierlichen Stufe werden längere Sequenzlängen und synthetische Langtextdaten verwendet, um die Verarbeitungsfähigkeiten des Modells für Langtexte zu verbessern.

nach der Ausbildung

AFM erwirbt in der Phase vor dem Training starke Sprachverständnisfähigkeiten, aber um es auf bestimmte Aufgaben wie E-Mail-Zusammenfassung, Nachrichtenzusammenfassung und Benachrichtigungszusammenfassung anzuwenden, ist ein Nachtraining erforderlich.enthalten:

  • Überwachte Feinabstimmung (SFT):

    • Datenerfassung: Verwenden Sie von Menschen kommentierte Daten und synthetische Daten, um sicherzustellen, dass die Datenqualität vielfältig ist und eine Vielzahl von Szenarien für die Verwendung natürlicher Sprache abdeckt.

    • Datenmischung: Wählen Sie sorgfältig menschliche und synthetische Daten aus und kombinieren Sie sie, um hochwertige Datenmischungen zu erstellen.

    • Feinabstimmungsmethode: Verwenden Sie den LoRA-Adapter zur Feinabstimmung des Modells, passen Sie nur die Adapterparameter an und behalten Sie das allgemeine Wissen über das Modell bei.

  • Verstärkungslernen basierend auf menschlichem Feedback (RLHF):

    • Belohnungsmodell: Trainieren Sie ein Belohnungsmodell anhand menschlicher Präferenzdaten und bewerten Sie die Qualität der Antworten des Modells.

    • Iterative Teaching Committee (iTeC): Verbessert das Modell iterativ mithilfe mehrerer Präferenzoptimierungsalgorithmen, einschließlich Ablehnungsstichproben, direkter Präferenzoptimierung und Online-Lernen zur Verstärkung.

    • Online-RLHF-Algorithmus (MDLOO): Verwenden Sie die Optimierung der Mirror Descent-Richtlinie und den Leave-One-Out-Vorteilsschätzer, um die Belohnungen zu maximieren und die Modellqualität zu verbessern.

Vorteile einer Nachschulung:

  • Verbesserung der Modellqualität: Nach dem Training werden die Qualität und Leistung des AFM-Modells erheblich verbessert, sodass es bei bestimmten Aufgaben eine gute Leistung erbringt.

  • Einhaltung der Grundwerte und verantwortungsvollen KI-Grundsätze von Apple: Der Nachschulungsprozess berücksichtigt vollständig die Datenqualität, Sicherheit und Filterung schädlicher Inhalte, um sicherzustellen, dass das Modell den Grundwerten und verantwortungsvollen KI-Grundsätzen von Apple entspricht.

  • Skalierbarkeit: Die Post-Training-Methode ist auf andere Aufgaben skalierbar, sodass das AFM-Modell mehr Apple Intelligence-Funktionen unterstützen kann.

Inferenzoptimierung

AFM muss nicht nur über ausgeprägte Sprachverständnisfähigkeiten verfügen, sondern auch in der Lage sein, effizient auf Geräten wie iPhone, iPad und Mac sowie Private Cloud Compute auf Apple-Silicon-Servern zu laufen. Um dieses Ziel zu erreichen, hat Apple eine Reihe von Optimierungstechniken entwickelt, um sicherzustellen, dass AFM-Modelle bei bestimmten Aufgaben effizient ausgeführt werden und gleichzeitig die Qualität des Gesamtmodells erhalten bleibt.

Optimierung:

  • Modellquantisierung: Verwenden Sie die 4-Bit-Quantisierungstechnologie zur Quantisierung des AFM-Modells, wodurch die Modellgröße und die Inferenzkosten erheblich reduziert werden.

  • Genauigkeitswiederherstellungsadapter: Verwenden Sie den LoRA-Adapter, um die Genauigkeit des quantisierten Modells wiederherzustellen, sodass sie nahe an der Leistung des nicht quantisierten Modells liegt.

  • Quantisierung mit gemischter Genauigkeit: Quantisieren Sie jede Schicht des Modells mit 4-Bit- und 2-Bit-Quantisierungsgenauigkeit, um den Speicherverbrauch weiter zu reduzieren und gleichzeitig die Modellqualität beizubehalten.

  • Interaktive Modellanalyse: Verwenden Sie das Talaria-Tool, um die Latenz und den Stromverbrauch des Modells zu analysieren, die Bitratenauswahl zu steuern und die Modellleistung zu optimieren.

  • Zur Laufzeit austauschbare Adapter: Verwenden Sie LoRA-Adapter, um Ihr Modell so zu optimieren, dass es auf bestimmte Aufgaben zugeschnitten werden kann und gleichzeitig das allgemeine Wissen über das Modell erhalten bleibt.

Zusammenfassung der Optimierungsfall-E-Mail:

  • Datenerfassung: Sammeln Sie Eingabedaten, die Auszüge aus E-Mails, Nachrichten und Benachrichtigungen enthalten, und führen Sie eine Datenbereinigung und -deduplizierung durch.

  • Generierung synthetischer Zusammenfassungen: Verwenden Sie den AFM-Server, um synthetische Zusammenfassungen zu generieren, die den Produktanforderungen entsprechen, und verwenden Sie Regeln und Modelle zum Filtern, um die Datenqualität sicherzustellen.

  • Hinweisinjektion: Fügen Sie vom AFM-Server generierte Zusammenfassungen zu den Trainingsdaten hinzu, um dem AFM-Gerätemodell zu helfen, Zusammenfassungen besser zu verstehen und zu generieren.

Darüber hinaus folgt Apple Intelligence einer Reihe verantwortungsvoller KI-Prinzipien, darunter die Stärkung der Benutzer, die Vertretung der Benutzer, sorgfältiges Design und der Schutz der Privatsphäre. In dem technischen Bericht weist Apple Vorwürfe zurück, dass es ethisch fragwürdige Methoden zum Trainieren bestimmter Modelle verwendet, und bekräftigt, dass es keine privaten Benutzerdaten verwendet, sondern stattdessen eine Kombination aus öffentlich verfügbaren und lizenzierten Daten für Apple Intelligence-Zwecke verwendet. Sie betonten, dass die Trainingsdaten für das AFM-Modell auf „verantwortungsvolle“ Weise gewonnen wurden.