noticias

¡Reveló! Un documento de 47 páginas que desmantela la inteligencia de Apple, desde la arquitectura y los datos hasta la capacitación y la optimización.

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Informe del corazón de la máquina

Departamento editorial de Machine Heart

En la Conferencia Mundial de Desarrolladores de 2024, Apple lanzó Apple Intelligence, un nuevo sistema inteligente personalizado que puede proporcionar servicios inteligentes prácticos, que cubre iPhone, iPad y Mac, y está profundamente integrado en iOS 18, iPadOS 18 y macOS Sequoia.

Cook dijo una vez que Apple Intelligence es un nuevo capítulo en la innovación de Apple y cambiará la forma en que los usuarios usan los productos. Destacó que el enfoque único de Apple combina inteligencia artificial generativa e información personal de los usuarios para brindar servicios inteligentes verdaderamente útiles. Además, Apple Intelligence proporciona acceso completamente privado y seguro a la información, ayudando a los usuarios a lograr lo que más les importa. Esta es una experiencia de IA exclusiva de Apple.

Ahora, ha pasado más de un mes desde el anuncio oficial de Apple Intelligence. Esta tecnología finalmente se implementó en dispositivos inteligentes y finalmente se publicaron los documentos técnicos relevantes.

El día pasado, los usuarios que poseen un iPhone 15 Pro o iPhone 15 Pro Max pueden descargar la versión beta de desarrollo de iOS 18.1 y experimentar las funciones de Apple Intelligence.

Con la publicación de este informe técnico de 47 páginas, podemos tener una comprensión más profunda del arma secreta detrás de Apple Intelligence.



Dirección del informe: https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.pdf

El informe detalla dos de los modelos:AFM en el dispositivo, AFM significa Apple Foundation Model, que es un modelo de lenguaje de aproximadamente 3 mil millones de parámetros, así como un modelo de lenguaje más grande basado en servidor.Servidor AFM, puede realizar tareas especializadas de manera eficiente, precisa y responsable (Figura 1).

Estos dos modelos básicos existen como parte de la familia más amplia de modelos generativos de Apple.



Estructura y formación

El modelo básico AFM es un modelo de decodificador denso construido sobre la arquitectura Transformer y adopta el siguiente diseño:

Matrices integradas de entrada/salida compartidas para reducir el uso de memoria para los parámetros.

Utilice RMSNorm para la prenormalización y mejorar la estabilidad del entrenamiento.

Normalización de consultas/claves para mejorar la estabilidad del entrenamiento.

Atención de consultas agrupadas (GQA) con 8 encabezados de valores-clave para reducir el uso de memoria caché de KV.

SwiGLU activado para mayor eficiencia.

Incrustación de posición de RoPE, la frecuencia base (frecuencia base) se establece en 500k para admitir un contexto largo.



El proceso de capacitación previa de AFM desempeña un papel clave en el desarrollo de modelos de lenguaje de alto rendimiento para admitir una variedad de funciones de Apple Intelligence. El equipo de investigación se centra en la eficiencia y la calidad de los datos para lograr una experiencia de usuario de extremo a extremo de alta calidad.

En términos de posentrenamiento, el equipo de investigación descubrió que mejorar el posentrenamiento general puede mejorar el rendimiento de todas las funciones de Apple Intelligence porque el modelo tendrá una mayor capacidad para seguir instrucciones, razonar y escribir.

Para garantizar que las funciones de este modelo sean coherentes con el compromiso de Apple de proteger la privacidad del usuario y los principios de IA responsable de Apple, el trabajo posterior a la capacitación incluye una serie de recopilación y generación de datos, ajuste de instrucciones e innovación de alineación. El proceso posterior al entrenamiento consta de dos etapas: ajuste fino supervisado (SFT) y aprendizaje reforzado a partir de retroalimentación humana (RLHF). El equipo de investigación propuso dos nuevos algoritmos posteriores al entrenamiento: (1) un algoritmo de ajuste fino de muestreo de rechazo con el comité de maestros (iTeC) y (2) un algoritmo RLHF para iteraciones de aprendizaje por refuerzo con optimización de políticas de descenso en espejo (optimización de políticas de descenso en espejo) ) y estimador de ventaja de dejar uno fuera (MDLOO), lo que mejora significativamente la calidad del modelo.

Funciones de inteligencia de Apple

El modelo base está diseñado específicamente para Apple Intelligence, un sistema de inteligencia personal compatible con iPhone, iPad y Mac.

Apple descubrió que podían mejorar el rendimiento de los modelos pequeños a los mejores niveles de su clase ajustándolos para tareas específicas. Además, desarrollaron una arquitectura basada en adaptadores intercambiables en tiempo de ejecución para permitir que un único modelo base se especializara. en docenas de tareas de este tipo. La Figura 2 muestra una descripción general de alto nivel.



arquitectura del adaptador

Apple utiliza adaptadores LoRA para ajustar los modelos para tareas específicas. Para cada tarea, los investigadores ajustan todas las matrices de proyección lineal en la capa de autoatención del AFM y las capas completamente conectadas en la red de alimentación directa puntual. Simplemente ajustando el adaptador, los parámetros originales del modelo base previamente entrenado permanecen sin cambios, lo que permite conservar el conocimiento general del modelo mientras se adapta el adaptador para soportar tareas específicas.

Cuantificar

Para incorporar AFM en dispositivos periféricos con presupuestos de memoria limitados y reducir los costos de inferencia, es necesario considerar técnicas de cuantificación. Investigaciones anteriores encontraron que los modelos cuantificados de 4 bits sufren muy poca pérdida en comparación con los modelos de punto flotante sin formato de 32/16 bits.

Para lograr el mejor equilibrio entre la capacidad del modelo y el rendimiento de la inferencia, Apple desarrolló métodos de cuantificación de última generación y un marco que aprovecha los adaptadores de recuperación de precisión. Esto permite que el modelo logre una cuantificación casi sin pérdidas cuando el peso promedio de cada peso es inferior a 4 bits y proporciona una selección flexible del esquema de cuantificación.

método

Después del entrenamiento posterior, el modelo se comprime y se cuantifica para obtener pesos inferiores a 4 bits en promedio. Los modelos cuantitativos suelen presentar una pérdida de calidad moderada. Por lo tanto, Apple no utilizará el modelo cuantificado directamente para el desarrollo de funciones, sino que adjuntará un conjunto de adaptadores LoRA con parámetros eficientes para una recuperación de calidad.

Vale la pena señalar que el adaptador de recuperación de precisión del entrenamiento es eficiente con las muestras y puede considerarse como una versión mini del modelo base de entrenamiento. En la fase de preentrenamiento del adaptador, solo se necesitan alrededor de 10 mil millones de tokens (aproximadamente el 0,15% del entrenamiento del modelo básico) para restaurar completamente la capacidad del modelo cuantificado.

Debido a que los adaptadores de aplicaciones se ajustarán a partir de estos adaptadores de recuperación de precisión, no incurren en ningún uso de memoria adicional ni costos de inferencia. En cuanto al tamaño del adaptador, Apple ha descubierto que un rango de adaptador de 16 proporciona el mejor equilibrio entre la capacidad del modelo y el rendimiento de inferencia.

Sin embargo, para mayor flexibilidad, Apple proporciona un conjunto de adaptadores de recuperación de precisión con diferentes rangos {8, 16, 32} para que los equipos de aplicaciones puedan elegir.

cuantización de precisión mixta

Existen conexiones residuales para cada bloque transformador y cada capa en AFM. Por tanto, es poco probable que todas las capas tengan la misma importancia. Siguiendo esta intuición, Apple redujo aún más el uso de memoria al forzar ciertas capas a usar cuantificación de 2 bits (el valor predeterminado es 4 bits). En promedio, el AFM en el dispositivo puede comprimirse a sólo unos 3,5 bits por peso (bpw) sin una pérdida significativa de calidad.

Evaluar

El equipo de investigación utiliza herramientas de evaluación y puntos de referencia comunes de código abierto para evaluar el modelo preentrenado de AFM. La Tabla 2 muestra los resultados de AFM en el dispositivo y AFM en el servidor en HELM MMLU v1.5.0.



Estos puntos de referencia demuestran que el modelo preentrenado de AFM tiene sólidas capacidades de lenguaje e inferencia, lo que proporciona una base sólida para el posentrenamiento y el ajuste de funciones.





Los resultados de la comparación de AFM con modelos de código abierto (Phi-3, Gemma-1.1, Llama-3, Mistral, DBRX-Instruct) y modelos comerciales (GPT3.5 y GPT-4) se muestran en la Figura 3 a continuación. Los evaluadores humanos prefieren los modelos AFM en comparación con otros modelos. En particular, en comparación con Phi-3-mini, AFM-on-device logró una tasa de éxito del 47,7% a pesar de un tamaño de modelo un 25% más pequeño, incluso mejor que las sólidas líneas de base de código abierto Gemma-7B y Mistral-7B.



Para medir la capacidad del modelo para generar respuestas que sigan instrucciones en indicaciones, el equipo de investigación evaluó AFM en el dispositivo y AFM en el servidor en el punto de referencia IFEval. Los resultados se muestran en la Figura 4 a continuación:



Como se muestra en la Figura 5, el servidor AFM logra la mejor precisión general, mejor que Gemini-1.5-Pro-Preview-0514 y GPT-4.



Apple comparó AFM con algunos de los mejores modelos, así como con modelos más pequeños de código abierto. Como se muestra en la Figura 6, el AFM en el dispositivo puede lograr un rendimiento equivalente o mejor en comparación con Gemma-7B y Mistral-7B. El rendimiento del servidor AFM es significativamente mejor que el de DBRX-Instruct y GPT3.5, y es comparable al de GPT4.



La Figura 7 compara el desempeño del AFM post-entrenado en puntos de referencia matemáticos. Se descubrió que el AFM-on-dispositivo funcionó significativamente mejor que Mistral-7B y Gemma-7B, a pesar de que tenía menos de la mitad de su tamaño.



La siguiente figura muestra evaluadores humanos evaluando la calidad de los adaptadores AFM en el dispositivo, Phi-3-mini, Llama-3-8B y Gemma-7B en una tarea resumida. La Figura 8 muestra que el adaptador de dispositivo AFM generalmente supera a otros modelos.



IA responsable

Apple Intelligence se desarrolla y diseña teniendo en cuenta la privacidad del usuario.

La Figura 9 resume las tasas de infracción dadas por evaluadores humanos en diferentes modelos, donde menor es mejor. Tanto el AFM en el dispositivo como el AFM en el servidor son resistentes a las indicaciones adversas, con tasas de infracción significativamente más bajas que los modelos comerciales y de código abierto.



La Figura 10 muestra que el modelo AFM es más preferido por los evaluadores humanos en comparación con otros modelos.