¿Cómo se desarrolla la Inteligencia de Apple?La interpretación más completa está aquí.

2024-07-31

Escrito por |

Siri finalmente se ha transformado en "AI Siri", y la tan esperada Apple Intelligence ya está aquí.

Con el lanzamiento de Apple Intelligence para iOS 18, iPadOS 18 y macOS Sequoia, Apple también publicó un informe técnico sobre su propio modelo grande, anunciando una gran cantidad de detalles técnicos, que atrajeron gran atención por parte de la industria.

Según los informes, Apple Intelligence contiene múltiples modelos generativos de alto rendimiento que son rápidos, eficientes, diseñados para las tareas diarias de los usuarios y pueden adaptarse instantáneamente a las actividades actuales de los usuarios. Los modelos fundamentales integrados en Apple Intelligence ya están optimizados para experiencias de usuario como escribir y pulir texto, priorizar y resumir notificaciones, crear imágenes interesantes para conversaciones con familiares y amigos y tomar acciones dentro de la aplicación para optimizar la interacción entre aplicaciones.

En el informe técnico, el equipo de Apple detalló cómo se construyeron y adaptaron para funcionar dos de los modelos: un modelo de lenguaje AFM (Apple Foundation Model) con aproximadamente 3 mil millones de parámetros y un modelo de lenguaje de servidor AFM más grande. tareas profesionales de forma eficiente y precisa.

Figura | Descripción general del modelo AFM

Estos dos modelos fundamentales son parte de una familia más amplia de modelos generativos creados por Apple para ayudar a los usuarios y desarrolladores. Esto incluye un modelo de programación basado en el modelo de lenguaje AFM para desarrollar inteligencia en Xcode y un modelo de difusión para ayudar a los usuarios a expresarse visualmente. como en aplicaciones de mensajería.

¿Cómo funciona AFM?

AFM se sometió a una evaluación rigurosa durante el proceso de desarrollo y los resultados de la evaluación mostraron que el modelo funcionó bien en tareas específicas antes y después del entrenamiento, y estaba en línea con los valores fundamentales y los principios de IA responsable de Apple.

1. Evaluación previa a la formación

El equipo de Apple utilizó puntos de referencia de evaluación pública como HELM MMLU, HELMLite y OpenLLM para evaluar la comprensión del lenguaje y las capacidades de razonamiento del modelo AFM. Los resultados muestran que el modelo AFM logró excelentes resultados en múltiples indicadores de evaluación, demostró una sólida comprensión del lenguaje y capacidades de razonamiento, y sentó las bases para posteriores aplicaciones de tareas específicas y posteriores a la capacitación.

2. Evaluación post-formación

El equipo de Apple combinó puntos de referencia de evaluación humana y evaluación automatizada para evaluar las capacidades generales y específicas del modelo AFM, como el seguimiento de instrucciones, el uso de herramientas y la escritura.Los resultados de la evaluación son los siguientes:

Evaluación humana:El modelo AFM es comparable o mejor que otros modelos comerciales y de código abierto en múltiples tareas, lo que demuestra que el modelo puede comprender y seguir instrucciones complejas y generar texto de alta calidad.

Figura | Comparando el modelo AFM con otros modelos de código abierto y comerciales, los evaluadores humanos prefieren el modelo AFM.

El equipo de investigación evaluó MAIA según el paradigma de descripción de neuronas. El estudio demostró que MAIA logró excelentes efectos de descripción tanto en modelos reales como en conjuntos de datos de neuronas sintéticas, con capacidades predictivas mejores que los métodos básicos y comparables a las de los expertos humanos.

Evaluación del cumplimiento de las instrucciones:El modelo AFM logró excelentes resultados en puntos de referencia como IFEval y AlpacaEval 2.0 LC, lo que demuestra que el modelo puede comprender y seguir instrucciones de manera efectiva.

Figura | Comparación de las capacidades de cumplimiento de instrucciones del modelo AFM y modelos relacionados, medidas con IFEval Cuanto mayor sea el valor, mejor será la capacidad.

Evaluación del uso de herramientas:El modelo AFM logró la mejor precisión general en el punto de referencia de Berkeley Function Calling Leaderboard, lo que indica que el modelo puede utilizar la herramienta de forma eficaz.

Figura | El servidor AFM logra la mejor precisión general, mejor que Gemini-1.5-Pro-Preview-0514 y GPT-4.

Evaluación de escritura:El modelo AFM tuvo un buen desempeño en los puntos de referencia de redacción y resúmenes internos, lo que demuestra la capacidad del modelo para generar texto fluido y de alta calidad.

Figura | AFM comparado con algunos de los modelos más destacados, así como con modelos de código abierto de menor escala. En comparación con Gemma-7B y Mistral-7B, el AFM en el dispositivo puede lograr un rendimiento equivalente o mejor. El servidor AFM supera significativamente la directiva dbrx y es comparable a GPT-3.5 y GPT-4.

Evaluación de matemáticas:El modelo AFM ha logrado excelentes resultados en puntos de referencia como GSM8K y MATH, lo que indica que el modelo puede resolver problemas matemáticos de forma eficaz.

Figura | El equipo de investigación comparó el rendimiento de AFM en puntos de referencia matemáticos después del entrenamiento, incluidos GSM8K y matemáticas. El rendimiento del AFM en el dispositivo es significativamente mejor que el de Mistral-7B y Gemma-7B.

Además, el equipo de investigación realizó evaluaciones de tareas específicas y evaluaciones de seguridad del modelo. Utilizaron evaluación humana y puntos de referencia de evaluación de tareas específicas para evaluar el desempeño del modelo AFM en tareas específicas, como el resumen de correo electrónico, el resumen de mensajes y el resumen de notificaciones. Según los resultados de la evaluación, el rendimiento del modelo AFM en resumen de correo electrónico, resumen de mensajes y resumen de notificaciones es mejor que otros modelos en muchos aspectos, como precisión, integridad y legibilidad.

En términos de seguridad, el equipo de investigación utilizó conjuntos de datos contradictorios y evaluación humana para evaluar la resistencia del modelo AFM a contenido dañino y temas sensibles. Los resultados de la evaluación muestran que el modelo AFM muestra buena resistencia a datos contradictorios y temas sensibles, evitando en cierta medida respuestas dañinas o inapropiadas.

¿Cómo se “practica” el AFM?

Arquitectura

Como la mayoría de los modelos convencionales, el modelo AFM se basa en Transformador arquitectura, pero también emplea algunas opciones de diseño específicas para mejorar la eficiencia y el rendimiento.Los componentes principales son los siguientes:

Módulo transformador: AFM utiliza el módulo transformador estándar, que incluye un mecanismo de atención de cabezales múltiples y avanceRedes neuronales。
Matriz de incrustación de entrada/salida compartida: este diseño reduce la cantidad de parámetros del modelo y mejora la eficiencia de la memoria.
Prenormalización y RMSNorm: estas técnicas mejoran la estabilidad del entrenamiento y ayudan al modelo a aprender patrones más complejos.
Normalización de consultas/claves: esta técnica mejora aún más la estabilidad del entrenamiento.
Atención de consultas agrupadas (GQA): el mecanismo GQA reduce el uso de memoria y mejora la eficiencia computacional.
Función de activación SwiGLU: esta función de activación mejora la eficiencia del modelo.
Incrustación de posición de RoPE: el mecanismo RoPE admite la codificación de texto largo y mejora la capacidad del modelo para representar el contexto.

Figura | AFM-on-device tiene 3072 parámetros y es adecuado para inferencias en el dispositivo. Utiliza 26 capas de Transformer, cada capa contiene 128 encabezados, 8 encabezados de consulta/clave y 24 encabezados de consulta.

Pre-entrenamiento

El proceso de preentrenamiento del modelo AFM está diseñado para entrenar modelos de lenguaje potentes para admitir diversas funciones del sistema Apple Intelligence. Los modelos AFM se entrenan en clústeres de Cloud TPU utilizando el marco AXLearn, que admite el entrenamiento de modelos a gran escala y longitudes de secuencia, y proporciona un rendimiento de inferencia y entrenamiento eficiente.

El conjunto de datos previo al entrenamiento de AFM consta de varios tipos de datos de alta calidad, que incluyen:

Contenido web: información disponible públicamente rastreada mediante Applebot y filtrada.
Conjuntos de datos con licencia: conjuntos de datos de alta calidad obtenidos de editores que proporcionan diversos datos de texto extenso.
Código: datos de código fuente abierto obtenidos de GitHub, que cubren múltiples lenguajes de programación.
Matemáticas: datos web que contienen contenido matemático, como preguntas matemáticas, foros, blogs, tutoriales y seminarios.
Conjunto de datos públicos: un conjunto de datos disponible públicamente que ha sido evaluado y seleccionado.

El preentrenamiento AFM se divide en tres etapas:

Etapa central: utilice el conjunto de datos más grande para la capacitación. El objetivo principal es aprender conocimientos y patrones básicos del lenguaje.
Etapa continua: según la etapa central, se agregan código y datos matemáticos y se reduce el peso de los datos de la página web para ampliar aún más el alcance del conocimiento del modelo.
Etapa de expansión del contexto: basada en la etapa continua, se utilizan secuencias más largas y datos de texto largos sintéticos para mejorar las capacidades de procesamiento del modelo para textos largos.

post entrenamiento

AFM adquiere sólidas capacidades de comprensión del lenguaje en la fase previa a la capacitación, pero para aplicarlo a tareas específicas, como el resumen de correo electrónico, el resumen de mensajes y el resumen de notificaciones, se requiere una capacitación posterior.incluir:

Ajuste supervisado (SFT):
- Recopilación de datos: utilice datos anotados por humanos y datos sintéticos para garantizar que la calidad de los datos sea diversa y cubra una variedad de escenarios de uso del lenguaje natural.
- Combinación de datos: seleccione y combine cuidadosamente datos humanos y sintéticos para formar combinaciones de datos de alta calidad.
- Método de ajuste fino: utilice el adaptador LoRA para ajustar el modelo, ajuste solo los parámetros del adaptador y conserve el conocimiento general del modelo.
Aprendizaje por refuerzo basado en retroalimentación humana (RLHF):
- Modelo de recompensa: entrene un modelo de recompensa utilizando datos de preferencias humanas y evalúe la calidad de las respuestas del modelo.
- Comité de Enseñanza Iterativa (iTeC): mejora iterativamente el modelo utilizando múltiples algoritmos de optimización de preferencias, incluido el muestreo de rechazo, la optimización de preferencias directas y el aprendizaje por refuerzo en línea.
- Algoritmo RLHF en línea (MDLOO): utilice la optimización de la política Mirror Descent y el estimador de ventajas Leave-One-Out para maximizar las recompensas y mejorar la calidad del modelo.

Ventajas del post-entrenamiento:

Mejora de la calidad del modelo: la capacitación posterior mejora significativamente la calidad y el rendimiento del modelo AFM, lo que hace que funcione bien en tareas específicas.
Cumplir con los valores fundamentales y los principios de IA responsable de Apple: el proceso posterior a la capacitación considera plenamente la calidad de los datos, la seguridad y el filtrado de contenido dañino para garantizar que el modelo cumpla con los valores fundamentales y los principios de IA responsable de Apple.
Escalabilidad: el método posterior al entrenamiento es escalable a otras tareas, lo que permite que el modelo AFM admita más funciones de Apple Intelligence.

Optimización de inferencia

AFM no solo debe tener sólidas capacidades de comprensión del idioma, sino que también debe poder ejecutarse de manera eficiente en dispositivos como iPhone, iPad y Mac, así como Private Cloud Compute en servidores de silicio de Apple. Para lograr este objetivo, Apple ha desarrollado una serie de técnicas de optimización para garantizar que los modelos AFM se ejecuten de manera eficiente en tareas específicas manteniendo la calidad general del modelo.

Mejoramiento:

Cuantización del modelo: utilice tecnología de cuantificación de 4 bits para cuantificar el modelo AFM, lo que reduce significativamente el tamaño del modelo y el costo de inferencia.
Adaptador de recuperación de precisión: utilice el adaptador LoRA para restaurar la precisión del modelo cuantificado para que esté cerca del rendimiento del modelo no cuantificado.
Cuantización de precisión mixta: cuantice cada capa del modelo utilizando una precisión de cuantificación de 4 y 2 bits para reducir aún más el uso de memoria y al mismo tiempo mantener la calidad del modelo.
Análisis de modelo interactivo: utilice la herramienta Talaria para analizar la latencia y el consumo de energía del modelo, guiar la selección de la tasa de bits y optimizar el rendimiento del modelo.
Adaptadores reemplazables en tiempo de ejecución: utilice adaptadores LoRA para ajustar su modelo para que pueda adaptarse a tareas específicas mientras mantiene el conocimiento general del modelo.

Resumen del correo electrónico del caso de optimización:

Recopilación de datos: recopile datos de entrada que contengan extractos de correos electrónicos, mensajes y notificaciones y realice limpieza y deduplicación de datos.
Generación de resúmenes sintéticos: utilice el servidor AFM para generar resúmenes sintéticos que cumplan con los requisitos del producto y utilice reglas y modelos de filtrado para garantizar la calidad de los datos.
Inyección de sugerencias: agregue resúmenes generados por el servidor AFM a los datos de entrenamiento para ayudar al modelo del dispositivo AFM a comprender y generar resúmenes mejor.

Además, Apple Intelligence sigue una serie de principios de IA responsable, que incluyen empoderar a los usuarios, representarlos, diseñar cuidadosamente y proteger la privacidad. En el informe técnico, Apple refuta las acusaciones de que utiliza métodos éticamente cuestionables para entrenar ciertos modelos, reiterando que no utiliza datos privados de los usuarios y, en cambio, utiliza una combinación de datos disponibles públicamente y con licencia para fines de inteligencia de Apple. Destacaron que los datos de entrenamiento para el modelo AFM se obtuvieron de manera "responsable".

noticias

¿Cómo se desarrolla la Inteligencia de Apple?La interpretación más completa está aquí.

¿Cómo funciona AFM?

¿Cómo se “practica” el AFM?

Introducción

Mi informacion de contacto