La IA de Apple se lanza sorprendentemente en el iPhone, ¡pero la versión evolucionada de Siri no tiene ChatGPT! Un informe técnico de 47 páginas revela un modelo de desarrollo propio

2024-07-31

Nuevo informe de sabiduría

Editor: Departamento Editorial

[Introducción a la Nueva Sabiduría] ¡Esta mañana, todos los desarrolladores quedaron atónitos por la repentina versión beta de iOS 18.1! Inesperadamente, la IA de Apple ahora se puede utilizar para los primeros usuarios y una gran cantidad de revisiones han inundado todo Internet. Lo que es aún más sorprendente es que también está en línea un informe técnico de 47 páginas sobre el modelo básico detrás de la IA de Apple.

¡Temprano en la mañana, la tan esperada primera versión preliminar de "Apple AI" fue enviada oficialmente a los desarrolladores!

Las últimas capacidades de Apple AI están integradas en los tres sistemas principales: iOS 18.1, iPadOS 18.1 y macOS Sequoia 15.1.

El primer grupo de usuarios que obtuvieron la versión beta de iOS 18.1 ya están aplaudiendo de alegría, y ola tras ola de intercambio de pruebas reales se extendió por toda la red.

La última versión preliminar contiene muchas sorpresas (versión preliminar rápida):

Nuevo Siri: se ilumina suavemente en el borde de la pantalla cuando se despierta; se comunica con los usuarios cambiando entre texto y voz; puede comprender comandos incluso cuando el hablante tropieza; también puede responder preguntas sobre la solución de problemas de los productos Apple;
Herramientas de escritura: puede reescribir, corregir y resumir texto en cualquier escenario. (Se aceptan memorandos, documentos y aplicaciones de terceros)
Modo de enfoque (reducir interrupciones): muestra solo las notificaciones que necesitas ver de inmediato
Funciones fotográficas: busque fotografías usando lenguaje natural y cree videos
Genere resúmenes de IA para correos electrónicos, mensajes y transcripciones de mensajes de voz.

Además, hay algunas características que Apple dijo que lanzará el próximo año, incluida la integración ChatGPT, generación de imágenes/Emoji, limpieza automática de fotografías y el superpoderoso Siri con reconocimiento de pantalla.

Por cierto, actualmente, la versión beta de iOS 18.1 (incluidos iPadOS y macOS) solo está disponible en los Estados Unidos y aún no se ha lanzado en China.

Además, entre los teléfonos móviles, solo el iPhone 15 Pro y el iPhone 15 Pro Max son compatibles con el nuevo sistema.

Según la introducción del sistema, la versión beta de iOS18.1 ocupa un total de 15,44 GB de espacio de memoria, de los cuales la capacidad del sistema iOS es de 12,58 GB, mientras que Apple AI solo ocupa 2,86 GB.

Esto se debe a que el modelo utilizado por Apple en los dispositivos finales sólo tiene 3 mil millones de parámetros.

Una introducción más detallada al modelo está oculta en el informe técnico de IA de Apple recién publicado.

El artículo de 48 páginas cubre el diseño y la evaluación del LLM de Apple, incluida la arquitectura, la gestión de datos, las recetas previas y posteriores a la capacitación, la optimización, la adaptación funcional y los resultados de la evaluación.

Dirección del artículo: https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.pdf

En concreto, Apple ha desarrollado dos nuevos modelos de lenguaje básico, que forman el núcleo de la IA de Apple:

Uno es el modelo final AFM-on-device, que tiene alrededor de 3 mil millones de parámetros después de la optimización, puede ejecutarse en iPhone y otros dispositivos terminales, con mayor eficiencia y capacidad de respuesta.

El otro es un modelo de parámetros más grande que puede ejecutarse en el servidor en la nube de Apple, llamado servidor AFM, que está diseñado para tareas intensivas y utiliza un sistema de computación en la nube privada (Private Cloud Compute) para proteger los datos del usuario.

Todavía recuerdo que en la conferencia WWDC del mes pasado, Cook anunció al mundo las poderosas funciones de la IA de Apple, que le dieron a la familia de Apple una actualización épica.

Todo Internet piensa que la IA ya no es buena en absoluto, y todavía tenemos que mirar a la IA de Apple.

En términos generales, Apple suele lanzar primero el sistema principal iOS18.

Pero no esperaba que esta vez Apple entregara la versión beta al primer grupo de desarrolladores en tan poco tiempo.

En este sentido, el último informe de Bloomberg señaló que Apple rompió su ritmo habitual de lanzamiento de software porque la IA de Apple todavía necesita más tiempo de prueba.

Me pregunto: ¿qué nuevos continentes descubrieron los primeros usuarios?

Prueba real realizada por internautas.

El blogger de tecnología de Apple, Brandon Butch, produjo inmediatamente una explicación en video que muestra las funciones más completas de Apple AI en la versión beta de iOS 18.1.

No importa lo duro que seas, siempre será gentil y dulce.

Dijo que la IA de Apple le ayudó a encontrar una mejor manera de expresar lo que quería decir.

En la interfaz de mensajes, escriba lo que quiere decir en el cuadro de entrada.

Luego selecciónelos todos y haga clic en el botón Apple AI para usar "amigable" en la herramienta de escritura, lo que inmediatamente hará que el tono de este párrafo sea más discreto.

Echemos otro vistazo a otro internauta que escribió específicamente una mala palabra, que se sintió mucho más cómoda después de que la IA la reescribiera.

Corrección de errores gramaticales

Además, Butch exclamó que Grammarly había sido asesinado y que esta es la verdadera IA de Apple.

Basta con mirar el siguiente pasaje informativo que está mal escrito, la primera letra de lo que no está en mayúscula, y que crees que debería terminar con un signo de interrogación en lugar de un punto.

Se puede ver que Apple AI ha corregido todo por ti.

También están las capacidades de inteligencia artificial de Apple en los correos electrónicos, lo que vuelve loca a la gente cuando lo escuchan.

También admite las capacidades de las herramientas de escritura en notas y mensajes, incluida la revisión, reescritura, etc.

Se mostrará un resumen de un correo electrónico en la parte superior.

El efecto de animación de la herramienta de escritura AI de Apple es "muy Apple". En comparación con el denso flujo de tokens cuando el modelo responde, todo parece tan fluido.

Nuevo Siri, respuesta súper fluida

Si observamos el efecto de borde de la pantalla al llamar a Siri, debo decir que Apple es quien mejor conoce el diseño.

Veamos la versión para iPad de Siri.

Un ingeniero de inteligencia artificial de Humane y ex ingeniero de Apple probaron Siri y la elogiaron, diciendo que la inteligencia artificial de Apple es muy, muy rápida.

Despierta a Siri y pregúntale qué altura tiene la Torre Eiffel. ¿Donde está localizado?

Por cierto, déjame publicar algunas noticias recientes sobre los Juegos Olímpicos de París y cómo ver los eventos olímpicos.

En poco tiempo, la IA de Apple tuvo la respuesta.

Resumen de transcripción de IA, el contenido importante del teléfono no teme perderse

Además, la IA de Apple también puede ayudarte a transcribir llamadas telefónicas en notas y registrar lo que hablaste.

Si se presiona el botón de grabación, se reproducirá un tono tanto para la persona que llama como para la persona llamada, lo que indica que la llamada se grabará.

Una vez completada la grabación, puede ingresar directamente a la ventana emergente de notificación para ver el contenido de la grabación.

modo de enfoque

¡Utilice Apple AI para analizar automáticamente el contenido de las notificaciones y detectar notificaciones importantes!

Las notificaciones de personas importantes se fijarán en la parte inferior de la pantalla.

Búsqueda de fotos, muchas quejas.

Por supuesto, la razón por la que iOS 18.1 se lanzó primero es para permitir a los desarrolladores realizar más pruebas, descubrir problemas informados y mejorar mejor las capacidades de inteligencia artificial de Apple.

No, cuando un blogger de YouTube estaba probando la función de fotografía, descubrió que Siri todavía tenía "retraso mental".

El bloguero preguntó primero: "Siri, muéstrame fotos del viaje de Acción de Gracias de 2022". Siri respondió: La cantidad de veces que se ha abierto la aplicación Salud....

Luego, repitió la pregunta nuevamente: "Siri, busca fotos sobre el Día de Acción de Gracias en fotos".

Curiosamente, Siri buscó un montón de imágenes relacionadas con el Día de Acción de Gracias directamente desde Internet.

Cuando volvió a preguntar: "Siri, muéstrame fotos de mi viaje a Taiwán", Siri escuchó las palabras originales como palabras clave y buscó "Mi viaje a Twaiwan" en Internet.

Luego continuó preguntando y Siri todavía estaba confundida.

Blogger testaruda, Siri rota, no puedo evitar reírme...

Como se mencionó al principio, la capacidad de instalar Apple AI en dispositivos terminales se basa en el modelo básico desarrollado por el equipo, que está brillando intensamente.

La revolución de la IA del iPhone: 3 mil millones de parámetros en tu bolsillo

Específicamente, AFM es un modelo denso solo decodificador basado en la arquitectura Transformer.

Sus ideas de diseño son las siguientes:

Matrices integradas de entrada/salida compartidas para reducir el uso de memoria de parámetros
Utilice la normalización previa de RMSNorm para mejorar la estabilidad del entrenamiento
Normalización de consultas/claves para mejorar la estabilidad del entrenamiento
Atención de consultas agrupadas (GQA) con 8 encabezados de valores-clave para reducir la huella de memoria de la caché KV
Activación SwiGLU más eficiente
Incrustación de ubicación de RoPE con una frecuencia base de 500k, compatible con un contexto prolongado

arquitectura del adaptador

Al utilizar el adaptador LoRA, el modelo base de Apple puede especializarse dinámicamente sobre la marcha en función de la tarea actual.

Estos pequeños módulos de red neuronal se pueden conectar a varias capas del modelo base y usarse para ajustar el modelo para tareas específicas.

Para facilitar la capacitación de adaptadores, Apple también ha creado una infraestructura eficiente que permite agregar, volver a capacitar, probar e implementar adaptadores rápidamente cuando se actualiza el modelo subyacente o los datos de capacitación o se requieren nuevas funciones.

mejoramiento

Debido a la necesidad de satisfacer el uso diario de los usuarios, el equipo adoptó una variedad de técnicas de optimización y cuantificación para reducir significativamente el uso de memoria, la latencia y el consumo de energía mientras se mantiene la calidad del modelo.

método

En la fase posterior al entrenamiento, Apple comprimió y cuantizó el modelo a un promedio de menos de 4 bits por peso.

Los modelos cuantificados suelen sufrir cierto grado de pérdida de calidad. Por lo tanto, el equipo de I + D no entrega directamente el modelo cuantitativo al equipo de aplicaciones para el desarrollo funcional, sino que adjunta un conjunto de adaptadores LoRA con parámetros eficientes para restaurar la calidad del modelo.

Luego, cada equipo de producto ajusta su adaptador LoRA específico de características inicializando los pesos de los adaptadores de recuperación de precisión mientras mantiene el modelo base cuantificado sin cambios.

Vale la pena señalar que el adaptador de recuperación de precisión del entrenamiento es eficiente en muestras y puede considerarse como una versión mini del modelo base de entrenamiento.

Entre ellos, en la etapa previa al entrenamiento del adaptador, solo se necesitan alrededor de 10 mil millones de tokens (aproximadamente el 0,15% del entrenamiento del modelo básico) para restaurar completamente la capacidad del modelo cuantificado.

Debido a que los adaptadores de aplicaciones se ajustarán a partir de estos adaptadores de recuperación de precisión, no incurrirán en ningún uso de memoria adicional ni costos de inferencia.

En cuanto al tamaño del adaptador, el equipo descubrió que un adaptador con rango 16 proporcionaba el mejor equilibrio entre la capacidad del modelo y el rendimiento de inferencia.

Sin embargo, para brindar más flexibilidad, Apple proporciona un conjunto de diferentes rangos de adaptadores de recuperación de precisión para que los equipos de aplicaciones puedan elegir.

Cuantificar

Otro beneficio que aportan los adaptadores de recuperación de precisión es que permiten una selección más flexible de esquemas de cuantificación.

En el pasado, al cuantificar modelos de lenguaje grandes, era común dividir los pesos en fragmentos pequeños, normalizar cada fragmento según su valor absoluto máximo correspondiente para filtrar los valores atípicos y luego aplicar un algoritmo de cuantificación por fragmentos.

Si bien los tamaños de bloque más grandes reducen la cantidad de bits efectivos por peso y aumentan el rendimiento, la pérdida de cuantificación también aumenta. Para equilibrar esta compensación, el tamaño del bloque generalmente se establece en un valor más pequeño, como 64 o 32.

Pero en los experimentos de Apple, el equipo descubrió que el adaptador de recuperación de precisión puede mejorar significativamente el frente de Pareto de esta compensación.

Para esquemas de cuantificación más agresivos, se recuperarán más errores. Como resultado, Apple puede utilizar esquemas de cuantificación eficientes para AFM sin preocuparse por la pérdida de capacidad del modelo.

cuantización de precisión mixta

Hay conexiones residuales en cada bloque Transformador y en cada capa del AFM. Por tanto, es poco probable que todas las capas tengan la misma importancia.

Basándose en esta intuición, Apple redujo aún más el uso de memoria al llevar ciertas capas a una cuantificación de 2 bits (el valor predeterminado es 4 bits).

En promedio, los modelos de dispositivos AFM se pueden comprimir a aproximadamente 3,5 bits por peso (bpw) sin una pérdida significativa de calidad.

En producción, Apple opta por utilizar 3,7 bpw porque ya cumple con los requisitos de memoria.

resultado de la evaluación

Pre-entrenamiento

La Tabla 2 muestra los resultados de AFM en el dispositivo y AFM en el servidor en HELM MMLU v1.5.0, que probó 5 ejemplos de preguntas de opción múltiple en 57 sujetos.

Las tablas 3 y 4 muestran los resultados del servidor AFM en los puntos de referencia HuggingFace OpenLLM ranking V1 y HELM-Lite v1.5.0 respectivamente.

Se puede ver que el modelo de preentrenamiento de AFM tiene potentes capacidades de lenguaje y razonamiento, lo que proporciona una base sólida para el post-entrenamiento y el ajuste de funciones.

post entrenamiento evaluación humana

Para los escenarios de aplicaciones de Apple AI, la evaluación humana está más cerca de la experiencia del usuario.

Para evaluar las capacidades generales del modelo, el equipo recopiló un conjunto completo de 1.393 pistas.

Las indicaciones son exhaustivas y cubren diferentes categorías y niveles de dificultad, que incluyen: razonamiento analítico, lluvia de ideas, chatbots, clasificación, respuesta a preguntas cerradas, codificación, extracción, razonamiento matemático, respuesta a preguntas abiertas, reescritura, seguridad, resumir y escribir.

La Figura 3 muestra la comparación de AFM con modelos de código abierto (Phi-3, Gemma-1.1, Llama-3, Mistral, DBRX-Instruct) y modelos comerciales (GPT-3.5 y GPT-4).

Se descubrió que los evaluadores humanos preferían el modelo AFM al modelo de la competencia.

En particular, aunque el tamaño del modelo de AFM en el dispositivo es un 25% más pequeño, su tasa de éxito es del 47,7% en comparación con el Phi-3-mini, superando incluso las fuertes bases de código abierto Gemma-7B y Mistral con más del doble de número de parámetros 7B.

En comparación con el modelo de código cerrado, el servidor AFM también mostró cierta competitividad, con una tasa de ganancia de más del 50% y una tasa de empate del 27,4% frente a GPT-3.5.

Seguir instrucciones

El seguimiento de instrucciones (IF) es una capacidad central en la que el equipo de Apple tiene grandes esperanzas para los modelos de lenguaje, porque las indicaciones o instrucciones del mundo real suelen ser complejas.

Aquí, el equipo utilizó el punto de referencia público IFEval para evaluar si los modelos de lenguaje grandes pueden seguir con precisión las instrucciones del mensaje al generar respuestas. Estos suelen incluir requisitos específicos en cuanto a la longitud, el formato y el contenido de la respuesta.

Como se muestra en la Figura 4, el AFM en el dispositivo y el servidor AFM funcionan bien tanto en el nivel de comando como en la precisión del nivel de solicitud.

Además, el equipo de Apple también comparó el modelo AFM con el punto de referencia AlpacaEval 2.0 LC para medir sus capacidades generales de seguimiento de instrucciones, y los resultados mostraron que su modelo es altamente competitivo.

Uso de herramientas

En escenarios de uso de herramientas, después de que el modelo recibe una solicitud de usuario y una lista de herramientas potenciales con descripciones, puede optar por llamar a una herramienta específica proporcionando una salida estructurada y especificando el nombre de la herramienta y los valores de los parámetros.

El equipo evaluó el modelo en el punto de referencia público Berkeley Function Calling Leaderboard utilizando métricas AST con soporte nativo para llamadas a funciones.

Como se muestra en la Figura 5, el servidor AFM tiene el mejor rendimiento en precisión general, superando a Gemini-1.5-Pro-Preview-0514 y GPT-4.

escribiendo

La escritura es una de las capacidades más importantes de los modelos de lenguaje grandes, ya que admite una variedad de aplicaciones posteriores, como cambiar el tono, reescribir y resumir.

El equipo evalúa las habilidades de redacción de AFM en resúmenes internos y pruebas de referencia de redacción. Y siguiendo el enfoque de LLM como juez, se diseñaron instrucciones de puntuación para cada resumen y tarea de escritura, y se le pidió a GPT-4 Turbo que calificara la respuesta del modelo en una escala del 1 al 10.

Como se muestra en la Figura 6, el AFM en el dispositivo muestra un rendimiento comparable o mejor en comparación con Gemma-7B y Mistral-7B. El servidor AFM es significativamente mejor que DBRX-Instruct y GPT-3.5, e incluso comparable a GPT-4.

Vale la pena señalar que existen algunas limitaciones y sesgos en el uso de la puntuación LLM, como el sesgo de longitud.

matemáticas

En la Figura 7, el equipo compara el desempeño de AFM en un punto de referencia matemático.

Entre ellos, los investigadores utilizaron puntas CoT de 8 disparos para GSM8K y puntas CoT de 4 disparos para MATH.

Los resultados muestran que AFM-on-dispositivo supera significativamente a Mistral-7B y Gemma-7B incluso con menos de la mitad del tamaño de ambos.

Función de resumen

El equipo de producto desarrolló un conjunto personalizado de pautas, métricas y criterios de puntuación especializados para el resumen de correos electrónicos, mensajes y notificaciones para evaluar la calidad del resumen, utilizando una variedad de conjuntos de datos de código abierto, con licencia y propietarios.

El resumen se clasifica como "Deficiente" si alguna subdimensión se califica como "Deficiente" según las especificaciones predefinidas del producto. Del mismo modo, un resumen se clasifica como "bueno" sólo si todas las subdimensiones están calificadas como "buenas".

La Figura 8 muestra que el rendimiento general del adaptador AFM-on-device+ es mejor que el de Phi-3-mini, Llama-3-8B y Gemma-7B.

evaluar la seguridad

La Figura 9 muestra los resultados de la evaluación de revisores humanos para violaciones del modelo. Cuanto menor sea el valor, mejor.

Se puede ver que AFM en el dispositivo y AFM en el servidor muestran una gran solidez al lidiar con avisos contradictorios, y la tasa de violación es significativamente menor que la de los modelos comerciales y de código abierto.

La Figura 10 muestra las preferencias de los revisores humanos por las indicaciones de evaluación de seguridad.

El modelo AFM una vez más ganó la ronda porque podía proporcionar una respuesta más segura y útil.

Lo anterior es un vistazo clave del modelo de inteligencia artificial de Apple.

¿Cuándo podrán todos utilizar las capacidades de inteligencia artificial de Apple?

Cada año, Apple lanza nuevos productos en la conferencia de otoño y la versión inicial de iOS 18 se lanzará al mismo tiempo que el iPhone 16.

Sin embargo, todos tendrán que esperar hasta octubre para experimentarlo.

Referencias:

https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.pdf

https://x.com/BrandonButch/status/1817982978540404776

noticias

La IA de Apple se lanza sorprendentemente en el iPhone, ¡pero la versión evolucionada de Siri no tiene ChatGPT! Un informe técnico de 47 páginas revela un modelo de desarrollo propio

Introducción

Mi informacion de contacto