noticias

antes de la conferencia de otoño de apple, un repaso en profundidad al panorama de apple intelligence

2024-09-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

guo xiaojing wu bin, autor de tecnología de tencent

planificador de vídeo wu bin

editor zheng kejun

antes de la rueda de prensa de apple, aclaramos el panorama de apple intelligence

en la wwdc24 (conferencia mundial de desarrolladores de apple) en junio de este año, el mundo escuchó por primera vez el término "inteligencia de apple" apple utilizó la raíz homofónica de inteligencia artificial (ia) para definir su propia ia de apple. anteriormente, apple evitaba utilizar el término "ia" cuando hablaba de sus funciones relacionadas con el aprendizaje automático.

hasta el día de hoy, en la última carta de invitación a la conferencia de otoño de apple, aunque no hay "ia", todo revela varios sabores de "ia".

nota: a la izquierda está la carta de invitación para la conferencia de lanzamiento de nuevos productos de otoño de 2024 de apple y a la derecha está la carta de invitación para la wwdc24.

por ejemplo, el tema de la invitación es "momento destacado". el color principal y el halo colorido alrededor del logotipo de apple son muy consistentes con el color principal de la invitación wwdc24.

leyenda: nuevo ícono de siri, efecto de visualización del iphone después de despertar a siri

y el color de siri también está cambiando. puedes ver que su nuevo logotipo y la combinación de colores después de despertar a siri son completamente diferentes a los de la antigua siri.

leyenda: conferencia de otoño de apple de 2023, carta de invitación a la wwdc23, logotipo antiguo de siri, se pueden ver diferencias obvias en la combinación de colores

incluso le pedí a un producto de ia que me ayudara a analizar los elementos relacionados con la ia en la carta de invitación para la conferencia de otoño y me dijo:

en términos de diseño gráfico: el logotipo se compone de líneas que rodean el contorno clásico de apple y el sentido dinámico simula la interacción inteligente de la ia. este diseño gráfico dinámico puede estar simulando la experiencia de interacción inteligente y fluida que ofrece la tecnología de la ia;

tono de color: el logotipo de la invitación utiliza tonos de neón, como azul, morado, naranja y rosa. la combinación de colores intensos es muy similar al arte generativo de la ia; estos colores en sí mismos pueden estar relacionados con las características o escenarios de aplicación de la ia; -funciones relacionadas en productos apple existe una correlación;

asociación visual: la asociación visual entre la invitación y siri puede implicar la posición central de la tecnología de ia en los productos apple, y que siri puede actualizarse y optimizarse aún más en el futuro para integrarse mejor con otras funciones de ia para brindar a los usuarios servicios más inteligentes y convenientes. ;

desde no mencionar ai hasta incluso que el nombre tenga el homófono "ai", incluso el color de la invitación debe ser coherente con "ai". obviamente, estos diseños no son una coincidencia. apple está insinuando que apple intelligence seguirá siendo un punto destacado en el lanzamiento de este otoño.

entonces, ¿cuál es el punto fuerte de apple intelligence? en este artículo, le hablaremos en detalle sobre los siguientes temas:

breve introducción: ¿cómo se ve el panorama general de apple intelligence según la información disponible?

revisión del progreso: ¿cómo avanza apple intelligence de junio a agosto?

adivina: ¿qué tipo de inteligencia de apple veremos pronto?

pensamiento profundo: con la “ia” de apple, ¿cómo evolucionará el futuro ecosistema?

ficha informativa: totalmente privado y seguro

en la wwdc24, este discurso de cook es muy importante:

"estamos encantados de lanzarun nuevo capítulo en la innovación de apple.inteligencia de applecambiará la forma en que los usuarios usan nuestros productos——y qué pueden hacer nuestros productos por los usuarios,nuestro enfoque únicocombina la ia generativa con las necesidades del usuario para proporcionar información realinteligencia útil. puedemanera completamente privada y segura.acceda a esa información para ayudar a los usuarios a hacer lo que más les importa. esto esia que sólo apple puede ofrecer, no podemos esperar a que los usuarios experimenten lo que puede hacer. "

hay tres puntos clave en este pasaje (tenga en cuenta las palabras clave resaltadas en azul):

1. combinar la ia generativa y las necesidades del usuario para proporcionarútilinteligente

2. siúnicométodo, esta es la ia que solo apple puede proporcionar

3、completamente privado y seguroforma

si quieres hacer esto, debes resolvercuatro problemas centrales que enfrenta toda la ia del lado del dispositivo:

primero, útil: se adaptan perfectamente a las necesidades de los usuarios, no a las necesidades de fabricación, y también consideran cómo interactuar.

en segundo lugar, seguridad: el modelo debe ejecutarse localmente.

en tercer lugar, la fluidez: para los problemas que el hardware local no puede solucionar, se utiliza un modelo más grande en la nube para solucionarlos.

cuarto, seguridad y privacidad total: una vez que se utiliza el modelo en la nube, una gran cantidad de información personal en el teléfono móvil corre el riesgo de filtrarse.

obviamente, la seguridad y la privacidad mencionadas repetidamente son los requisitos previos más importantes para cualquier servicio que apple quiera brindar a los usuarios.

se puede decir que antes de apple ningún fabricante había propuesto una solución muy completa.

entonces, ¿qué piensa apple al respecto? echemos un vistazo al panorama de la inteligencia de apple y tal vez echemos un vistazo a la lógica general de apple en materia de ia.

leyenda: panorama de apple intelligence, traducido por tencent technology

la capa del sistema de inteligencia personal conecta la capa de aplicación superior familiar para los usuarios y la capa de chip de desarrollo propio de apple.

se puede decir que la capa del sistema de inteligencia personal es la estructura central de apple intelligence. podemos considerarla como varias partes.

la primera parte es afm en el dispositivo (modelo final del modelo apple fondation).este es un modelo de 3 mil millones de parámetros, que es la parte más importante de la ia final. debido a los altos requisitos de privacidad y seguridad, ejecutar el modelo del lado del cliente localmente tiene la máxima prioridad. sólo las cosas que no puede hacer se pueden enviar a la nube.

sin embargo, el modelo del lado del dispositivo tiene un triángulo imposible: rendimiento, volumen de parámetros, memoria y consumo de energía, que también es el tema más problemático para varios fabricantes.

un rendimiento excelente requiere una gran cantidad de parámetros; una gran cantidad de parámetros significa un gran uso de memoria y un alto consumo de energía que puede afectar el rendimiento. entonces, ¿cómo deberían equilibrarse estos tres?

el plan de apple es el siguiente:

paletización de bits bajos: esta tecnología hace que el modelo sea más liviano, al igual que comprimir fotografías de alta definición, y no ocupa mucho espacio en el teléfono móvil.

adaptadores lora: estos dispositivos permiten a los modelos aprender rápidamente nuevas habilidades según sea necesario, similar a los ladrillos lego que se pueden ensamblar en varias formas.

herramienta talaria: esta herramienta ayuda a monitorear y regular el consumo de energía del modelo para garantizar que no consuma demasiada energía.

atención de consultas agrupadas: permite que el modelo se centre rápidamente en información importante, al igual que usar etiquetas para encontrar libros rápidamente.

vocabulario compartido: al compartir vocabulario, se reduce el uso de memoria, al igual que usar un diccionario para que todos busquen palabras, ahorrando espacio.

en pocas palabras, estas tecnologías de optimización permiten que el afm en el dispositivomanténgase inteligente mientras ahorra energía y responde rápidamente

lo más destacado es el adaptador lora (adaptador de adaptación de bajo rango), que es una herramienta técnica que se utiliza para optimizar los modelos de aprendizaje automático, especialmente los modelos de lenguaje grandes y los modelos generativos. es como agregar un "widget" especial como "mensaje de resumen" o ". responder al correo electrónico" permite a los modelos realizar mejor estas tareas específicas.

vídeo: diagrama de funcionamiento del adaptador lora

de esta manera, utilizando 3 mil millones de parámetros, se puede lograr un rendimiento equivalente a otros modelos convencionales con una escala de más de 7 mil millones (resultados de la evaluación proporcionados por un funcionario de apple).

la herramienta talaria se combina con otras técnicas (como atención de consultas agrupadas, vocabulario compartido de entrada y salida, cuantificación de bits bajos, estrategia de configuración híbrida, cuantificación de activación y cuantificación de incrustación, etc. el modelo de apple puede alcanzar una velocidad de aproximadamente 0,6 milisegundos). en el iphone 15 pro y una tasa de generación de 30 tokens por segundo, y si bien cumple con los requisitos de rendimiento, también puede reducir la energía y la presión de la memoria del teléfono móvil.

pero aun así, según los funcionarios de apple, ejecutar apple intelligence aún requiere una configuración mínima de iphone 15 pro. además, según el entendimiento de tencent technology, se requieren al menos 8g de memoria para admitir la ejecución de apple intelligence.

por lo tanto, en esta etapa, la capacidad del modelo del lado del dispositivo con 3 mil millones de parámetros es el límite superior de los problemas que el cerebro de ia local de iphone y mac puede resolver.

por lo tanto, aún es necesario enviar cálculos complejos a la nube y procesarlos a través de modelos con parámetros más grandes.

este es el segundo componente importante de apple intelligence, el modelo en la nube (afm server).

es necesario agregar aquí que la función de la capa de orquestación es determinar si las necesidades del usuario deben resolverse en el lado del cliente o cargarse en la nube, de manera similar a un comandante. apple no realiza ninguna intervención manual aquí y se basa completamente en su propio algoritmo para juzgar. los usuarios no pueden decidir si sus datos solo se colocan en el dispositivo.

apple no reveló los parámetros específicos del modelo de nube. a diferencia del modelo del lado del cliente, que se deriva de un modelo más grande, se entrena desde cero. al mismo tiempo, se utilizan algunos métodos de entrenamiento avanzados comunes al modelo final.

la característica más importante de este modelo de nube es darse cuenta de lo que cook mencionó en“totalmente privado y seguro”, que brinda protección a través de private cloud compute (pcc).

¿cómo es exactamente que sea tan reservado? aquí hay muchas técnicas profesionales. simplemente reproduzcamos todo el proceso:

el usuario inicia una solicitud: por ejemplo, le pregunta a siri en su teléfono móvil: "¿a qué hora debo recoger a mis hijos del colegio y aun así llegar a la reunión de empresa?"

encapsulación segura: su teléfono cifra inmediatamente la solicitud en un "paquete secreto" que solo pcc puede descifrar.

enviado secreto: este "paquete secreto" se envía al pcc a través de un canal secreto seguro. este pasaje es como un túnel con un bloqueo de contraseña, y solo aquellos que conocen la contraseña pueden pasar.

pcc descifra y procesa: después de recibir el paquete, pcc utiliza su propio súper cerebro (poderoso modelo de ia) para comprender su solicitud y encontrar la respuesta. durante este proceso, pcc utilizará varias tecnologías para garantizar que sus datos no sean filtrados ni abusados.

los datos se eliminan tan pronto como se agotan: después de que pcc encuentre la respuesta, eliminará inmediatamente todos los datos guardados temporalmente, como si borrara las palabras en una pizarra con agua, sin dejar rastro.

resultado devuelto: pcc vuelve a cifrar la respuesta y la envía de vuelta a su teléfono a través de un canal seguro. desbloqueas el teléfono y puedes llegar a la conclusión.

en resumen, pcc cifra sus necesidades, las pasa a ai para que las procese en un canal secreto y las elimina después del procesamiento. entonces, ¿qué tecnologías utiliza pcc para garantizar que no se filtren ni se abuse de los datos de los usuarios?

para entenderlo con una metáfora vívida pero no del todo rigurosa: pcc es como una bóveda especialmente diseñada. incluso si se puede ingresar a la bóveda, es difícil encontrar dónde se colocan objetos de valor específicos porque están almacenados al azar. conocida como técnica de "proliferación de objetivos".

además, las puertas y cerraduras de la bóveda son muy fuertes y solo pueden ser abiertas por empleados verificados (es decir, nodos pcc), y cada vez que se abre la puerta, se requiere una clave especial (tecnología de cifrado). uso único deja de ser válido después de su uso, por lo que incluso si alguien roba la llave, la puerta no se puede abrir.

lo más importante es que incluso si puedes ingresar a la bóveda, después de sacar y mirar tus objetos de valor, se volverán a guardar rápidamente y se cerrarán sin dejar ningún rastro, por lo que incluso si alguien quiere encontrar su ubicación anterior es imposible. .

sólo apple tiene actualmente las condiciones para implementar este plan de seguridad capa por capa.

aquí hay que mencionar la tercera parte importante de apple intelligence, la capa de chip de desarrollo propio.estos servidores seguros utilizan el chip m2 ultra de desarrollo propio de apple.

estos chips proporcionan potentes capacidades de cifrado y pueden ejecutar algoritmos de cifrado complejos para garantizar la seguridad de los datos durante la transmisión y el procesamiento. también integra una variedad de características de seguridad de hardware, como secure enclave, que es un área de hardware aislada dedicada a manejar de forma segura claves de cifrado y operaciones confidenciales, lo que garantiza que los datos del usuario estén protegidos incluso a nivel del servidor.

además, los chips admiten la tecnología secure boot, que garantiza que los servidores solo puedan ejecutar software firmado por apple, evitando que el malware se cargue al iniciar el sistema.

ya sean los chips de la serie a del iphone o los chips de la serie m de mac, son completamente desarrollados por apple. esto significa que estos chips se integran con el sistema apple desde el momento en que nacen, y soportan perfectamente apple intelligence en términos de rendimiento, consumo, seguridad, etc. esta es una ventaja que otros fabricantes no tienen en absoluto.

estas tres características constituyen el núcleo completo de la inteligencia de apple: el modelo del lado del cliente que se ejecuta localmente y una serie de modelos básicos con funciones específicas, el modelo de nube proporcionado a través de servicios privados de computación en la nube y la poderosa capa de chip de desarrollo propio.

llegados a este punto te preguntarás ¿dónde está openai? ¿no hubo rumores de que el modelo básico de apple intelligence usa openai?

apple no ha anunciado muchos detalles de su cooperación con openai. a juzgar por los resultados actuales, chatgpt no está preinstalado en el sistema en forma de una aplicación independiente. apple solo le da a openai una interfaz de programa de aplicación para integrar chatgpt en el sistema. al igual que la cooperación entre apple y google search, openai no obtendrá permisos superiores.

en este proceso, los usuarios tienen derecho a elegir activamente si desean utilizar los servicios de openai. después de que los datos se entreguen a openai, apple no será responsable de la seguridad de los datos posteriores.

además, openai no será el único socio. según informes de medios extranjeros, apple también está discutiendo una gran cooperación en materia de modelos con google. por tanto, openai debería ser uno de los socios del ecosistema de apple intelligence.

nota: diagrama oficial de apple para incorporar gpt en el iphone

inventario de progreso: de junio ​​a agosto,

¿cómo va la inteligencia de apple?

con este soporte básico, los usuarios pueden experimentar plenamente las funciones del producto.

primero repasemos las funciones específicas de apple intelligence anunciadas en la wwdc24 en junio, que se pueden dividir en las siguientes categorías:

las herramientas de escritura pueden ayudarle a corregir, reescribir contenido según el estilo, resumir el contenido del texto, etc.;

la generación de imágenes (juego de imágenes) genera imágenes interesantes y divertidas basadas en palabras clave.

genmoji genera interesantes emoticonos personalizados

en un siri más avanzado, la interacción es más natural, más personalizada y más profundamente integrada con el sistema.

el pasado mes de agosto, los desarrolladores de américa del norteya has comenzado a utilizar dispositivos de hardware apple elegibles para experimentar algunas de las funciones de apple intelligence.

las funciones existentes son más detalladas que cuando se anunciaron en la wwdc24, pero las funciones generales son básicamente asistencia de texto (escritura, resumen, respuesta de correo electrónico, etc.), generación de imágenes (procesamiento de fotografías, genmoji), grabación y organización del teléfono, etc. las siguientes son listas de funciones basadas en estadísticas incompletas de tencent technology basadas en información pública:

podemos ver que el progreso más rápido se da en las funciones relacionadas con el procesamiento de texto.

en términos de procesamiento multimodal, parece que las partes puramente finales ahora están en línea, como la búsqueda de fotos, la grabación de llamadas, etc., la función de generación de imágenes aún no está en línea; parece que las funciones multimodales que requieren la movilización de capacidades de la nube aún no están listas.

las funciones que simplemente se integran en el sistema, como los modos de enfoque y las notificaciones importantes prioritarias, deberían procesarse exclusivamente en el extremo final y ya haberse lanzado. se han lanzado funciones simples como los nuevos efectos especiales de la interfaz de usuario de siri.

sin embargo, aún no se han lanzado la tan esperada actualización de siri que está profundamente integrada con el sistema, que se puede transferir entre diferentes aplicaciones mediante comandos de voz, y la integración del modelo grande gpt openai de terceros. según el sitio web oficial de apple, las actualizaciones a otros idiomas (distintos del inglés), capacidades de la plataforma de software, etc. se completarán durante el próximo año.

si nos fijamos en la barra de progreso, se estima que sólo se ha cumplido alrededor del 30% de la promesa que apple hizo en la wwdc24.

pero si los usuarios quieren utilizarlo, existen requisitos previos muy estrictos: el dispositivo utilizado debe ser el modelo sucesor del iphone 15 pro, iphone 15 pro max o ipad y mac después del chip m1. además, el idioma de siri y del dispositivo debe estar configurado en inglés (estados unidos).

nota: el sitio web oficial de apple anuncia las condiciones del hardware y del sistema para experimentar los dispositivos inteligentes de apple.

la conferencia de lanzamiento de nuevos productos de otoño de este año,

¿qué es lo que más esperas?

se ha formado el prototipo de apple intelligence, pero aún pasará mucho tiempo antes de que todos los usuarios de apple puedan utilizarlo.

si su producto cumple con los requisitos de hardware, idioma y región mencionados por apple, podrá reunirse con apple intelligence por primera vez en el otoño.por supuesto, puede que el lanzamiento del nuevo producto no sea en septiembre, según informes de medios extranjeros, debería ser en octubre.

además de apple intelligence, también podemos esperar el chip a18 instalado en el iphone 16 en el lanzamiento del nuevo producto de este otoño.

según las noticias actualmente expuestas,apple utilizará el mismo proceso tsmc n3e que m4 para el chip a18en comparación con el proceso n3b utilizado en el a17 pro del año pasado, n3e tiene mayores ventajas para mejorar la eficiencia energética.

¿qué es el proceso n3e?

equivale a una actualización interna del chip del teléfono móvil. aunque el tamaño de la casa (unidad básica) no ha cambiado, se han rediseñado las vías (circuito) y las instalaciones (transistores) para que toda el área (chip) funcione más. eficientemente. esto es como hacer que el tráfico urbano sea más fluido y que los residentes utilicen menos electricidad. por lo tanto, el chip a18 que utiliza este proceso puede permitir a los usuarios sentir que el teléfono móvil responde más rápido, la batería dura más y puede realizar múltiples tareas con mayor fluidez al mismo tiempo.

se rumorea que la npu del soc a18 se actualizará significativamente y la potencia informática general será superior a los 38 tops del m4.

esto significa que la potencia informática de npu del próximo iphone 16 ya es comparable a la de los mejores sistemas de escritorio de apple. para hacer frente al umbral de memoria de apple intelligence, el iphone 16 también aumentará la memoria de funcionamiento del cuerpo a 8 gb por primera vez.

desde la memoria hasta el consumo de energía y la potencia informática, parece estar diseñado para apple intelligence.

la potencia informática npu del a17 pro lanzado por apple el año pasado fue 35 tops, y el a18 solo será mayor

obviamente, a partir de septiembre de este año, todos los futuros productos de hardware lanzados por apple adoptarán activamente apple intelligence.

no solo se limita a iphone, mac y ipad, sino que incluso productos como apple watch, homepod y vision pro pueden convertirse en parte de la estrategia de ia de apple en el futuro.

en wwdc24, el vicepresidente senior de apple, craig, demostró un escenario de uso rápido y relevante de la ia de apple: se recibió una notificación de cambio de hora de reunión temporal y se le preguntó a siri si aún podía ponerse al día con las actividades de los niños a las que originalmente quería asistir.

continuó hablando con siri y la aplicación móvil saltó sin problemas entre múltiples aplicaciones, como correo electrónico, calendario y mapas. al final, sin mover un dedo, su teléfono le dio una sugerencia razonable.

este puede ser el estado ideal de los dispositivos finales de ia en el futuro: con solo un comando, puede abrir automáticamente la aplicación requerida y completar la tarea deseada.

en esta escena de demostración, vemos que las aplicaciones llamadas por siri son todas aplicaciones oficiales de apple. en otras palabras, moviliza a sus "miembros de la familia" para que cooperen y hagan algo. en este caso, el sistema, la arquitectura, la interfaz, todo no es un problema y no implica ningún problema como la distribución de beneficios.

para ser más imaginativos, tal vez en el futuro siri no necesite palabras de comando, siempre estará esperando conversaciones en segundo plano e incluso podrá intervenir cuando las personas se comuniquen, como un verdadero amigo.

inteligencia de apple

¿podremos seguir siendo el rey ecológico?

apple utilizó el método de menor resistencia para demostrar el método ideal de interacción con teléfonos móviles con ia en el futuro. pero si no es tu propia aplicación, ¿aún puedes movilizar libremente los datos dentro de la aplicación?

hay esta frase en la página de introducción oficial de apple intelligence: "si utiliza marcos de interfaz de usuario, api y kits de desarrollo estándar, puede hacer que las aplicaciones que desarrolle también tengan estas funciones de ia".

los desarrolladores incluso pueden ver en el taller wwdc24 que pueden integrar funciones de ia en sus aplicaciones con sólo tres o cuatro líneas de código.

aquí hay dos datos: las aplicaciones de terceros pueden unirse a ai y apple preparará todos los kits y herramientas para permitir a los desarrolladores utilizar apple intelligence de la manera más fácil. este es de hecho un delicioso "aperitivo".

pero si quieres acceder a apple intelligence, las apps deben ceder sus "datos" y convertirse en un pequeño miembro del ecosistema de apple. ¿es esto realmente así de simple?

para apple, los avances técnicos al principio del artículo son los problemas más simples, mientras que las dificultades ecológicas son la gran montaña frente a apple.

si la interacción en el teléfono móvil es realmente como lo demuestra craig, apple se convertirá en el "rey" con la única entrada, y siri se convertirá en la única persona "altamente poderosa" alrededor del rey, responsable de decidir qué app es el "rey". quiere acceder al usuario ¿no quieres simplemente conocer a “tu propia familia”?

en ese caso, apple se convertirá en el mundo de todo tipo de súper aplicaciones.

¿quién decidirá la distribución de los beneficios? ¿estarán dispuestos a ser eliminados por la ia de la noche a la mañana los modelos de negocio que alguna vez fueron establecidos por las súper aplicaciones? estas preguntas todavía están esperando que pensemos en ellas.

escribe al final

siri lleva consigo el sueño romántico de jobs. al describir su contacto con jobs, dag kittlaus, uno de los fundadores de siri company, dijo una vez que él y jobs "charlaron durante 3 horas" en casa. jobs estaba lleno de visiones para el futuro de la inteligencia artificial. convenció a los miembros fundadores de siri de que "siri eventualmente dejará su huella en el universo".

subtítulo: dag kittlaus, uno de los fundadores de siri

sin embargo, el día después del lanzamiento de siri, steve jobs falleció, dejando atrás este sueño de ia y siri, que había estado "vagando durante muchos años".

hoy, cook utiliza apple intelligence para volver a poner a siri en el centro de atención, pero el sueño puede ser diferente.

la apple de hoy está llena de realismo: mantiene el liderazgo tecnológico, una defensa eficaz, evita que el precio de las acciones esté bajo presión y espera hasta que las súper aplicaciones en la era de la ia tomen forma antes de considerar si tomar medidas.

sin embargo, aunque todo el mundo espera con ansias los teléfonos y aipc con ia, es posible que haya productos de hardware nativos de ia más sorprendentes que reescriban por completo la historia.

referencias:

presentación de los modelos de base en servidor y en dispositivo de apple - investigación sobre aprendizaje automático de apple

apple intelligence: desarrollador de apple

presentamos apple intelligence para iphone, ipad y mac - apple

blog - computación en la nube privada: una nueva frontera para la privacidad de la ia en la nube - apple security research

https://mrmad.com.tw/ios-18-new-function