notícias

antes da conferência de outono da apple, uma análise aprofundada do panorama da apple intelligence

2024-09-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

autor de tecnologia tencent, guo xiaojing wu bin

planejador de vídeo wu bin

editor zheng kejun

antes da conferência de imprensa da apple, resolvemos o panorama da apple intelligence

na wwdc24 (apple worldwide developers conference) em junho deste ano, o mundo ouviu o termo "apple intelligence" pela primeira vez. a apple usou o radical homofônico da inteligência artificial (ia) para definir sua própria apple ai. anteriormente, a apple evitava usar o termo “ia” ao discutir seus recursos relacionados ao aprendizado de máquina.

até hoje, na última carta-convite para a conferência de outono da apple, embora não exista “ia”, tudo revela vários sabores de “ia”.

observação: à esquerda está a carta-convite para a conferência de lançamento de novos produtos da apple no outono de 2024, e à direita está a carta-convite para wwdc24

por exemplo, o tema do convite é “momento de destaque”. a cor principal e o halo colorido ao redor do logotipo da apple são muito consistentes com a cor principal do convite wwdc24.

legenda: novo ícone da siri, efeito de exibição do iphone após ativar a siri

e a cor do siri também está mudando. você pode ver que seu novo logotipo e o esquema de cores após acordar o siri são completamente diferentes do antigo siri.

legenda: 2023 apple autumn conference, carta-convite wwdc23, antigo logotipo da siri, você pode ver diferenças óbvias no esquema de cores

até pedi a um produto de ia que me ajudasse a analisar os elementos relacionados à ia na carta-convite para a conferência de outono, e ele me disse:

em termos de design gráfico: o logotipo é composto por linhas que circundam o contorno clássico da apple, e o sentido dinâmico simula a interação inteligente da ia. este design gráfico dinâmico pode simular a experiência de interação inteligente e suave trazida pela tecnologia de ia;

tom de cor: o logotipo do convite usa tons neon, como azul, roxo, laranja e rosa. a combinação de cores ricas é muito semelhante à arte generativa da ia. -funções relacionadas em produtos apple existe uma correlação;

associação visual: a associação visual entre o convite e o siri pode implicar a posição central da tecnologia de ia nos produtos apple, e que o siri pode ser atualizado e otimizado no futuro para melhor integração com outras funções de ia para fornecer aos usuários serviços mais inteligentes e convenientes ;

desde não mencionar ai até mesmo o nome ter um homófono de “ai”, até a cor do convite deve ser consistente com “ai”. obviamente, esses designs não são coincidência. a apple está sugerindo que o apple intelligence ainda será um destaque no lançamento deste outono.

então, qual é a força da apple intelligence? neste artigo, falaremos detalhadamente com você sobre os seguintes problemas:

breve introdução: como é o panorama geral da apple intelligence com base nas informações disponíveis?

revisão do progresso: como está o progresso do apple intelligence de junho a agosto?

adivinhe: que tipo de apple intelligence veremos em breve?

pensamento profundo: com a “ia” da apple, como o futuro ecossistema evoluirá?

ficha informativa: totalmente privado e seguro

na wwdc24, este discurso de cook é muito importante:

“temos o prazer de lançarum novo capítulo na inovação da apple.inteligência applemudará a maneira como os usuários usam nossos produtos——e o que nossos produtos podem fazer pelos usuários,nossa abordagem únicacombina ia generativa com as necessidades do usuário para fornecerinteligência útil. podemaneira totalmente privada e seguraacesse essas informações para ajudar os usuários a fazer o que é mais importante para eles. isso éia que só a apple pode oferecer, mal podemos esperar que os usuários experimentem o que ele pode fazer. "

existem três pontos-chave nesta passagem (observe as palavras-chave destacadas em azul):

1. combine ia generativa e necessidades do usuário para fornecerútilinteligente

2. simexclusivométodo, esta é a ia que apenas a apple pode fornecer

3、completamente privado e segurocaminho

se você quiser fazer isso, você deve resolverquatro problemas principais enfrentados por toda ia ​​do lado do dispositivo:

primeiro, útil: atender perfeitamente às necessidades dos usuários, não às necessidades de fabricação, e também considerar como interagir.

em segundo lugar, segurança: o modelo precisa ser executado localmente

terceiro, suavidade: para problemas que não podem ser resolvidos pelo hardware local, um modelo maior na nuvem é usado para lidar com eles.

quarto, segurança e privacidade total: uma vez usado o modelo de nuvem, uma grande quantidade de informações pessoais no celular corre o risco de vazamento

obviamente, a segurança e a privacidade repetidamente mencionadas são os maiores pré-requisitos para qualquer serviço que a apple queira fornecer aos usuários.

pode-se dizer que antes da apple nenhum fabricante havia proposto uma solução muito completa.

então, o que a apple pensa sobre isso? vamos dar uma olhada no panorama da apple intelligence e talvez ter uma ideia da lógica geral da apple em ia.

legenda: panorama da apple intelligence, traduzido pela tencent technology

a camada do sistema de inteligência pessoal conecta a camada superior do aplicativo familiar aos usuários e a camada de chip desenvolvida pela própria apple.

pode-se dizer que a camada do sistema de inteligência pessoal é a estrutura central da apple intelligence. podemos considerá-la como várias partes.

a primeira parte é afm-on-device (modelo final do apple fondation model).este é um modelo de 3 bilhões de parâmetros, que é a parte mais importante da ia ​​final. devido aos altos requisitos de privacidade e segurança, a execução local do modelo do lado do cliente tem a maior prioridade. somente as coisas que ele não pode fazer podem ser enviadas para a nuvem.

no entanto, o modelo do lado do dispositivo possui um triângulo impossível: desempenho, volume de parâmetros, memória e consumo de energia, que também é a questão mais problemática para vários fabricantes.

excelente desempenho requer um grande número de parâmetros; um grande número de parâmetros significa que o grande uso de memória e o alto consumo de energia podem afetar o desempenho; então, como esses três deveriam ser equilibrados?

o plano da apple é o seguinte:

paletização de baixo bit: essa tecnologia deixa o modelo mais leve, assim como a compactação de fotos em alta definição, e não ocupa muito espaço no celular.

adaptadores lora: esses dispositivos permitem que os modelos aprendam rapidamente novas habilidades conforme necessário, semelhantes aos tijolos de lego que podem ser montados em vários formatos.

ferramenta talaria: esta ferramenta ajuda a monitorar e regular o consumo de energia do modelo para garantir que ele não consuma muita energia.

atenção à consulta agrupada: permite que o modelo se concentre rapidamente em informações importantes, da mesma forma que usa tags para encontrar livros rapidamente.

vocabulário compartilhado: ao compartilhar vocabulário, o uso de memória é reduzido, assim como usar um dicionário para que todos procurem palavras, economizando espaço.

simplificando, essas tecnologias de otimização permitem que o afm no dispositivofique inteligente enquanto economiza energia e responde rapidamente

o maior destaque é o adaptador lora (adaptador de adaptação de baixo nível), que é uma ferramenta técnica usada para otimizar modelos de aprendizado de máquina, especialmente modelos de linguagem grande e modelos generativos. é como adicionar "widgets" especiais como "mensagem de resumo" ou ". responder ao e-mail" permite que os modelos realizem melhor essas tarefas específicas.

vídeo: diagrama de funcionamento do adaptador lora

desta forma, pode-se alcançar, utilizando 3 mil milhões de parâmetros, um desempenho equivalente a outros modelos convencionais com uma escala superior a 7 mil milhões (resultados da avaliação fornecidos por oficial da apple).

a ferramenta talaria é combinada com outras técnicas (como atenção de consulta agrupada, vocabulário compartilhado de entrada e saída, quantização de baixo bit, estratégia de configuração híbrida, quantização de ativação e quantização de incorporação, etc.). o modelo da apple pode atingir uma velocidade de cerca de 0,6 milissegundos. na latência do iphone 15 pro e uma taxa de geração de 30 tokens por segundo e, ao mesmo tempo que atende aos requisitos de desempenho, também pode reduzir a energia do telefone móvel e a pressão de memória.

mas mesmo assim, segundo funcionários da apple, rodar o apple intelligence ainda requer uma configuração mínima do iphone 15 pro. além disso, de acordo com o entendimento da tencent technology, são necessários pelo menos 8g de memória para suportar o funcionamento do apple intelligence.

portanto, neste estágio, a capacidade do modelo do lado do dispositivo com 3 bilhões de parâmetros é o limite superior dos problemas que o cérebro de ia local do iphone e mac pode resolver.

portanto, cálculos complexos ainda precisam ser enviados para a nuvem e processados ​​através de modelos com parâmetros maiores.

este é o segundo componente importante do apple intelligence, o modelo de nuvem (afm server).

é necessário acrescentar aqui que o papel da camada de orquestração é determinar se as necessidades do usuário devem ser resolvidas no lado do cliente ou carregadas na nuvem, semelhante a um comandante. a apple não realiza nenhuma intervenção manual aqui e depende inteiramente de seu próprio algoritmo para julgar. os usuários não podem decidir se seus dados serão colocados apenas no dispositivo.

a apple não divulgou os parâmetros específicos do modelo de nuvem. ao contrário do modelo do lado do cliente, que é destilado de um modelo maior, ele é treinado do zero. ao mesmo tempo, são utilizados alguns métodos de treinamento avançados comuns ao modelo final.

a característica mais importante deste modelo de nuvem é perceber o que cook mencionou em“totalmente privado e seguro”, que fornece proteção por meio de computação em nuvem privada (pcc).

como exatamente isso é tão secreto? existem muitas técnicas profissionais aqui. vamos simplesmente reproduzir todo o processo:

o usuário inicia uma solicitação: por exemplo, você pergunta à siri no seu celular: “a que horas devo buscar meus filhos na escola e ainda assim comparecer à reunião da empresa?”

encapsulamento seguro: seu telefone criptografa imediatamente a solicitação em um “pacote secreto” que somente o pcc pode descriptografar.

segredo enviado: este “pacote secreto” é enviado ao pcc através de um canal secreto seguro. essa passagem é como um túnel com senha, e só quem sabe a senha pode passar.

o pcc descriptografa e processa: depois de receber o pacote, o pcc usa seu próprio supercérebro (poderoso modelo de ia) para entender sua solicitação e descobrir a resposta. durante este processo, a pcc utilizará diversas tecnologias para garantir que seus dados não serão vazados ou abusados.

os dados são excluídos assim que se esgotam: depois que o pcc encontrar a resposta, ele excluirá imediatamente todos os dados salvos temporariamente, como se apagasse as palavras em um quadro negro com água, sem deixar rastros.

resultado de retorno: o pcc criptografa novamente a resposta e a envia de volta ao seu telefone por meio de um canal seguro. você desbloqueia o telefone e pode chegar à conclusão.

resumindo, o pcc criptografa suas necessidades para você, passa-as para a ia para processamento em um canal secreto e as exclui após o processamento. então, quais tecnologias o pcc usa para garantir que os dados dos usuários não serão vazados ou abusados?

para usar uma metáfora vívida, mas não totalmente rigorosa, para entender: o pcc é como um cofre especialmente projetado. mesmo que você possa entrar no cofre, é difícil encontrar onde objetos de valor específicos estão armazenados porque eles são armazenados aleatoriamente em vários lugares. conhecida como técnica de "proliferação de alvos".

além disso, as portas e fechaduras do cofre são muito fortes e só podem ser abertas por funcionários verificados (ou seja, nós do pcc), e cada vez que a porta é aberta é necessária uma chave especial (tecnologia de criptografia). uso único torna-se inválido após o uso, portanto, mesmo que alguém roube a chave, a porta não poderá ser aberta.

o mais importante é que mesmo que você consiga entrar no cofre, depois que seus objetos de valor forem retirados e examinados, eles serão rapidamente guardados e trancados sem deixar rastros, portanto, mesmo que alguém queira encontrar sua localização anterior é impossível .

atualmente, apenas a apple tem condições para implementar este plano de segurança camada por camada.

isso deve mencionar a terceira parte importante da apple intelligence, a camada de chip autodesenvolvida.esses servidores seguros usam o chip m2 ultra desenvolvido pela própria apple.

esses chips fornecem recursos de criptografia poderosos e são capazes de executar algoritmos de criptografia complexos para garantir a segurança dos dados durante a transmissão e o processamento. ele também integra uma variedade de recursos de segurança de hardware, como o secure enclave, que é uma área de hardware isolada dedicada ao manuseio seguro de chaves de criptografia e operações confidenciais, garantindo que os dados do usuário sejam protegidos mesmo no nível do servidor.

além disso, os chips suportam a tecnologia secure boot, que garante que os servidores só possam executar software assinado pela apple, evitando o carregamento de malware na inicialização do sistema.

quer sejam os chips da série a do iphone ou os chips da série m do mac, eles são totalmente desenvolvidos pela própria apple. isso significa que esses chips estão integrados ao sistema apple desde o nascimento e suportam perfeitamente o apple intelligence em termos de desempenho, consumo de energia, segurança, etc.

essas três características constituem todo o núcleo da inteligência da apple: o modelo do lado do cliente executado localmente e uma série de modelos básicos com funções específicas, o modelo de nuvem fornecido por meio de serviços de computação em nuvem privada e a poderosa camada de chip autodesenvolvida.

neste ponto, você pode perguntar: onde está o openai? não houve rumores de que o modelo básico da apple intelligence usa openai?

a apple não anunciou muitos detalhes de sua cooperação com a openai a julgar pelos resultados atuais, o chatgpt não está pré-instalado no sistema na forma de um app independente. a apple apenas fornece à openai uma interface de programa de aplicativo para integrar o chatgpt ao sistema. , assim como a cooperação entre a apple e o google search, o openai não obterá permissões superiores.

neste processo, os usuários têm o direito de escolher ativamente se desejam usar os serviços da openai. depois que os dados forem entregues à openai, a apple não será responsável pela segurança dos dados subsequentes.

além disso, a openai não será o único parceiro. de acordo com relatos da mídia estrangeira, a apple também está discutindo uma grande cooperação relacionada ao modelo com o google. portanto, a openai deverá ser um dos parceiros do ecossistema apple intelligence.

nota: diagrama oficial da apple para incorporar gpt no iphone

inventário de progresso: de junho a agosto,

como está indo a inteligência da apple?

com esse suporte básico, os usuários podem experimentar plenamente as funções do produto.

vamos primeiro revisar as funções específicas do apple intelligence anunciadas na wwdc24 em junho, que podem ser divididas nas seguintes categorias:

as ferramentas de escrita podem ajudá-lo a revisar, reescrever o conteúdo de acordo com o estilo, resumir o conteúdo do texto, etc.;

a geração de imagens (parque de imagens) gera imagens interessantes e divertidas com base em palavras imediatas

genmoji gera emoticons personalizados interessantes

num siri mais avançado, a interação é mais natural, mais personalizada e mais integrada ao sistema.

em agosto passado, desenvolvedores na américa do nortevocê já começou a usar dispositivos de hardware apple qualificados para experimentar algumas das funções do apple intelligence.

as funções existentes são mais detalhadas do que quando foram anunciadas na wwdc24, mas as funções gerais são basicamente assistência de texto (escrita, resumo, resposta de e-mail, etc.), geração de imagens (processamento de fotos, genmoji), gravação e organização de telefone, etc. a seguir estão listas de funções baseadas em estatísticas incompletas da tencent technology com base em informações públicas:

podemos ver que o progresso mais rápido está nas funções relacionadas ao processamento de texto.

em termos de processamento multimodal, parece que as partes puramente finais agora estão online, como pesquisa de fotos, gravação de chamadas, etc.; parece que as funções multimodais que exigem a mobilização das capacidades da nuvem ainda não estão prontas.

as funções que são simplesmente integradas ao sistema, como modos de foco e notificações prioritárias importantes, devem ser todas processadas puramente no lado final e já foram lançadas. recursos simples, como os novos efeitos especiais da interface do siri, foram lançados.

no entanto, a tão esperada atualização do siri, que está profundamente integrada ao sistema, que pode ser transferida entre diferentes aplicativos por meio de comandos de voz, e a integração do grande modelo gpt openai de terceiros, ainda não foram lançadas. de acordo com o site oficial da apple, as atualizações para outros idiomas (não-inglês), recursos da plataforma de software, etc., serão concluídas no próximo ano.

se você olhar a barra de progresso, estima-se que apenas cerca de 30% da promessa que a apple fez na wwdc24 foi cumprida.

mas se os usuários quiserem utilizá-lo, existem pré-requisitos muito rígidos: o dispositivo utilizado deve ser o modelo sucessor do iphone 15 pro, iphone 15 pro max ou ipad e mac após o chip m1. além disso, o idioma do siri e do dispositivo precisa ser definido como inglês (estados unidos).

nota: o site oficial da apple anuncia as condições de hardware e sistema para experimentar os dispositivos inteligentes da apple

a conferência de lançamento de novos produtos no outono deste ano,

o que você mais espera?

o protótipo do apple intelligence foi formado, mas ainda levará muito tempo até que todos os usuários da apple possam utilizá-lo.

se o seu produto atender aos requisitos de hardware, idioma e região mencionados pela apple, você poderá se encontrar com o apple intelligence pela primeira vez no outono.claro, pode não ser o lançamento do novo produto em setembro. segundo relatos da mídia estrangeira, deveria ser em outubro.

além da apple intelligence, também podemos esperar o chip a18 instalado no iphone 16 no lançamento de um novo produto neste outono.

de acordo com as notícias atualmente expostas,a apple usará o mesmo processo tsmc n3e do m4 para o chip a18comparado com o processo n3b usado no a17 pro do ano passado, o n3e tem maiores vantagens na melhoria da eficiência energética.

qual é o processo n3e?

equivale a uma atualização interna do chip do celular embora o tamanho da casa (unidade básica) não tenha mudado, as estradas (circuito) e as instalações (transistores) foram redesenhadas para fazer com que toda a área (chip) funcione mais. eficientemente. isto é como tornar o tráfego urbano mais suave e os residentes usarem menos eletricidade. portanto, o chip a18 que usa esse processo pode permitir aos usuários sentir que o telefone celular responde mais rápido, a bateria dura mais e pode realizar várias tarefas com mais facilidade ao mesmo tempo.

há rumores de que o npu do soc a18 será significativamente atualizado e o poder de computação geral será superior aos 38tops do m4.

isso significa que o poder de computação npu do próximo iphone 16 já é comparável aos melhores sistemas desktop da apple. para lidar com o limite de memória da apple intelligence, o iphone 16 também aumentará a memória operacional do corpo para 8 gb pela primeira vez.

da memória ao consumo de energia e ao poder de computação, parece ter sido projetado para apple intelligence.

o poder de computação npu do a17 pro lançado pela apple no ano passado foi de 35 tops, e o a18 só será superior

obviamente, a partir de setembro deste ano, todos os futuros produtos de hardware lançados pela apple irão adotar ativamente o apple intelligence.

não se limitando apenas ao iphone, mac e ipad, mas até mesmo produtos como apple watch, homepod e vision pro podem se tornar parte da estratégia de ia da apple no futuro.

na wwdc24, o vice-presidente sênior da apple, craig, demonstrou um cenário de uso rápido e relevante do apple ai: uma notificação temporária de mudança de horário de reunião foi recebida e siri foi questionado se ele ainda poderia acompanhar as atividades das crianças que ele originalmente queria participar.

ele continuou a falar com siri, e o aplicativo móvel alternou suavemente entre vários aplicativos, como e-mail, calendário e mapas. no final, sem levantar um dedo, seu telefone lhe deu uma sugestão razoável.

este pode ser o estado ideal dos dispositivos finais de ia no futuro: com apenas um comando, ele pode acessar automaticamente o aplicativo necessário e concluir a tarefa desejada.

nesta cena de demonstração, vemos que os apps chamados pela siri são todos apps oficiais da apple, ou seja, mobiliza seus “familiares” para cooperar para fazer alguma coisa. nesse caso, sistema, arquitetura, interface, tudo não é problema e não envolve questões como distribuição de benefícios.

para ser mais fantasioso, talvez no futuro o siri não precise de palavras de comando, estará sempre aguardando conversas em segundo plano, podendo até intervir quando as pessoas estiverem se comunicando, como um amigo de verdade.

inteligência apple

podemos continuar a ser o rei ecológico?

a apple usou o método de menor resistência para demonstrar o método ideal de interação futura do telefone móvel com ia. mas se não for o seu próprio aplicativo, você ainda pode mobilizar livremente os dados dentro do aplicativo?

há esta frase na página de introdução oficial do apple intelligence: "se você usar estruturas de ui padrão, apis e kits de desenvolvimento, poderá facilmente fazer com que os aplicativos que você desenvolve também tenham essas funções de ia."

os desenvolvedores podem até ver no workshop wwdc24 que podem integrar funções de ia em seus aplicativos com apenas três ou quatro linhas de código.

há duas informações aqui: aplicativos de terceiros são bem-vindos para ingressar na ia, e a apple preparará todos os kits e ferramentas para permitir que os desenvolvedores usem o apple intelligence da maneira mais fácil.

mas se você quiser acessar o apple intelligence, os apps devem entregar seus “dados” e se tornar um pequeno membro do ecossistema apple. isso é realmente tão simples?

para a apple, os avanços técnicos no início do artigo são os problemas mais simples, enquanto as dificuldades ecológicas são a grande montanha à frente da apple.

se a interação no celular for realmente como a demonstrada por craig, a apple se tornará o “rei” com a única entrada, e a siri se tornará a única pessoa “altamente poderosa” ao redor do rei, responsável por decidir qual app será o “rei” deseja acessar o usuário. você não quer apenas conhecer “sua própria família”?

nesse caso, a apple se tornará o mundo de todos os tipos de superaplicativos.

quem decidirá a distribuição dos benefícios? será que os modelos de negócios, uma vez estabelecidos por superaplicativos, estarão dispostos a ser eliminados pela ia da noite para o dia? essas questões ainda estão esperando que pensemos.

escreva no final

siri carrega o sonho romântico de jobs ao descrever seu contato com jobs, dag kittlaus, um dos fundadores da siri company, disse certa vez que ele e jobs “conversaram por 3 horas” em casa. jobs estava cheio de visões para o futuro da inteligência artificial. ele convenceu os membros fundadores da siri de que “a siri acabará por deixar sua marca no universo”.

legenda: dag kittlaus, um dos fundadores da siri

no entanto, um dia após o lançamento do siri, steve jobs faleceu, deixando para trás esse sonho de ia e o siri, que estava “vagando por muitos anos”.

hoje, cook usa a apple intelligence para colocar a siri novamente no centro das atenções, mas o sonho pode ser diferente.

a apple de hoje está cheia de realismo - mantendo a liderança tecnológica, defesa eficaz, evitando que o preço das ações fique sob pressão e esperando até que as super aplicações da era da ia ​​tomem forma antes de considerar se deve agir.

no entanto, embora todos estejam ansiosos por telefones e aipcs com ia, pode haver produtos de hardware nativos de ia mais surpreendentes que reescrevem completamente a história.

referências:

apresentando os modelos de base no dispositivo e no servidor da apple - apple machine learning research

apple intelligence - desenvolvedor apple

apresentando o apple intelligence para iphone, ipad e mac - apple

blog - private cloud compute: uma nova fronteira para a privacidade da ia ​​na nuvem - apple security research

https://mrmad.com.tw/ios-18-new-function