notícias

A IA da Apple foi lançada de forma chocante no iPhone, mas a versão evoluída do Siri não tem ChatGPT! Relatório técnico de 47 páginas revela modelo autodesenvolvido

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Novo Relatório de Sabedoria

Editor: Departamento Editorial

[Introdução à Nova Sabedoria] Esta manhã, todos os desenvolvedores ficaram surpresos com a repentina versão beta do iOS 18.1! Inesperadamente, a Apple AI agora pode ser usada pelos primeiros usuários, e um grande número de análises inundou toda a Internet. O que é ainda mais surpreendente é que um relatório técnico de 47 páginas sobre o modelo básico por trás da IA ​​da Apple também está online.

No início da manhã, a tão esperada primeira versão prévia do "Apple AI" foi oficialmente enviada aos desenvolvedores!


Os recursos mais recentes do Apple AI estão integrados nos três principais sistemas: iOS 18.1, iPadOS 18.1 e macOS Sequoia 15.1.

O primeiro grupo de usuários que obteve a versão beta do iOS 18.1 já está torcendo de alegria e onda após onda de compartilhamento de testes reais espalhados por toda a rede.


A versão de visualização mais recente contém muitas surpresas (versão de visualização rápida):

  • Nova Siri: acende suavemente na borda da tela quando desperta, se comunica com os usuários alternando entre texto e voz, consegue entender comandos mesmo quando o locutor tropeça;

  • Ferramentas de escrita: você pode reescrever, revisar e resumir textos em qualquer cenário. (Memorandos, documentos e APPs de terceiros são aceitáveis)

  • Modo Foco (Reduzir Interrupções): Mostre apenas as notificações que você precisa ver imediatamente

  • Recursos de fotos: pesquise fotos usando linguagem natural e crie vídeos

  • Gere resumos de IA para e-mails, mensagens e transcrições de correio de voz


Além disso, há alguns recursos que a Apple disse que lançará no próximo ano, incluindo integração ChatGPT, geração de imagens/Emoji, limpeza automática de fotos e Siri superpoderoso com reconhecimento de tela.

Aliás, atualmente, a versão beta do iOS 18.1 (incluindo iPadOS e macOS) está disponível apenas nos Estados Unidos e ainda não foi lançada na China.

Além disso, apenas o iPhone 15 Pro e o iPhone 15 Pro Max entre os celulares suportam o novo sistema.



De acordo com a introdução do sistema, a versão beta do iOS 18.1 ocupa um total de 15,44 GB de espaço de memória, dos quais a capacidade do sistema iOS é de 12,58 GB, enquanto o Apple AI ocupa apenas 2,86 GB.

Isso ocorre porque o modelo usado pela Apple em dispositivos finais possui apenas 3 bilhões de parâmetros.


Uma introdução mais detalhada ao modelo está escondida no relatório técnico Apple AI recém-lançado.

O longo artigo de 48 páginas cobre o design e avaliação do LLM da Apple, incluindo arquitetura, gerenciamento de dados, receitas de pré e pós-treinamento, otimização, adaptação funcional e resultados de avaliação.


Endereço do artigo: https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.pdf

Especificamente, a Apple desenvolveu dois novos modelos básicos de linguagem, que formam o núcleo da Apple AI:

Um deles é o modelo final AFM-on-device, que possui cerca de 3 bilhões de parâmetros. Após a otimização, pode ser executado no iPhone e em outros dispositivos terminais, com maior eficiência e capacidade de resposta.

O outro é um modelo de parâmetros maiores que pode ser executado no servidor em nuvem da Apple, chamado AFM-server, que é projetado para tarefas intensivas e usa um sistema de computação em nuvem privada (Private Cloud Compute) para proteger os dados do usuário.


Ainda me lembro que na conferência WWDC do mês passado, Cook anunciou ao mundo as poderosas funções da IA ​​da Apple, que deram ao balde da família Apple uma atualização épica.

Toda a Internet pensa que a IA não é mais boa e ainda temos que olhar para a Apple AI.


De modo geral, a Apple costuma lançar primeiro o sistema principal iOS18.

Mas não esperava que desta vez a Apple enviasse a versão beta para o primeiro lote de desenvolvedores em tão pouco tempo.

A este respeito, o último relatório da Bloomberg apontou que a Apple quebrou seu ritmo habitual de lançamento de software porque a Apple AI ainda precisa de mais tempo de testes.


Eu me pergunto: que novos continentes os primeiros adotantes descobriram?

Teste real por internautas

O blogueiro de tecnologia da Apple, Brandon Butch, produziu imediatamente uma explicação em vídeo mostrando as funções mais abrangentes da Apple AI na versão beta do iOS 18.1.


Não importa o quão duro você seja, sempre será gentil e doce.

Ele disse que a Apple AI o ajudou a encontrar uma maneira melhor de expressar o que queria dizer.


Na interface de mensagens, escreva o que deseja dizer na caixa de entrada.

Em seguida, selecione todos eles e clique no botão Apple AI para usar "amigável" na ferramenta de escrita que tornará imediatamente o tom deste parágrafo mais diplomático.


Vamos dar uma olhada em outro internauta que escreveu especificamente um palavrão, que ficou muito mais confortável depois que a IA o reescreveu.


Correção de erro de digitação gramatical

Além disso, Butch exclamou que Grammarly foi morto e esta é a verdadeira IA da Apple.


Basta observar a passagem a seguir. O informativo está escrito incorretamente, a primeira letra do que não está em maiúscula e o que você acha que deveria terminar com um ponto de interrogação em vez de um ponto final.

Pode-se ver que a Apple AI corrigiu tudo para você.


Há também recursos de IA da Apple em e-mails, o que deixa as pessoas loucas quando ouvem isso.


Ele também suporta os recursos das ferramentas de escrita em memorandos e mensagens mencionadas acima, incluindo revisão, reescrita, etc.


Um resumo de um e-mail será exibido na parte superior.


O efeito de animação da ferramenta de escrita AI da Apple é "muito Apple". Comparado com o fluxo denso de tokens quando o modelo responde, tudo parece tão suave.



Siri totalmente nova, resposta super suave

Olhando para o efeito de borda da tela ao ligar para a Siri, devo dizer que a Apple conhece melhor o design.



Vejamos a versão do Siri para iPad.


Um engenheiro de IA da Humane e um ex-engenheiro da Apple elogiaram o Siri depois de testá-lo, dizendo que a IA da Apple é muito, muito rápida.


Acorde Siri e pergunte qual é a altura da Torre Eiffel? Onde está localizado?


A propósito, vamos divulgar algumas notícias recentes sobre as Olimpíadas de Paris e como assistir aos eventos olímpicos.

Em pouco tempo, a Apple AI teve a resposta.


Resumo da transcrição de IA, conteúdo importante do telefone não tem medo de perder

Além disso, a Apple AI também pode ajudá-lo a transcrever chamadas telefônicas em notas e gravar o que você falou.


Se o botão de gravação for pressionado, um tom será reproduzido tanto para o chamador quanto para o chamador, indicando que a chamada será gravada.


Após a conclusão da gravação, você pode entrar diretamente na janela pop-up de notificação para visualizar o conteúdo da gravação.


modo de fóco

Use Apple AI para analisar automaticamente o conteúdo das notificações e detectar notificações importantes!


Notificações de pessoas importantes serão fixadas na parte inferior da tela.


Pesquisa de fotos, muitas reclamações

Claro, a razão pela qual o iOS 18.1 foi lançado primeiro é para permitir que os desenvolvedores testem mais, descubram problemas relatados e melhorem melhor os recursos de IA da Apple.

Não, quando um blogueiro do YouTube estava testando a função de foto, ele descobriu que Siri ainda era “retardado mental”.


O blogueiro perguntou primeiro: “Siri, mostre-me as fotos da viagem de Ação de Graças de 2022”. Siri respondeu: O número de vezes que o aplicativo Saúde foi aberto....

Em seguida, ele repetiu a pergunta novamente: “Siri, encontre fotos do Dia de Ação de Graças nas fotos”.


Curiosamente, a Siri pesquisou um monte de imagens relacionadas ao Dia de Ação de Graças diretamente na internet.

Quando ele perguntou novamente: “Siri, mostre-me fotos da minha viagem a Taiwan”, Siri ouviu as palavras originais como palavras-chave e pesquisou “Minha viagem para Twaiwan” na Internet.

Então ele continuou perguntando e Siri ainda estava confuso.

Blogueira teimosa, Siri quebrada, não posso deixar de rir...

Conforme mencionado no início, a capacidade de instalar Apple AI em dispositivos terminais é baseada no modelo básico desenvolvido pela própria equipe, que está brilhando intensamente.

A revolução da IA ​​do iPhone: 3 bilhões de parâmetros no seu bolso

Especificamente, AFM é um modelo denso apenas de decodificador baseado na arquitetura Transformer.


Suas idéias de design são as seguintes:

  • Matrizes de incorporação de entrada/saída compartilhadas para reduzir o uso de memória de parâmetros

  • Use a pré-normalização do RMSNorm para melhorar a estabilidade do treinamento

  • Normalização de consulta/chave para melhorar a estabilidade do treinamento

  • Atenção de consulta agrupada (GQA) com 8 cabeçalhos de valor-chave para reduzir o consumo de memória do cache KV

  • Ativação SwiGLU mais eficiente

  • Incorporação de posição RoPE com frequência base de 500k, suportando contexto longo


arquitetura do adaptador

Ao usar o adaptador LoRA, o modelo básico da Apple pode se especializar dinamicamente em tempo real com base na tarefa atual.

Esses pequenos módulos de rede neural podem ser conectados a várias camadas do modelo básico e usados ​​para ajustar o modelo para tarefas específicas.

Para facilitar o treinamento de adaptadores, a Apple também criou uma infraestrutura eficiente que permite que os adaptadores sejam rapidamente adicionados, treinados novamente, testados e implantados quando o modelo subjacente ou os dados de treinamento são atualizados ou novos recursos são necessários.

otimização

Devido à necessidade de atender ao uso diário dos usuários, a equipe adotou uma variedade de técnicas de otimização e quantificação para reduzir significativamente o uso de memória, latência e consumo de energia, mantendo a qualidade do modelo.


método

Na fase pós-treinamento, a Apple comprimiu e quantizou o modelo para uma média inferior a 4 bits por peso.

Os modelos quantizados geralmente sofrem algum grau de perda de qualidade. Portanto, a equipe de P&D não entrega diretamente o modelo quantitativo à equipe de aplicação para desenvolvimento funcional, mas anexa um conjunto de adaptadores LoRA com parâmetros eficientes para restaurar a qualidade do modelo.

Cada equipe de produto ajusta seu adaptador LoRA específico de recurso, inicializando os pesos dos adaptadores de recuperação de precisão, enquanto mantém o modelo base quantizado inalterado.

É importante notar que o adaptador de recuperação de precisão de treinamento é eficiente em termos de amostra e pode ser considerado uma mini versão do modelo base de treinamento.

Entre eles, no estágio de pré-treinamento do adaptador, apenas cerca de 10 bilhões de tokens (cerca de 0,15% do treinamento básico do modelo) são necessários para restaurar totalmente a capacidade do modelo quantizado.

Como os adaptadores de aplicativos serão ajustados com precisão a partir desses adaptadores de recuperação de precisão, eles não incorrerão em nenhum uso adicional de memória ou custos de inferência.

Em relação ao tamanho do adaptador, a equipe descobriu que um adaptador com classificação 16 fornecia o melhor equilíbrio entre capacidade do modelo e desempenho de inferência.

No entanto, para fornecer mais flexibilidade, a Apple oferece um conjunto de diferentes classificações de adaptadores de recuperação de precisão para as equipes de aplicativos escolherem.

Quantificar

Outro benefício trazido pelos adaptadores de recuperação de precisão é que eles permitem uma escolha mais flexível de esquemas de quantização.

No passado, ao quantizar grandes modelos de linguagem, era comum dividir os pesos em pequenos pedaços, normalizar cada pedaço pelo seu valor absoluto máximo correspondente para filtrar valores discrepantes e, em seguida, aplicar o algoritmo de quantização com base em pedaços.

Embora tamanhos de bloco maiores reduzam o número de bits efetivos por peso e aumentem o rendimento, a perda de quantização também aumenta. Para equilibrar essa compensação, o tamanho do bloco geralmente é definido com um valor menor, como 64 ou 32.

Mas nos experimentos da Apple, a equipe descobriu que o adaptador de recuperação de precisão pode melhorar significativamente a frente de Pareto dessa compensação.

Para esquemas de quantização mais agressivos, mais erros serão recuperados. Como resultado, a Apple é capaz de usar esquemas de quantização eficientes para AFM sem se preocupar com a perda de capacidade do modelo.

quantização de precisão mista

Existem conexões residuais em cada bloco Transformer e em cada camada do AFM. Portanto, é improvável que todas as camadas tenham a mesma importância.

Com base nessa intuição, a Apple reduziu ainda mais o uso de memória, empurrando certas camadas para a quantização de 2 bits (o padrão é 4 bits).

Em média, os modelos em dispositivos AFM podem ser compactados para aproximadamente 3,5 bits por peso (bpw) sem perda significativa de qualidade.

Na produção, a Apple opta por usar 3,7bpw porque já atende aos requisitos de memória.

resultado da avaliação

Pré treino

A Tabela 2 mostra os resultados do AFM no dispositivo e do servidor AFM no HELM MMLU v1.5.0, que testou questões de múltipla escolha de 5 amostras em 57 sujeitos.


As Tabelas 3 e 4 mostram os resultados do servidor AFM nos benchmarks HuggingFace OpenLLM ranking V1 e HELM-Lite v1.5.0, respectivamente.



Pode-se observar que o modelo de pré-treinamento AFM possui poderosas capacidades de linguagem e raciocínio, fornecendo assim uma base sólida para pós-treinamento e ajuste fino de recursos.

pós treino avaliação humana

Para cenários de aplicativos de IA da Apple, a avaliação humana está mais próxima da experiência do usuário.

Para avaliar as capacidades gerais do modelo, a equipe coletou um conjunto abrangente de 1.393 dicas.

Os prompts são completos e cobrem diferentes categorias e níveis de dificuldade, incluindo: raciocínio analítico, brainstorming, chatbots, classificação, resposta a perguntas fechadas, codificação, extração, raciocínio matemático, resposta a perguntas abertas, reescrita, segurança, resumir e escrever.

A Figura 3 mostra a comparação do AFM com modelos de código aberto (Phi-3, Gemma-1.1, Llama-3, Mistral, DBRX-Instruct) e modelos comerciais (GPT-3.5 e GPT-4).


Verificou-se que os avaliadores humanos preferiram o modelo AFM ao modelo concorrente.

Em particular, embora o tamanho do modelo do AFM-on-device seja 25% menor, em comparação com o Phi-3-mini, sua taxa de vitória é de 47,7%, superando até mesmo as fortes linhas de base de código aberto Gemma-7B e Mistral- com mais de duas vezes o número de parâmetros 7B.

Comparado com o modelo de código fechado, o servidor AFM também apresentou certa competitividade, com uma taxa de vitórias superior a 50% e uma taxa de empate de 27,4% contra o GPT-3.5.

Siga as instruções

O acompanhamento de instruções (IF) é um recurso central que a equipe da Apple tem grandes esperanças para modelos de linguagem, porque os prompts ou instruções do mundo real costumam ser complexos.

Aqui, a equipe usou o benchmark público IFEval para avaliar se grandes modelos de linguagem podem seguir com precisão as instruções do prompt ao gerar respostas. Muitas vezes incluem requisitos específicos quanto à extensão, formato e conteúdo da resposta.

Conforme mostrado na Figura 4, o AFM-on-device e o AFM-server apresentam bom desempenho tanto na precisão do nível de comando quanto no nível de prompt.


Além disso, a equipe da Apple também avaliou o modelo AFM no benchmark AlpacaEval 2.0 LC para medir suas capacidades gerais de acompanhamento de instruções, e os resultados mostraram que seu modelo é altamente competitivo.

Uso de ferramentas

Em cenários de uso de ferramentas, após o modelo receber uma solicitação do usuário e uma lista de ferramentas potenciais com descrições, ele pode optar por chamar uma ferramenta específica fornecendo uma saída estruturada e especificando o nome da ferramenta e os valores dos parâmetros.

A equipe avaliou o modelo no benchmark público Berkeley Function Calling Leaderboard usando métricas AST com suporte nativo para chamadas de função.

Conforme mostrado na Figura 5, o servidor AFM tem melhor desempenho em precisão geral, superando Gemini-1.5-Pro-Preview-0514 e GPT-4.


escrita

A escrita é uma das capacidades mais importantes dos grandes modelos de linguagem, pois suporta uma variedade de aplicações posteriores, como mudança de tom, reescrita e resumo.

A equipe avalia as habilidades de redação do AFM em resumos internos e testes de benchmark de redação. E seguindo a abordagem LLM como juiz, instruções de pontuação foram projetadas para cada resumo e tarefa de redação, e o GPT-4 Turbo foi solicitado a pontuar a resposta do modelo em uma escala de 1 a 10.

Conforme mostrado na Figura 6, o AFM no dispositivo mostra desempenho comparável ou melhor em comparação com Gemma-7B e Mistral-7B. O servidor AFM é significativamente melhor que DBRX-Instruct e GPT-3.5, e até comparável ao GPT-4.

É importante notar que existem algumas limitações e preconceitos no uso da pontuação LLM, como o viés de comprimento.


matemática

Na Figura 7, a equipe compara o desempenho do AFM em um benchmark matemático.

Entre eles, os pesquisadores usaram pontas CoT de 8 disparos para GSM8K e pontas CoT de 4 disparos para MATH.

Os resultados mostram que o AFM no dispositivo supera significativamente o Mistral-7B e o Gemma-7B, mesmo com menos da metade do tamanho de ambos.


Função de resumo

A equipe de produto desenvolveu um conjunto personalizado de diretrizes, métricas e critérios de pontuação especializados para resumo de e-mails, mensagens e notificações para avaliar a qualidade do resumo, usando uma variedade de conjuntos de dados de código aberto, licenciados e proprietários.

O resumo é classificado como "Ruim" se qualquer subdimensão for classificada como "Ruim" com base nas especificações predefinidas do produto. Da mesma forma, um resumo é classificado como “bom” somente se todas as subdimensões forem classificadas como “boas”.

A Figura 8 mostra que o desempenho geral do adaptador AFM-on-device+ é melhor que Phi-3-mini, Llama-3-8B e Gemma-7B.


avaliar a segurança

A Figura 9 mostra os resultados da avaliação dos revisores humanos para violações do modelo. Quanto menor o valor, melhor.

Pode-se observar que o AFM-on-device e o AFM-server mostram forte robustez ao lidar com solicitações adversárias, e a taxa de violação é significativamente menor do que os modelos de código aberto e comerciais.


A Figura 10 mostra as preferências dos revisores humanos para solicitações de avaliação de segurança.

O modelo AFM mais uma vez venceu porque poderia fornecer uma resposta mais segura e útil.


O texto acima é um vislumbre importante do modelo de IA da Apple.

Quando todos poderão usar os recursos de IA da Apple?

Todos os anos, a Apple lança novos produtos na conferência de outono, e a versão inicial do iOS 18 será lançada ao mesmo tempo que o iPhone 16.


No entanto, todos terão que esperar até outubro para experimentá-lo.

Referências:

https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.pdf

https://x.com/BrandonButch/status/1817982978540404776