Como o Apple Intelligence é desenvolvido?A interpretação mais completa está aqui

2024-07-31

Escrito por | Ma Xuewei

Siri finalmente se transformou em “AI Siri”, e o tão esperado Apple Intelligence está aqui.

Com o lançamento do Apple Intelligence para iOS 18, iPadOS 18 e macOS Sequoia, a Apple também divulgou um relatório técnico sobre seu próprio modelo grande, anunciando um grande número de detalhes técnicos, que atraíram grande atenção da indústria.

Segundo relatos, o Apple Intelligence contém vários modelos generativos de alto desempenho que são rápidos, eficientes, projetados para as tarefas diárias dos usuários e podem se adaptar instantaneamente às atividades atuais dos usuários. Os modelos básicos integrados ao Apple Intelligence já estão otimizados para experiências do usuário, como escrever e polir texto, priorizar e resumir notificações, criar imagens interessantes para conversas com familiares e amigos e realizar ações no aplicativo para agilizar a interação entre aplicativos.

No relatório técnico, a equipe da Apple detalhou como dois dos modelos – um modelo de linguagem AFM (Apple Foundation Model) com aproximadamente 3 bilhões de parâmetros e um modelo de linguagem de servidor AFM maior baseado em servidor – foram construídos e adaptados para funcionar. tarefas profissionais com eficiência e precisão.

Figura | Visão geral do modelo AFM

Esses dois modelos fundamentais fazem parte de uma família maior de modelos generativos criados pela Apple para apoiar usuários e desenvolvedores, incluindo um modelo de programação baseado no modelo de linguagem AFM para construir inteligência no Xcode e um modelo de difusão para ajudar os usuários a se expressarem visualmente. como em aplicativos de mensagens.

Como funciona o AFM?

AFM passou por uma avaliação rigorosa durante o processo de desenvolvimento, e os resultados da avaliação mostraram que o modelo teve um bom desempenho em pré-treinamento, pós-treinamento e tarefas específicas, e estava alinhado com os valores fundamentais e princípios de IA responsável da Apple.

1. Avaliação pré-treinamento

A equipe da Apple usou benchmarks de avaliação pública como HELM MMLU, HELMLite e OpenLLM para avaliar a compreensão da linguagem e as capacidades de raciocínio do modelo AFM. Os resultados mostram que o modelo AFM alcançou excelentes resultados em vários indicadores de avaliação, demonstrou fortes capacidades de compreensão e raciocínio linguístico e lançou as bases para aplicações subsequentes de pós-treinamento e tarefas específicas.

2. Avaliação pós-treinamento

A equipe da Apple combinou avaliação humana e benchmarks de avaliação automatizada para avaliar as capacidades gerais e específicas do modelo AFM, como acompanhamento de instruções, uso de ferramentas e redação.Os resultados da avaliação são os seguintes:

Avaliação humana:O modelo AFM é comparável ou melhor que outros modelos comerciais e de código aberto em múltiplas tarefas, demonstrando que o modelo pode compreender e seguir instruções complexas e gerar texto de alta qualidade.

Figura | Comparando o modelo AFM com outros modelos de código aberto e modelos comerciais, os avaliadores humanos preferem o modelo AFM.

A equipe de pesquisa avaliou o MAIA no paradigma de descrição de neurônios. O estudo mostrou que o MAIA alcançou excelentes efeitos de descrição em modelos reais e conjuntos de dados de neurônios sintéticos, com capacidades preditivas melhores do que os métodos de linha de base e comparáveis aos de especialistas humanos.

Avaliação de conformidade com instruções:O modelo AFM obteve excelentes resultados em benchmarks como IFEval e AlpacaEval 2.0 LC, demonstrando que o modelo pode compreender e seguir instruções de forma eficaz.

Figura | Comparação das capacidades de conformidade de instrução do modelo AFM e modelos relacionados, medidas usando IFEval Quanto maior o valor, melhor a capacidade.

Avaliação do uso da ferramenta:O modelo AFM alcançou a melhor precisão geral no benchmark Berkeley Function Calling Leaderboard, indicando que o modelo pode usar a ferramenta com eficácia.

Figura | O servidor AFM atinge a melhor precisão geral, melhor que Gemini-1.5-Pro-Preview-0514 e GPT-4.

Avaliação de Redação:O modelo AFM teve um bom desempenho em resumos internos e benchmarks de redação, demonstrando a capacidade do modelo de gerar texto fluente e de alta qualidade.

Figura | AFM em comparação com alguns dos modelos mais proeminentes, bem como modelos de código aberto de menor escala. Comparado com Gemma-7B e Mistral-7B, o AFM no dispositivo pode atingir desempenho equivalente ou melhor. O servidor AFM supera significativamente a diretiva dbrx e é comparável ao GPT-3.5 e GPT-4.

Avaliação matemática:O modelo AFM alcançou excelentes resultados em benchmarks como GSM8K e MATH, indicando que o modelo pode resolver problemas matemáticos de forma eficaz.

Figura | A equipe de pesquisa comparou o desempenho do AFM em benchmarks matemáticos após o treinamento, incluindo GSM8K e matemática. O desempenho do AFM no dispositivo é significativamente melhor que o Mistral-7B e o Gemma-7B.

Além disso, a equipe de pesquisa conduziu avaliações específicas de tarefas e avaliações de segurança do modelo. Eles usaram avaliação humana e benchmarks de avaliação específicos de tarefas para avaliar o desempenho do modelo AFM em tarefas específicas, como resumo de e-mail, resumo de mensagens e resumo de notificação. De acordo com os resultados da avaliação, o desempenho do modelo AFM no resumo de e-mail, resumo de mensagens e resumo de notificação é melhor do que outros modelos em muitos aspectos, como precisão, integridade e legibilidade.

Em termos de segurança, a equipa de investigação utilizou conjuntos de dados adversários e avaliação humana para avaliar a resistência do modelo AFM a conteúdos nocivos e tópicos sensíveis. Os resultados da avaliação mostram que o modelo AFM apresenta boa resistência a dados adversários e temas sensíveis, evitando até certo ponto respostas prejudiciais ou inadequadas.

Como o AFM é “praticado”?

Arquitetura

Como a maioria dos modelos convencionais, o modelo AFM é baseado em Transformador arquitetura, mas também emprega algumas opções de design específicas para melhorar a eficiência e o desempenho.Os principais componentes são os seguintes:

Módulo Transformer: AFM usa o módulo Transformer padrão, incluindo mecanismo de atenção multi-head e feedforwardRedes neurais。
Matriz de incorporação de entrada/saída compartilhada: Este design reduz o número de parâmetros do modelo e melhora a eficiência da memória.
Pré-normalização e RMSNorm: Essas técnicas melhoram a estabilidade do treinamento e ajudam o modelo a aprender padrões mais complexos.
Normalização de consulta/chave: esta técnica melhora ainda mais a estabilidade do treinamento.
Atenção de consulta agrupada (GQA): O mecanismo GQA reduz o uso de memória e melhora a eficiência computacional.
Função de ativação SwiGLU: Esta função de ativação melhora a eficiência do modelo.
Incorporação de posição RoPE: O mecanismo RoPE suporta a codificação de texto longo e melhora a capacidade do modelo de representar o contexto.

Figura | AFM-on-device possui 3072 parâmetros e é adequado para inferência no dispositivo. Ele usa 26 camadas do Transformer, cada camada contém 128 cabeçalhos, 8 cabeçalhos de consulta/chave e 24 cabeçalhos de consulta.

Pré treino

O processo de pré-treinamento do modelo AFM foi projetado para treinar modelos de linguagem poderosos para oferecer suporte a várias funções do sistema Apple Intelligence. Os modelos AFM são treinados em clusters Cloud TPU usando a estrutura AXLearn, que oferece suporte ao treinamento de modelos e comprimentos de sequência em grande escala e fornece treinamento eficiente e desempenho de inferência.

O conjunto de dados de pré-treinamento AFM consiste em vários tipos de dados de alta qualidade, incluindo:

Conteúdo da Web: informações publicamente disponíveis rastreadas usando Applebot e filtradas.
Conjuntos de dados licenciados: Conjuntos de dados de alta qualidade obtidos de editores que fornecem diversos dados de texto longo.
Código: dados de código-fonte aberto obtidos do GitHub, abrangendo diversas linguagens de programação.
Matemática: dados da Web contendo conteúdo matemático, como questões matemáticas, fóruns, blogs, tutoriais e seminários.
Conjunto de dados público: um conjunto de dados disponível publicamente que foi avaliado e selecionado.

O pré-treinamento AFM é dividido em três etapas:

Estágio principal: Use o maior conjunto de dados para treinamento. O objetivo principal é aprender padrões e conhecimentos básicos do idioma.
Estágio contínuo: com base no estágio central, são adicionados código e dados matemáticos, e o peso dos dados da página da web é reduzido para expandir ainda mais o escopo de conhecimento do modelo.
Estágio de expansão de contexto: Com base no estágio contínuo, comprimentos de sequência mais longos e dados sintéticos de texto longo são usados para melhorar as capacidades de processamento do modelo para textos longos.

pós treino

O AFM adquire fortes capacidades de compreensão da linguagem na fase de pré-treinamento, mas para aplicá-lo a tarefas específicas, como resumo de e-mail, resumo de mensagens e resumo de notificação, é necessário pós-treinamento.incluir:

Afinação fina supervisionada (SFT):
- Coleta de dados: Use dados anotados por humanos e dados sintéticos para garantir que a qualidade dos dados seja diversificada e cubra uma variedade de cenários de uso de linguagem natural.
- Combinação de dados: selecione e combine cuidadosamente dados humanos e sintéticos para formar combinações de dados de alta qualidade.
- Método de ajuste fino: Use o adaptador LoRA para ajustar o modelo, ajustar apenas os parâmetros do adaptador e reter o conhecimento geral do modelo.
Aprendizagem por reforço baseada em feedback humano (RLHF):
- Modelo de recompensa: treine um modelo de recompensa usando dados de preferência humana e avalie a qualidade das respostas do modelo.
- Comitê de Ensino Iterativo (iTeC): Melhora iterativamente o modelo usando algoritmos de otimização de múltiplas preferências, incluindo amostragem de rejeição, otimização de preferência direta e aprendizagem por reforço online.
- Algoritmo RLHF online (MDLOO): Use a otimização da política Mirror Descent e o estimador de vantagens Leave-One-Out para maximizar recompensas e melhorar a qualidade do modelo.

Vantagens do pós-treinamento:

Melhoria da qualidade do modelo: O pós-treinamento melhora significativamente a qualidade e o desempenho do modelo AFM, fazendo com que ele tenha um bom desempenho em tarefas específicas.
Cumpra os valores fundamentais e os princípios de IA responsável da Apple: O processo pós-treinamento considera totalmente a qualidade dos dados, a segurança e a filtragem de conteúdo prejudicial para garantir que o modelo esteja em conformidade com os valores fundamentais e os princípios de IA responsável da Apple.
Escalabilidade: O método pós-treinamento é escalonável para outras tarefas, permitindo que o modelo AFM suporte mais recursos do Apple Intelligence.

Otimização de inferência

O AFM não só precisa ter fortes capacidades de compreensão de linguagem, mas também ser capaz de funcionar com eficiência em dispositivos como iPhone, iPad e Mac, bem como computação em nuvem privada em servidores de silício da Apple. Para atingir esse objetivo, a Apple desenvolveu uma série de técnicas de otimização para garantir que os modelos AFM funcionem com eficiência em tarefas específicas, mantendo a qualidade geral do modelo.

Otimização:

Quantização do modelo: Use a tecnologia de quantização de 4 bits para quantizar o modelo AFM, reduzindo significativamente o tamanho do modelo e o custo de inferência.
Adaptador de recuperação de precisão: Use o adaptador LoRA para restaurar a precisão do modelo quantizado para que fique próximo do desempenho do modelo não quantizado.
Quantização de precisão mista: quantize cada camada do modelo usando precisão de quantização de 4 e 2 bits para reduzir ainda mais o uso de memória e, ao mesmo tempo, manter a qualidade do modelo.
Análise de modelo interativo: Use a ferramenta Talaria para analisar a latência e o consumo de energia do modelo, orientar a seleção da taxa de bits e otimizar o desempenho do modelo.
Adaptadores substituíveis em tempo de execução: Use adaptadores LoRA para ajustar seu modelo para que ele possa ser adaptado a tarefas específicas, mantendo o conhecimento geral do modelo.

Resumo do caso de otimização por e-mail:

Coleta de dados: colete dados de entrada contendo trechos de e-mails, mensagens e notificações e execute limpeza e desduplicação de dados.
Geração de resumo sintético: Use o servidor AFM para gerar resumos sintéticos que atendam aos requisitos do produto e use regras e modelos de filtragem para garantir a qualidade dos dados.
Injeção de dicas: adicione resumos gerados pelo servidor AFM aos dados de treinamento para ajudar o modelo do dispositivo AFM a entender e gerar melhor resumos.

Além disso, a Apple Intelligence segue uma série de princípios responsáveis de IA, incluindo capacitar os usuários, representá-los, projetar cuidadosamente e proteger a privacidade. No relatório técnico, a Apple refuta as acusações de que usa métodos eticamente questionáveis para treinar determinados modelos, reiterando que não usa dados privados de usuários e, em vez disso, usa uma combinação de dados publicamente disponíveis e licenciados para fins de inteligência da Apple. Enfatizaram que os dados de treinamento do modelo AFM foram obtidos de forma “responsável”.

notícias

Como o Apple Intelligence é desenvolvido?A interpretação mais completa está aqui

Como funciona o AFM?

Como o AFM é “praticado”?

Introdução

minhas informações de contato