notícias

Como o Apple Intelligence é desenvolvido?A interpretação mais completa está aqui

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Escrito por | Ma Xuewei

Siri finalmente se transformou em “AI Siri”, e o tão esperado Apple Intelligence está aqui.

Com o lançamento do Apple Intelligence para iOS 18, iPadOS 18 e macOS Sequoia, a Apple também divulgou um relatório técnico sobre seu próprio modelo grande, anunciando um grande número de detalhes técnicos, que atraíram grande atenção da indústria.

Segundo relatos, o Apple Intelligence contém vários modelos generativos de alto desempenho que são rápidos, eficientes, projetados para as tarefas diárias dos usuários e podem se adaptar instantaneamente às atividades atuais dos usuários. Os modelos básicos integrados ao Apple Intelligence já estão otimizados para experiências do usuário, como escrever e polir texto, priorizar e resumir notificações, criar imagens interessantes para conversas com familiares e amigos e realizar ações no aplicativo para agilizar a interação entre aplicativos.

No relatório técnico, a equipe da Apple detalhou como dois dos modelos – um modelo de linguagem AFM (Apple Foundation Model) com aproximadamente 3 bilhões de parâmetros e um modelo de linguagem de servidor AFM maior baseado em servidor – foram construídos e adaptados para funcionar. tarefas profissionais com eficiência e precisão.

Figura | Visão geral do modelo AFM

Esses dois modelos fundamentais fazem parte de uma família maior de modelos generativos criados pela Apple para apoiar usuários e desenvolvedores, incluindo um modelo de programação baseado no modelo de linguagem AFM para construir inteligência no Xcode e um modelo de difusão para ajudar os usuários a se expressarem visualmente. como em aplicativos de mensagens.

Como funciona o AFM?

AFM passou por uma avaliação rigorosa durante o processo de desenvolvimento, e os resultados da avaliação mostraram que o modelo teve um bom desempenho em pré-treinamento, pós-treinamento e tarefas específicas, e estava alinhado com os valores fundamentais e princípios de IA responsável da Apple.

1. Avaliação pré-treinamento

A equipe da Apple usou benchmarks de avaliação pública como HELM MMLU, HELMLite e OpenLLM para avaliar a compreensão da linguagem e as capacidades de raciocínio do modelo AFM. Os resultados mostram que o modelo AFM alcançou excelentes resultados em vários indicadores de avaliação, demonstrou fortes capacidades de compreensão e raciocínio linguístico e lançou as bases para aplicações subsequentes de pós-treinamento e tarefas específicas.

2. Avaliação pós-treinamento

A equipe da Apple combinou avaliação humana e benchmarks de avaliação automatizada para avaliar as capacidades gerais e específicas do modelo AFM, como acompanhamento de instruções, uso de ferramentas e redação.Os resultados da avaliação são os seguintes:

  • Avaliação humana:O modelo AFM é comparável ou melhor que outros modelos comerciais e de código aberto em múltiplas tarefas, demonstrando que o modelo pode compreender e seguir instruções complexas e gerar texto de alta qualidade.

Figura | Comparando o modelo AFM com outros modelos de código aberto e modelos comerciais, os avaliadores humanos preferem o modelo AFM.

A equipe de pesquisa avaliou o MAIA no paradigma de descrição de neurônios. O estudo mostrou que o MAIA alcançou excelentes efeitos de descrição em modelos reais e conjuntos de dados de neurônios sintéticos, com capacidades preditivas melhores do que os métodos de linha de base e comparáveis ​​aos de especialistas humanos.

  • Avaliação de conformidade com instruções:O modelo AFM obteve excelentes resultados em benchmarks como IFEval e AlpacaEval 2.0 LC, demonstrando que o modelo pode compreender e seguir instruções de forma eficaz.

Figura | Comparação das capacidades de conformidade de instrução do modelo AFM e modelos relacionados, medidas usando IFEval Quanto maior o valor, melhor a capacidade.

  • Avaliação do uso da ferramenta:O modelo AFM alcançou a melhor precisão geral no benchmark Berkeley Function Calling Leaderboard, indicando que o modelo pode usar a ferramenta com eficácia.

Figura | O servidor AFM atinge a melhor precisão geral, melhor que Gemini-1.5-Pro-Preview-0514 e GPT-4.

  • Avaliação de Redação:O modelo AFM teve um bom desempenho em resumos internos e benchmarks de redação, demonstrando a capacidade do modelo de gerar texto fluente e de alta qualidade.

Figura | AFM em comparação com alguns dos modelos mais proeminentes, bem como modelos de código aberto de menor escala. Comparado com Gemma-7B e Mistral-7B, o AFM no dispositivo pode atingir desempenho equivalente ou melhor. O servidor AFM supera significativamente a diretiva dbrx e é comparável ao GPT-3.5 e GPT-4.

  • Avaliação matemática:O modelo AFM alcançou excelentes resultados em benchmarks como GSM8K e MATH, indicando que o modelo pode resolver problemas matemáticos de forma eficaz.

Figura | A equipe de pesquisa comparou o desempenho do AFM em benchmarks matemáticos após o treinamento, incluindo GSM8K e matemática. O desempenho do AFM no dispositivo é significativamente melhor que o Mistral-7B e o Gemma-7B.

Além disso, a equipe de pesquisa conduziu avaliações específicas de tarefas e avaliações de segurança do modelo. Eles usaram avaliação humana e benchmarks de avaliação específicos de tarefas para avaliar o desempenho do modelo AFM em tarefas específicas, como resumo de e-mail, resumo de mensagens e resumo de notificação. De acordo com os resultados da avaliação, o desempenho do modelo AFM no resumo de e-mail, resumo de mensagens e resumo de notificação é melhor do que outros modelos em muitos aspectos, como precisão, integridade e legibilidade.

Em termos de segurança, a equipa de investigação utilizou conjuntos de dados adversários e avaliação humana para avaliar a resistência do modelo AFM a conteúdos nocivos e tópicos sensíveis. Os resultados da avaliação mostram que o modelo AFM apresenta boa resistência a dados adversários e temas sensíveis, evitando até certo ponto respostas prejudiciais ou inadequadas.

Como o AFM é “praticado”?

Arquitetura

Como a maioria dos modelos convencionais, o modelo AFM é baseado em Transformador arquitetura, mas também emprega algumas opções de design específicas para melhorar a eficiência e o desempenho.Os principais componentes são os seguintes:

  • Módulo Transformer: AFM usa o módulo Transformer padrão, incluindo mecanismo de atenção multi-head e feedforwardRedes neurais

  • Matriz de incorporação de entrada/saída compartilhada: Este design reduz o número de parâmetros do modelo e melhora a eficiência da memória.

  • Pré-normalização e RMSNorm: Essas técnicas melhoram a estabilidade do treinamento e ajudam o modelo a aprender padrões mais complexos.

  • Normalização de consulta/chave: esta técnica melhora ainda mais a estabilidade do treinamento.

  • Atenção de consulta agrupada (GQA): O mecanismo GQA reduz o uso de memória e melhora a eficiência computacional.

  • Função de ativação SwiGLU: Esta função de ativação melhora a eficiência do modelo.

  • Incorporação de posição RoPE: O mecanismo RoPE suporta a codificação de texto longo e melhora a capacidade do modelo de representar o contexto.

Figura | AFM-on-device possui 3072 parâmetros e é adequado para inferência no dispositivo. Ele usa 26 camadas do Transformer, cada camada contém 128 cabeçalhos, 8 cabeçalhos de consulta/chave e 24 cabeçalhos de consulta.

Pré treino

O processo de pré-treinamento do modelo AFM foi projetado para treinar modelos de linguagem poderosos para oferecer suporte a várias funções do sistema Apple Intelligence. Os modelos AFM são treinados em clusters Cloud TPU usando a estrutura AXLearn, que oferece suporte ao treinamento de modelos e comprimentos de sequência em grande escala e fornece treinamento eficiente e desempenho de inferência.

O conjunto de dados de pré-treinamento AFM consiste em vários tipos de dados de alta qualidade, incluindo:

  • Conteúdo da Web: informações publicamente disponíveis rastreadas usando Applebot e filtradas.

  • Conjuntos de dados licenciados: Conjuntos de dados de alta qualidade obtidos de editores que fornecem diversos dados de texto longo.

  • Código: dados de código-fonte aberto obtidos do GitHub, abrangendo diversas linguagens de programação.

  • Matemática: dados da Web contendo conteúdo matemático, como questões matemáticas, fóruns, blogs, tutoriais e seminários.

  • Conjunto de dados público: um conjunto de dados disponível publicamente que foi avaliado e selecionado.

O pré-treinamento AFM é dividido em três etapas:

  • Estágio principal: Use o maior conjunto de dados para treinamento. O objetivo principal é aprender padrões e conhecimentos básicos do idioma.

  • Estágio contínuo: com base no estágio central, são adicionados código e dados matemáticos, e o peso dos dados da página da web é reduzido para expandir ainda mais o escopo de conhecimento do modelo.

  • Estágio de expansão de contexto: Com base no estágio contínuo, comprimentos de sequência mais longos e dados sintéticos de texto longo são usados ​​para melhorar as capacidades de processamento do modelo para textos longos.

pós treino

O AFM adquire fortes capacidades de compreensão da linguagem na fase de pré-treinamento, mas para aplicá-lo a tarefas específicas, como resumo de e-mail, resumo de mensagens e resumo de notificação, é necessário pós-treinamento.incluir:

  • Afinação fina supervisionada (SFT):

    • Coleta de dados: Use dados anotados por humanos e dados sintéticos para garantir que a qualidade dos dados seja diversificada e cubra uma variedade de cenários de uso de linguagem natural.

    • Combinação de dados: selecione e combine cuidadosamente dados humanos e sintéticos para formar combinações de dados de alta qualidade.

    • Método de ajuste fino: Use o adaptador LoRA para ajustar o modelo, ajustar apenas os parâmetros do adaptador e reter o conhecimento geral do modelo.

  • Aprendizagem por reforço baseada em feedback humano (RLHF):

    • Modelo de recompensa: treine um modelo de recompensa usando dados de preferência humana e avalie a qualidade das respostas do modelo.

    • Comitê de Ensino Iterativo (iTeC): Melhora iterativamente o modelo usando algoritmos de otimização de múltiplas preferências, incluindo amostragem de rejeição, otimização de preferência direta e aprendizagem por reforço online.

    • Algoritmo RLHF online (MDLOO): Use a otimização da política Mirror Descent e o estimador de vantagens Leave-One-Out para maximizar recompensas e melhorar a qualidade do modelo.

Vantagens do pós-treinamento:

  • Melhoria da qualidade do modelo: O pós-treinamento melhora significativamente a qualidade e o desempenho do modelo AFM, fazendo com que ele tenha um bom desempenho em tarefas específicas.

  • Cumpra os valores fundamentais e os princípios de IA responsável da Apple: O processo pós-treinamento considera totalmente a qualidade dos dados, a segurança e a filtragem de conteúdo prejudicial para garantir que o modelo esteja em conformidade com os valores fundamentais e os princípios de IA responsável da Apple.

  • Escalabilidade: O método pós-treinamento é escalonável para outras tarefas, permitindo que o modelo AFM suporte mais recursos do Apple Intelligence.

Otimização de inferência

O AFM não só precisa ter fortes capacidades de compreensão de linguagem, mas também ser capaz de funcionar com eficiência em dispositivos como iPhone, iPad e Mac, bem como computação em nuvem privada em servidores de silício da Apple. Para atingir esse objetivo, a Apple desenvolveu uma série de técnicas de otimização para garantir que os modelos AFM funcionem com eficiência em tarefas específicas, mantendo a qualidade geral do modelo.

Otimização:

  • Quantização do modelo: Use a tecnologia de quantização de 4 bits para quantizar o modelo AFM, reduzindo significativamente o tamanho do modelo e o custo de inferência.

  • Adaptador de recuperação de precisão: Use o adaptador LoRA para restaurar a precisão do modelo quantizado para que fique próximo do desempenho do modelo não quantizado.

  • Quantização de precisão mista: quantize cada camada do modelo usando precisão de quantização de 4 e 2 bits para reduzir ainda mais o uso de memória e, ao mesmo tempo, manter a qualidade do modelo.

  • Análise de modelo interativo: Use a ferramenta Talaria para analisar a latência e o consumo de energia do modelo, orientar a seleção da taxa de bits e otimizar o desempenho do modelo.

  • Adaptadores substituíveis em tempo de execução: Use adaptadores LoRA para ajustar seu modelo para que ele possa ser adaptado a tarefas específicas, mantendo o conhecimento geral do modelo.

Resumo do caso de otimização por e-mail:

  • Coleta de dados: colete dados de entrada contendo trechos de e-mails, mensagens e notificações e execute limpeza e desduplicação de dados.

  • Geração de resumo sintético: Use o servidor AFM para gerar resumos sintéticos que atendam aos requisitos do produto e use regras e modelos de filtragem para garantir a qualidade dos dados.

  • Injeção de dicas: adicione resumos gerados pelo servidor AFM aos dados de treinamento para ajudar o modelo do dispositivo AFM a entender e gerar melhor resumos.

Além disso, a Apple Intelligence segue uma série de princípios responsáveis ​​de IA, incluindo capacitar os usuários, representá-los, projetar cuidadosamente e proteger a privacidade. No relatório técnico, a Apple refuta as acusações de que usa métodos eticamente questionáveis ​​para treinar determinados modelos, reiterando que não usa dados privados de usuários e, em vez disso, usa uma combinação de dados publicamente disponíveis e licenciados para fins de inteligência da Apple. Enfatizaram que os dados de treinamento do modelo AFM foram obtidos de forma “responsável”.