notícias

Revelado! Um documento de 47 páginas que desmonta a inteligência da Apple, desde arquitetura e dados até treinamento e otimização

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Relatório do coração da máquina

Departamento Editorial de Coração de Máquina

Na Worldwide Developers Conference de 2024, a Apple lançou o Apple Intelligence, um novo sistema inteligente personalizado que pode fornecer serviços inteligentes práticos, abrangendo iPhone, iPad e Mac, e está profundamente integrado no iOS 18, iPadOS 18 e macOS Sequoia.

Cook disse uma vez que o Apple Intelligence é um novo capítulo na inovação da Apple e mudará a forma como os usuários usam os produtos. Ele enfatizou que a abordagem única da Apple combina inteligência artificial generativa e informações pessoais dos usuários para fornecer serviços inteligentes verdadeiramente úteis. Além disso, o Apple Intelligence fornece acesso totalmente privado e seguro às informações, ajudando os usuários a realizar o que é mais importante para eles. Esta é uma experiência de IA exclusiva da Apple.

Agora, mais de um mês se passou desde o anúncio oficial da Apple Intelligence. Esta tecnologia foi finalmente implementada em dispositivos inteligentes e os documentos técnicos relevantes foram finalmente divulgados.

Atualmente, os usuários que possuem o iPhone 15 Pro ou iPhone 15 Pro Max podem baixar a versão beta de desenvolvimento do iOS 18.1 e experimentar as funções do Apple Intelligence.

Com a divulgação deste relatório técnico de 47 páginas, podemos ter uma compreensão mais profunda da arma secreta por trás da Apple Intelligence.



Endereço do relatório: https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.pdf

O relatório detalha dois dos modelos –AFM no dispositivo, AFM significa Apple Foundation Model, que é um modelo de linguagem com aproximadamente 3 bilhões de parâmetros, bem como um modelo de linguagem maior baseado em servidorServidor AFM, podem realizar tarefas especializadas com eficiência, precisão e responsabilidade (Figura 1).

Esses dois modelos básicos existem como parte da família maior de modelos generativos da Apple.



Estrutura e treinamento

O modelo básico AFM é um modelo de decodificador denso construído na arquitetura Transformer e adota o seguinte design:

Matrizes de incorporação de entrada/saída compartilhadas para reduzir o uso de memória para parâmetros.

Use o RMSNorm para pré-normalização para melhorar a estabilidade do treinamento.

Normalização de consulta/chave para melhorar a estabilidade do treinamento.

Atenção de consulta agrupada (GQA) com 8 cabeçalhos de valor-chave para reduzir o consumo de memória cache KV.

SwiGLU ativado para maior eficiência.

Incorporação de posição RoPE, a frequência base (frequência base) é definida como 500k para suportar contexto longo.



O processo de pré-treinamento do AFM desempenha um papel fundamental no desenvolvimento de modelos de linguagem de alto desempenho para oferecer suporte a uma variedade de recursos do Apple Intelligence. A equipe de pesquisa se concentra na eficiência e na qualidade dos dados para alcançar uma experiência de usuário ponta a ponta de alta qualidade.

Em termos de pós-treinamento, a equipe de pesquisa descobriu que melhorar o pós-treinamento geral pode melhorar o desempenho de todas as funções do Apple Intelligence porque o modelo terá uma capacidade mais forte de seguir instruções, raciocinar e escrever.

Para garantir que essas funções do modelo sejam consistentes com o compromisso da Apple de proteger a privacidade do usuário e com os princípios de IA responsável da Apple, o trabalho pós-treinamento inclui uma série de coleta e geração de dados, ajuste de instruções e inovação de alinhamento. O processo pós-treinamento consiste em duas etapas: ajuste fino supervisionado (SFT) e aprendizagem por reforço a partir de feedback humano (RLHF). A equipe de pesquisa propôs dois novos algoritmos pós-treinamento: (1) um algoritmo de ajuste fino de amostragem de rejeição com comitê de professores (iTeC) e (2) um algoritmo RLHF para iterações de aprendizagem por reforço com otimização de política de descida de espelho (otimização de política de descida de espelho ) e estimador de vantagem de exclusão (MDLOO), melhorando significativamente a qualidade do modelo.

Recursos de inteligência da Apple

O modelo básico foi projetado especificamente para Apple Intelligence, um sistema de inteligência pessoal compatível com iPhone, iPad e Mac.

A Apple descobriu que poderia melhorar o desempenho de modelos pequenos para os melhores níveis da categoria, ajustando-os para tarefas específicas. Além disso, eles desenvolveram uma arquitetura baseada em adaptadores trocáveis ​​​​em tempo de execução para permitir a especialização de um único modelo. em dezenas dessas tarefas. A Figura 2 mostra uma visão geral de alto nível.



arquitetura do adaptador

A Apple usa adaptadores LoRA para ajustar modelos para tarefas específicas. Para cada tarefa, os pesquisadores ajustam todas as matrizes de projeção linear na camada de autoatenção AFM e as camadas totalmente conectadas na rede feedforward pontual. Simplesmente ajustando o adaptador, os parâmetros originais do modelo básico pré-treinado permanecem inalterados, permitindo que o conhecimento geral do modelo seja preservado enquanto adapta o adaptador para suportar tarefas específicas.

Quantificar

Para incorporar AFM em dispositivos de ponta com orçamentos de memória limitados e reduzir custos de inferência, técnicas de quantização precisam ser consideradas. Pesquisas anteriores descobriram que os modelos quantizados de 4 bits sofrem muito pouca perda em comparação com o ponto flutuante bruto de 32/16 bits.

Para alcançar o melhor equilíbrio entre capacidade do modelo e desempenho de inferência, a Apple desenvolveu métodos de quantização de última geração e uma estrutura que utiliza adaptadores de recuperação de precisão. Isso permite que o modelo alcance uma quantização quase sem perdas quando o peso médio de cada peso é inferior a 4 bits e fornece seleção flexível do esquema de quantização.

método

Após o pós-treinamento, o modelo é compactado e quantizado para obter pesos abaixo de 4 bits em média. Os modelos quantitativos normalmente apresentam perda moderada de qualidade. Portanto, a Apple não usará o modelo quantizado diretamente para o desenvolvimento de recursos, mas anexará um conjunto de adaptadores LoRA com parâmetros eficientes para recuperação de qualidade.

É importante notar que o adaptador de recuperação de precisão de treinamento é eficiente em termos de amostra e pode ser pensado como uma mini versão do modelo base de treinamento. Na fase de pré-treinamento do adaptador, são necessários apenas cerca de 10 bilhões de tokens (cerca de 0,15% do treinamento básico do modelo) para restaurar totalmente a capacidade do modelo quantizado.

Como os adaptadores de aplicativos serão ajustados com base nesses adaptadores de recuperação de precisão, eles não incorrerão em nenhum uso adicional de memória ou custos de inferência. Em relação ao tamanho do adaptador, a Apple descobriu que uma classificação de adaptador 16 oferece o melhor equilíbrio entre capacidade do modelo e desempenho de inferência.

No entanto, para maior flexibilidade, a Apple fornece um conjunto de adaptadores de recuperação de precisão com diferentes classificações {8, 16, 32} para as equipes de aplicativos escolherem.

quantização de precisão mista

Existem conexões residuais para cada bloco transformador e cada camada no AFM. Portanto, é improvável que todas as camadas tenham a mesma importância. Seguindo essa intuição, a Apple reduziu ainda mais o uso de memória, forçando certas camadas a usarem quantização de 2 bits (o padrão é 4 bits). Em média, o AFM no dispositivo pode compactar apenas cerca de 3,5 bits por peso (bpw) sem perda significativa de qualidade.

Avalie

A equipe de pesquisa usa ferramentas comuns de avaliação de código aberto e benchmarks para avaliar o modelo pré-treinado de AFM. A Tabela 2 mostra os resultados do AFM no dispositivo e do servidor AFM no HELM MMLU v1.5.0.



Esses benchmarks demonstram que o modelo pré-treinado do AFM possui fortes recursos de linguagem e inferência, fornecendo uma base sólida para pós-treinamento e ajuste fino de recursos.





Os resultados da comparação do AFM com modelos de código aberto (Phi-3, Gemma-1.1, Llama-3, Mistral, DBRX-Instruct) e modelos comerciais (GPT3.5 e GPT-4) são mostrados na Figura 3 abaixo. Os modelos AFM são preferidos pelos avaliadores humanos em comparação com outros modelos. Em particular, em comparação com Phi-3-mini, o AFM-on-device alcançou uma taxa de vitória de 47,7%, apesar de um tamanho de modelo 25% menor, ainda melhor do que as linhas de base fortes de código aberto Gemma-7B e Mistral-7B.



Para medir a capacidade do modelo de gerar respostas que seguem instruções em prompts, a equipe de pesquisa avaliou o AFM no dispositivo e o AFM no benchmark IFEval. Os resultados são mostrados na Figura 4 abaixo:



Conforme mostrado na Figura 5, o servidor AFM atinge a melhor precisão geral, melhor que Gemini-1.5-Pro-Preview-0514 e GPT-4.



A Apple comparou o AFM a alguns dos melhores modelos, bem como a modelos menores de código aberto. Conforme mostrado na Figura 6, o AFM no dispositivo pode atingir desempenho equivalente ou melhor em comparação com Gemma-7B e Mistral-7B. O desempenho do servidor AFM é significativamente melhor que o DBRX-Instruct e o GPT3.5 e é comparável ao GPT4.



A Figura 7 compara o desempenho do AFM pós-treinado em benchmarks matemáticos. Verificou-se que o AFM no dispositivo teve um desempenho significativamente melhor do que o Mistral-7B e o Gemma-7B, embora tivesse menos da metade do seu tamanho.



A figura abaixo mostra avaliadores humanos avaliando a qualidade dos adaptadores AFM no dispositivo, Phi-3-mini, Llama-3-8B e Gemma-7B em uma tarefa resumida. A Figura 8 mostra que o adaptador AFM no dispositivo geralmente supera outros modelos.



IA responsável

O Apple Intelligence foi desenvolvido e projetado pensando na privacidade do usuário.

A Figura 9 resume as taxas de violação fornecidas pelos avaliadores humanos em diferentes modelos, sendo que menor é melhor. Tanto o AFM no dispositivo quanto o AFM-server são robustos a solicitações adversárias, com taxas de violação significativamente mais baixas do que os modelos comerciais e de código aberto.



A Figura 10 mostra que o modelo AFM é mais favorecido pelos avaliadores humanos em comparação com outros modelos.