O parâmetro de 2 bilhões do Google, Gemma 2, alcança o GPT-3.5 e roda muito rápido no iPhone

2024-08-02

Coisas inteligentes (conta pública:zhidx com）
compilarbaunilha
editarLi Shuiqing

A família de pequenos modelos de código aberto do Google DeepMind dá as boas-vindas a novos membros!

Zhidongzhi relatou em 1º de agosto que esta manhã, o Google DeepMind abriu o código-fonte do modelo leve Gemma 2 2B. Sua pontuação na arena de modelos grandes superou modelos com parâmetros maiores, como GPT-3.5 e Llama 2 70B.

▲Gema 2 2B

Com apenas 2 bilhões de parâmetros, o Gemma 2 2B pode ser executado de maneira fácil e rápida em telefones celulares, PCs e outros dispositivos terminais. De acordo com testes reais realizados por desenvolvedores no Google AI Studio, a velocidade de inferência atinge 30~40 tokens/s.

▲ Desenvolvedores testam Gemma 2 2B

Junto com o Gemma 2 2B foram lançados o Gemma Scope, uma ferramenta para melhorar a interpretabilidade do modelo, e o ShieldGemma, um modelo de classificação de segurança para filtrar conteúdo prejudicial.

Gemma Scope é baseado no autoencoder esparso (SAE) para amplificar pontos específicos do modelo e usa a arquitetura JumpReLU para otimizá-lo, ajudando assim a analisar as informações densas e complexas processadas no modelo, permitindo aos pesquisadores "ver" o modelo como um microscópio interno.

ShieldGemma foi desenvolvido para quatro áreas prejudiciais: discurso de ódio, assédio, conteúdo pornográfico e conteúdo perigoso, e excede modelos de referência como GPT-4 em testes de resposta.

A série de modelos Gemma, lançada inicialmente em fevereiro deste ano, são modelos de código aberto construídos pelo Google DeepMind com base na experiência do modelo Gemini. Em junho, o Google lançou o modelo de código aberto Gemma 2 de segunda geração, incluindo dois tamanhos de parâmetro de 9B e 27B. Entre eles, o modelo 27B rapidamente saltou para a vanguarda dos modelos de código aberto na grande arena de modelos LMSYS.

1. Derrote um modelo grande com 35 vezes mais parâmetros, sem problemas em comparação com Gemma 2

Gemma 2 2B é refinado a partir de um modelo maior e é o terceiro modelo Gemma 2 lançado pelo Google depois de 27B e 9B.

Por ser um modelo leve com apenas 2 bilhões de parâmetros, o Gemma 2 2B não sacrifica o desempenho pela portabilidade. No ranking LMSYS Large Model Arena (Chatbot Arena), Gemma 2 2B superou GPT-3.5 com pontuação de 1126 pontos, assim como seus modelos Mixtral 8x7B e Llama 2 70B com dezenas de vezes a escala de parâmetros.

▲ Resultados de Gemma 2 2B na grande arena de modelos

Alguns internautas testaram o problema de proporção de 9,9 e 9,11 do Gemma 2 2B "cambando" em muitos modelos grandes, e o Gemma 2 2B rapidamente deu a resposta correta.

▲ Respostas Gemma 2 2B

A velocidade de corrida é uma grande vantagem dos modelos leves. Quão rápido exatamente? O pesquisador de aprendizado de máquina da Apple, Awni Hannun, testou Gemma 2 2B no MLX Swift em seu iPhone 15 pro, e sua velocidade de inferência foi visivelmente rápida.

▲ Velocidade de corrida Gemma 2 2B

Após testes reais, o desenvolvedor Tom Huang disse que sua velocidade de execução no Google AI Studio é de cerca de 30 a 40 tokens/s, o que é “mais rápido que o modelo da Apple”.

Em termos de implantação, o Gemma 2 2B oferece métodos de implantação flexíveis e pode ser executado com eficiência em uma variedade de hardware, incluindo dispositivos de ponta, laptops ou implantação em nuvem com base em Vertex AI.

Os desenvolvedores podem baixar os pesos do modelo Gemma 2 2B de plataformas como Hugging Face e Kaggle para pesquisa e aplicações comerciais, ou experimentar suas funções no Google AI Studio.

Endereço de código aberto:

https://huggingface.co/google/gemma-2-2b

dois,Construa um classificador para quatro tipos de conteúdo, com taxa de resposta melhor que GPT-4

Para melhorar a segurança e acessibilidade do modelo, o Google lançou o ShieldGemma, um conjunto de modelos de classificador de conteúdo seguro construído no Gemma 2, que é usado para filtrar a entrada e a saída do modelo de IA. os modelos existentes no kit de ferramentas de IA responsável do Google. Uma adição ao conjunto de classificadores de segurança.

▲Como funciona o ShieldGemma

ShieldGemma foi desenvolvido para quatro áreas prejudiciais: discurso de ódio, assédio, conteúdo pornográfico e conteúdo perigoso, e oferece uma variedade de tamanhos de modelos para atender a diferentes necessidades, incluindo 2B, 9B e 27B. Entre eles, o modelo de parâmetros 2B é adequado para tarefas de classificação online, enquanto as versões 9B e 27B são utilizadas para fornecer maior desempenho para aplicações offline.

Nos resultados da avaliação de conjuntos de dados externos, o ShieldGemma superou modelos básicos como OpenAI Mod e GPT-4.

▲ Resultados da avaliação ShieldGemma

Em simultâneo também foi divulgado o relatório técnico da ShieldGemma, que explicou o método de construção, fonte de dados e eficácia do modelo. No teste de resposta de quatro tipos de conteúdo prejudicial, a taxa de resposta do ShieldGemma em três escalas é melhor que a do GPT-4.

▲ Teste de resposta ShieldGemma

Endereço do relatório técnico:

https://storage.googleapis.com/deepmind-media/gemma/shieldgemma-report.pdf

três,“Microscópio” dentro de modelos grandes para analisar o comportamento do modelo sem código

A fim de estudar os princípios de funcionamento interno dos modelos de linguagem, o Google lançou um autoencoder escasso e abrangente, Gemma Scope. Ele atua como um microscópio, ajudando os pesquisadores a “ver” o interior do modelo para entender melhor como ele funciona.

O Gemma Scope amplifica pontos específicos do modelo usando Sparse Autoencoders (SAEs). Esses SAEs ajudam a analisar as informações densas e complexas processadas no modelo, expandindo-as em um formato mais fácil de analisar e compreender.

▲ Representação estilizada da ativação do modelo usando interpretação SAE

Ao estudar essas visões expandidas, os pesquisadores podem compreender como o Gemma 2 reconhece padrões, processa informações e, em última análise, faz previsões, explorando como construir sistemas de IA que sejam mais fáceis de entender, mais confiáveis e confiáveis.

Anteriormente, a pesquisa sobre SAE concentrava-se principalmente no estudo do funcionamento interno de uma única camada em um modelo em miniatura ou em um modelo grande. A inovação do Gemma Scope é que ele treina SAE em cada saída de camada e subcamada do modelo Gemma 2. Gerou mais de 400 SAEs e aprendeu mais de 30 milhões de recursos.

▲ Exemplo de ativação do recurso de descoberta SAE do Gemma Scope

Gemma Scope também usa a nova arquitetura JumpReLU SAE para treinamento. É difícil para a arquitetura SAE original equilibrar os dois objetivos de detectar quais recursos estão presentes e estimar sua força. A arquitetura JumpReLU consegue atingir esse equilíbrio com mais facilidade, reduzindo significativamente os erros.

Gemma Scope abriu um total de mais de 400 SAEs gratuitos, cobrindo todas as camadas do Gemma 2 2B e 9B, e fornece demonstrações interativas. Os pesquisadores podem estudar as características do SAE e analisar o comportamento do modelo sem escrever código.

▲ Demonstração interativa do Gemma Scope

Endereço de demonstração:

https://www.neuronpedia.org/gemma-scope

Endereço do relatório técnico:

https://storage.googleapis.com/gemma-scope/gemma-scope-report.pdf

Conclusão: GerativoIAO vento sopra em direção ao pequeno modelo eIASegurança

Desde o desenvolvimento da IA generativa, o modelo passou de parâmetros de “volume” e escala de “volume” para agora “volume” leve e segurança de “volume”, o que reflete que no processo de implementação da tecnologia, está mais próximo dos usuários, menor custo e mais capazes de atender às necessidades específicas.

PCs e telefones celulares com IA estão gradualmente entrando na vida dos consumidores. Nesse processo, como "embalar" modelos grandes em dispositivos terminais compactos e, ao mesmo tempo, garantir a privacidade e a segurança do usuário é um problema urgente que os principais fabricantes de IA precisam resolver.

notícias

O parâmetro de 2 bilhões do Google, Gemma 2, alcança o GPT-3.5 e roda muito rápido no iPhone

Introdução

minhas informações de contato