notícias

O iPhone pode operar pequenos canhões de aço 2B!Google Gemma 2 está chegando, o microscópio mais poderoso pode dissecar o cérebro do LLM

2024-08-01

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Novo Relatório de Sabedoria

Editor: Departamento Editorial

[Introdução à Nova Sabedoria] O pequeno modelo de bomba nuclear do Google DeepMind está aqui, Gemma 2 2B derrotou diretamente GPT-3.5 e Mixtral 8x7B, que têm parâmetros várias ordens de magnitude maiores! O Gemma Scope lançado ao mesmo tempo rompe a caixa preta do LLM como um microscópio, permitindo-nos ver claramente como o Gemma 2 toma decisões.

O modelo pequeno do Google DeepMind é novo de novo!

Agora mesmo, o Google DeepMind lançou o Gemma 2 2B.



É destilado de Gemma 2 27B.

Embora seus parâmetros sejam de apenas 2,6B, sua pontuação na arena LMSYS ultrapassou GPT-3,5 e Mixtral 8x7B!


Nos benchmarks MMLU e MBPP, obteve excelentes resultados de 56,1 e 36,6 respectivamente, seu desempenho superou o modelo anterior Gemma 1 2B em mais de 10%.

O modelo pequeno derrotou o modelo grande que era várias ordens de grandeza maior, confirmando mais uma vez a direção dos modelos pequenos com os quais a indústria está muito otimista recentemente.


Hoje, o Google anunciou um total de três novos membros da família Gemma 2:

  • Gema 2 2B:O modelo 2B leve alcança o maior equilíbrio entre desempenho e eficiência

  • EscudoGemma:Um modelo classificador de conteúdo seguro construído no Gemma 2 para filtrar a entrada e a saída do modelo de IA para garantir a segurança do usuário

  • Escopo da Gemma:Uma ferramenta de interpretabilidade que fornece uma visão incomparável do funcionamento interno do seu modelo

Em junho nasceram os modelos 27B e 9B Gemma 2.

Desde o seu lançamento, o modelo 27B rapidamente se tornou um dos principais modelos de código aberto nas grandes classificações de modelos, superando até mesmo modelos populares com o dobro do número de parâmetros em conversas reais.


Gemma 2 2B: disponível instantaneamente no seu dispositivo

O modelo pequeno e leve Gemma 2 2B é destilado do modelo grande e seu desempenho não é inferior.

Na grande arena de modelos LMSYS, o novo modelo alcançou uma pontuação impressionante de 1130, que está no mesmo nível dos modelos com 10x os parâmetros.

GPT-3.5-Turbo-0613 marcou 1117 e Mixtral-8x7b marcou 1114.


Isso mostra que Gemma 2 2B é o melhor modelo ponta a ponta.


Alguns internautas deixaram o Gemma 2 2B quantizado rodar no MLX Swift no iPhone 15 Pro, e a velocidade foi surpreendentemente rápida.



Especificamente, ele pode ser implantado em vários dispositivos terminais, incluindo telefones celulares, laptops e até mesmo na poderosa nuvem usando Vertex AI e Google Kubernetes Engine (GKE).

Para acelerar o modelo, ele é otimizado através do NVIDIA TensorRT-LLM, que também está disponível na plataforma NVIDIA NIM.


O modelo otimizado funciona em diversas implantações de plataforma, incluindo data centers, nuvens, estações de trabalho locais, PCs e dispositivos de borda.

Ele também pode suportar módulos RTX, GPU RTX e Jetson para completar a implantação marginal de IA.

Além disso, Gemma 2 2B integra perfeitamente Keras, JAX, Hugging Face, NVIDIA NeMo, Ollama, Gemma.cpp, etc., e em breve será integrado ao MediaPipe para simplificar o desenvolvimento.


É claro que, assim como o Gemma 2, o modelo 2B também pode ser usado para pesquisa e uso comercial.

Mesmo porque seu volume de parâmetros é baixo o suficiente, ele pode ser executado na camada GPU T4 gratuita do Google Colab, reduzindo o limite de desenvolvimento.

Atualmente, todo desenvolvedor pode baixar os pesos do modelo Gemma 2 do Kaggle, Hugging Face e Vertex AI Model Garden, e também pode testar suas funções no Google AI Studio.


Endereço do armazém: https://huggingface.co/collections/google/gemma-2-2b-release-66a20f3796a2ff2a7c76f98f

ShieldGemma: o classificador de segurança de última geração

Como o próprio nome sugere, ShieldGemma é o classificador de segurança mais avançado, garantindo que o conteúdo de saída de IA seja atraente, seguro e inclusivo, além de detectar e reduzir a saída de conteúdo prejudicial.

ShieldGemma foi projetado para atingir especificamente quatro áreas prejudiciais principais:

- discurso de ódio

- Conteúdo de assédio

- Conteúdo explícito

- Conteúdo perigoso


Esses classificadores de código aberto complementam o conjunto existente de classificadores de segurança do Google no kit de ferramentas de IA responsável.

O kit de ferramentas inclui um método para criar classificadores específicos de políticas com base em pontos de dados limitados, bem como classificadores prontos para uso do Google Cloud fornecidos por meio de API.

ShieldGemma é baseado no Gemma 2, o classificador de segurança líder do setor.

Ele fornece vários tamanhos de parâmetros de modelo, incluindo 2B, 9B e 27B, todos otimizados para a velocidade NVIDIA e podem ser executados com eficiência em vários hardwares.

Entre eles, o 2B é muito adequado para tarefas de classificação online, enquanto as versões 9B e 27B proporcionam maior desempenho para aplicações offline com menores requisitos de latência.


Escopo Gemma: Revelando o processo de tomada de decisão de IA por meio de autoencoders esparsos de código aberto

Outro destaque lançado ao mesmo tempo é o escasso autoencoder-Gemma Scope de código aberto.

O que está acontecendo dentro do modelo de linguagem? Esse problema intriga pesquisadores e desenvolvedores há muito tempo.

O funcionamento interno dos modelos de linguagem é muitas vezes um mistério, mesmo para os investigadores que os treinam.


O Gemma Scope é como um microscópio poderoso que amplia pontos específicos do modelo por meio de autoencoders esparsos (SAEs), facilitando a interpretação do funcionamento interno do modelo.

Com o Gemma Scope, pesquisadores e desenvolvedores ganham transparência sem precedentes no processo de tomada de decisão do modelo Gemma 2.

Gemma Scope é uma coleção de centenas de autoencoders esparsos (SAE) gratuitos e abertos para Gemma 2 9B e Gemma 2 2B.

Esses SAEs são redes neurais especialmente projetadas que nos ajudam a interpretar as informações densas e complexas processadas pelo Gemma 2, expandindo-as para um formato mais fácil de analisar e compreender.

Ao estudar essas visões ampliadas, os pesquisadores podem obter informações valiosas sobre como o Gemma 2 reconhece padrões, processa informações e faz previsões.

Com o Gemma Scope, a comunidade de IA pode construir mais facilmente sistemas de IA que sejam mais compreensíveis, responsáveis ​​e confiáveis.

Ao mesmo tempo, o Google DeepMind também divulgou um relatório técnico de 20 páginas.


Relatório técnico: https://storage.googleapis.com/gemma-scope/gemma-scope-report.pdf

Em resumo, Gemma Scope tem as três inovações a seguir -

  • SAEs de código aberto: mais de 400 SAEs disponíveis gratuitamente cobrindo todos os níveis do Gemma 2 2B e 9B

  • Demonstração interativa: explore os recursos SAE e analise o comportamento do modelo na Neuronpedia sem escrever código

  • Biblioteca de recursos fácil de usar: fornece código e exemplos para interagir com SAEs e Gemma 2

Interpretar o funcionamento interno dos modelos de linguagem

Por que o problema de interpretabilidade dos modelos de linguagem é tão difícil?

Isso começa com o princípio operacional do LLM.

Quando você faz uma pergunta ao LLM, ele converte sua entrada de texto em uma série de "ativações". Essas ativações mapeiam as relações entre as palavras inseridas, ajudando o modelo a fazer conexões entre palavras diferentes e gerar respostas adequadas.

À medida que o modelo processa a entrada de texto, as ativações de diferentes camadas na rede neural do modelo representam vários conceitos de nível progressivamente superior, que são chamados de "recursos".


Por exemplo, as primeiras camadas do modelo podem aprender fatos como Jordan joga basquete, enquanto as camadas posteriores podem identificar conceitos mais complexos, como a autenticidade de um texto.


Exemplo de interpretação de ativações de modelo usando autoencoders esparsos - como o modelo lembra o fato de que "a cidade luz é Paris".Você pode ver que existem conceitos relacionados ao francês, enquanto conceitos não relacionados não.

No entanto, os pesquisadores de interpretabilidade têm enfrentado um problema fundamental: a ativação do modelo é uma mistura de muitos recursos diferentes.

Nos estágios iniciais da pesquisa, os pesquisadores esperavam que os recursos nas ativações das redes neurais pudessem ser alinhados com neurônios individuais, ou nós de informação.

Mas, infelizmente, na prática, os neurônios estão ativos para muitas características irrelevantes.

Isso significa que não há uma maneira óbvia de saber quais recursos fazem parte da ativação.

E é exatamente aí que entram os codificadores automáticos esparsos.

Esteja ciente de que uma ativação específica será apenas uma mistura de alguns recursos, embora um modelo de linguagem possa ser capaz de detectar milhões ou até bilhões de recursos (ou seja, o modelo usa recursos de forma esparsa).

Por exemplo, um modelo de linguagem pode pensar na relatividade ao responder a uma pergunta sobre Einstein, mas pode não pensar na relatividade ao escrever sobre uma omelete.


Autoencoders esparsos exploram esse fato para descobrir um conjunto de recursos latentes e decompor cada ativação em um punhado de recursos.

Os pesquisadores esperam que a melhor maneira para os autoencoders esparsos realizarem essa tarefa seja encontrar os recursos essenciais que os modelos de linguagem realmente usam.

É importante ressaltar que durante esse processo, os pesquisadores não informaram ao autoencoder esparso quais recursos procurar.

Como resultado, eles foram capazes de descobrir estruturas ricas não previstas anteriormente.


No entanto, como eles não sabem imediatamente o significado exato desses recursos descobertos, eles procuram padrões significativos nos exemplos de texto que o autoencoder esparso considera os recursos como "desencadeadores".


Aqui está um exemplo onde os tokens acionados por um recurso são destacados com um gradiente azul com base na força do acionador do recurso:


Exemplo de descoberta de ativações de recursos com codificadores automáticos esparsos. Cada bolha representa um Token (palavra ou fragmento de palavra), e a cor azul variável ilustra a força desse recurso.Neste exemplo, o recurso está claramente relacionado ao idioma

O que há de único no Gemma Scope?

Comparado com os autoencoders esparsos anteriores, o Gemma Scope possui muitos recursos exclusivos.

O primeiro concentra-se principalmente no estudo do funcionamento interno de modelos pequenos ou camadas únicas de modelos grandes.


Mas se você quiser se aprofundar na pesquisa de interpretabilidade, isso envolve a decodificação de algoritmos complexos em camadas em grandes modelos.

Desta vez, pesquisadores do Google DeepMind treinaram autoencoders esparsos na saída de cada camada e subcamada do Gemma 2 2B e 9B.

O Gemma Scope construído desta forma gerou um total de mais de 400 autoencoders esparsos e obteve mais de 30 milhões de recursos (embora muitos recursos possam se sobrepor).

Isso permite aos pesquisadores estudar como os recursos evoluem ao longo do modelo e como eles interagem e se combinam para formar recursos mais complexos.

Além disso, Gemma Scope é treinado usando a arquitetura JumpReLU SAE mais recente e avançada.

A arquitetura original do autoencoder esparso geralmente tem um equilíbrio difícil entre os dois objetivos de detectar a presença de recursos e estimar a intensidade. A arquitetura JumpReLU pode alcançar mais facilmente um equilíbrio entre os dois e reduzir significativamente os erros.


É claro que treinar tantos autoencoders esparsos também é um grande desafio de engenharia e requer muitos recursos computacionais.

Nesse processo, os pesquisadores usaram cerca de 15% dos cálculos de treinamento do Gemma 2 9B (excluindo os cálculos necessários para gerar rótulos destilados) e salvaram cerca de 20 PiB de ativações em disco (aproximadamente o equivalente a um milhão de cópias do conteúdo da Enciclopédia Wiki em inglês). , gerando um total de centenas de bilhões de parâmetros esparsos do autoencoder.

Referências:

https://developers.googleblog.com/en/smaller-safer-more-transparent-advancing-responsible-ai-with-gemma/