notícias

Substitua o Transformer e o modelo de código aberto 7B chega imediatamente ao topo! Qualquer sequência longa pode ser processada

2024-08-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Mingmin vem do Templo Aofei
Qubits | Conta pública QbitAI

Basta substituir a arquitetura Transformer e o desempenho será imediatamente melhorado em todos os aspectos, tornando possível se tornar o melhor modelo open source da mesma escala!

(O mecanismo de atenção não existe mais)

Este é o mais recenteFalcon Mamba 7BModelo.



ele usaArquitetura do modelo de linguagem do espaço de estado Mambapara lidar com várias tarefas de geração de texto.

Ao cancelar o mecanismo de atenção tradicional, o problema da baixa eficiência computacional quando o modelo processa sequências longas é efetivamente melhorado.

ele pode lidarinfinitamente longosequência, mas os requisitos de memória não aumentam.

Não importa quão longo seja o contexto,O tempo para gerar cada token é basicamente o mesmo

Como resultado, o desempenho do modelo Falcon Mamba foi melhorado em todos os aspectos, derrotando muitos modelos da arquitetura Transformer, como Llama-3.1 (8B), Mistral (7B) e Falcon-2 (11B).



Os resultados acima foram trazidos pelo Instituto de Inovação Tecnológica (TII) de Abu Dhabi, nos Emirados Árabes Unidos, que é a equipe de desenvolvimento do modelo Falcon.

Esta série contém um total de quatro modelos: versão básica, versão de ajuste fino de instrução, versão de 4 bits e versão de 4 bits de ajuste fino de instrução.

O modelo mais recente está aberto sob a licença TII Falcon 2.0, que está sob a licença Apache 2.0.

Os internautas gritaram: As regras do jogo estão prestes a mudar!



O primeiro SSLM de código aberto do mundo

Em termos de desempenho, o Falcon Mamba 7B supera muitos modelos de código aberto em todos os aspectos.



É baseado na primeira geração do Mamba.

Mamba é ummodelo de espaço de estado(SSM, Modelo de Espaço de Estados). Ele combina as características de RNN e CNN e melhora a eficiência do processamento de informações de texto, introduzindo um mecanismo de seleção que permite ao modelo propagar ou esquecer seletivamente informações com base na entrada atual.

Ao mesmo tempo, ele projeta um algoritmo paralelo com reconhecimento de hardware que funciona em modo recursivo, evitando o acesso IO entre os níveis de memória da GPU e melhorando a eficiência da computação.

Por fim, também simplifica a arquitetura, combinando a arquitetura SSM e o bloco MLP no Transformer em um único bloco.

Mudar do Transformer para o Mamba permite que o modelo Falcon lide com sequências arbitrariamente longas sem aumentar a memória. Especialmente adequado para uma única GPU A10 de 24 GB.

O estudo também discute duas abordagens diferentes para o processamento de sequências.

O método de pré-preenchimento paralelo é adequado para processamento paralelo de GPU e possui altos requisitos de memória. O método de preenchimento sequencial é adequado para modelos SSM e pode lidar com sequências de qualquer comprimento sem estar sujeito a restrições de memória;



Para garantir a estabilidade do treinamento em larga escala, o modelo Falcon Mamba usa uma camada adicional de normalização RMS.

A camada de normalização RMS pode simplificar o processo de cálculo do LayerNorm e reduzir o valor do cálculo.

O modelo foi treinado usando dados 5500GT, provenientes principalmente do conjunto de dados RefedWeb e de dados públicos. O processo de treinamento é basicamente uniforme, e uma pequena quantidade de dados de planejamento de alta qualidade é adicionada nas fases posteriores do treinamento, o que ajuda a otimizar o modelo na fase final.

No teste de geração de tokens em H100 com tamanho de lote de 1 e comprimento de palavra de prompt de 1 a 130k, Falcon Mamba foi capaz deMantenha a taxa de transferência estável ao gerar novos tokens, o que significa que seu desempenho não é afetado pelo comprimento do texto e pode lidar com sequências longas de maneira estável, sem degradação do desempenho.





Falcon Mamba oferece suporte a várias APIs Hugging Face, incluindo AutoModelForCausalLM e pipline.

Também foi lançada uma versão de ajuste de instruções, que pode tornar o modelo mais preciso ao ajustar mais 5 bilhões de tokens.

Os modelos mais recentes podem ser acessados ​​em Hugging Face e GitHub~

Links de referência:
https://huggingface.co/blog/falconmamba#hardware-performance