notícias

A arquitetura não-Transformer se destaca! O primeiro modelo grande puramente desatento, superando o Llama 3.1!

2024-08-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Relatório do coração da máquina

Editor: Du Wei, Chen Chen

O grande modelo da arquitetura Mamba mais uma vez desafiou o Transformer.

Será que o modelo de arquitetura Mamba finalmente vai “se levantar” desta vez? Desde o seu lançamento inicial em dezembro de 2023, o Mamba tornou-se um forte concorrente do Transformer.

Desde então, modelos que utilizam a arquitetura Mamba continuaram a aparecer, como o Codestral 7B, o primeiro grande modelo de código aberto baseado na arquitetura Mamba lançado pela Mistral.

Hoje, o Instituto de Inovação Tecnológica (TII) de Abu Dhabi divulgou umNovo modelo Mamba de código aberto – Falcon Mamba 7B



Vamos primeiro resumir os destaques do Falcon Mamba 7B: ele pode lidar com sequências de qualquer comprimento sem aumentar o armazenamento de memória e pode ser executado em uma única GPU A10 de 24 GB.

Atualmente disponível para visualização e uso no Hugging Face, o Falcon Mamba 7B é um modelo apenas de decodificador causal que usa um novoArquitetura do modelo de linguagem espacial de estado Mamba (SSLM)para lidar com várias tarefas de geração de texto.

A julgar pelos resultados, o Falcon Mamba 7B superou os modelos líderes em sua classe de tamanho em alguns benchmarks, incluindo Llama 3 8B, Llama 3.1 8B e Mistral 7B da Meta.



O Falcon Mamba 7B está dividido em quatro modelos variantes, nomeadamente a versão básica, a versão com ajuste fino de comando, a versão de 4 bits e a versão de 4 bits com ajuste fino de comando.



Como um modelo de código aberto, o Falcon Mamba 7B adota a licença baseada no Apache 2.0 "Falcon License 2.0" para apoiar fins de pesquisa e aplicação.



Endereço do Hugging Face: https://huggingface.co/tiiuae/falcon-mamba-7b

O Falcon Mamba 7B também se tornou o quarto modelo de código aberto da TII depois do Falcon 180B, Falcon 40B e Falcon 2, e é oO primeiro modelo de arquitetura Mamba SSLM



O primeiro modelo Mamba puro universal em grande escala

Os modelos baseados em Transformers dominam há muito tempo a IA generativa. No entanto, os pesquisadores notaram que as arquiteturas Transformer podem encontrar dificuldades ao processar informações de texto mais longas.

Essencialmente, o mecanismo de atenção no Transformer entende o contexto comparando cada palavra (ou token) com cada palavra do texto, o que requer mais poder de computação e requisitos de memória para lidar com a crescente janela de contexto.

Mas se os recursos computacionais não forem dimensionados adequadamente, a inferência do modelo ficará mais lenta e o texto que exceder um determinado comprimento não poderá ser processado. Para superar esses obstáculos, a arquitetura State Space Language Model (SSLM), que funciona atualizando continuamente o estado durante o processamento de palavras, surgiu como uma alternativa promissora e está sendo implantada por muitas instituições, incluindo o TII.

O Falcon Mamba 7B usa a arquitetura Mamba SSM proposta originalmente em um artigo de dezembro de 2023 por pesquisadores da Carnegie Mellon University e da Princeton University.

A arquitetura utiliza um mecanismo de seleção que permite ao modelo ajustar dinamicamente seus parâmetros com base na entrada. Dessa forma, o modelo pode focar ou ignorar entradas específicas, semelhante ao funcionamento do mecanismo de atenção no Transformer, ao mesmo tempo que fornece a capacidade de processar longas sequências de texto (como livros inteiros) sem exigir memória adicional ou recursos computacionais.

A TII observou que a abordagem torna o modelo adequado para tarefas como tradução automática de nível empresarial, resumo de texto, visão computacional e tarefas de processamento de áudio, além de estimativa e previsão.

dados de treinamento

Falcon Mamba 7BDados de treinamento de até 5500GT, consiste principalmente no conjunto de dados RefinedWeb, complementado com dados técnicos de alta qualidade, dados de código e dados matemáticos de fontes públicas. Todos os dados são tokenizados através do tokenizer Falcon-7B/11B.

Semelhante a outros modelos da série Falcon, o Falcon Mamba 7B usa uma estratégia de treinamento em vários estágios.O comprimento do contexto aumentou de 2.048 para 8.192. Além disso, inspirado no conceito de aprendizagem do curso, o TII seleciona cuidadosamente os dados mistos ao longo da fase de formação, considerando plenamente a diversidade e complexidade dos dados.

Na fase final de treinamento, o TII usa um pequeno conjunto de dados selecionados de alta qualidade (ou seja, amostras do Fineweb-edu) para melhorar ainda mais o desempenho.

Processo de treinamento, hiperparâmetros

A maior parte do treinamento para o Falcon Mamba 7B éFeito em 256 GPUs H100 de 80 GB, é adotada uma estratégia que combina paralelismo 3D (TP=1, PP=1, DP=256) e ZeRO. A figura abaixo mostra os detalhes dos hiperparâmetros do modelo, incluindo precisão, otimizador, taxa máxima de aprendizado, redução de peso e tamanho do lote.



Especificamente, o Falcon Mamba 7B foi treinado com o otimizador AdamW, cronograma de taxa de aprendizagem WSD (warm-estabilize-decay) e o tamanho do lote aumentou de b_min=128 para b_max=2048 durante os primeiros 50 GT de treinamento.

Na fase estável, o TII usa uma taxa máxima de aprendizado η_max = 6,4 × 10 ^ −4 e, em seguida, decai para um mínimo usando um cronograma exponencial acima de 500GT. Ao mesmo tempo, o TII usa BatchScaling na fase de aceleração para reajustar a taxa de aprendizagem eta para que a temperatura do ruído Adam permaneça constante.





Todo o treinamento do modelo levou cerca de dois meses

Avaliação do modelo

Para entender como o Falcon Mamba 7B se compara aos principais modelos Transformer em sua classe de tamanho, o estudo conduziu um teste para determinar o comprimento máximo de contexto que o modelo poderia suportar usando uma única GPU A10 de 24 GB.

Os resultados mostram que o Falcon Mamba é capaz de se adaptar a sequências maiores do que os modelos atuais do Transformer, ao mesmo tempo queTeoricamente capaz de acomodar comprimentos de contexto ilimitados



Em seguida, medimos o rendimento de geração do modelo usando um tamanho de lote de 1 e uma configuração de hardware de GPU H100. Os resultados são mostrados na figura abaixo. O Falcon Mamba gera todos os tokens com taxa de transferência constante, sem qualquer aumento no pico de memória CUDA. Para modelos Transformer, o pico de memória aumenta e a velocidade de geração diminui à medida que o número de tokens gerados aumenta.



Mesmo em benchmarks padrão da indústria, o novo modelo tem desempenho melhor ou próximo dos modelos de transformadores populares, bem como dos modelos de espaço de estados puros e híbridos.

Por exemplo, nos benchmarks Arc, TruthfulQA e GSM8K, o Falcon Mamba 7B obteve 62,03%, 53,42% e 52,54% respectivamente, superando Llama 3 8 B, Llama 3.1 8B, Gemma 7B e Mistral 7B. No entanto, nos benchmarks MMLU e Hellaswag, o Falcon Mamba 7B está muito atrás desses modelos.



“O lançamento do Falcon Mamba 7B representa um grande passo em frente para a instituição, inspirando novas perspectivas e promovendo a exploração de sistemas inteligentes”, disse o investigador principal do TII, Hakim Hacid, num comunicado. Na TII, eles estão ampliando os limites dos modelos SSLM e de transformadores para inspirar mais inovação em IA generativa.

Atualmente, a série Falcon de modelos de linguagem da TII foi baixada mais de 45 milhões de vezes - tornando-se uma das versões LLM de maior sucesso nos Emirados Árabes Unidos.

O papel Falcon Mamba 7B será lançado em breve, então você pode esperar um momento.

https://huggingface.co/blog/falconmamba

https://venturebeat.com/ai/falcon-mamba-7bs-powerful-new-ai-architecture-offers-alternative-to-transformer-models/