notícias

amd lança o primeiro modelo de linguagem pequena de ia: 690 bilhões de tokens, velocidade de decodificação especulativa 3,88 vezes

2024-10-01

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

notícias de tecnologia kuai em 1º de outubro,a amd lançou seu primeiro modelo de linguagem pequena (slm), denominado "amd-135m".

comparado com o modelo de linguagem cada vez maior (llm), é menor, mais flexível e mais direcionado, e é muito adequado para implantação em empresas privadas e profissionais.

o modelo pequeno amd-135 pertence à família llama e possui duas versões:

um é o tipo básico "amd-llama-135m”, com tantos670 bilhões de tokens foram treinados durante seis dias em oito aceleradores instinct mim250 de 64 gb.

o segundo é o estendido "código amd-llama-135m”, com capítulos adicionais focados especificamente na programação20 bilhões de tokens, treinados no mesmo hardware por quatro dias.

processo de criação e implantação

ele usa um método chamado"decodificação especulativa"este método gera vários tokens candidatos em uma única passagem direta através de um modelo de rascunho menor e, em seguida, os envia para um modelo de destino maior e mais preciso para verificação ou correção.

este método pode gerar vários tokens ao mesmo tempo sem afetar o desempenho e também pode reduzir o uso de memória. no entanto, como há mais transações de dados, o consumo de energia também aumentará.

a amd também usou o código amd-llama-135m como modelo preliminar para codellama-7b para testar o desempenho com ou sem decodificação especulativa.

por exemplo, no acelerador mi250, o desempenho pode ser melhorado em até cerca de 2,8 vezes, na cpu ryzen ai, pode ser melhorado em até cerca de 3,88 vezes, e no npu ryzen ai, pode ser melhorado em até para cerca de 2,98 vezes.

decodificação especulativa

o código de treinamento, conjuntos de dados e outros recursos do modelo pequeno amd-135m são de código aberto e seguem o apache 2.0.

de acordo com a amd,seu desempenho é basicamente equivalente ou ligeiramente à frente de outros pequenos modelos de código aberto, por exemplo, hellaswag, sciq, arc-easy e outras tarefas excedem llama-68m e llama-160m, enquanto hellaswag, winogrande, sciq, mmlu, arc-easy e outras tarefas são basicamente semelhantes a gtp2-124mn e opt-125m.