ACL2024: Motor Yuntian Lifei SPACE revelado, raciocínio de modelo grande pode entrar em um novo estágio

2024-08-14

De 11 a 16 de agosto, foi realizada em Bangkok, na Tailândia, a 62ª Reunião Anual da Association for Computational Linguistics (ACL).

O artigo "Generation Meets Verification: Accelerating Large Language Model Inference with Smart Parallel Auto-Correct Decoding" da grande equipe de modelos de Yuntian Lifei foi aceito como o longo artigo ACL24 Findings. Esta é uma exibição faseada de alguns dos resultados da pesquisa do grande modelo de Yuntian Lifei.

A Conferência Anual da ACL é a conferência acadêmica número um do mundo na área de linguística computacional e processamento de linguagem natural. É organizada pela Associação Internacional de Linguística Computacional e é realizada anualmente. lista da Federação de Computação da China (CCF).

O artigo selecionado de Yuntian Lifei propôs o mecanismo SPACE - uma solução inovadora para obter aceleração sem perdas de inferência de modelos grandes. Os resultados dos testes em diferentes tipos de modelos grandes mostram queDepois de usar o mecanismo SPACE, a velocidade de inferência do modelo no conjunto de testes HumanEval aumentou de 270% a 400%., a qualidade dos resultados da inferência permanece inalterada e pode alcançar tanto "cálculo rápido" quanto "cálculo preciso".

Artigos selecionados da grande equipe de modelos Yuntian Lifei

É difícil para as soluções de raciocínio convencionais alcançar “tanto as necessidades como os desejos”

ESPAÇO éSmercadoParaleloUMauto-Ccorrigir DeA abreviatura de codificação significa "decodificação inteligente de correção automática de erros paralela".

Este esquema de raciocínio tem duas características principais: primeiro, adotasemi-autoregressivomodelo de raciocínio, que acelera muito o raciocínio; o segundo é adicionar;verificarEste método pode melhorar a velocidade de raciocínio e, ao mesmo tempo, garantir a precisão do raciocínio.

O que é "semi-autoregressivo"? Por que devemos adicionar verificação Antes de explicar essas questões, precisamos primeiro entender como o grande modelo atual "funciona".

Abra o APP do grande modelo de linguagem, digite "Qual é o grande modelo?" na caixa de diálogo, e o grande modelo produzirá sua resposta palavra por palavra: "O grande modelo é um modelo de aprendizado profundo com dezenas de milhões de parâmetros." O processo desta resposta pode ser visto Parece muito simples. Mas, na verdade, grandes modelos experimentaram vários ciclos “autoregressivos” nos bastidores.

Primeiro, o modelo grande irá primeiro prever a primeira palavra da saída - "grande" com base no conteúdo que inserimos, depois trará a palavra "grande" de volta ao final da entrada e preverá qual a próxima palavra deverá ser produzida com base no palavra "grande" . É claro que essa "previsão" não é uma "adivinhação cega" vinda do nada, mas o modelo fará um julgamento abrangente com base nos dados vistos no processo de treinamento anterior e selecionará a palavra com maior probabilidade como a próxima palavra de saída .

Neste caso, a segunda palavra de saída é "módulo". Após a saída da segunda palavra, o grande modelo trará as palavras "grande módulo" novamente ao terminal de entrada e preverá a terceira palavra gerada. Este ciclo continua até que a frase completa termine.

Este processo é "autoregressão".

Atualmente, a autorregressão é a solução principal usada para inferência de modelos grandes.Quer se trate do ChatGPT, do Llama de código aberto ou de muitos grandes modelos domésticos, eles usam principalmente soluções de inferência autorregressiva.

Diagrama esquemático do esquema autoregressivo

As vantagens e desvantagens do esquema autorregressivo também são muito óbvias. A vantagem é que garante que o conteúdo gerado seja preciso, significativo e contextualmente coerente. As desvantagens são o alto custo computacional e o longo atraso de inferência.

Para superar esses problemas, as soluções propostas pela indústria são"Semi-autoregressivo"e"Decodificação de Especulação"。

"Semi-autoregressivo" é um compromisso entre "autoregressivo" e "não autorregressivo". mencionado acima,"Autoregressivo"Utiliza as palavras geradas para prever a próxima palavra;"Não autorregressivo"É o oposto de “autoregressivo”, prevendo a frase inteira de uma só vez."Não autorregressivo"A solução pode melhorar a eficiência do raciocínio, mas a precisão do resultado é bastante reduzida. A solução "semi-autoregressiva" considera abrangentemente as vantagens e desvantagens de "autoregressivo" e "não autorregressivo" para equilibrar os requisitos de velocidade e precisão do raciocínio de modelos grandes.

No entanto, o uso da solução "semi-autoregressiva" causou novos problemas - primeiro, a maioria dos modelos grandes não pode ser usada e, segundo, a precisão não pode atender aos requisitos da indústria.Os modelos grandes convencionais são construídos de acordo com o modo de inferência autorregressiva. Se você quiser usar uma solução semi-autoregressiva, precisará treinar novamente o modelo grande do zero. Treinar um modelo grande requer muita eletricidade, poder de computação e mão de obra. Quase ninguém derrubará o modelo grande que foi finalmente treinado e recomeçará para mudar o esquema de inferência.

Outra opção é a "decodificação especulativa".Este plano é baseado em"Rascunho - Validar"Para o trabalho do processo, primeiro você precisa introduzir um modelo auxiliar com um número relativamente pequeno de parâmetros. O modelo pequeno primeiro “esboça” as respostas dos candidatos e, em seguida, o modelo grande verifica se as respostas dos candidatos estão corretas ou não. Graças ao fato de que modelos pequenos são mais rápidos no raciocínio do que modelos grandes, e modelos grandes podem verificar múltiplas respostas candidatas ao mesmo tempo. Este método de decodificação pode não apenas garantir a precisão dos resultados de saída, mas também acelerar o raciocínio.

Mas esta solução também tem desvantagens. Primeiro, é necessário primeiro fazer um modelo pequeno muito "confiável" e ser capaz de "esboçar" a resposta com rapidez e precisão, o que por si só é difícil. Em segundo lugar, os dois modelos devem ter "o mesmo texto, a mesma trilha e o mesmo sistema" entre os dois modelos. Somente alcançando um alto grau de consistência em termos de segmentadores de palavras e listas de palavras os resultados da verificação podem ser garantidos.

Mecanismo de inferência SPACE - pequenas modificações, grande aceleração

Como várias soluções não podem atender "tanto às necessidades quanto aos desejos", existe uma solução que só pode manter suas vantagens e evitar suas deficiências? Este é o mecanismo de inferência SPACE proposto pela grande equipe de modelos da Yuntian Lifei. SPACE combina as duas soluções de "ajuste fino supervisionado semi-autoregressivo" e "decodificação de correção automática" para permitir que grandes modelos gerem vários resultados em uma inferência e completem a verificação dos resultados simultaneamente para garantir a qualidade dos resultados gerados. ao mesmo tempo,Este mecanismo de inferência é adequado para qualquer modelo grande. Através do ajuste fino e otimização do modelo, quando qualquer modelo grande adota esse mecanismo de inferência, ele não apenas não precisa treinar modelos auxiliares adicionais, mas também melhora a eficiência da inferência, faz uso total de recursos de computação paralela, como GPU, e alcança alta utilização de poder de computação.

A diferença entre o esquema autoregressivo (esquerda) e o esquema SPACE (direita)

Conforme mencionado acima, a maioria dos grandes modelos de linguagem tem suas próprias propriedades "autoregressivas" e não podem aplicar diretamente a solução "semi-autoregressiva". Nesse sentido, o SPACE adota o método de "ajuste fino supervisionado semi-autoregressivo". Por meio do treinamento supervisionado, o modelo aprende a propor uma série de possíveis palavras candidatas ao encontrar a marca especial [MASK] (conforme mostrado na figura acima) . Isso permite que o modelo execute operações semelhantes a "adivinhar" durante o raciocínio e produza várias palavras candidatas mais prováveis corretas, tendo assim a capacidade de raciocínio semi-autoregressivo.

Simplificando, com o apoio do esquema de "ajuste fino supervisionado semi-autoregressivo", o grande modelo pode fazer "suposições" por si mesmo durante o raciocínio e produzir várias palavras que provavelmente estarão corretas como respostas candidatas.

Porém, assim como no exame, uma grande quantidade de conteúdo pode ser listada na minuta, mas as respostas corretas devem ser preenchidas na prova. Como garantir que está correto? Isso requer verificação dos resultados, e é isso que a "decodificação de correção automática" faz.

Especificamente, durante o raciocínio, também inserimos no modelo as palavras candidatas geradas pelo modelo grande na etapa anterior de raciocínio, permitindo que o modelo se autoverifique e determine se essas respostas candidatas estão corretas.

O método de julgamento também é muito simples. Se a palavra gerada pelo modelo corresponder à resposta candidata anterior, a palavra candidata é considerada correta. Para revisar, no raciocínio autorregressivo tradicional, se uma palavra está correta, então a palavra precisa ser reinserida no modelo de linguagem para inferir a próxima palavra.

Mas isso não é obrigatório aqui no SPACE. Como inserimos a palavra candidata no modelo com antecedência e a palavra candidata foi verificada como correta, podemos obter diretamente a nova resposta da palavra candidata correta neste momento, evitando assim a necessidade de inserir novamente a resposta no modelo e depois prossiga. Portanto, a vantagem desse mecanismo é que quando uma palavra candidata é verificada como correta, não há necessidade de realimentá-la ao modelo para gerar a próxima resposta, reduzindo assim o tempo de raciocínio.

Como analogia, o raciocínio autorregressivo tradicional pode ser comparado a uma corrida de revezamento 4x100 metros: em uma competição regular, quatro atletas precisam assumir o bastão, um por um, para completar a corrida inteira. e requer raciocínio literal. No plano do SPACE, os quatro atletas começaram a correr simultaneamente. Quando o primeiro atleta correu 100 metros e atingiu o ponto final, os demais atletas também atingiram o ponto final de sua respectiva etapa de 100 metros. Porém, o primeiro atleta precisa ser verificado após atingir a linha de chegada. Se a verificação for aprovada, a pontuação do segundo atleta poderá ser confirmada, e então o segundo atleta poderá ser verificado, e assim por diante.

Se um atleta não passar na verificação, ele precisará retornar à linha de partida dos 100 metros e recomeçar para completar a corrida. Na melhor das hipóteses, se cada um dos quatro atletas conseguir passar na verificação, então este grupo só precisa passar 1/4 do tempo em um jogo normal para completar o jogo, conseguindo assim um efeito de aceleração na pior das hipóteses, se; cada atleta não passar na verificação, então o tempo necessário será o mesmo de uma competição regular. A aprovação na verificação depende principalmente da precisão das respostas do candidato.

Ao mesmo tempo, durante o processo de inferência do modelo SPACE, também inserimos um identificador especial [MASK] na entrada para orientar o modelo grande para gerar uma versão atualizada da resposta candidata. Sob este mecanismo, cada rodada do modelo de raciocínio não apenas verifica a precisão das palavras candidatas geradas na rodada anterior, mas também fornece novas palavras candidatas para o raciocínio seguinte.

Este projeto tem como objetivoAumente a precisão das palavras candidatas, porque cada vez que uma nova resposta aparece, as palavras candidatas originais se tornarão mais precisas por meio da atualização. Este processo é como a previsão do tempo: fazemos previsões sobre as condições meteorológicas para a próxima semana todos os dias e, com o passar do tempo, a precisão das previsões meteorológicas para um dia específico no futuro aumenta gradualmente. Isso ocorre porque acumulamos mais dados de sensores ao longo do tempo, o que nos permite fornecer previsões meteorológicas mais precisas.

O método tradicional de verificação e correção é a "decodificação especulativa" mencionada acima, o que significa que você precisa primeiro treinar um modelo pequeno confiável e depois usar um modelo grande para verificá-lo. A qualidade de geração do modelo pequeno afeta muito o resultado final.

No entanto, o SPACE propôs uma nova solução que pode atingir o objetivo de geração e verificação sem utilizar pequenos modelos, e o trabalho de verificação e o trabalho de geração podem ser realizados simultaneamente. Desta forma, a eficiência e a precisão do raciocínio podem ser bastante melhoradas.

Voltemos ao exemplo inicial Quando entramos em "O que é um modelo grande?", no modo de inferência SPACE, o modelo grande irá primeiro gerar as palavras "Modelos grandes têm dezenas de milhões de parâmetros" ao mesmo tempo, e automaticamente. corrija-as ao mesmo tempo. O algoritmo de decodificação verificará imediatamente as palavras geradas, uma por uma, e apenas reterá as palavras com resultados de verificação corretos como resposta final, alcançando assim o efeito de gerar múltiplas palavras no processo de raciocínio direto de um. modelo grande, atingindo o objetivo de aceleração.

Finalmente, vamos dar uma olhada nos efeitos do SPACE.

Conduzimos experimentos em vários modelos de linguagem de código aberto de grande porte, cobrindo modelos de linguagem de grande porte convencionais com diferentes tamanhos de parâmetros, de 6 bilhões a 70 bilhões.Como pode ser visto na tabela abaixo, o SPACE tem efeitos de aceleração mais óbvios em modelos com parâmetros maiores.。

Além disso, o SPACE também pode ser usado em conjunto com outras tecnologias de aceleração de inferência, como lote contínuo, atenção flash, cache KV, quantização, etc., para aumentar a velocidade de inferência.

Para verificar este ponto de vista, implementamos o SPACE em uma estrutura de inferência convencional. Os experimentos provaram que, quando combinados com outras tecnologias de aceleração de inferência, o efeito de aceleração trazido pelo SPACE também é notável.

Grandes modelos entraram em milhares de indústrias e o “raciocínio” é crucial

Treinamento e inferência são os dois estágios principais do ciclo de vida de grandes modelos. O treinamento resolve o problema de “criar um grande modelo do zero”, enquanto a inferência resolve o problema de como aplicar grandes modelos a milhares de indústrias.

Se o ano passado for definido como o primeiro ano da explosão de grandes modelos, então este ano é o primeiro ano de implementação de aplicações de grandes modelos. Portanto, as capacidades de raciocínio de grandes modelos têm recebido cada vez mais atenção.

Yuntian Lifei fez muitos esforços para acelerar a aplicação de modelos grandes. Em termos de poder de computação, no ano passado a empresa lançou o DeepEdge10, um chip de inferência de borda de modelo grande, e lançou recentemente a placa aceleradora IPU-X6000, que pode ser aplicada à aceleração de inferência de vários modelos grandes, como linguagem, visão e multi- modalidade.

Em termos de algoritmos, Yuntian Lifei propôs o mecanismo de inferência SPACE, que melhora muito a velocidade de inferência de modelos grandes. Em termos de aplicação, o modelo de grande escala autodesenvolvido por Yuntian Lifei, Yuntian Tianshu, foi aplicado em muitos setores, como assuntos governamentais inteligentes, governança urbana, segurança inteligente, transporte inteligente, negócios inteligentes, educação inteligente, etc., explorando e criando indústria referências.

No futuro, Yuntian Lifei continuará a trabalhar arduamente e a fazer maiores contribuições para a pesquisa e desenvolvimento, aplicação e promoção de grandes tecnologias relacionadas a modelos.

Relatório/Comentários

notícias

ACL2024: Motor Yuntian Lifei SPACE revelado, raciocínio de modelo grande pode entrar em um novo estágio

Introdução

Minhas informações de contato