A primeira série de blogs do ex-cientista do Google Yi Tay de "The Story of LLM": Por que o BERT desapareceu?

2024-07-21

Novo Relatório de Sabedoria

Editor: Yongyong Qiao Yang

[Introdução à Nova Sabedoria]O ex-cientista do Google Yi Tay lançou a série de blogs "Model Architecture in the LLM Era" A primeira postagem do blog é sobre: Como o BERT baseado na arquitetura somente do codificador foi substituído pelo T5 baseado na arquitetura do codificador-decodificador e analisou o. extinção do BERT Toda a história e as vantagens e desvantagens dos diferentes modelos arquitetônicos Tomar a história como lição é de grande importância para a inovação futura.

Yi Tay, um ex-cientista do Google que gosta de blogar, estava entediado demais para voar recentemente, então escreveu um artigo detalhado discutindo um tópico que preocupa muitas pessoas atualmente: o fluxo e refluxo das arquiteturas de modelo na era LLM .

Desta vez Yi Tay tentou desvendar tudo o que está acontecendo na nova era do LLM, sobre “O que aconteceu com o BERT e o T5”? Também sobre a ascensão e queda do codificador Transformer, PrefixLM e alvos de remoção de ruído.

Endereço do blog: https://www.yitay.net/blog/model-architecture-blogpost-encoders-prefixlm-denoising

Por que o modelo somente com codificador “não é mais popular”? Por que o BERT é tão poderoso, mas não consegue “escalá-lo”?

É difícil ver a imagem completa quando você está nela. Em relação a essas questões que fazem as pessoas do setor coçarem a cabeça, Yi Tay compartilhou suas observações e pensamentos.

E Yi Tay também disse que este é apenas o primeiro de uma série de postagens no blog, e você pode esperar mais conteúdo dele sobre o tema "Arquitetura de Modelos na Era LLM".

Decidi iniciar uma nova série de atualizações no blog sobre arquitetura de modelos na era LLM. Abaixo está a Parte 1, cobrindo a arquitetura mais ampla de codificadores/codificadores-decodificadores de transformadores, PrefixLM e alvos de remoção de ruído. Uma pergunta que muitas pessoas farão é: "As pessoas que estavam engajadas na pesquisa de linguagem e PNL há cerca de 5 anos estavam coçando a cabeça, imaginando para onde foram os modelos de codificadores. Se o BERT é tão eficaz, por que não expandir sua escala?" Além disso, o que aconteceu com o modelo codificador-decodificador ou codificador puro? O alvo de remoção de ruído é bom? Compartilho meus pensamentos nesta postagem do blog.

Yi Tay é um verdadeiro "contador de histórias" na era LLM. Em seu blog, ele resumiu concisamente o desenvolvimento da arquitetura de modelos nos últimos anos e apresentou seus próprios insights.

fundo

Para facilitar a leitura das pessoas que não estão tão próximas da tecnologia, Yi Tay primeiro explicou o pano de fundo da história.

Nos últimos anos, houve três paradigmas importantes na arquitetura de modelos.

modelos somente codificador (como BERT), modelos codificador-decodificador (como T5) e modelos somente decodificador (como a série GPT).

Mas as pessoas estão muito confusas sobre essa divisão e há muitos mal-entendidos, então esse é o propósito de Yi Tay escrever esta postagem no blog. Ele espera ajudar todos a estabelecer um entendimento mais claro.

A primeira coisa a deixar claro é que o modelo codificador-decodificador ainda é, na verdade, um modelo autorregressivo. O decodificador no modelo codificador-decodificador ainda é um decodificador causal, tanto literal quanto essencialmente.

O texto é primeiro passado para o codificador e depois enviado para o decodificador por meio do mecanismo de atenção cruzada, em vez de preencher previamente o modelo do decodificador.

Portanto, o modelo T5 também é um modelo de linguagem!

Uma variante dele é o Prefix Language Model, ou arquitetura PrefixLM, que faz quase a mesma coisa, exceto pelo mecanismo de atenção cruzada. (E alguns outros pequenos detalhes, como compartilhamento de peso entre codificador/decodificador e nenhum gargalo do codificador)

PrefixLM às vezes é chamado de decodificador não causal. Resumindo, codificador-decodificador, codificador somente e PrefixLM não são tão diferentes!

Se você ainda tem dúvidas sobre isso, Yi Tay também deu uma referência – o maravilhoso discurso de Hyung Won em Stanford em abril deste ano, no qual ele explicou habilmente a relação entre esses modelos.

Endereço da palestra: https://www.youtube.com/watch?v=orDKvo8h71o

Ao mesmo tempo, o método de eliminação de ruído de modelos somente de codificador, como o BERT, é diferente (ou seja, no local) e depende, até certo ponto, da "cabeça de tarefa" adicional adicionada para funcionar com o modelo base pré-treinado. operações.

O alvo de eliminação de ruído do BERT foi posteriormente aplicado a modelos como o T5, mas com certas modificações e um formato sequência a sequência.

Dito isto, é importante notar que a remoção de ruído no T5 em si não é exatamente uma nova função objetivo (no sentido de aprendizado de máquina), mas sim uma transformação de dados entre entradas, ou seja, você também pode No decodificador de causa e efeito abranger o alvo de corrupção treinar!

As pessoas sempre pensam que o modelo codificador-decodificador deve ser um modelo de eliminação de ruído, e parte da razão para essa ilusão é que o modelo T5 é muito representativo.

No entanto, nem sempre é esse o caso.

Você pode usar uma tarefa de modelagem de linguagem regular (ou seja, CLM) para treinar o codificador-decodificador ou pode usar uma tarefa de corrupção de extensão para treinar o decodificador causal.

Conforme afirmado anteriormente, esta é principalmente uma transformação de dados.

Deve-se notar também que, em geral, um modelo codificador-decodificador de 2N parâmetros tem o mesmo custo computacional que um modelo somente decodificador de N parâmetros, portanto sua relação FLOP/parâmetro é diferente.

Com base em nossa compreensão do contexto acima, entraremos agora no texto——

Em relação aos objetivos de remoção de ruído (é inútil? Não é escalável? É muito simples?)

Para ser claro, o objetivo de eliminação de ruído mencionado por Yi Tay refere-se a qualquer variante de corrupção de extensão.

Às vezes também é chamado de preenchimento ou preenchimento do espaço em branco. Há muitas maneiras de expressá-lo (bem como comprimento do intervalo, aleatoriedade, tokens sentinela, etc.).

Embora os objetivos de eliminação de ruído nos modelos estilo BERT estejam em sua maioria implementados, uma abordagem um pouco mais moderna é o "estilo T5", que é a transformação de dados tratada por modelos codificador/ecoder ou somente decodificador.

Nessa transformação de dados, o token da máscara é simplesmente “movido para trás” para que o modelo faça previsões.

O principal objetivo do pré-treinamento é construir representações internas úteis que se alinhem com as tarefas posteriores da maneira mais eficiente e eficaz.

Quanto melhores forem as representações internas, mais fácil será usar essas representações aprendidas para algo útil posteriormente.

Como todos sabemos, o objetivo simples de “modelagem de linguagem causal” (CLM) de prever os próximos tokens faz isso bem e se tornou a base da revolução LLM. A questão agora é se o alvo de eliminação de ruído é igualmente bom.

Pela informação pública, sabemos que o T5-11B funciona muito bem mesmo após alinhamento/SFT (o Flan-T5 XXL tem uma pontuação MMLU de 55+, o que é muito bom para um modelo deste tamanho na época).

Portanto, podemos tirar algumas conclusões: A transferência da capacidade de remoção de ruído dos alvos do pré-treinamento para o alinhamento pode ajudar o modelo a funcionar melhor na escala de 11B.

A visão de Yi Tay é que os alvos de remoção de ruído são ótimos, mas não o suficiente como alvo independente.

Podemos descrever sua desvantagem como menor “exposição a perdas”. No alvo de eliminação de ruído, apenas um pequeno número de tokens é mascarado e usado no processo de aprendizagem (ou seja, atualização do valor da perda).

Em contraste, na modelagem de linguagem convencional, a utilização de tokens está próxima de 100%.

Esta característica do alvo de eliminação de ruído torna a eficiência de amostragem por FLOP bastante baixa e, portanto, coloca-o em grande desvantagem nas comparações baseadas em FLOP.

Outra desvantagem é que os alvos de eliminação de ruído são menos naturais do que a modelagem de linguagem normal porque reformata a entrada/saída de uma maneira estranha, o que os torna um pouco estranhos para o aprendizado rápido. (No entanto, esses modelos ainda podem ser ajustados para funcionar razoavelmente bem em tarefas de poucos disparos)

Portanto, Yi Tay acredita que os alvos de remoção de ruído quase só podem ser usados como um complemento à modelagem de linguagem convencional, e não como um alvo de treinamento independente.

Os primeiros dias da unidade e por que o xBERT foi extinto

A eliminação progressiva de modelos do tipo BERT é uma fase interessante, mas poucas pessoas falam sobre isso hoje em dia, é sutil.

Isso também pode explicar por que não vemos mais modelos de BERT muito grandes em execução. qual é a razão?

Esta é principalmente uma questão de unificação e transformação de paradigmas de tarefa/modelagem.

Os modelos estilo BERT eram desajeitados, mas foram realmente obsoletos porque as pessoas queriam usar um modelo para todas as tarefas, então foi introduzida uma maneira melhor de eliminar ruído - usando modelos autorregressivos.

Entre 2018 e 2021, houve uma mudança de paradigma oculta, do ajuste fino de tarefa única para modelos multitarefa em grande escala.

A atenção de todos foi lentamente atraída para o modelo SFT unificado, que é também o modelo geral unificado que vemos hoje.

É muito difícil fazer isso com o BERT.

No entanto, esta “falta de jeito” do BERT tem pouco a ver com a tarefa de “eliminação de ruído”. Se ainda quiser usar este tipo de modelo, você pode expressar a tarefa de “redução de ruído” de outra forma (como T5).

Portanto, os modelos do estilo BERT estão quase obsoletos neste momento, à medida que surge uma alternativa estritamente melhor.

Mais especificamente, os modelos codificador-decodificador e somente decodificador são capazes de expressar múltiplas tarefas simultaneamente sem exigir cabeçalhos de classificação específicos de tarefa.

Ao mesmo tempo, pesquisadores e engenheiros descobriram que, para o modelo codificador-decodificador, se o codificador for simplesmente removido e sobrar apenas o decodificador, seu desempenho será tão competitivo quanto o codificador do BERT.

Além disso, deixar apenas o decodificador também mantém a vantagem da atenção bidirecional que torna o BERT superior aos modelos GPT em tarefas de pequena escala (geralmente em escala de produção).

O valor do alvo de remoção de ruído

Semelhante ao funcionamento da modelagem de linguagem regular, o objetivo de pré-treinamento de eliminação de ruído também aprende a prever a próxima palavra.

No entanto, ao contrário do CLM convencional, este último realiza a transformação de dados na sequência para aprender a “preencher os espaços em branco” em vez de simplesmente prever o texto que aparece naturalmente da esquerda para a direita.

É importante notar que os objetivos de remoção de ruído são às vezes chamados de “tarefas de preenchimento” e às vezes são misturados com tarefas regulares de modelagem de linguagem para pré-treinamento.

Embora os detalhes específicos de configuração e implementação possam variar, o LLM atual provavelmente usará alguma combinação de modelagem e preenchimento de linguagem.

E, curiosamente, o híbrido de modelagem e preenchimento de linguagem parece ter se espalhado na mesma época (por exemplo, UL2, FIM, GLM, CM3), com muitas equipes trazendo seu próprio “sabor” ao híbrido de alguma forma.

Aliás, o maior modelo divulgado e relatado publicamente treinado desta forma é o PaLM-2.

É importante notar que o treinamento misto não precisa necessariamente ser misturado ao mesmo tempo, mas pode ser empilhado sequencialmente.

Por exemplo, Flan-T5 foi inicialmente treinado em tokens de corrupção 1Tspan e depois mudou para a tarefa de modelagem de linguagem de prefixo de tokens 100B antes do ajuste fino das instruções.

De certa forma, pode-se dizer que este é um modelo híbrido alvo de eliminação de ruído/modelagem de linguagem.

Yi Tay também compartilhou uma experiência não oficial: as representações aprendidas pela remoção de ruído de alvos têm melhor desempenho em certas categorias de tarefas e às vezes são amostradas de maneira mais eficiente.

Modelos ajustados treinados com esse objetivo geralmente produzem modelos SFT melhores, especialmente em escalas menores.

Falando em ajuste fino de tarefa única, podemos ver que o modelo PaLM-1 62B é derrotado pelo menor T5.

Atenção bidirecional + alvos de eliminação de ruído podem desempenhar um papel importante em um alcance relativamente pequeno! Acredito que muitos profissionais já viram esta situação agora, especialmente na produção.

Vantagens e desvantagens da arquitetura do codificador/decodificador

A arquitetura codificador-decodificador, na verdade, tem algumas vantagens sobre o modelo regular apenas de decodificador.

O lado do codificador não é restringido por máscaras causais, na medida em que você pode empilhar camadas de atenção como um louco com agrupamento agressivo ou qualquer forma de atenção linear sem se preocupar com as limitações dos designs autorregressivos.

Esta é uma boa maneira de passar um "contexto" menos importante para o codificador. Você também pode diminuir o codificador, o que também é bom.

Um exemplo no Charformer ilustra a necessidade da arquitetura codificador-decodificador. Podemos fazer muito barulho sobre o codificador para aliviar os defeitos de velocidade ao codificar no nível de byte.

Mas, ao mesmo tempo, uma desvantagem do codificador-decodificador em comparação com o PrefixLM é que a entrada e o destino devem ter comprimentos de alocação fixos.

Por exemplo, se o comprimento de entrada predeterminado for de 1.024 tokens, o lado do codificador deverá ser preenchido com esse valor, o que pode causar muito desperdício computacional.

Em contraste, no PrefixLM, entradas e alvos podem ser conectados diretamente, aliviando assim este problema.

Relevância para os modelos atuais e principais conclusões

Seja de uma perspectiva de arquitetura de modelo ou de uma perspectiva de pré-treinamento, para se tornar um pesquisador e praticante competente de LLM, a capacidade de usar o viés indutivo para o raciocínio é essencial. E compreender as nuances fundamentais entre diferentes arquiteturas de modelos pode ajudar na inovação futura.

Yi Tay compartilhou suas principais conclusões:

Os modelos codificador-decodificador e somente decodificador são modelos autorregressivos, mas existem diferenças no nível de implementação, cada um com vantagens e desvantagens. Suas tendências indutivas são sutilmente diferentes, e o uso ideal realmente depende do caso de uso posterior e das limitações consideráveis do aplicativo. Para a maioria das aplicações LLM e casos de uso de nicho, os modelos somente de codificador estilo BERT são considerados obsoletos.
O alvo de eliminação de ruído é principalmente um complemento ao CLM. Como “alvo auxiliar” no pré-treinamento, geralmente traz alguma ajuda. Embora isso geralmente aconteça com modelos de código (ou seja, preenchimento de código), nos modelos de uso geral atuais não é incomum usar um CLM com algum objetivo de eliminação de ruído para pré-treinamento (embora isso não seja um requisito).
Mecanismos de atenção bidirecionais ajudam muito em escalas menores, mas muitas vezes são apenas uma opção em modelos de escala maior. Yi Tay acredita que a atenção bidirecional tem um viés indutivo, como muitos outros tipos de modificações na arquitetura do Transformer.

Finalmente, para resumir, não vimos nenhum escalonamento bem-sucedido do xBERT: o modelo BERT foi preterido em favor do modelo T5 de eliminação de ruído (autoregressivo) mais flexível.

Isto se deve principalmente à unificação de paradigmas, e todos desejam usar modelos gerais em vez de modelos específicos de tarefas.

Ao mesmo tempo, a eliminação de ruído autorregressiva às vezes é incorporada ao CLM como um objetivo de treinamento incidental.

Sobre o autor

Yi Tay é atualmente cofundador e cientista-chefe da startup de IA Reka. Reka se dedica a construir modelos generativos de última geração e ao avanço da pesquisa em inteligência artificial.

Antes disso, ele foi pesquisador sênior do Google Brain, envolvido em LLM e trabalhos relacionados à IA, e também atuou como diretor técnico da equipe de pesquisa dos EUA no Google Research, trabalhando em extensões e arquitetura do Transformer.

Enquanto estava no Google, Yi Tay contribuiu com aproximadamente 20 lançamentos de produtos.

Durante o mandato de Yi Tay como cientista pesquisador no Google, a maioria de seus trabalhos publicados giravam em torno do Transformer, especialmente relacionados à eficiência, escalabilidade e pesquisa arquitetônica.

Além de blogar, Yi Tay também adora música clássica. Ele disse: “Se eu não tivesse me tornado um pesquisador, talvez quisesse me tornar um músico profissional”. Curiosamente, ele recebeu um diploma nesse sentido.

Estou ansioso para que Yi Tay faça um vôo de longa distância novamente para poder vê-lo atualizando seu blog novamente.

Referências:

https://x.com/YiTayML/status/1813262126162845772

notícias

A primeira série de blogs do ex-cientista do Google Yi Tay de "The Story of LLM": Por que o BERT desapareceu?

Introdução

minhas informações de contato