notícias

Cobertura da natureza: a IA treina a IA, quanto mais ela treina, mais estúpida ela se torna

2024-07-27

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Baijiao vem do Templo Aofei
Qubits | Conta pública QbitAI

Treinamento de IA A IA pode tornar a IA estúpida? !

Pesquisadores de Oxford, Cambridge e outras instituições descobriram recentemente que grandes modelos podem entrar em colapso quando treinados com dados sintéticos.Os resultados de sua pesquisa foram selecionados como os mais recentesCobertura da natureza

Direto:LIXO FORA!



Você sabe, a maioria dos grandes modelos de empresas de tecnologia agora usa dados sintéticos para aliviar a “escassez de dados”. Esta é sem dúvida uma onda de água fria derramada sobre toda a indústria.

A equipe de pesquisa deu esse exemplo.

Eles testaram o modelo OPT-125m da Meta e pediram informações sobre arquitetura medieval.



Cada ajuste fino é treinado nos dados gerados da última vez. As respostas nas primeiras rodadas foram muito boas. Como resultado, na nona vez, comecei a falar bobagens...

Que diabos é isso sobre coelhos? !

O principal autor do artigo disse ter considerado que os dados sintéticos poderiam introduzir erros em modelos grandes, mas não esperava que os modelos se deteriorassem tão rapidamente.

Três erros causam o colapso do modelo

Primeiro, a equipe definiu o que era o colapso do modelo.

O colapso do modelo é um processo de degradação em que o conteúdo gerado pelo modelo contamina a próxima geração de conjuntos de dados de treinamento. Após o treinamento em dados contaminados, os modelos da nova geração tendem a interpretar mal a realidade.

Este ciclo continua, cada geração ficando pior que a seguinte.



De acordo com a passagem do tempo, existem principalmente duas situações: colapso precoce do modelo e colapso tardio do modelo.

No colapso inicial do modelo, o modelo começa a perder algumas informações finais. (Semelhante a alguns eventos de baixa probabilidade em uma distribuição de probabilidade) E no colapso tardio do modelo, o modelo convergirá para não ter quase nenhuma semelhança com a distribuição original.

A ocorrência desse processo está relacionada ao desenho do modelo, ao processo de aprendizagem e à qualidade dos dados utilizados.

Específico para a teoria, inclui principalmente o desvio do modelo grande do modelo original causado por estes três erros.

  • erro de aproximação estatística . Este é o principal tipo de erro que surge devido a um tamanho de amostra limitado e desaparece à medida que o tamanho da amostra vai para o infinito. Isso ocorre porque as informações podem ser perdidas em cada etapa da reamostragem, com probabilidade diferente de zero.
  • erro de expressividade da função . Este erro é causado pela capacidade limitada de expressão de aproximação de função. Em particular, as redes neurais são uma aproximação universal apenas quando o seu tamanho atinge o infinito. Porém, na ausência dos outros dois erros, esse erro só ocorreria na primeira geração.
  • erro de aproximação de função . Causado principalmente por limitações do processo de aprendizagem, como vieses estruturais na descida do gradiente estocástico ou na escolha de objetivos. Este erro pode ser visto como o erro que surge no caso de dados infinitos e poder expressivo perfeito em cada geração.
Impacto nos modelos de linguagem

Os pesquisadores então avaliaram o impacto do colapso do modelo no modelo de linguagem. Como treinar um modelo grande do zero é muito caro, eles optaram por avaliar a configuração mais comum para modelos de linguagem:Configurações de ajuste fino

Cada ciclo de treinamento começa com um modelo pré-treinado com os dados mais recentes. Os dados de treinamento vêm de outro modelo pré-treinado ajustado.

Eles usaram o modelo de linguagem meta causal OPT-125m, que foi ajustado no wikitext2.

Para gerar dados do modelo treinado, a equipe usou busca de feixe de cinco direções. Eles definiram a sequência de treinamento para ter 64 tokens de comprimento; então, para cada sequência de tokens no conjunto de treinamento, o modelo foi solicitado a prever os próximos 64 tokens.

Eles passam por todos os conjuntos de dados de treinamento originais e geram um conjunto de dados artificial do mesmo tamanho.Se o erro do modelo for 0, ele gera o conjunto de dados wikitext2 original.

Para sentir ainda mais a diferença, eles usaram duas configurações diferentes: um grupo, exceto para o treinamento inicial, não há dados de treinamento originais no processo subsequente; o outro grupo retém 10% dos dados originais;



Os resultados mostraram que os erros produzidos pelo modelo aumentaram ao longo do tempo. Também faz com que o modelo esqueça eventos de baixa probabilidade no conjunto de dados e seus resultados se tornem mais homogêneos, antes que o modelo se quebre completamente. No final, apareceu o fenômeno do começo.

Além disso, fenômenos semelhantes de colapso de modelos foram observados nos modelos VAE e GMM.





A professora Emily Wenger, da Duke University, disse que mitigar o problema não tem sido fácil até agora.

As principais empresas de tecnologia implantaram uma tecnologia que incorpora "marcas d'água" -

Sinalize conteúdo gerado por IA para excluir dos dados de treinamento. A dificuldade é que isto requer coordenação entre empresas de tecnologia e é, portanto, menos viável comercialmente.

Dessa forma, as empresas que obtêm dados da Internet podem treinar modelos mais representativos do mundo real. Portanto, a onda inicial de modelos grandes teve a vantagem de ser o pioneiro.

O que você acha desse ponto de vista?

Links de referência:
[1]https://www.nature.com/articles/d41586-024-02420-7
[2]https://www.nature.com/articles/d41586-024-02355-z
[3]https://www.nature.com/articles/s41586-024-07566-y