minhas informações de contato
Correspondência[email protected]
2024-07-27
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Baijiao vem do Templo Aofei
Qubits | Conta pública QbitAI
Treinamento de IA A IA pode tornar a IA estúpida? !
Pesquisadores de Oxford, Cambridge e outras instituições descobriram recentemente que grandes modelos podem entrar em colapso quando treinados com dados sintéticos.Os resultados de sua pesquisa foram selecionados como os mais recentesCobertura da natureza。
Direto:LIXO FORA!
Você sabe, a maioria dos grandes modelos de empresas de tecnologia agora usa dados sintéticos para aliviar a “escassez de dados”. Esta é sem dúvida uma onda de água fria derramada sobre toda a indústria.
A equipe de pesquisa deu esse exemplo.
Eles testaram o modelo OPT-125m da Meta e pediram informações sobre arquitetura medieval.
Cada ajuste fino é treinado nos dados gerados da última vez. As respostas nas primeiras rodadas foram muito boas. Como resultado, na nona vez, comecei a falar bobagens...
Que diabos é isso sobre coelhos? !
O principal autor do artigo disse ter considerado que os dados sintéticos poderiam introduzir erros em modelos grandes, mas não esperava que os modelos se deteriorassem tão rapidamente.
Primeiro, a equipe definiu o que era o colapso do modelo.
O colapso do modelo é um processo de degradação em que o conteúdo gerado pelo modelo contamina a próxima geração de conjuntos de dados de treinamento. Após o treinamento em dados contaminados, os modelos da nova geração tendem a interpretar mal a realidade.
Este ciclo continua, cada geração ficando pior que a seguinte.
De acordo com a passagem do tempo, existem principalmente duas situações: colapso precoce do modelo e colapso tardio do modelo.
No colapso inicial do modelo, o modelo começa a perder algumas informações finais. (Semelhante a alguns eventos de baixa probabilidade em uma distribuição de probabilidade) E no colapso tardio do modelo, o modelo convergirá para não ter quase nenhuma semelhança com a distribuição original.
A ocorrência desse processo está relacionada ao desenho do modelo, ao processo de aprendizagem e à qualidade dos dados utilizados.
Específico para a teoria, inclui principalmente o desvio do modelo grande do modelo original causado por estes três erros.
Os pesquisadores então avaliaram o impacto do colapso do modelo no modelo de linguagem. Como treinar um modelo grande do zero é muito caro, eles optaram por avaliar a configuração mais comum para modelos de linguagem:Configurações de ajuste fino。
Cada ciclo de treinamento começa com um modelo pré-treinado com os dados mais recentes. Os dados de treinamento vêm de outro modelo pré-treinado ajustado.
Eles usaram o modelo de linguagem meta causal OPT-125m, que foi ajustado no wikitext2.
Para gerar dados do modelo treinado, a equipe usou busca de feixe de cinco direções. Eles definiram a sequência de treinamento para ter 64 tokens de comprimento; então, para cada sequência de tokens no conjunto de treinamento, o modelo foi solicitado a prever os próximos 64 tokens.
Eles passam por todos os conjuntos de dados de treinamento originais e geram um conjunto de dados artificial do mesmo tamanho.Se o erro do modelo for 0, ele gera o conjunto de dados wikitext2 original.
Para sentir ainda mais a diferença, eles usaram duas configurações diferentes: um grupo, exceto para o treinamento inicial, não há dados de treinamento originais no processo subsequente; o outro grupo retém 10% dos dados originais;
Os resultados mostraram que os erros produzidos pelo modelo aumentaram ao longo do tempo. Também faz com que o modelo esqueça eventos de baixa probabilidade no conjunto de dados e seus resultados se tornem mais homogêneos, antes que o modelo se quebre completamente. No final, apareceu o fenômeno do começo.
Além disso, fenômenos semelhantes de colapso de modelos foram observados nos modelos VAE e GMM.
A professora Emily Wenger, da Duke University, disse que mitigar o problema não tem sido fácil até agora.
As principais empresas de tecnologia implantaram uma tecnologia que incorpora "marcas d'água" -
Sinalize conteúdo gerado por IA para excluir dos dados de treinamento. A dificuldade é que isto requer coordenação entre empresas de tecnologia e é, portanto, menos viável comercialmente.
Dessa forma, as empresas que obtêm dados da Internet podem treinar modelos mais representativos do mundo real. Portanto, a onda inicial de modelos grandes teve a vantagem de ser o pioneiro.
O que você acha desse ponto de vista?
Links de referência:
[1]https://www.nature.com/articles/d41586-024-02420-7
[2]https://www.nature.com/articles/d41586-024-02355-z
[3]https://www.nature.com/articles/s41586-024-07566-y