notícias

Oxbridge não conseguiu "envenenar" a IA e apareceu 9 vezes na capa da Nature, gerando um debate acalorado nos círculos acadêmicos

2024-07-27

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



  Novo Relatório de Sabedoria

Editor: Enéias com tanto sono
[Introdução à Nova Sabedoria] O artigo de Oxford e Cambridge sobre nove envenenamentos que causaram o colapso do modelo recebeu muitas críticas: Será que isto também pode ser incluído na Natureza? Isto tem sido discutido mais aprofundadamente nos círculos académicos e todos têm o mesmo ponto de vista: os dados sintéticos são considerados por muitos como uma panaceia, mas não existe almoço grátis no mundo.

Na era da IA, os dados são o novo petróleo. Numa era em que os dados humanos globais se esgotam gradualmente, serão os dados sintéticos o nosso futuro?
A recente polêmica causada por um artigo de capa da Nature nos faz entender: o que importa não são os “dados sintéticos”, mas “o uso correto dos dados sintéticos”.
Na quinta-feira, um artigo de Oxford, Cambridge, Imperial College, Universidade de Toronto e outras instituições apareceu na capa da Nature.
No entanto, o que as pessoas não esperavam era que, uma vez publicado, o artigo gerasse muita discussão na comunidade de IA.
Algumas pessoas acreditam que o cerne do problema não são os “dados sintéticos”, mas a “qualidade dos dados”.
Mesmo que todos os dados artificiais sejam usados, se a qualidade for muito baixa, o resultado será “entra lixo, sai lixo”.
Algumas pessoas até pensam que os pesquisadores adotaram deliberadamente métodos que não correspondem à operação real e são, na verdade, "arrogantes".
A este respeito, o professor Ma Yi disse que agora entramos em uma era que carece de ideias e métodos científicos——
Muitos estudos nada mais são do que redescobrir algum senso comum científico.

Como evitar a queda do modelo?


Portanto, a questão é: como podemos evitar o colapso do modelo ao usar IA para sintetizar dados?

Dados híbridos são o futuro

Alexandr Wang, CEO da Scale AI, concorda profundamente com este artigo na capa da Nature.
Ele disse que usar dados puramente sintéticos para treinar modelos não trará ganho de informação.
Normalmente, quando uma métrica de avaliação aumenta devido à autodestilação, é mais provável que isso se deva a algumas compensações mais sutis:
  • Os dados sintéticos podem melhorar os resultados da avaliação no curto prazo, mas então você paga o preço pelo colapso do modelo
  • Você acumula dívidas invisíveis no processo de treinamento ou ajuste do modelo, que serão difíceis de pagar

Especificamente, em gerações sucessivas de treinamento sintético, os erros provêm principalmente de três aspectos:
  • erro de aproximação estatística
  • erro de expressividade funcional
  • erro de aproximação funcional

Ou seja, toda vez que você treina um novo modelo usando dados gerados pelo modelo anterior, você perde algumas informações e precisão, fazendo com que o modelo fique cada vez mais vazio e eventualmente pare de funcionar corretamente.
Embora estas experiências tenham sido realizadas num modelo de pequena escala (parâmetros de 100M), os efeitos básicos observados também aparecerão em modelos de maior escala ao longo do tempo.
Por exemplo, a maioria dos modelos hoje não consegue gerar postagens de blog no estilo Slate Star Codex, novamente devido a falhas no modelo. À medida que treinamos continuamente os modelos, eles perdem gradualmente a capacidade de fazer previsões sobre uma ampla distribuição.
Na opinião de Wang, os dados híbridos são a direção do desenvolvimento futuro, que pode evitar todos os problemas espinhosos relacionados ao colapso do modelo.
Ou seja, no processo de síntese dos dados, eles devem ser gerados por meio de alguma nova fonte de informação:

(1) Use dados do mundo real como sementes

(2) Participam especialistas humanos

(3) Mecanismo lógico formal
Em contraste, os desenvolvedores que treinam acidentalmente seus modelos em dados sintéticos sem nenhum ganho de informação acabarão descobrindo que seus modelos se tornam cada vez mais estranhos e estúpidos com o tempo.

Aprendizagem por reforço é tudo que você precisa

Pesquisadores da Meta, da Universidade de Nova York e da Universidade de Pequim propuseram um método de "feedback de poda de classificação" por meio de modelos humanos ou mais fracos que podem restaurar ou até mesmo superar o desempenho original do modelo.
Em relação a esta pesquisa, LeCun também a encaminhou para expressar seu apoio.
Como todos sabemos, é muito mais fácil para humanos e máquinas distinguir entre bons e maus exemplos do que gerar amostras de alta qualidade a partir do zero.
Com base nisso, o autor propõe um método totalmente novo para evitar o colapso do modelo por meio de feedback de dados sintéticos.

Para investigar esta questão, os autores primeiro fornecem resultados analíticos em um cenário teórico.
Aqui, os autores propõem modelos de mistura gaussiana e modelos lineares no limite de alta dimensão como classificadores e deixam um verificador (por exemplo, humano ou oráculo) selecionar ou podar os dados gerados.
Os resultados mostram que quando o número de pontos de dados sintéticos se aproxima do infinito, os modelos treinados em dados selecionados podem alcançar resultados ideais comparáveis ​​aos treinados em dados brutos.
Simulações em dados sintéticos mostram que a supervisão oracle produz consistentemente resultados quase ideais em comparação com o uso de anotações brutas.
Além disso, uma vez que distinguir dados de alta qualidade através da supervisão humana é mais simples e barato do que a anotação humana direta, isto fornece fortes evidências da eficácia da supervisão humana.
Um modelo de mistura gaussiana com um gerador linear e um podador linear: o podador melhora o desempenho reforçando seletivamente os dados sintéticos
A seguir, os autores conduziram dois experimentos em grande escala:
1. Treine o Transformer em uma tarefa aritmética (predição de autovalor de matriz) e use a distância do valor real para podar grandes quantidades de dados sintéticos
2. Resumo de notícias usando modelo de linguagem grande (Llama 2) e dados sintéticos limitados
Os resultados mostram que, em ambos os casos, confiar apenas nos dados gerados leva à degradação do desempenho e a falhas do modelo, mesmo à medida que a quantidade de dados aumenta.
Além disso, selecionar a melhor solução do conjunto de geração com base apenas na perplexidade não melhora o desempenho, ou seja, o próprio modelo não tem a capacidade de selecionar a melhor previsão com base na perplexidade.
Em contraste, sob supervisão do oráculo, pode ser obtido um conjunto de dados sintético com feedback aprimorado, cujo desempenho excede o do conjunto de dados original à medida que a quantidade de dados aumenta.

O aumento humano e do modelo melhora o desempenho e evita falhas no desempenho do modelo sem aumento;
Portanto, ao treinar um novo modelo com dados sintéticos, você não deve apenas focar na qualidade do gerador, mas também precisa de um verificador de alta qualidade para selecionar os dados.
Em uma frase, reforço é tudo que você precisa!

Dados reais + dados sintéticos

Em relação às reclamações dos leitores sobre este artigo de capa da Nature, Rylan Schaeffer, estudante de doutorado na Universidade de Stanford, expressou sua compreensão.
Ele observou que o colapso do modelo ocorre frequentemente quando os investigadores adoptam deliberadamente métodos que não correspondem à prática real.
A acumulação de dados pode ou não entrar em colapso, tudo depende dos detalhes operacionais específicos.
你们故意把它弄崩溃,它当然就会崩溃了。😂
No artigo, de coautoria de Stanford, Maryland e MIT, Schaeffer examina como o acúmulo de dados afeta o colapso do modelo.
Após experimentos, eles confirmaram que a substituição dos dados reais originais por dados sintéticos em cada geração causaria de fato o colapso do modelo.
No entanto, o colapso do modelo pode ser evitado se sucessivas gerações de dados sintéticos forem acumuladas juntamente com os dados reais originais.

Endereço do artigo: https://arxiv.org/abs/2404.01413
Na prática, as gerações futuras de LLM serão treinadas em quantidades crescentes de dados ao longo do tempo. Por exemplo, o Llama 1 requer 1,4 trilhão de tokens, o Llama 2 requer 2 trilhões de tokens e o Llama 3 requer 15 trilhões de tokens.
De certa forma, esse cenário de acumulação de dados é extremamente pessimista——
Neste futuro hipotético, os dados sintéticos são despejados incontrolavelmente na Internet para serem usados ​​no treinamento da próxima iteração do modelo.

Conforme mostrado no lado direito da figura, o acúmulo de dados pode evitar o colapso do modelo
Os pesquisadores usaram três configurações experimentais diferentes: transformador causal, modelo de difusão e codificador autovariacional, e treinaram em texto real, conformação molecular e conjuntos de dados de imagem, respectivamente.
Eles descobriram que a substituição de dados causou o colapso do modelo para todos os modelos e todos os conjuntos de dados, enquanto o acúmulo de dados evitou o colapso do modelo.
Modelagem de linguagem causal baseada em Transformer
Primeiro, eles treinaram o Transformer causal em dados de texto.
Especificamente, o parâmetro GPT-2 de 9M de uma única época e o modelo de linguagem Llama 2 de parâmetros 12M, 42M e 125M foram pré-treinados em TinyS-tories.
O primeiro é um conjunto de dados de contos simbólicos de 470 milhões gerado pelo GPT-3.5/4 no nível de leitura do jardim de infância.
Para cada iteração de ajuste de modelo n ≥ 2, amostramos um novo conjunto de dados do mesmo tamanho que TinvStories dos tipos de linguagem da iteração anterior e, em seguida, substituímos ou concatenamos o conjunto de dados anterior com o conjunto de dados recém-gerado.
Em cada iteração de ajuste de modelo, eles pré-treinam um novo modelo inicializado no conjunto de dados substituto ou concatenado da iteração anterior.
Os resultados mostram que, para todas as arquiteturas, contagens de parâmetros e temperaturas de amostragem, a substituição dos dados leva a um aumento na entropia cruzada de teste à medida que o número de iterações de ajuste do modelo aumenta (Figura 2 à esquerda).
Eles também descobriram que, para todas as arquiteturas, contagens de parâmetros e temperaturas de amostragem, à medida que o número de iterações de ajuste do modelo aumenta, os dados acumulados resultam em testes de entropia cruzada iguais ou inferiores (Figura 2, à direita).
A Figura 3 é a curva de aprendizado para cada iteração de ajuste do modelo ao substituir dados repetidamente (parte superior) e acumular dados (parte inferior).
Os resultados mostram que o acúmulo de dados evita o colapso do modelo na modelagem de linguagem.
Tanto o 125M Llama2 quanto o 9M GPT-2 apresentaram degradação de qualidade ao substituir dados (R), mas mantiveram a geração de texto de alta qualidade ao acumular dados (A).
Modelos de Difusão para Dados Conformacionais Moleculares
Em seguida, eles treinaram uma sequência de modelos de difusão nos dados de conformação molecular.
Especificamente, os pesquisadores treinaram o GeoDiff, um modelo de difusão geométrica para geração de conformação molecular, no conjunto de dados GEOMDrugs.
Eles reduziram a amostragem da parte de treinamento do conjunto de dados GEOM-Drugs para 40.000 conformações moleculares, usaram-na como conjunto de treinamento inicial e realizaram 50 etapas de difusão para cada previsão.
Resultados Após 8 iterações de ajuste de modelo, os pesquisadores descobriram que a perda de teste aumentou ao substituir os dados, o que correspondeu aos nossos experimentos de modelo de linguagem, e a perda de teste permaneceu relativamente constante ao acumular dados (Figura 4).
Ao contrário dos modelos de linguagem, eles descobriram que, ao substituir os dados, o desempenho se deteriora significativamente no primeiro modelo, ajustando a iteração de treinamento em dados sintéticos, e não cai ainda mais significativamente nas iterações subsequentes.
Codificador autovariacional para dados de imagem
No final do experimento, os pesquisadores treinaram uma sequência de codificador variacional (VAE) no CelebA. O conjunto de dados contém 200.000 imagens faciais e é dividido em um conjunto de treinamento e um conjunto de teste.
Esta escolha atinge um equilíbrio entre conjuntos de dados realistas com muitas amostras, imagens coloridas e resoluções, e a viabilidade computacional de treinar o modelo para muitas iterações nos dados acumulados.
Como resultado, eles descobriram que substituir os dados em cada iteração novamente mostrava o colapso do modelo -
O erro de teste aumenta rapidamente com cada iteração adicional, e cada iteração produz qualidade inferior e faces menos diversas, até que toda a geração do modelo represente um único padrão.
Em contraste, o acúmulo de dados em cada iteração retarda significativamente o colapso do modelo –
O erro de teste aumenta significativamente mais lentamente a cada iteração adicional.
Embora a diversidade de gerações diminua em comparação com os painéis central e direito da Figura 6, ainda representa os principais eixos de variação no conjunto de dados, como o género, mas o modelo já não parece gerar outros ao longo dos eixos mais curtos dos dados diversos detalhes como óculos e acessórios.
Outro fenômeno interessante é que, diferentemente da modelagem de linguagem, o erro de teste nos dados acumulados aumenta com o número de iterações (embora muito mais lentamente do que nos dados de substituição).
Por que essa diferença existe? Esta direção de pesquisa é deixada para o futuro.
Referências:
https://arxiv.org/abs/2406.07515