estudo: o uso repetido de conteúdo gerado por ia para treinar ia pode causar “colapso do modelo”

2024-09-05

it house news em 5 de setembro. em 4 de setembro, horário local, de acordo com a forbes, o dr. ilya shumelov, da universidade de oxford, e sua equipe descobriram que quando o software generativo de ia depende apenas do conteúdo, a qualidade das respostas começa a se deteriorar. a pesquisa foi publicada na revista nature.

após as duas primeiras consultas, as respostas gradualmente se afastaram da precisão, na quinta consulta a qualidade caiu significativamente e na nona consulta consecutiva as respostas degeneraram completamente em um jargão sem sentido. os pesquisadores referem-se a esse uso excessivo cíclico de conteúdo generativo de ia como “colapso do modelo”, no qual a saída da ia se desvia gradualmente da realidade e eventualmente se torna inútil após contaminar continuamente seu próprio conjunto de treinamento.

"é surpreendente como ocorre o colapso do modelo de forma rápida e imperceptível", disse shumelov. "inicialmente, isso afeta um pequeno número de dados - aqueles que estão sub-representados. depois, afeta a diversidade da produção, levando à redução da variabilidade. às vezes, você observará. pequenas melhorias na maioria dos dados, mas esta melhoria mascara uma deterioração no desempenho do modelo numa minoria de dados."

os pesquisadores identificaram a existência de “colapso do modelo” usando uma wikipédia pré-treinada com inteligência artificial e, em seguida, deixando o modelo de ia ser atualizado com base no conteúdo gerado. a influência dos dados contaminados causa gradualmente a erosão do conjunto de treinamento original e as informações de saída tornam-se difíceis de entender. por exemplo, após o nono ciclo de consulta, a entrada da wikipédia em estudo mudou comicamente de algo sobre o campanário de uma igreja inglesa do século xiv para um artigo sobre coelhos bobtail de várias cores.

segundo relatos, de acordo com outro estudo divulgado pela equipe da amazon web services em junho, aproximadamente 57% do texto online foi traduzido por algoritmos de ia. se os dados gerados por seres humanos na internet forem rapidamente substituídos por conteúdo filtrado pela ia, e se as descobertas da investigação de shumeilov forem verdadeiras, então a ia pode ser “autodestrutiva” – e destruir a internet ao mesmo tempo.

o estudo concluiu que a única forma de alcançar o desenvolvimento sustentável da ia a longo prazo é garantir que esta tenha acesso a conteúdos existentes não gerados pela ia e continue a introduzir novos conteúdos gerados por seres humanos.

notícias

estudo: o uso repetido de conteúdo gerado por ia para treinar ia pode causar “colapso do modelo”

introdução

minhas informações de contato