notícias

precisamos estar alertas para o risco de “colapso do modelo” de ia

2024-10-01

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

fonte da imagem: "theweek" nos estados unidos
【ponto de vista de hoje】
◎nosso repórter zhang jiaxin
do atendimento ao cliente à criação de conteúdo, a inteligência artificial (ia) impactou o progresso em diversas áreas. mas um problema crescente conhecido como “colapso do modelo” poderá desfazer todas as conquistas da ia.
o “colapso do modelo” é um problema apontado num artigo de investigação publicado na revista britânica nature em julho deste ano. refere-se ao uso de conjuntos de dados gerados por ia para treinar gerações futuras de modelos de aprendizado de máquina, potencialmente “contaminando” seriamente seus resultados.
vários meios de comunicação estrangeiros relataram que esta não é apenas uma questão técnica com a qual os cientistas de dados precisam de se preocupar. se não for controlado, o “colapso do modelo” pode ter um impacto profundo nas empresas, na tecnologia e em todo o ecossistema digital. o professor xiong deyi, chefe do laboratório de processamento de linguagem natural da universidade de tianjin, explicou o “colapso do modelo” de uma perspectiva profissional em uma entrevista a um repórter do science and technology daily.
o que está acontecendo com o “colapso do modelo”?
a maioria dos modelos de ia, como o gpt-4, são treinados em grandes quantidades de dados, a maioria dos quais vem da internet. inicialmente, esses dados são gerados por humanos e refletem a diversidade e a complexidade da linguagem, do comportamento e da cultura humanos. a ia aprende com esses dados e os utiliza para gerar novos conteúdos.
no entanto, à medida que a ia pesquisa novos dados na web para treinar a próxima geração de modelos, é provável que a ia absorva parte do conteúdo que gera, criando um ciclo de feedback no qual a saída de uma ia se torna a entrada. de outro. quando a ia generativa é treinada com o seu próprio conteúdo, o seu resultado também pode desviar-se da realidade. é como fazer várias cópias de um documento, com cada versão perdendo alguns detalhes originais e resultando em um resultado borrado e menos preciso.
o new york times informou que quando a ia é separada do conteúdo de entrada humana, a qualidade e a diversidade da sua produção diminuirão.
xiong deyi explicou: "a distribuição de dados reais da linguagem humana geralmente está em conformidade com a lei de zipf, ou seja, a frequência das palavras é inversamente proporcional à ordem das palavras. a lei de zipf revela que existe um fenômeno de cauda longa nos dados da linguagem humana, ou seja, , há um grande número de conteúdos diversos e de baixa frequência.
xiong deyi explicou ainda que devido a erros como a amostragem aproximada, o fenómeno de cauda longa da distribuição real desaparece gradualmente nos dados gerados pelo modelo. a distribuição dos dados gerados pelo modelo converge gradualmente para uma distribuição que é inconsistente com o modelo. distribuição real, e a diversidade é reduzida, resultando no “colapso do modelo”.
a ia “canibalizar” a si mesma é uma coisa ruim?
em relação ao “colapso do modelo”, a revista americana “theweek” publicou recentemente um artigo comentando que isso significa que a ia está “canibalizando” a si mesma.
xiong deyi acredita que com o surgimento desse fenômeno, quanto maior a proporção de dados gerados pelo modelo no treinamento iterativo do modelo subsequente, mais informações o modelo subsequente perderá sobre os dados reais, dificultando o treinamento do modelo.
à primeira vista, o “colapso do modelo” pode parecer um problema de nicho com o qual apenas os investigadores de ia precisam de se preocupar no laboratório, mas o seu impacto será de longo alcance e duradouro.
um artigo no americano "atlantic monthly" apontou que, para desenvolver produtos de ia mais avançados, os gigantes da tecnologia podem ter que fornecer dados sintéticos aos programas, ou seja, dados simulados gerados por sistemas de ia. no entanto, como a produção de alguma ia generativa está cheia de preconceitos, desinformação e conteúdo absurdo, estes serão repassados ​​para a próxima versão do modelo de ia.
a revista norte-americana "forbes" informou que o "colapso do modelo" também pode exacerbar os problemas de preconceito e desigualdade na ia.
isso não significa que todos os dados sintéticos sejam ruins. o new york times disse que, em alguns casos, os dados sintéticos podem ajudar a ia a aprender. por exemplo, quando o resultado de um grande modelo de ia é usado para treinar um modelo menor, ou quando a resposta correta pode ser verificada, como a solução para um problema matemático ou a melhor estratégia para jogos como xadrez, go, etc.
a ia está dominando a internet?
o problema de treinar novos modelos de ia pode destacar um desafio maior. a revista "scientific american" afirmou que o conteúdo de ia está dominando a internet e o texto gerado por grandes modelos de linguagem está inundando centenas de sites. comparado ao conteúdo criado por humanos, o conteúdo de ia pode ser criado mais rapidamente e em maiores quantidades.
o ceo da openai, sam altman, disse em fevereiro deste ano que a empresa gera cerca de 100 bilhões de palavras todos os dias, o equivalente ao texto de 1 milhão de romances, grande parte das quais flui para a internet.
a abundância de conteúdo de ia na internet, incluindo bot-tweets, imagens ridículas e comentários falsos, alimentou uma percepção mais negativa. a revista "forbes" afirmou que a "teoria da internet da morte" acredita que a maior parte do tráfego, postagens e usuários na internet foram substituídos por robôs e conteúdo gerado por ia, e os humanos não podem mais determinar a direção da internet. a ideia inicialmente circulou apenas em fóruns online, mas recentemente ganhou mais força.
felizmente, os especialistas dizem que a “teoria da internet morta” ainda não se tornou realidade. a revista "forbes" destacou que a grande maioria das postagens amplamente divulgadas, incluindo algumas opiniões profundas, linguagem afiada, observações perspicazes e definições de coisas novas em novos contextos, não são geradas pela ia.
no entanto, xiong deyi ainda enfatizou: "com a aplicação generalizada de grandes modelos, a proporção de dados sintéticos de ia nos dados da internet pode tornar-se cada vez maior. uma grande quantidade de dados sintéticos de ia de baixa qualidade não só fará uso subsequente de dados da internet modelos de treinamento haverá um certo grau de 'colapso do modelo', e também terá um impacto negativo na sociedade, como a geração de informações errôneas que enganam algumas pessoas. portanto, o conteúdo gerado pela ia não é apenas uma questão técnica, mas também. é também uma questão social que precisa de ser gerida com segurança. resposta eficaz a partir de perspetivas duplas com a tecnologia de ia.”
(fonte: diário de ciência e tecnologia)
relatório/comentários