“Todos os dados de texto de alta qualidade na Internet serão usados até 2028”

2024-08-01

A empresa de pesquisa Epoch AI prevê que todos os dados de texto de alta qualidade na Internet serão usados até 2028, e os conjuntos de dados de aprendizado de máquina poderão esgotar todos os “dados linguísticos de alta qualidade” até 2026.

Os pesquisadores apontam que o treinamento de futuras gerações de modelos de aprendizado de máquina em conjuntos de dados gerados pela inteligência artificial (IA) pode levar ao “colapso do modelo”. O tema da escassez de dados de treinamento para grandes modelos de IA tornou-se mais uma vez um tema quente na mídia recentemente.

Recentemente, a revista The Economist publicou um artigo intitulado "As empresas de IA em breve esgotarão a maior parte dos dados da Internet", apontando que à medida que os dados de alta qualidade da Internet secam, as empresas de IA em breve esgotarão a maior parte dos dados da Internet. “parede de dados”. Para as grandes empresas modelo de IA, o desafio agora é encontrar novas fontes de dados ou alternativas sustentáveis.

O artigo citou a previsão da empresa de pesquisa Epoch AI de que todos os dados de texto de alta qualidade na Internet serão usados até 2028, e os conjuntos de dados de aprendizado de máquina poderão esgotar todos os “dados de linguagem de alta qualidade” até 2026. Esse fenômeno é conhecido na indústria como “parede de dados”. Como lidar com o “muro de dados” é um dos principais problemas enfrentados pelas empresas de IA hoje, e também pode ser o problema com maior probabilidade de retardar o progresso do seu treinamento. O artigo destaca que à medida que os dados pré-treinamento na Internet secam, o pós-treinamento se torna mais importante. Empresas de etiquetagem como Scale AI e Surge AI ganham centenas de milhões de dólares todos os anos coletando dados pós-treinamento.

A revista The Economist cita o diagrama Epoch AI

Na verdade, há muito que se ouvem vozes na indústria sobre o “esgotamento dos dados”. O jornal notou que no início de julho de 2023, Stuart Russell, professor de ciência da computação na Universidade da Califórnia, Berkeley e autor de "Inteligência Artificial - Abordagens Modernas", alertou que robôs movidos por inteligência artificial, como o ChatGPT, poderão em breve "Esgotar o texto no universo", a tecnologia para treinar robôs através da coleta de grandes quantidades de texto "está começando a enfrentar dificuldades".

Mas também existem vozes diferentes na indústria. Em uma entrevista com Emily Chang, repórter de tecnologia da Bloomberg, em maio de 2024, Li Feifei, uma famosa cientista da computação, codiretora do Laboratório de Inteligência Artificial da Universidade de Stanford e professora da Universidade de Stanford, deixou claro que não concordava com "nosso “Os modelos de IA estão ficando sem dados para treinamento” é uma visão mais pessimista. Li Feifei acredita que esta visão é muito estreita. Somente da perspectiva dos modelos de linguagem, ainda há uma grande quantidade de dados diferenciados esperando para serem explorados para construir modelos mais customizados.

Hoje, uma das soluções para o problema dos dados de treinamento limitados é usar dados sintéticos, que são criados por máquina e, portanto, ilimitados. Mas os dados sintéticos também acarretam o risco dos dados sintéticos. Um artigo científico da computação publicado na revista académica internacional Nature, em 24 de julho, apontou que o treino de futuras gerações de modelos de aprendizagem automática com conjuntos de dados gerados pela inteligência artificial (IA) pode contaminar os seus dados. Resultado, este conceito é chamado de "colapso do modelo". Como os modelos são treinados com dados contaminados, eles acabam interpretando mal a realidade.

A equipe de pesquisa mostrou no estudo que na tarefa de aprendizagem de modelos de linguagem de grande porte, a cauda da distribuição subjacente é importante. O uso em larga escala de modelos de linguagem de grande porte para publicar conteúdo na Internet contaminará os esforços de coleta de dados para treinar seus sucessores. No futuro, os humanos irão. Dados reais sobre grandes interações de modelos linguísticos serão cada vez mais valiosos. No entanto, a equipa de investigação também mencionou que os dados gerados pela IA não são completamente indesejáveis, mas devem ser rigorosamente filtrados. Por exemplo, nos dados de treinamento de cada modelo de geração, mantenha 10% ou 20% dos dados originais, você também pode usar dados diversos, como dados gerados por humanos, ou estudar algoritmos de treinamento mais robustos.

notícias