“Todos los datos de texto de alta calidad en Internet se utilizarán en 2028”

2024-08-01

La firma de investigación Epoch AI predice que todos los datos de texto de alta calidad en Internet se utilizarán para 2028, y los conjuntos de datos de aprendizaje automático pueden agotar todos los "datos de lenguaje de alta calidad" para 2026.

Los investigadores señalan que entrenar generaciones futuras de modelos de aprendizaje automático en conjuntos de datos generados por inteligencia artificial (IA) puede conducir al "colapso del modelo". La cuestión de si hay escasez de datos de entrenamiento para grandes modelos de IA se ha convertido recientemente en un tema candente en los medios.

Recientemente, la revista The Economist publicó un artículo titulado "Las empresas de IA pronto agotarán la mayoría de los datos de Internet", señalando que a medida que los datos de alta calidad de Internet se agoten, las empresas de IA pronto agotarán la mayoría de los datos de Internet. “muro de datos”. Para las grandes empresas modelo de IA, el desafío ahora es encontrar nuevas fuentes de datos o alternativas sostenibles.

El artículo cita la predicción de la empresa de investigación Epoch AI de que todos los datos de texto de alta calidad en Internet se utilizarán para 2028, y los conjuntos de datos de aprendizaje automático pueden agotar todos los "datos de lenguaje de alta calidad" para 2026. Este fenómeno se conoce en la industria como "muro de datos". Cómo lidiar con el "muro de datos" es uno de los principales problemas que enfrentan las empresas de IA en la actualidad, y también puede ser el problema que más probablemente ralentice su progreso en la capacitación. El artículo señala que a medida que los datos previos al entrenamiento en Internet se agotan, el post-entrenamiento se vuelve más importante. Empresas de etiquetado como Scale AI y Surge AI ganan cientos de millones de dólares cada año recopilando datos posteriores a la capacitación.

La revista The Economist cita el diagrama de Epoch AI

De hecho, desde hace tiempo se oyen voces en la industria sobre el “agotamiento de los datos”. El periódico señaló que a principios de julio de 2023, Stuart Russell, profesor de informática en la Universidad de California, Berkeley y autor de "Artificial Intelligence - Modern Approaches", advirtió que los robots impulsados por inteligencia artificial como ChatGPT pronto podrían "agotar el texto en el universo", la tecnología para entrenar robots mediante la recopilación de grandes cantidades de texto "está empezando a tener dificultades".

Pero también hay diferentes voces en la industria. En una entrevista con la reportera de tecnología de Bloomberg Emily Chang en mayo de 2024, Li Feifei, una famosa científica informática, codirectora del Laboratorio de Inteligencia Artificial de la Universidad de Stanford y profesora de la Universidad de Stanford, dejó en claro que no estaba de acuerdo con "nuestro "Los modelos de IA se están quedando sin datos para entrenar" es una visión más pesimista. Li Feifei cree que esta visión es demasiado estrecha. Solo desde la perspectiva de los modelos de lenguaje, todavía hay una gran cantidad de datos diferenciados esperando a ser extraídos para construir modelos más personalizados.

Hoy en día, una de las soluciones al problema de los datos de entrenamiento limitados es utilizar datos sintéticos, creados por máquinas y, por lo tanto, ilimitados. Pero los datos sintéticos también conllevan el riesgo de los datos sintéticos. Un artículo de informática publicado en la revista académica internacional Nature el 24 de julio señaló que entrenar generaciones futuras de modelos de aprendizaje automático con conjuntos de datos generados por inteligencia artificial (IA) puede contaminar sus datos. De hecho, este concepto se denomina "colapso del modelo". Debido a que los modelos se entrenan con datos contaminados, terminan malinterpretando la realidad.

El equipo de investigación demostró en el estudio que en la tarea de aprendizaje de modelos de lenguaje grandes, la cola de la distribución subyacente es importante. El uso a gran escala de modelos de lenguaje grandes para publicar contenido en Internet contaminará los esfuerzos de recopilación de datos para capacitar a sus sucesores. En el futuro, los humanos serán cada vez más valiosos. Sin embargo, el equipo de investigación también mencionó que los datos generados por IA no son completamente indeseables, pero deben filtrarse estrictamente. Por ejemplo, en los datos de entrenamiento de cada modelo de generación, conserve el 10% o el 20% de los datos originales, también puede utilizar datos diversos, como datos generados por humanos, o estudiar algoritmos de entrenamiento más robustos.

noticias

“Todos los datos de texto de alta calidad en Internet se utilizarán en 2028”

Introducción

Mi informacion de contacto