estudio: el uso repetido de contenido generado por ia para entrenar la ia puede provocar un "colapso del modelo"

2024-09-05

it house news el 5 de septiembre. el 4 de septiembre, hora local, según forbes, el dr. ilya shumelov de la universidad de oxford y su equipo descubrieron que cuando el software de ia generativa solo se basa en el contenido, la calidad de las respuestas comienza a deteriorarse. la investigación ha sido publicada en la revista nature.

después de las dos primeras consultas, las respuestas poco a poco se fueron alejando de la precisión, en la quinta consulta la calidad disminuyó significativamente y en la novena consulta consecutiva las respuestas habían degenerado por completo en un galimatías sin sentido. los investigadores se refieren a este uso excesivo cíclico del contenido generativo de ia como “colapso del modelo”, en el que la salida de la ia se desvía gradualmente de la realidad y eventualmente se vuelve inútil después de contaminar continuamente su propio conjunto de entrenamiento.

"es sorprendente lo rápido y imperceptible que se produce el colapso del modelo", dijo shumelov. "al principio afecta a una pequeña cantidad de datos, aquellos que están subrepresentados. luego afecta a la diversidad de la producción, lo que lleva a una menor variabilidad. a veces se puede observar. pequeñas mejoras en la mayoría de los datos, pero esta mejora enmascara un deterioro en el rendimiento del modelo en una minoría de datos".

los investigadores identificaron la existencia de un "colapso del modelo" utilizando una wikipedia impulsada por ia previamente entrenada y luego dejando que el modelo de ia se actualizara en función del contenido que generaba. la influencia de los datos contaminados hace que el conjunto de entrenamiento original se erosione gradualmente y la información de salida se vuelve difícil de entender. por ejemplo, después del noveno ciclo de consulta, la entrada de wikipedia que se estaba estudiando cambió cómicamente de algo sobre el campanario de una iglesia inglesa del siglo xiv a un artículo sobre conejos bobtail de varios colores.

según otro estudio publicado por el equipo de amazon web services en junio, aproximadamente el 57% del texto en línea ha sido traducido mediante algoritmos de inteligencia artificial. si los datos generados por humanos en internet se sobrescriben rápidamente con contenido filtrado por ia, y si los hallazgos de la investigación de shumeilov son ciertos, entonces la ia puede “autodestruirse” y, al mismo tiempo, destruir internet.

el estudio concluyó que la única manera de lograr un desarrollo sostenible a largo plazo de la ia es garantizar que tenga acceso a contenidos existentes no generados por ia y seguir introduciendo nuevos contenidos generados por humanos.

noticias

estudio: el uso repetido de contenido generado por ia para entrenar la ia puede provocar un "colapso del modelo"

introducción

mi información de contacto