necesitamos estar alerta ante el riesgo de un “colapso del modelo” de ia
2024-10-01
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
fuente de la imagen: "theweek" en estados unidos
【punto de vista de hoy】
◎nuestro reportero zhang jiaxin
desde el servicio al cliente hasta la creación de contenidos, la inteligencia artificial (ia) ha impactado el progreso en numerosas áreas. pero un problema creciente conocido como “colapso del modelo” podría deshacer todos los logros de la ia.
el “colapso del modelo” es un problema señalado en un artículo de investigación publicado en la revista británica nature en julio de este año. se refiere al uso de conjuntos de datos generados por ia para entrenar generaciones futuras de modelos de aprendizaje automático, lo que podría "contaminar" gravemente su producción.
varios medios extranjeros informaron que esto no es sólo una cuestión técnica por la que los científicos de datos deben preocuparse. si no se controla, el "colapso del modelo" puede tener un profundo impacto en las empresas, la tecnología y todo el ecosistema digital. el profesor xiong deyi, director del laboratorio de procesamiento del lenguaje natural de la universidad de tianjin, explicó el "colapso del modelo" desde una perspectiva profesional en una entrevista con un periodista del science and technology daily.
¿qué está pasando con el “colapso del modelo”?
la mayoría de los modelos de ia, como gpt-4, se entrenan con grandes cantidades de datos, la mayoría de los cuales provienen de internet. inicialmente, estos datos son generados por humanos y reflejan la diversidad y complejidad del lenguaje, el comportamiento y la cultura humanos. la ia aprende de estos datos y los utiliza para generar contenido nuevo.
sin embargo, a medida que la ia busca en la web nuevos datos para entrenar el modelo de próxima generación, es probable que absorba parte del contenido que genera, creando un circuito de retroalimentación en el que la salida de una ia se convierte en la entrada de otra. otro. cuando la ia generativa se entrena con su propio contenido, su resultado también puede desviarse de la realidad. es como hacer múltiples copias de un documento, donde cada versión pierde algunos de los detalles originales y termina con un resultado borroso y menos preciso.
el new york times informó que cuando la ia se separa del contenido de entrada humana, la calidad y diversidad de su producción disminuirán.
xiong deyi explicó: "la distribución de los datos del lenguaje humano real generalmente se ajusta a la ley de zipf, es decir, la frecuencia de las palabras es inversamente proporcional al orden de las palabras. la ley de zipf revela que existe un fenómeno de cola larga en los datos del lenguaje humano, es decir , hay una gran cantidad de contenido diverso y de baja frecuencia ".
xiong deyi explicó además que debido a errores como el muestreo aproximado, el fenómeno de cola larga de la distribución real desaparece gradualmente en los datos generados por el modelo y la distribución de los datos generados por el modelo converge gradualmente a una distribución que es inconsistente con la. distribución real y la diversidad se reduce, lo que resulta en un "colapso del modelo".
¿es malo “canibalizarse” la ia?
respecto al "colapso del modelo", la revista estadounidense "theweek" publicó recientemente un artículo comentando que esto significa que la ia se está "canibalizando" a sí misma.
xiong deyi cree que con la aparición de este fenómeno, cuanto mayor sea la proporción de datos generados por el modelo en el entrenamiento iterativo del modelo posterior, más información perderá el modelo posterior sobre los datos reales, lo que dificultará el entrenamiento del modelo.
a primera vista, el "colapso del modelo" parece ser un problema de nicho del que actualmente sólo deben preocuparse los investigadores de ia en el laboratorio, pero su impacto será de gran alcance y duradero.
un artículo del "atlantic monthly" estadounidense señaló que para desarrollar productos de ia más avanzados, es posible que los gigantes tecnológicos tengan que proporcionar datos sintéticos a los programas, es decir, datos simulados generados por sistemas de ia. sin embargo, debido a que el resultado de cierta ia generativa está lleno de sesgos, desinformación y contenido absurdo, estos se transmitirán a la próxima versión del modelo de ia.
la revista estadounidense "forbes" informó que el "colapso del modelo" también puede exacerbar los problemas de sesgo y desigualdad en la ia.
sin embargo, eso no significa que todos los datos sintéticos sean malos. el new york times dijo que, en algunos casos, los datos sintéticos pueden ayudar a la ia a aprender. por ejemplo, cuando la salida de un modelo de ia grande se utiliza para entrenar un modelo más pequeño, o cuando se puede verificar la respuesta correcta, como la solución a un problema matemático o la mejor estrategia para juegos como ajedrez, go, etc.
¿la ia se está apoderando de internet?
el problema de entrenar nuevos modelos de ia puede poner de relieve un desafío mayor. la revista "scientific american" afirmó que el contenido de ia se está apoderando de internet y que el texto generado por grandes modelos lingüísticos está inundando cientos de sitios web. en comparación con el contenido creado por humanos, el contenido de ia se puede crear más rápido y en mayores cantidades.
el director ejecutivo de openai, sam altman, dijo en febrero de este año que la empresa genera alrededor de 100 mil millones de palabras cada día, el equivalente al texto de 1 millón de novelas, una gran parte de las cuales fluye a internet.
la abundancia de contenido de ia en internet, incluidos tweets de bots, imágenes ridículas y comentarios falsos, ha alimentado una percepción más negativa. la revista "forbes" afirmó que la "teoría de internet muerta" cree que la mayor parte del tráfico, las publicaciones y los usuarios de internet han sido reemplazados por robots y contenido generado por ia, y los humanos ya no pueden determinar la dirección de internet. la idea inicialmente circuló sólo en foros en línea, pero recientemente ha ganado más fuerza.
afortunadamente, los expertos dicen que la "teoría de internet muerta" aún no se ha hecho realidad. la revista "forbes" señaló que la gran mayoría de las publicaciones de amplia circulación, incluidas algunas opiniones profundas, lenguaje agudo, observaciones agudas y definiciones de cosas nuevas en contextos nuevos, no son generadas por ia.
sin embargo, xiong deyi aún enfatizó: "con la aplicación generalizada de modelos grandes, la proporción de datos sintéticos de ia en los datos de internet puede ser cada vez mayor. una gran cantidad de datos sintéticos de ia de baja calidad no solo hará uso posterior de los datos de internet. modelos de entrenamiento habrá un cierto grado de "colapso del modelo" y también tendrá un impacto negativo en la sociedad, como la información errónea generada que engaña a algunas personas. por lo tanto, el contenido generado por ia no es solo una cuestión técnica, sino también una cuestión. también es un problema social que debe gestionarse de forma segura. una respuesta eficaz desde perspectivas duales con tecnología de inteligencia artificial”.
(fuente: diario de ciencia y tecnología)