noticias

La naturaleza revela información privilegiada impactante: ¡Se vendieron papeles a precios altísimos para alimentar la IA! Los editores ganan cientos de millones, los autores no ganan nada

2024-08-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



  Nuevo informe de sabiduría

Editor: Departamento Editorial
[Introducción a la Nueva Sabiduría]Un artículo en Nature reveló: ¡Es posible que el artículo que usted publicó haya sido utilizado para entrenar el modelo! Algunos editores han ganado 23 millones de dólares vendiendo datos. Sin embargo, los autores que trabajaron duro para codificar el artículo no pueden recibir ni un centavo. ¿Es esto razonable?

El mundo está en una crisis de datos, ¿qué debemos hacer?
¡Los papeles se juntan!
Recientemente, un artículo en Nature nos reveló el hecho de que incluso artículos de investigación científica se han utilizado para entrenar IA...
Se informa que muchas editoriales académicas han autorizado a las empresas de tecnología a acceder a sus propios artículos para entrenar modelos de IA.
Un artículo, desde la idea hasta la finalización, implica el arduo trabajo del autor día y noche. Ahora, es muy probable que se convierta en datos para entrenar IA sin saberlo.
¿Es esto razonable?
Lo que es aún más molesto es que el editor utilizó su periódico para obtener ganancias.
Según un informe de Nature, el mes pasado la editorial académica británica Taylor & Francis firmó un acuerdo de 10 millones de dólares con Microsoft, que le permitirá acceder a sus datos para mejorar los sistemas de inteligencia artificial.
Una actualización para inversores en junio mostró que la editorial estadounidense Wiley obtuvo una enorme ganancia de 23 millones de dólares después de permitir que una empresa utilizara su modelo de formación de contenidos.
Pero este dinero no tiene nada que ver con los autores de la mayoría de los artículos.
Además, Lucy Lu Wang, investigadora de inteligencia artificial de la Universidad de Washington, también dijo que incluso si no está en un repositorio de acceso abierto, cualquier contenido que se pueda leer en línea probablemente se haya ingresado en LLM.
Lo que es aún más aterrador es que si se ha utilizado un documento como datos de entrenamiento para el modelo, no se puede eliminar una vez completado el entrenamiento del modelo.
Si su artículo aún no se ha utilizado para entrenar la IA, no se preocupe: ¡debería hacerlo pronto!

Los conjuntos de datos son como el oro y las grandes empresas están pujando por ellos.


Todos sabemos que LLM necesita capacitarse con datos masivos, y estos datos generalmente se obtienen de Internet.
Es a partir de miles de millones de tokens en estos datos de entrenamiento que LLM deriva patrones para generar texto, imágenes y código.
Los trabajos académicos son extensos y tienen una alta densidad de información, por lo que obviamente son uno de los datos más valiosos que se pueden aportar al LLM.
Además, capacitar a los LLM en una gran cantidad de información científica también puede mejorar en gran medida sus capacidades de razonamiento sobre temas científicos.
Wang cocreó S2ORC, un conjunto de datos basado en 81,1 millones de artículos académicos. Inicialmente, el conjunto de datos S2ORC se desarrolló para la minería de textos, pero luego se utilizó para entrenar LLM.
Pile, creado por la organización sin fines de lucro Eleuther AI en 2020, es uno de los conjuntos de datos de código abierto a gran escala más utilizados en la investigación de PNL, con un volumen total de 800 GB. Contiene una gran cantidad de textos de fuentes académicas, con una proporción de artículos de arXiv del 8,96%. También cubre otros sitios web académicos como PubMed, FreeLaw y NIH.
Hace algún tiempo, el conjunto de datos de tokens 1T de código abierto MINT también descubrió el tesoro arXiv, extrayendo un total de 870.000 documentos y tokens 9B.
En el siguiente diagrama de flujo de procesamiento de datos, podemos ver cuán alta es la calidad de los datos del documento: casi no hay necesidad de mucho filtrado y deduplicación, y la tasa de uso es extremadamente alta.
Ahora, en respuesta a disputas de derechos de autor, las principales empresas de modelaje han comenzado a pagar dinero real para comprar conjuntos de datos de alta calidad.
Este año, el Financial Times ha vendido sus contenidos a OpenAI por un precio considerable; Reddit también ha llegado a un acuerdo similar con Google.
En el futuro, este tipo de transacciones serán inevitables.

Demostrar que el documento ha sido utilizado por LLM es extremadamente difícil


Algunos desarrolladores de IA abrirán sus propios conjuntos de datos, pero muchas empresas que desarrollan modelos de IA mantendrán la confidencialidad de la mayoría de sus datos de entrenamiento.
Stefan Baack, analista de datos de entrenamiento de IA en la Fundación Mozilla, dijo que nadie sabe qué datos de entrenamiento tienen estas empresas.
Las fuentes de datos más populares entre los expertos de la industria son, sin duda, resúmenes del repositorio de código abierto arXiv y la base de datos académica PubMed.
Actualmente, arXiv alberga el texto completo de más de 2,5 millones de artículos y PubMed contiene una asombrosa cantidad de citas, que superan los 37 millones.
Aunque el texto completo de algunos artículos en sitios web como PubMed tiene un muro de pago, los resúmenes de los artículos se pueden consultar de forma gratuita y es posible que esta parte haya sido rastreada por grandes empresas de tecnología.
Entonces, ¿existe algún método técnico para identificar si el documento ha sido utilizado?
Por ahora, sigue siendo difícil.
Yves-Alexandre de Montjoye, informático del Imperial College de Londres, dijo: Es muy difícil demostrar que LLM utilizó un determinado artículo.
Una forma es utilizar oraciones muy raras en el texto en papel para indicar al modelo y ver si su resultado es la siguiente palabra en el texto original.

Una vez, algunos estudiosos solicitaron a GPT-3 el comienzo del tercer capítulo de "Harry Potter y la piedra filosofal", y el modelo escupió rápida y correctamente aproximadamente una página completa del contenido del libro.
Si es así, entonces ya no está: el documento está en el conjunto de entrenamiento del modelo.
¿Y si no? Esto no es necesariamente una prueba válida de que el papel no se haya utilizado.
Porque los desarrolladores pueden codificar los LLM para filtrar las respuestas y no coincidir demasiado con los datos de capacitación.
Es posible que, a pesar de todos nuestros esfuerzos, todavía no podamos demostrarlo de forma inequívoca.
Otro método es el "ataque de inferencia de miembros".
El principio de este método es que cuando el modelo ve algo que ha visto antes, tendrá más confianza en el resultado.
Para ello, el equipo de De Montjoye desarrolló una "trampa de derechos de autor".
Para tender la trampa, el equipo generaba oraciones plausibles pero sin sentido y las ocultaba en el trabajo, como texto blanco sobre un fondo blanco o un campo de ancho cero en una página web.
Si el modelo está más perplejo por las oraciones de control no utilizadas que por las oraciones de control ocultas en el texto, esto puede usarse como evidencia estadística de que se ha visto la trampa.

Disputa de derechos de autor


Sin embargo, incluso si se puede demostrar que el LLM se formó en un determinado documento, ¿qué podemos hacer?
Aquí hay una controversia de larga data.
Desde el punto de vista del editor, si un desarrollador utiliza texto protegido por derechos de autor en la formación sin obtener permiso, se trata definitivamente de una infracción.
Pero la otra parte puede refutarlo de esta manera: el gran modelo no está plagiado, entonces, ¿cómo puede haber alguna reclamación por infracción?
De hecho, LLM no copia nada, simplemente toma información de los datos de entrenamiento, los desmonta y los utiliza para aprender a generar texto nuevo.
La cuestión más complicada es cómo trazar una línea entre el uso de la investigación comercial y el académico.
De acuerdo con los términos de uso actuales en el sitio web de arXiv, la captura, el almacenamiento y el uso de todos los documentos electrónicos preimpresos y los metadatos del sitio web cumplen con las normas y están respaldados para fines personales o de investigación.
Sin embargo, el uso comercial de arXiv está estrictamente prohibido.
Entonces la pregunta es, si una empresa comercial utiliza un conjunto de datos de código abierto publicado por una institución académica para entrenar su modelo de negocio, y la fuente de datos incluye arXiv o instituciones editoriales académicas similares, ¿cómo cuenta esto?
Además, los editores a menudo no estipulan claramente en los términos de suscripción de los usuarios si los artículos pueden usarse como datos de entrenamiento para modelos.