Mi información de contacto
Correo[email protected]
2024-08-16
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
·Un número creciente de editoriales académicas están vendiendo artículos de investigación a empresas de tecnología para entrenar modelos de inteligencia artificial (IA), mientras que los autores no reciben ingresos.
Los modelos de lenguajes grandes (LLM) han vuelto a causar controversia debido a problemas con los datos de entrenamiento. Recientemente, Elizabeth Gibney, editora de la revista Nature, de renombre internacional, publicó un artículo titulado "¿Se ha utilizado su artículo para entrenar un modelo de inteligencia artificial?" Artículo "Casi seguro". El autor del artículo afirmó que cada vez más editoriales académicas otorgan licencias de trabajos de investigación a empresas de tecnología para entrenar modelos de inteligencia artificial (IA). Un editor académico ganó 23 millones de dólares con esto, mientras que el autor no ganó nada. Estas transacciones, en muchos casos sin consultar a los autores, han provocado un fuerte descontento entre algunos investigadores.
"Si su artículo no se ha utilizado como datos de entrenamiento de IA, es probable que pronto forme parte del entrenamiento". Elizabeth Jipney señaló en el artículo que actualmente los autores de artículos académicos casi no tienen otra opción cuando se enfrentan a editores que venden sus obras protegidas por derechos de autor. interferencia. Para los artículos publicados públicamente, no existe ningún mecanismo para confirmar si estos contenidos se utilizan como datos de entrenamiento de IA. En el uso de grandes modelos lingüísticos, cómo establecer un mecanismo más justo para proteger los derechos e intereses de los creadores merece un amplio debate en los círculos académicos y de derechos de autor.
Los modelos de lenguajes grandes (LLM) a menudo dependen de grandes cantidades de datos extraídos de Internet para su entrenamiento. Estos datos incluyen miles de millones de datos lingüísticos (llamados "tokens") y, al analizar los patrones entre estos tokens, el modelo puede generar texto fluido. Debido a su rico contenido y alta densidad de información, los artículos académicos son más valiosos que grandes cantidades de datos ordinarios y son una fuente importante de datos en el entrenamiento de IA. El analista de datos Stefan Baack, de la organización mundial sin fines de lucro Mozilla Foundation, analizó que los artículos científicos son muy útiles para el entrenamiento de grandes modelos lingüísticos, especialmente en términos de capacidad de razonamiento sobre temas científicos. Precisamente por el alto valor de los datos, las grandes empresas de tecnología han gastado enormes sumas de dinero en la compra de conjuntos de datos.
El artículo señala que este año el Financial Times llegó a un acuerdo con OpenAI para licenciar su contenido a Reddit, conocido como "American Post Bar", y también firmó un acuerdo similar con Google; Estos acuerdos reflejan los intentos de los editores de evitar que modelos de IA rastreen su contenido de forma gratuita mediante autorización legal.
El artículo reveló que el mes pasado, la editorial académica británica Taylor & Francis firmó un acuerdo de 10 millones de dólares con Microsoft, lo que le permite a Microsoft acceder a sus datos para mejorar los sistemas de inteligencia artificial. En junio, la editorial estadounidense Wiley ganó hasta 23 millones de dólares proporcionando contenidos a una empresa para la formación en IA. Y estos enormes ingresos no tienen nada que ver con los autores de los artículos.
Actualmente, los investigadores están intentando utilizar medios técnicos para ayudar a los autores a identificar si sus trabajos se han utilizado para el entrenamiento de modelos de IA. Lucy Lu Wang, investigadora de inteligencia artificial de la Universidad de Washington en Seattle, dijo que si un documento se ha utilizado como datos de entrenamiento para un modelo, no se puede eliminar una vez completado el entrenamiento del modelo.
Sin embargo, incluso si se puede demostrar que el papel se utiliza para el entrenamiento de IA, todavía se enfrenta a controversias a nivel legal. El artículo señala que el editor cree que el uso de contenido no autorizado con derechos de autor para la capacitación es una infracción. Otra opinión legal es que el modelo de lenguaje grande no copia directamente el contenido, sino que genera texto nuevo a través del aprendizaje;
Vale la pena señalar que no todos los investigadores se oponen a utilizar su trabajo para el entrenamiento de IA. Stefan Back dijo que le encantaría ver que los resultados de su investigación se utilizaran para mejorar la precisión de la IA y que no le importaría si la IA "imitara" su estilo de escritura. Sin embargo, también reconoció que no todo el mundo podrá hacer frente a este problema fácilmente, especialmente aquellos en profesiones que enfrentan la presión de la competencia de la IA, como los artistas y escritores.
De hecho, los casos de litigio relacionados con el uso de obras intelectuales protegidas por derechos de autor para entrenar modelos de IA han atraído una atención generalizada en el pasado.
El 14 de agosto, el Washington Post informó que una demanda colectiva presentada por múltiples artistas visuales e ilustradores en los Estados Unidos contra las herramientas de generación de imágenes de IA había logrado un gran avance. Han acusado a startups como Midjourney y Stability AI de utilizar obras para entrenar modelos de IA sin consentimiento. El caso generó avances clave esta semana. El juez de distrito de los Estados Unidos, William Orrick, permitió que partes clave del caso avanzaran, lo que significa que el tribunal decidió que hay suficiente evidencia legal para que ciertos cargos avancen, lo que podría revelarse a medida que avanza el proceso legal. Las comunicaciones internas dentro de la empresa se desarrollan. Herramientas de IA.