Los datos de IA revelan la "crisis del petróleo", las empresas de contenido pueden simplemente sentarse y ganar dinero

2024-07-23

“

Si se compara el gran modelo de IA con un automóvil, los datos brutos son petróleo crudo.

”

Autor |

Editor｜Manmanzhou

La aparición de ChatGPT y A mitad de camino La adopción explosiva de la IA ha permitido a la IA lograr su primera aplicación a gran escala, es decir, la popularización de modelos grandes.

El llamado modelo grande se refiere a un modelo de aprendizaje automático con una gran cantidad de parámetros y una estructura compleja, que puede procesar datos masivos y completar diversas tareas complejas.

Disputas de derechos de autor de datos de IA

Si se comparan los grandes modelos de IA actuales con los automóviles, los datos brutos son petróleo crudo. En cualquier caso, en primer lugar, el modelo de IA necesita suficiente "petróleo crudo".

Las principales fuentes de "petróleo crudo" para las empresas de IA incluyen las siguientes categorías:

●Fuentes de datos abiertas y gratuitas en Internet, como Wikipedia, blogs, foros, información de noticias, etc.;

●Antiguos medios de comunicación y editoriales;

●Universidades y otras instituciones de investigación;

●Usuarios del lado C que utilizan el modelo.

Los derechos de propiedad del petróleo en el mundo real ya cuentan con regulaciones legales maduras. Sin embargo, en el aún caótico campo de la IA, los derechos de explotación del “petróleo crudo” aún no están claros y las disputas resultantes son numerosas.

Recientemente, varios sellos musicales importantes demandaron a las productoras musicales de AI.SunoyAudio , acusándolo de infracción de derechos de autor.La demanda sigue a una demanda de diciembre presentada por The New York Times.IA abiertael litigio es similar.

Fuente: cartelera

En julio de 2023, algunos escritores presentaron una demanda contra la empresa, alegandoChatGPTSe genera un resumen del trabajo del autor a partir de contenido protegido por derechos de autor.

En diciembre del mismo año, el New York Times también informómicrosoftyIA abiertaSe presentó una demanda similar por infracción de derechos de autor acusando a las dos empresas de utilizar el contenido del periódico para entrenar chatbots con inteligencia artificial.

Además, se presentó una demanda colectiva en California, acusando a OpenAI de obtener información privada de los usuarios de Internet para entrenar ChatGPT sin el consentimiento del usuario.

OpenAI finalmente no pagó por la acusación. Afirmaron que no estaban de acuerdo con la acusación del New York Times y no podían reproducir los problemas mencionados por el New York Times. York Times fue No le importa a OpenAI.

Fuente: https://openai.com/index/openai-and-journalism/

Para OpenAI, quizás la mayor lección de este incidente sea manejar adecuadamente la relación con los proveedores de datos y aclarar los derechos y responsabilidades de ambas partes. Como resultado, hemos visto a OpenAI establecer asociaciones con muchos proveedores de datos durante el año pasado, incluidos, entre otros, The Atlantic, Vox Media, News Corp, Reddit, Financial Times, Le Monde, Prisa Media, Axel Springer, American Journalism Project. y más.

En el futuro, OpenAI utilizará legítimamente los datos de estos medios, y estos medios también integrarán la tecnología de OpenAI en sus productos.

La IA impulsa la monetización de las plataformas de contenidos

Sin embargo, la razón más fundamental para que OpenAI se asocie con proveedores de datos no es el miedo a ser demandado, sino el inminente agotamiento de datos al que se enfrenta el aprendizaje automático. Investigadores como el MIT realizaron un estudio que estimó que los conjuntos de datos de aprendizaje automático pueden agotar todos los "datos lingüísticos de alta calidad" para 2026.

Por lo tanto, los "datos de alta calidad" se han convertido en un bien de moda para los fabricantes de modelos como OpenAI y Google. Las empresas de contenidos y los fabricantes de modelos de IA han llegado a cooperar repetidamente para iniciar un modelo de beneficio fijo.

La plataforma de medios tradicional Shutterstock ha cooperado sucesivamente con empresas de inteligencia artificial como Meta, Alphabet, Amazon, Apple, OpenAI, Reka, etc., y aumentará sus ingresos anuales a 104 millones de dólares mediante la concesión de licencias de contenido para modelos de inteligencia artificial en 2023, y está se espera que genere 250 millones de dólares en ingresos en 2027. Los ingresos por derechos de autor de contenido con licencia de Google ascienden a 60 millones de dólares al año. Apple también busca cooperar con los principales medios de comunicación y ofrecer regalías de al menos 50 millones de dólares por año; año. Las regalías que reciben las empresas de contenidos de las empresas de inteligencia artificial están aumentando a una tasa de crecimiento anual del 450%.

Fuente de la imagen: CX Scoop

En los últimos años, ha sido difícil monetizar contenidos distintos de los medios de streaming, lo que ha sido un importante problema en la industria de contenidos. En comparación con la era del emprendimiento en Internet, el surgimiento de la IA ha traído mayor imaginación y mayores expectativas de ingresos a la industria de contenidos.

Los datos de alta calidad siguen siendo escasos

Por supuesto, no todo el contenido satisface las necesidades de la IA.

En cuanto al debate entre OpenAI y el New York Times mencionado anteriormente, otro punto positivo es la calidad de los datos. Para refinar petróleo a partir de petróleo crudo, en primer lugar, el petróleo en sí debe ser de buena calidad y, en segundo lugar, la tecnología de purificación debe ser buena.

OpenAI enfatiza específicamente que el contenido del New York Times no ha hecho ninguna contribución significativa a la capacitación del modelo de OpenAI. En comparación con Shutterstock, que permite a OpenAI gastar decenas de millones de dólares cada año en medios de texto como el New York Times. la puntualidad no es el favorito de la era de la IA. La IA requiere datos profundos y únicos.

Sin embargo, los datos de alta calidad son demasiado escasos y las empresas de inteligencia artificial también han comenzado a trabajar arduamente en "tecnología de purificación" y "aplicaciones integrales".

El 25 de junio, OpenAI adquirió la empresa de bases de datos de análisis en tiempo real Rockset. Esta empresa proporciona principalmente funciones de consulta e indexación de datos en tiempo real. OpenAI integrará la tecnología de Rockset en sus productos para mejorar el valor de uso de los datos en tiempo real.

Fuente de la imagen: Escaneo DePIN

Al adquirir Rockset, OpenAI planea permitir que la IA utilice y acceda mejor a los datos en tiempo real. Esto permite que los productos de OpenAI admitan aplicaciones más complejas, como sistemas de recomendación en tiempo real, robots de chat dinámicos basados en datos, sistemas de alarma y monitoreo en tiempo real, etc.

Rocket es el "departamento petroquímico" integrado de OpenAI que transforma directamente datos ordinarios en datos de alta calidad requeridos por las aplicaciones.

¿Es la confirmación de los derechos de los datos de los creadores una fantasía?

Los datos de las plataformas de medios de Internet (Facebook, Reddit, etc.) provienen en gran medida deContenido generado por el usuario , es decir, contenido aportado por el usuario. Si bien muchas plataformas cobran altas tarifas de datos a las empresas de IA, también agregan silenciosamente una cláusula en los términos de usuario que dice que "la plataforma tiene derecho a utilizar los datos del usuario para entrenar modelos de IA".

Aunque los términos de usuario indican claramente los derechos para entrenar modelos de IA, muchos autores no saben qué modelos están utilizando el contenido que producen, ni saben si están pagando por él, ni pueden obtener los derechos e intereses relevantes que deberían pertenecer. a ellos.

Durante la llamada trimestral de ganancias de Meta en febrero, Zuckerberg dejó en claro que usaría imágenes de Facebook e Instagram para entrenar sus herramientas de generación de inteligencia artificial.

Según los informes, Tumblr también ha llegado misteriosamente a acuerdos de licencia de contenido con OpenAi y Midjourney, pero el contenido específico de los acuerdos específicos no ha sido revelado.

Los creadores de la plataforma de galería de fotos EyeEm también recibieron recientemente una notificación de que las fotos que habían publicado se utilizarían para el entrenamiento de modelos de IA. El aviso mencionaba que los usuarios pueden optar por no utilizar el producto como resultado, pero no mencionaba ninguna política de compensación. La empresa matriz de EyeEm, Freepik, dijo a Reuters que había firmado acuerdos con dos grandes empresas tecnológicas para licenciar la mayoría de sus 200 millones de imágenes por unos 3 centavos por imagen. El director ejecutivo, Joaquín Cuenca Abela, dijo que se estaban preparando otros cinco acuerdos similares, pero se negó a revelar la identidad del comprador.

Las plataformas de contenido lideradas por UGC, como Getty Images, Adobe, Photobucket, Flickr y Reddit, enfrentan problemas similares. Ante la enorme tentación de la monetización de datos, las plataformas optan por ignorar la propiedad del contenido de los usuarios y empaquetan los datos y los venden al modelo de IA. compañías.

Todo el proceso se llevó a cabo en la oscuridad y los creadores no tuvieron oportunidad de resistirse. Incluso es posible que muchos creadores tengan que entrenar contenido similar a sus propios trabajos en un determinado modelo algún día en el futuro antes de tener la oportunidad de sospechar que sus trabajos anteriores fueron vendidos por una determinada plataforma a una empresa de inteligencia artificial para entrenamiento de modelos.

Web3 puede ser una buena opción para resolver el problema de la dificultad para proteger los derechos de datos y los ingresos de los creadores. Cuando las empresas de IA alcanzaron nuevos máximos en el mercado de valores de EE. UU., el concepto de moneda de IA de web3 también se disparó al mismo tiempo. Blockchain, con sus características descentralizadas e inviolables, disfruta de ventajas únicas en la protección de los derechos de los creadores.

El contenido multimedia, como imágenes y vídeos, ha completado una adopción a gran escala en la cadena en el mercado alcista de 2021, y el contenido UGC en las plataformas sociales también está sucediendo silenciosamente en la cadena. Al mismo tiempo, muchas plataformas de modelos de IA web3 ya están incentivando a los usuarios comunes que contribuyen a la capacitación del modelo, ya sean propietarios de datos o capacitadores.

El desarrollo exponencial de los modelos de IA ha planteado mayores demandas de verificación de datos. Los creadores deberían pensar en: ¿Por qué se vendió mi trabajo a una empresa de modelos de IA por 5 centavos la pieza sin mi consentimiento? ¿Por qué no fui consciente de todo el proceso y no pude obtener ningún beneficio?

Los esfuerzos de las plataformas de medios por atrapar al pez gordo no pueden aliviar la ansiedad por los datos de las empresas modelo de IA. El requisito previo para lograr datos de alta calidad y un alto rendimiento es la confirmación de los derechos de los datos, que es una distribución razonable de intereses entre los creadores, las plataformas y la IA. empresas modelo.

Fuentes de referencia:

Shutterstock ganó 104 millones de dólares el año pasado cediendo licencias a desarrolladores de inteligencia artificial (PetaPixel)
Todas las empresas de fotografía que han cerrado acuerdos de licencia con empresas de inteligencia artificial (PetaPixel)
Reddit ha firmado un nuevo acuerdo de capacitación en inteligencia artificial para vender contenido de usuarios (TheEverge)
¡GPT-4 consume todos los datos del universo! OpenAI se ha visto envuelto en demandas una tras otra por falta de datos, y un profesor de UC Berkeley emitió una advertencia (Xinzhiyuan)
OpenAI adquiere Rockset (OpenAI)

noticias

Los datos de IA revelan la "crisis del petróleo", las empresas de contenido pueden simplemente sentarse y ganar dinero

Introducción

Mi información de contacto