Si los datos de la IA no son suficientes, ¿podemos utilizar documentos para "compensarlos"?

2024-08-17

14 de agosto

El sitio web oficial de Nature publicó un artículo que afirma que

Varias editoriales académicas están invirtiendo en empresas tecnológicas

Vender los derechos de uso de trabajos de investigación.

Se utiliza para entrenar modelos de IA.

En muchos casos estas transacciones

El autor no fue consultado.

Esto provocó un fuerte descontento entre algunos investigadores.

Papeles que fueron "traicionados"

escala de la naturaleza

editoriales académicas británicas

francisco taylor

Ya firmó un acuerdo con Microsoft

Acuerdo por valor de 10 millones de dólares

Permitir que Microsoft acceda a sus datos

para mejorar los sistemas de IA

En junio hubo noticias de que

Editorial estadounidense Wiley

Permitir que una empresa utilice su contenido para entrenar modelos

ganando así $23 millones

escala de la naturaleza

Estos papeles cubren

Ciencias naturales, ciencias sociales y otros campos.

Se ha convertido en un corpus importante para el entrenamiento de modelos de IA.

Un robot de pintura hizo una demostración de pintura en la "Cumbre Global de Inteligencia Artificial para la Humanidad" de 2024 en Ginebra, Suiza.

Fuente: Agencia de Noticias Xinhua

El artículo de la naturaleza piensa

Autores de artículos académicos actuales

Cuando nos enfrentamos a editores que venden sus obras protegidas por derechos de autor

casi no hay derecho a interferir

Para artículos publicados

No existe ningún mecanismo para confirmar estos contenidos.

Si se utilizan como datos de entrenamiento de IA

En el uso de grandes modelos de lenguaje.

Cómo establecer un mecanismo más justo

Proteger los derechos de los creadores.

Digno de un amplio debate en los círculos académicos y de derechos de autor

No hay suficientes datos de IA

Papeles para "maquillar"

Tres elementos principales para el desarrollo de grandes modelos de inteligencia artificial

Son datos, algoritmos y potencia informática.

Con el rápido desarrollo de la tecnología de IA

Creciente demanda de datos de entrenamiento

Algunos medios dijeron

finales de 2021

Entrenamiento OpenAI GPT-4

Encontré un problema difícil

Su formación se ha agotado en internet.

Recurso de texto en inglés confiable

entonces

Para hacer frente a este problema

OpenAI utiliza vídeo y audio de la plataforma Youtube

Transcribir grandes cantidades de texto conversacional

Entrenamiento posterior

El 2 de julio, el personal se comunicó con personas digitales en el área de experiencia inmersiva en economía digital de la Conferencia Global de Economía Digital 2024.

Foto del reportero de la agencia de noticias Xinhua, Ren Chao.

ahora

Los gigantes tecnológicos cambian su enfoque hacia

editor académico

trabajos académicos como

La cristalización de la sabiduría en el campo de la investigación científica.

Conviértete en el "pan caliente" que la gente se apresura a comprar.

Tomemos como ejemplo el procesamiento del lenguaje natural.

A través de la formación en un gran número de artículos.

Los modelos de IA pueden comprender mejor

conocimiento del dominio académico

mejorar su precisión

Gigantes tecnológicos como Google y Microsoft.

Han invertido mucho en la compra de corpus

Para obtener una ventaja competitiva en el campo de la IA

El Financial Times ha puesto su propio contenido.

a un precio respetable

Vendido a OpenAI

Sitio de noticias sociales Reddit

También llegó a un acuerdo similar con Google

Estas transacciones reflejan

Los editores intentan autorizar legalmente

Evite que su contenido sea rastreado por modelos de IA de forma gratuita

Dilema de los datos de entrenamiento

Cómo romper el juego

Trabajar con editores

Son sólo las empresas de tecnología las que lo resuelven

El epítome del problema de los datos de entrenamiento insuficientes

Recientemente

La revista The Economist publica un artículo

"Las empresas de inteligencia artificial pronto consumirán la mayor parte de los datos de Internet"

Predecir lo que está disponible en Internet

Los datos de texto humanos se agotarán en cuatro años

El 23 de abril, en la Feria Industrial de Hannover, Alemania, los visitantes jugaron al juego de "piedra, papel y tijera" con un robot inteligente.

Foto del reportero de la agencia de noticias Xinhua, Ren Pengfei.

Ante tal problema

Sam Altman, fundador y director ejecutivo de OpenAI

Se ha propuesto una solución alternativa:

Empresas como OpenAI

Con el tiempo, habrá un cambio hacia el uso de datos generados por IA.

(también conocidos como datos sintéticos) para entrenar IA

Los desarrolladores están creando tecnologías cada vez más poderosas mientras

También reduciría la dependencia de datos protegidos por derechos de autor.

ciertamente

¿Es factible este camino técnico?

Todavía hay controversia

Un artículo de portada de la revista Nature sostenía que

Si al modelo grande se le permite

Entrénate con datos generados automáticamente

La IA puede degradarse

En tan sólo unas pocas generaciones, el contenido original

Iterado en tonterías irredimibles

Además de los métodos de datos sintéticos.

Un mayor intercambio abierto de datos públicos

también se considera un camino eficaz

El informe de Valores Industriales señaló que

Fortalecer el desarrollo abierto de datos públicos

es la solución actual a la dispersión de datos

Medidas importantes para mejorar la calidad de los datos de entrenamiento

Escrito por:Li Fei, Ma Jingyuan tipografía:Li Wenjian Coordinador:Li Zheng Wei

Referencia 丨Naturaleza, The Paper, Financial Associated Press, 21st Century Business Herald

Producido por Guangming.com

Fuente: Conferencia Mundial de Internet

Informe/Comentarios

noticias

Si los datos de la IA no son suficientes, ¿podemos utilizar documentos para "compensarlos"?

Introducción

Mi información de contacto