Si los datos de la IA no son suficientes, ¿podemos utilizar documentos para "compensarlos"?
2024-08-17
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
14 de agosto
El sitio web oficial de Nature publicó un artículo que afirma que
Varias editoriales académicas están invirtiendo en empresas tecnológicas
Vender los derechos de uso de trabajos de investigación.
Se utiliza para entrenar modelos de IA.
En muchos casos estas transacciones
El autor no fue consultado.
Esto provocó un fuerte descontento entre algunos investigadores.
Papeles que fueron "traicionados"
escala de la naturaleza
editoriales académicas británicas
francisco taylor
Ya firmó un acuerdo con Microsoft
Acuerdo por valor de 10 millones de dólares
Permitir que Microsoft acceda a sus datos
para mejorar los sistemas de IA
En junio hubo noticias de que
Editorial estadounidense Wiley
Permitir que una empresa utilice su contenido para entrenar modelos
ganando así $23 millones
escala de la naturaleza
Estos papeles cubren
Ciencias naturales, ciencias sociales y otros campos.
Se ha convertido en un corpus importante para el entrenamiento de modelos de IA.
Un robot de pintura hizo una demostración de pintura en la "Cumbre Global de Inteligencia Artificial para la Humanidad" de 2024 en Ginebra, Suiza.
Fuente: Agencia de Noticias Xinhua
El artículo de la naturaleza piensa
Autores de artículos académicos actuales
Cuando nos enfrentamos a editores que venden sus obras protegidas por derechos de autor
casi no hay derecho a interferir
Para artículos publicados
No existe ningún mecanismo para confirmar estos contenidos.
Si se utilizan como datos de entrenamiento de IA
En el uso de grandes modelos de lenguaje.
Cómo establecer un mecanismo más justo
Proteger los derechos de los creadores.
Digno de un amplio debate en los círculos académicos y de derechos de autor
No hay suficientes datos de IA
Papeles para "maquillar"
Tres elementos principales para el desarrollo de grandes modelos de inteligencia artificial
Son datos, algoritmos y potencia informática.
Con el rápido desarrollo de la tecnología de IA
Creciente demanda de datos de entrenamiento
Algunos medios dijeron
finales de 2021
Entrenamiento OpenAI GPT-4
Encontré un problema difícil
Su formación se ha agotado en internet.
Recurso de texto en inglés confiable
entonces
Para hacer frente a este problema
OpenAI utiliza vídeo y audio de la plataforma Youtube
Transcribir grandes cantidades de texto conversacional
Entrenamiento posterior
El 2 de julio, el personal se comunicó con personas digitales en el área de experiencia inmersiva en economía digital de la Conferencia Global de Economía Digital 2024.
Foto del reportero de la agencia de noticias Xinhua, Ren Chao.
ahora
Los gigantes tecnológicos cambian su enfoque hacia
editor académico
trabajos académicos como
La cristalización de la sabiduría en el campo de la investigación científica.
Conviértete en el "pan caliente" que la gente se apresura a comprar.
Tomemos como ejemplo el procesamiento del lenguaje natural.
A través de la formación en un gran número de artículos.
Los modelos de IA pueden comprender mejor
conocimiento del dominio académico
mejorar su precisión
Gigantes tecnológicos como Google y Microsoft.
Han invertido mucho en la compra de corpus
Para obtener una ventaja competitiva en el campo de la IA
El Financial Times ha puesto su propio contenido.
a un precio respetable
Vendido a OpenAI
Sitio de noticias sociales Reddit
También llegó a un acuerdo similar con Google
Estas transacciones reflejan
Los editores intentan autorizar legalmente
Evite que su contenido sea rastreado por modelos de IA de forma gratuita
Dilema de los datos de entrenamiento
Cómo romper el juego
Trabajar con editores
Son sólo las empresas de tecnología las que lo resuelven
El epítome del problema de los datos de entrenamiento insuficientes
Recientemente
La revista The Economist publica un artículo
"Las empresas de inteligencia artificial pronto consumirán la mayor parte de los datos de Internet"
Predecir lo que está disponible en Internet
Los datos de texto humanos se agotarán en cuatro años
El 23 de abril, en la Feria Industrial de Hannover, Alemania, los visitantes jugaron al juego de "piedra, papel y tijera" con un robot inteligente.
Foto del reportero de la agencia de noticias Xinhua, Ren Pengfei.
Ante tal problema
Sam Altman, fundador y director ejecutivo de OpenAI
Se ha propuesto una solución alternativa:
Empresas como OpenAI
Con el tiempo, habrá un cambio hacia el uso de datos generados por IA.
(también conocidos como datos sintéticos) para entrenar IA
Los desarrolladores están creando tecnologías cada vez más poderosas mientras
También reduciría la dependencia de datos protegidos por derechos de autor.
ciertamente
¿Es factible este camino técnico?
Todavía hay controversia
Un artículo de portada de la revista Nature sostenía que
Si al modelo grande se le permite
Entrénate con datos generados automáticamente
La IA puede degradarse
En tan sólo unas pocas generaciones, el contenido original
Iterado en tonterías irredimibles
Además de los métodos de datos sintéticos.
Un mayor intercambio abierto de datos públicos
también se considera un camino eficaz
El informe de Valores Industriales señaló que
Fortalecer el desarrollo abierto de datos públicos
es la solución actual a la dispersión de datos
Medidas importantes para mejorar la calidad de los datos de entrenamiento
Escrito por:Li Fei, Ma Jingyuan tipografía:Li Wenjian Coordinador:Li Zheng Wei
Referencia 丨Naturaleza, The Paper, Financial Associated Press, 21st Century Business Herald
Producido por Guangming.com
Fuente: Conferencia Mundial de Internet