noticias

¿qué hacer si los humanos se quedan sin datos? xiao yanghua, profesor de la universidad de fudan, propuso dos soluciones:

2024-09-07

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

red star capital bureau informó el 7 de septiembre que en la era del big data, el valor de los datos aún no se ha explorado por completo. una vez que llega la era de la ia, los datos se enfrentan al desafío de consumirse demasiado rápido, lo que los vuelve sintéticos. la tecnología de datos es un campo candente. según un informe publicado por la organización de investigación epoch ai en junio, a partir de 2026, la cantidad de datos nuevos generados por humanos será menor que la cantidad de datos nuevos aprendidos por los modelos. se estima que los grandes modelos de lenguaje se quedarán sin humanos. datos para 2028.
los datos determinan el límite superior de la inteligencia hasta cierto punto, lo que hace que cuantos más avances haya en la tecnología de modelos grandes, más tecnología de datos debe "alinearse" con ellos.
durante la conferencia bund 2024, xiao yanghua, profesor de la universidad de fudan y director del laboratorio clave de ciencia de datos de shanghai, dijo en una entrevista con red star capital bureau y otros medios que puede haber dos caminos para resolver el problema del agotamiento de los datos. en el futuro. el primero son datos sintéticos y el otro va al dominio privado.
xiao yang hua
"muchas personas han anotado los cuatro libros y los cinco clásicos. el proceso de anotación es como el proceso de síntesis de datos. podemos pensar, correlacionar e integrar continuamente los datos originales para generar más datos. estos son datos sintéticos", señaló xiao yanghua. los datos sintéticos son una idea muy importante. no sólo para aliviar el problema del agotamiento de los datos, también tiene una importancia muy importante.
“la mayoría de los datos sintetizados son datos de nuestro proceso de pensamiento. a través de datos sintéticos, se expresa una gran cantidad de datos implícitos, no registrados, no expresados ​​y centrados en el pensamiento. este tipo de datos es crucial para estimular el coeficiente intelectual o el racional. capacidad de los modelos grandes”.
xiao yanghua mencionó que nuestro gran modelo actual "sólo tiene inteligencia y no tiene racionalidad". simplemente recuerda más hechos, pero eso no significa que sea más "inteligente" y su capacidad racional no ha aumentado. los datos sintéticos son una idea muy importante para mejorar la capacidad racional.
"utilice datos sintéticos que simulen el proceso de pensamiento para entrenar un modelo grande para que pueda saber cómo pensar en los problemas. por lo tanto, los datos sintéticos no solo sirven para aliviar la 'hambruna' de datos, sino también para mejorar la capacidad racional del modelo grande. ".
otra idea muy importante mencionada por xiao yanghua es entrar al dominio privado. "más datos de alta calidad y valor se encuentran en el dominio privado, en industrias verticales, en miles de industrias, y más abajo están los datos personales. así que el dominio privado y los individuos todavía tienen muchos datos preciosos, muy originales y datos reales, pero no hemos activado estos datos y aún no los hemos inyectado en el modelo grande. el modelo grande aún no ha aprendido este conocimiento. cómo utilizar atributos de dominio privado para estimular el potencial del modelo grande. cosa en el futuro”.
xiao yanghua dijo que todos los datos de dominio privado se encuentran en sistemas de bases de datos. estas bases de datos contienen una gran cantidad de datos de dominio privado y datos de la industria de alta calidad en diversas formas. cómo convertirlos en un gran corpus de entrenamiento de modelos es una cuestión importante. si puede utilizar datos de dominio privado para entrenar modelos grandes, es posible convertir modelos grandes en expertos de la industria.
"los grandes modelos actuales sólo tienen conocimientos generales y no están calificados para tareas profesionales. para lograrlo, hacer un buen uso de los datos de dominio privado puede ser la clave, por lo que el potencial de los datos que se pueden aprovechar sigue siendo muy grande".
xiao yanghua también esperaba con interés los "datos personales". señaló que el uso de datos personales para entrenar modelos grandes apenas ha comenzado. él cree que el siguiente paso debe ser combinar datos personales con modelos grandes. en el futuro, todavía existe un gran potencial en cómo combinar datos personales con modelos grandes y convertirlos en "grandes modelos personalizados" para servir a las personas. todavía hay un gran potencial. aún queda un largo camino por recorrer.
wang tian, ​​reportero de red star news
editor: deng lingyao.
(¡descarga red star news y envía tus informes para ganar premios!)
informe/comentarios