noticias

el instituto de investigación zhiyuan lanza el corpus de internet chino 3.0, que contiene 1000 gb de datos de alta calidad

2024-09-20

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

el 20 de septiembre, en el foro paralelo "tendencias culturales: integración de tecnologías y formas de negocios emergentes" del foro cultural de beijing 2024, liu guang, director del modelo de lenguaje tianying en el instituto de investigación zhiyuan, lanzó el corpus de internet chino 3.0.
chinese internet corpus 3.0 tiene las características de una escala sin precedentes, una amplia gama de fuentes, anotaciones precisas, aplicaciones habilitadoras, efectos innovadores y una mejor comprensión del chino. en la actualidad, el volumen de datos del corpus de internet chino 3.0 (cci3.0) es de hasta 1000 gb, incluidas 268 millones de páginas web; el volumen de datos del subconjunto de alta calidad del corpus de internet chino 3.0 (cci3.0 hq) es de hasta 498 gb. cada pieza del corpus se analiza y etiqueta en más de 10 dimensiones, con parámetros como puntaje de seguridad, puntaje de calidad y densidad de información, lo que facilita a los usuarios seleccionar datos de alto valor, satisfacer las necesidades de viabilidad de las empresas y utilizarlos mejor. eficiencia de datos.
según liu guang, los datos son la piedra angular y el cuello de botella en el desarrollo de modelos grandes. actualmente, la demanda de escala de datos para el entrenamiento de modelos ha aumentado significativamente y la proporción de fuentes de sitios web de internet ha provocado una escasez de datos chinos. sólo los datos anotados de alta calidad pueden liberar el valor de la inteligencia artificial. si la industria se centra más en la calidad de los datos, la inteligencia artificial se desarrollará más rápido. estos son los antecedentes del lanzamiento del internet corpus 3.0 chino.
informe/comentarios