nachricht

das zhiyuan research institute veröffentlicht den chinese internet corpus 3.0, der 1000 gb hochwertige daten enthält

2024-09-20

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

am 20. september veröffentlichte liu guang, leiter des tianying-sprachmodells am zhiyuan research institute, auf dem parallelforum „cultural trends: integration of emerging business forms and technology“ des beijing cultural forum 2024 den chinese internet corpus 3.0.
chinese internet corpus 3.0 zeichnet sich durch einen beispiellosen umfang, eine große auswahl an quellen, präzise anmerkungen, die möglichkeit von anwendungen, bahnbrechende effekte und ein besseres verständnis der chinesischen sprache aus. derzeit beträgt das datenvolumen von chinese internet corpus 3.0 (cci3.0) bis zu 1000 gb, einschließlich 268 millionen webseiten; das datenvolumen von chinese internet corpus 3.0 high quality subset (cci3.0 hq) beträgt bis zu 498 gb. jeder teil des korpus wird anhand von mehr als 10 dimensionen analysiert und mit parametern wie sicherheitsbewertung, qualitätsbewertung und informationsdichte versehen, wodurch es für benutzer einfacher wird, hochwertige daten auszuwählen, die machbarkeitsanforderungen von unternehmen zu erfüllen und sie besser zu nutzen dateneffizienz.
laut liu guang sind daten der eckpfeiler und engpass bei der entwicklung großer modelle. derzeit ist die nachfrage nach datenmengen für das modelltraining erheblich gestiegen, und der anteil der internet-website-quellen hat zu einem mangel an chinesischen daten geführt. nur qualitativ hochwertige annotierte daten können den wert künstlicher intelligenz freisetzen. wenn sich die branche stärker auf die datenqualität konzentriert, wird sich künstliche intelligenz schneller entwickeln. dies ist der hintergrund für die einführung des chinese internet corpus 3.0.
bericht/feedback