nouvelles

l'institut de recherche zhiyuan publie le chinese internet corpus 3.0, contenant 1 000 go de données de haute qualité

2024-09-20

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

le 20 septembre, lors du forum parallèle « tendances culturelles : intégration des formes d'affaires et des technologies émergentes » du forum culturel de pékin 2024, liu guang, responsable du modèle linguistique tianying à l'institut de recherche zhiyuan, a publié le corpus internet chinois 3.0.
le chinese internet corpus 3.0 présente les caractéristiques d'une échelle sans précédent, d'un large éventail de sources, d'annotations précises, d'applications habilitantes, d'effets révolutionnaires et d'une meilleure compréhension du chinois. à l'heure actuelle, le volume de données du chinese internet corpus 3.0 (cci3. 0) atteint 1 000 go, dont 268 millions de pages web ; le volume de données du chinese internet corpus 3.0 high quality subset (cci3. 0 hq) atteint 498 go. chaque élément du corpus est analysé et étiqueté à partir de plus de 10 dimensions, avec des paramètres tels que le score de sécurité, le score de qualité et la densité de l'information, permettant aux utilisateurs de sélectionner plus facilement des données de grande valeur, de répondre aux besoins de faisabilité des entreprises et de mieux les utiliser. efficacité des données.
selon liu guang, les données constituent la pierre angulaire et le goulot d'étranglement du développement de grands modèles. actuellement, la demande d'échelle de données pour la formation de modèles a considérablement augmenté et la proportion de sources de sites internet a entraîné une pénurie de données chinoises. seules des données annotées de haute qualité peuvent libérer la valeur de l’intelligence artificielle. si l’industrie se concentre davantage sur la qualité des données, l’intelligence artificielle se développera plus rapidement. c’est dans ce contexte qu’est né le chinese internet corpus 3.0.
rapport/commentaires