ニュース

zhiyuan research institute、1000 gb の高品質データを含む中国インターネット コーパス 3.0 をリリース

2024-09-20

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

9月20日、2024年北京文化フォーラムの並行フォーラム「文化動向:新興ビジネス形態とテクノロジーの統合」で、知源研究所天英言語モデル責任者のliu guang氏が中国語インターネットコーパス3.0をリリースした。
中国語インターネット コーパス 3.0 は、前例のない規模、幅広いソース、正確な注釈、有効なアプリケーション、画期的な効果、および中国語のより深い理解という特徴を備えています。現在、中国インターネット コーパス 3.0 (cci3.0) のデータ量は 2 億 6,800 万の web ページを含む最大 1000 gb であり、中国インターネット コーパス 3.0 高品質サブセット (cci3.0 hq) のデータ量は最大 498 gb です。コーパスの各部分は、安全性スコア、品質スコア、情報密度などのパラメータを使用して 10 を超える次元から分析およびタグ付けされるため、ユーザーは価値の高いデータを選択し、企業の実現可能性のニーズを満たし、データをより効果的に活用することが容易になります。データ効率。
liu guang 氏によると、大規模モデル開発の基礎およびボトルネックはデータです。現在、モデルトレーニングのためのデータ規模の需要が大幅に増加しており、インターネット web サイトソースの割合が中国のデータの不足につながっています。高品質の注釈付きデータのみが人工知能の価値を引き出すことができます。業界がデータの品質にもっと重点を置けば、人工知能はより速く発展するでしょう。これが中国インターネット コーパス 3.0 の立ち上げの背景です。
レポート/フィードバック