berita

zhiyuan research institute merilis chinese internet corpus 3.0, yang berisi 1000 gb data berkualitas tinggi

2024-09-20

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

pada tanggal 20 september, di forum paralel "tren budaya: integrasi bentuk bisnis dan teknologi yang muncul" di forum kebudayaan beijing 2024, liu guang, kepala model bahasa tianying di institut penelitian zhiyuan, merilis chinese internet corpus 3.0.
chinese internet corpus 3.0 memiliki karakteristik skala yang belum pernah terjadi sebelumnya, sumber yang luas, anotasi yang tepat, aplikasi yang memungkinkan, efek terobosan, dan pemahaman bahasa mandarin yang lebih baik. saat ini, volume data chinese internet corpus 3.0 (cci3.0) mencapai 1000 gb, termasuk 268 juta halaman web; volume data chinese internet corpus 3.0 high quality subset (cci3.0 hq) mencapai 498 gb. setiap bagian korpus dianalisis dan diberi tag dari lebih dari 10 dimensi, dengan parameter seperti skor keamanan, skor kualitas, dan kepadatan informasi, sehingga memudahkan pengguna untuk memilih data bernilai tinggi, memenuhi kebutuhan kelayakan perusahaan, dan memanfaatkan dengan lebih baik. efisiensi data.
menurut liu guang, data adalah landasan dan penghambat pengembangan model besar. saat ini, permintaan skala data untuk pelatihan model telah meningkat secara signifikan, dan proporsi sumber situs internet telah menyebabkan kekurangan data di tiongkok. hanya data beranotasi berkualitas tinggi yang dapat memberikan manfaat kecerdasan buatan. jika industri lebih berfokus pada kualitas data, kecerdasan buatan akan berkembang lebih cepat. hal inilah yang menjadi latar belakang diluncurkannya chinese internet corpus 3.0.
laporan/umpan balik