lo zhiyuan research institute rilascia chinese internet corpus 3.0, contenente 1000 gb di dati di alta qualità

2024-09-20

il 20 settembre, al forum parallelo "tendenze culturali: integrazione di forme di business e tecnologie emergenti" del forum culturale di pechino 2024, liu guang, capo del modello linguistico tianying presso lo zhiyuan research institute, ha rilasciato l'internet corpus 3.0 cinese.

chinese internet corpus 3.0 ha le caratteristiche di una scala senza precedenti, di un'ampia gamma di fonti, di annotazioni precise, di applicazioni abilitanti, di effetti rivoluzionari e di una migliore comprensione del cinese. al momento, il volume dei dati di chinese internet corpus 3.0 (cci3. 0) arriva fino a 1000 gb, inclusi 268 milioni di pagine web, il volume dei dati di chinese internet corpus 3.0 high quality subset (cci3. 0 hq) arriva fino a 498 gb; ogni parte del corpus viene analizzata e contrassegnata da più di 10 dimensioni, con parametri quali punteggio di sicurezza, punteggio di qualità e densità delle informazioni, rendendo più semplice per gli utenti selezionare dati di alto valore, soddisfare le esigenze di fattibilità delle imprese e utilizzare meglio efficienza dei dati.

secondo liu guang, i dati sono la pietra angolare e il collo di bottiglia dello sviluppo di modelli di grandi dimensioni. attualmente, la richiesta di dati su larga scala per l’addestramento dei modelli è aumentata in modo significativo e la proporzione delle fonti dei siti web internet ha portato a una carenza di dati cinesi. solo dati annotati di alta qualità possono liberare il valore dell’intelligenza artificiale. se il settore si concentrerà maggiormente sulla qualità dei dati, l’intelligenza artificiale si svilupperà più rapidamente. questo è lo sfondo per il lancio dell'internet corpus cinese 3.0.

segnalazione/feedback

notizia

lo zhiyuan research institute rilascia chinese internet corpus 3.0, contenente 1000 gb di dati di alta qualità

introduzione

le mie informazioni di contatto