νέα

το ερευνητικό ινστιτούτο zhiyuan κυκλοφορεί το κινεζικό internet corpus 3.0, το οποίο περιέχει 1000 gb δεδομένων υψηλής ποιότητας

2024-09-20

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

στις 20 σεπτεμβρίου, στο παράλληλο φόρουμ «cultural trends: integration of emerging business forms and technology» του πολιτιστικού φόρουμ του πεκίνου 2024, ο liu guang, επικεφαλής του μοντέλου γλώσσας tianying στο ερευνητικό ινστιτούτο zhiyuan, κυκλοφόρησε το κινεζικό internet corpus 3.0.
το chinese internet corpus 3.0 έχει τα χαρακτηριστικά της πρωτοφανούς κλίμακας, του ευρέος φάσματος πηγών, του ακριβούς σχολιασμού, των εφαρμογών ενεργοποίησης, των πρωτοποριακών εφέ και της καλύτερης κατανόησης των κινεζικών. προς το παρόν, ο όγκος δεδομένων του κινεζικού internet corpus 3.0 (cci3. 0) είναι έως και 1000 gb, συμπεριλαμβανομένων 268 εκατομμυρίων ιστοσελίδων, ο όγκος δεδομένων του κινεζικού υποσυνόλου υψηλής ποιότητας internet corpus 3.0 (cci3. 0 hq) είναι έως και 498 gb. κάθε κομμάτι του σώματος αναλύεται και επισημαίνεται από περισσότερες από 10 διαστάσεις, με παραμέτρους όπως βαθμολογία ασφάλειας, βαθμολογία ποιότητας και πυκνότητα πληροφοριών, διευκολύνοντας τους χρήστες να επιλέγουν δεδομένα υψηλής αξίας, να ικανοποιούν τις ανάγκες σκοπιμότητας των επιχειρήσεων και να χρησιμοποιούν καλύτερα αποτελεσματικότητα δεδομένων.
σύμφωνα με τον liu guang, τα δεδομένα είναι ο ακρογωνιαίος λίθος και το σημείο συμφόρησης της ανάπτυξης μεγάλων μοντέλων επί του παρόντος, η ζήτηση για κλίμακα δεδομένων για εκπαίδευση μοντέλων έχει αυξηθεί σημαντικά και το ποσοστό των πηγών ιστοτόπων του διαδικτύου έχει οδηγήσει σε έλλειψη κινεζικών δεδομένων. μόνο σχολιασμένα δεδομένα υψηλής ποιότητας μπορούν να απελευθερώσουν την αξία της τεχνητής νοημοσύνης εάν η βιομηχανία επικεντρωθεί περισσότερο στην ποιότητα των δεδομένων, η τεχνητή νοημοσύνη θα αναπτυχθεί ταχύτερα. αυτό είναι το υπόβαθρο για την κυκλοφορία του κινεζικού internet corpus 3.0.
αναφορά/σχόλια