uutiset

zhiyuan research institute julkaisee kiinalaisen internet corpus 3.0:n, joka sisältää 1000 gt korkealaatuista dataa

2024-09-20

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

syyskuun 20. päivänä pekingin 2024 kulttuurifoorumin rinnakkaisfoorumissa "cultural trends: integration of emerging business forms and technology" zhiyuan research instituten tianying-kielimallin johtaja liu guang julkaisi kiinalaisen internet corpus 3.0:n.
kiinan internet corpus 3.0:lla on ennennäkemättömän mittakaavan, laajan valikoiman lähteitä, tarkat merkinnät, mahdollistavat sovellukset, läpimurtoefektit ja parempi kiinan kielen ymmärtäminen. tällä hetkellä kiinan internet corpus 3.0:n (cci3.0) datamäärä on jopa 1000 gt, mukaan lukien 268 miljoonaa web-sivua, kiinan internet corpus 3.0 high quality subset (cci3.0 hq) datamäärä on jopa 498 gt. jokainen korpus analysoidaan ja merkitään yli 10 ulottuvuudesta parametrein, kuten turvallisuuspisteet, laatupisteet ja tietotiheys, mikä helpottaa käyttäjien valita arvokasta tietoa, täyttää yritysten toteutettavuustarpeet ja hyödyntää paremmin. tiedon tehokkuutta.
liu guangin mukaan data on suurten mallien kehittämisen kulmakivi ja pullonkaula tällä hetkellä mallikoulutuksen dataskaalan kysyntä on kasvanut merkittävästi, ja internet-sivustojen lähteiden osuus on johtanut pulaan kiinalaisista tiedoista. ainoastaan ​​korkealaatuinen annotoitu data voi vapauttaa tekoälyn arvon jos toimiala keskittyy enemmän tiedon laatuun, tekoäly kehittyy nopeammin. tämä on tausta kiinan internet corpus 3.0:n julkaisulle.
raportti/palaute