новости

исследовательский институт чжиюань выпускает китайский интернет-корпус 3.0, содержащий 1000 гб высококачественных данных

2024-09-20

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

20 сентября на параллельном форуме пекинского культурного форума 2024 года «культурные тенденции: интеграция новых форм бизнеса и технологий» лю гуан, руководитель языковой модели тяньин в исследовательском институте чжиюань, представил китайский интернет-корпус 3.0.
китайский интернет-корпус 3.0 обладает характеристиками беспрецедентного масштаба, широкого спектра источников, точных аннотаций, возможностей применения, революционных эффектов и лучшего понимания китайского языка. в настоящее время объем данных китайского интернет-корпуса 3.0 (cci3.0) составляет до 1000 гб, включая 268 миллионов веб-страниц; объем данных китайского интернет-корпуса 3.0 высокого качества (cci3.0 hq) составляет до 498 гб. каждая часть корпуса анализируется и маркируется по более чем 10 измерениям с такими параметрами, как показатель безопасности, показатель качества и плотность информации, что упрощает пользователям выбор ценных данных, удовлетворение технико-экономических потребностей предприятий и более эффективное использование. эффективность данных.
по словам лю гуана, данные являются краеугольным камнем и узким местом разработки больших моделей. в настоящее время спрос на масштаб данных для обучения моделей значительно увеличился, а доля источников на веб-сайтах в интернете привела к нехватке китайских данных. только высококачественные аннотированные данные могут раскрыть ценность искусственного интеллекта. если отрасль будет уделять больше внимания качеству данных, искусственный интеллект будет развиваться быстрее. это предыстория запуска китайского интернет-корпуса 3.0.
отчет/отзыв