소식

zhiyuan research institute, 1000gb의 고품질 데이터를 포함하는 chinese internet corpus 3.0 출시

2024-09-20

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

9월 20일, 2024년 베이징 문화 포럼의 "문화 동향: 신흥 비즈니스 형태와 기술의 통합" 병행 포럼에서 zhiyuan research institute의 tianying 언어 모델 책임자인 liu guang이 중국 인터넷 코퍼스 3.0을 발표했습니다.
중국어 인터넷 코퍼스 3.0은 전례 없는 규모, 광범위한 소스, 정확한 주석, 적용 가능, 획기적인 효과 및 중국어에 대한 더 나은 이해 등의 특징을 가지고 있습니다. 현재 중국 인터넷 코퍼스 3.0(cci3.0)의 데이터 용량은 2억 6,800만 개의 웹 페이지를 포함하여 최대 1000gb입니다. 중국 인터넷 코퍼스 3.0 고품질 하위 집합(cci3.0 hq)의 데이터 용량은 최대 498gb입니다. 각 코퍼스 조각은 안전 점수, 품질 점수, 정보 밀도 등의 매개변수를 사용하여 10개 이상의 차원에서 분석되고 태그가 지정되어 사용자가 더 쉽게 고가치 데이터를 선택하고 기업의 타당성 요구 사항을 충족하며 더 나은 활용을 제공합니다. 데이터 효율성.
liu guang에 따르면 데이터는 대형 모델 개발의 초석이자 병목 현상입니다. 현재 모델 훈련을 위한 데이터 규모에 대한 수요가 크게 증가했으며 인터넷 웹사이트 소스의 비율로 인해 중국 데이터가 부족해졌습니다. 고품질의 주석이 달린 데이터만이 인공지능의 가치를 발휘할 수 있습니다. 업계가 데이터 품질에 더 집중한다면 인공지능은 더욱 빠르게 발전할 것입니다. 이것이 중국 인터넷 코퍼스 3.0이 출시된 배경이다.
보고/피드백