notícias

zhiyuan research institute lança chinese internet corpus 3.0, contendo 1.000 gb de dados de alta qualidade

2024-09-20

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

em 20 de setembro, no fórum paralelo "tendências culturais: integração de formas de negócios emergentes e tecnologia" do fórum cultural de pequim de 2024, liu guang, chefe do modelo de linguagem tianying do instituto de pesquisa zhiyuan, lançou o chinese internet corpus 3.0.
o internet corpus 3.0 chinês tem características de escala sem precedentes, ampla variedade de fontes, anotação precisa, aplicações facilitadoras, efeitos inovadores e melhor compreensão do chinês. atualmente, o volume de dados do chinese internet corpus 3.0 (cci3. 0) é de até 1000 gb, incluindo 268 milhões de páginas da web; o volume de dados do chinese internet corpus 3.0 high quality subset (cci3. 0 hq) é de até 498 gb. cada parte do corpus é analisada e etiquetada a partir de mais de 10 dimensões, com parâmetros como pontuação de segurança, pontuação de qualidade e densidade de informações, facilitando aos usuários a seleção de dados de alto valor, o atendimento às necessidades de viabilidade das empresas e a melhor utilização. eficiência de dados.
de acordo com liu guang, os dados são a pedra angular e o gargalo do desenvolvimento de grandes modelos. atualmente, a demanda por escala de dados para treinamento de modelos aumentou significativamente e a proporção de fontes de sites da internet levou a uma escassez de dados chineses. somente dados anotados de alta qualidade podem liberar o valor da inteligência artificial. se a indústria se concentrar mais na qualidade dos dados, a inteligência artificial se desenvolverá mais rapidamente. este é o pano de fundo para o lançamento do internet corpus 3.0 chinês.
relatório/comentários