notícias

grande modelo de áudio revelado na conferência yunqi 2024

2024-09-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

em 19 de setembro, a conferência yunqi 2024 foi aberta na cidade de yunqi, hangzhou, com o tema "salto inteligente yunqi, transformação industrial da borboleta". o grande modelo multimodal de áudio himalayan everest ai foi apresentado no pavilhão temático "inteligência artificial +", atraindo muitos cidadãos.
até o final do ano passado, ximalaya acumulou 488 milhões de peças de áudio em 459 categorias, com uma duração total de conteúdo de mais de 3,6 bilhões de minutos. o enorme e diversificado conteúdo de áudio online permite evoluir continuamente suas capacidades de ia. no início da sua criação, a plataforma sempre atribuiu grande importância à implantação da ia. o "modelo grande multimodal everest ai audio" revelado desta vez é seu grande modelo de geração de áudio ai desenvolvido de forma independente. ele depende de mais de um milhão de horas de dados de áudio proprietários protegidos por direitos autorais para aprendizado e treinamento aprofundados e tem saída emocional. expressão natural, possui capacidades técnicas como tradução de idiomas e clonagem extremamente rápida, e alcançou avanços multidimensionais no campo da geração de áudio, que está sendo amplamente utilizado em audiolivros e outras áreas.
na "zona de experiência interativa da plataforma de inteligência digital everest ai", os participantes podem experimentar as mudanças trazidas pela ia para a criação de som, tais como: experiência extremamente rápida de 535 bibliotecas de som de ia em todos os campos e categorias para gerar conteúdo de áudio aigc em todas as categorias, 15 segundos personalize rapidamente imagens do homo sapiens da vida real, clone vozes em 10 segundos, etc., e experimente como a ia capacita os criadores de conteúdo de maneira eficiente e conveniente.
os dados mostram que em 2023, a média mensal de usuários ativos do ximalaya em todos os cenários chegará a 303 milhões. em dezembro do ano passado, o conteúdo aigc da plataforma atingiu 240 milhões de minutos, representando 6,6% do seu conteúdo de áudio. paralelamente, a taxa de penetração do aigc da média mensal de utilizadores activos no terminal móvel atingiu 14,8%. o grande modelo de áudio do himalaia tem as vantagens do modelo de "um ecossistema de modelo de produção integrado e um volante ecológico em constante evolução. tem sido amplamente utilizado na criação de conteúdo, avatares de inteligência digital, interação de voz e outros cenários, e tem sido comercializado. no futuro, abriremos ainda mais a imaginação do som e continuaremos a usá-lo para servir uma vida melhor.
autor: fu xinxin
texto: fu xinxin imagens: fornecidas pelo entrevistado editor: shen zhushi editor: fan bing
por favor indique a fonte ao reimprimir este artigo.
relatório/comentários