modelo de audio grande presentado en la conferencia yunqi 2024

modelo de audio grande presentado en la conferencia yunqi de 2024

2024-09-22

el 19 de septiembre, se inauguró la conferencia yunqi 2024 en la ciudad de yunqi, hangzhou, con el tema "salto inteligente de yunqi, transformación de mariposa industrial". el modelo grande multimodal de audio con ia del everest del himalaya se presentó en el pabellón temático "inteligencia artificial +", lo que atrajo a muchos ciudadanos.

a finales del año pasado, ximalaya había acumulado 488 millones de piezas de audio en 459 categorías, con una duración total de contenido de más de 3.600 millones de minutos. el enorme y diverso contenido de audio en línea le permite evolucionar continuamente sus capacidades de inteligencia artificial. al comienzo de su creación, la plataforma siempre ha otorgado gran importancia al despliegue de la ia. el "modelo grande multimodal de audio ai de everest" presentado esta vez es su modelo grande de generación de audio ai desarrollado de forma independiente. se basa en más de un millón de horas de datos de audio con derechos de autor propios para un aprendizaje y capacitación en profundidad, y tiene un efecto emocional. salida, expresión natural, tiene capacidades técnicas como traducción de idiomas y clonación extremadamente rápida, y ha logrado avances multidimensionales en el campo de la generación de audio, que se está utilizando ampliamente en audiolibros y otros campos.

en la "zona de experiencia interactiva de la plataforma de inteligencia digital everest ai", los participantes pueden experimentar los cambios traídos por la ia a la creación de sonido, tales como: experiencia extremadamente rápida de 535 bibliotecas de sonidos de ia en todos los campos y múltiples categorías para generar contenido de audio aigc en todas las categorías. , 15 segundos personalice rápidamente imágenes de homo sapiens de la vida real, clone voces en 10 segundos, etc., y experimente cómo la ia empodera de manera eficiente y conveniente a los creadores de contenido.

los datos muestran que en 2023, el promedio de usuarios activos mensuales de ximalaya en todos los escenarios alcanzará los 303 millones. a diciembre del año pasado, el contenido aigc de la plataforma alcanzó los 240 millones de minutos, lo que representa el 6,6% de su contenido de audio. al mismo tiempo, la tasa de penetración de aigc del promedio de usuarios activos mensuales en terminales móviles alcanzó el 14,8%. el modelo grande de audio ximalaya tiene las ventajas de "un ecosistema de modelo de producción integrado y un volante ecológico en continua evolución". se ha utilizado ampliamente en la creación de contenidos, avatares de inteligencia digital, interacción de voz y otros escenarios, y se ha comercializado. en el futuro, abriremos aún más la imaginación del sonido y continuaremos utilizándolo para contribuir a una vida mejor.

autor: fu xinxin

texto: fu xinxin imágenes: proporcionadas por el entrevistado editor: shen zhushi editor: fan bing

indique la fuente al reimprimir este artículo.

informe/comentarios

noticias

modelo de audio grande presentado en la conferencia yunqi de 2024

introducción

mi información de contacto