noticias

el primer modelo de generación de audio a gran escala de china pasó la presentación

2024-09-20

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

ifeng.com technology news, 20 de septiembre, recientemente, la administración del ciberespacio de shanghai de china publicó la última lista de listas de aprobación de registro de modelos grandes generativos de shanghai. al modelo grande de audio del himalaya se unieron modelos de texto como mihoyo y the dream island de la literatura china. el modelo pasó conjuntamente el proceso de registro y se convirtió en el primer modelo de generación de audio a gran escala del país en recibir servicios de inteligencia artificial generativa de la administración del ciberespacio de china.

el modelo de audio himalayan es el primer modelo de audio de cuarta generación del mundo con interpretación multiemocional y expresión sobrenatural.este modelo liderará la evolución de aigc en toda la industria del audio desde el modelo de generación de audio de tercera generación hasta el modelo grande de generación de audio de cuarta generación.

el modelo de audio del himalaya es un marco de llm basado en el modelado conjunto de texto y audio desarrollado por el equipo de ia del everest. realiza un entrenamiento de modelado conjunto de audio y texto bajo la misma representación vectorial espacial.este método de modelado conjunto dota completamente a la tarea de generación de audio de poderosa información semántica y hace pleno uso de las conexiones inherentes y la información complementaria entre ellas., mejorando enormemente el rendimiento y las capacidades de generalización del modelo. este es también el avance tecnológico central para que la cuarta generación de modelos de audio grandes supere a la generación anterior.

durante el proceso de entrenamiento, la ia del himalayan everest primero preprocesa datos de audio y datos de texto respectivamente, los convierte en formas de tokens adecuadas para la entrada del modelo y asigna tokens de audio y tokens de texto a la misma representación vectorial espacial para que el modelo pueda comprender y procesar mejor los relación entre audio y texto. el proceso de capacitación general incluye varios procesos principales: preentrenamiento (pretraining), ajuste fino supervisado (sft), ajuste fino supervisado por el dominio (domain sft), ajuste fino supervisado por el hablante (speaker sft) y aprendizaje por refuerzo (rl). a través del entrenamiento de estos procesos, elel modelo tiene las siguientes características: (1) capacidad de clonación de tonos de 15 segundos y capacidad de conversión de sonido. (2) generación de habla hiperantropomórfica, multiemocional y alineada con las preferencias humanas. (3) estilo altamente controlable y habilidad paralingüística.

el equipo de i+d de ia del himalayan everest evaluó el modelo entrenado y descubrió que en el contexto de contenido de audio extenso, como novelas en audio, la controlabilidad del estilo de interpretación de los personajes, la estabilidad de la interpretación de los fonemas y la naturalidad del flujo del habla y las pausas rítmicas eran significativamente mayores. superior el modelo de generación de audio de tercera generación en el país y en el extranjero.

el modelo grande de audio himalaya implementa el paradigma de "combinación de producción y modelo", combinando la industria con el modelo para formar un circuito de retroalimentación positiva de negocios, datos y algoritmos. se utiliza ampliamente en escenarios comerciales como audiolibros aigc e interacción conversacional por chat. por ejemplo, el recientemente popular audiolibro "my altay" fue generado por el modelo grande de audio del himalaya. himalaya everest ai declaró que la capacidad del modelo grande de audio se puede experimentar directamente en el sitio web oficial de everest ai y los usuarios pueden crear directamente su propio contenido de audio.