noticias

Hilo de Moore comprensión de audio de código abierto modelo grande MooER: entrenamiento e inferencia basado en GPU nacional con todas las funciones

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

IT House informó el 23 de agosto que MooER ha abierto un gran modelo de comprensión de audio: MooER, que es el primer modelo de voz de código abierto a gran escala de la industria basado en GPU nacionales con todas las funciones para entrenamiento e inferencia.

Basado en la plataforma informática inteligente Moore Thread Kuae (KUAE), el modelo grande MooER completó el entrenamiento de 5000 horas de datos de audio y pseudoetiquetas en 38 horas.

MooER no solo admite el reconocimiento de voz en chino e inglés, sino que también tiene capacidades de traducción de voz del chino al inglés. En el conjunto de pruebas de traducción chino-inglés de Covost2, MooER-5K logró una puntuación BLEU de 25,2, que se acerca a los resultados a nivel industrial.

El equipo de Moore Thread AI ha abierto el código de inferencia y el modelo entrenado con 5.000 horas de datos en este trabajo, y planea abrir aún más el código de entrenamiento y el modelo entrenado con 80.000 horas de datos.

La estructura del modelo de MooER incluye tres partes: codificador, adaptador y decodificador (modelo de lenguaje grande, LLM). La escala de parámetros del modelo específico es la siguiente: