Moore thread open source audio compréhension grand modèle MooER : formation et inférence basées sur le GPU national complet

Moore thread open source audio compréhension grand modèle MooER : formation et inférence basées sur un GPU national complet

2024-08-24

IT House a rapporté le 23 août que MooER avait ouvert un grand modèle de compréhension audio - MooER, qui est le premier modèle vocal open source à grande échelle du secteur basé sur des GPU nationaux complets pour la formation et l'inférence.

Basé sur la plateforme informatique intelligente Moore Thread Kuae (KUAE), le grand modèle MooER a complété la formation de 5 000 heures de données audio et de pseudo-étiquettes en 38 heures.

MooER prend non seulement en charge la reconnaissance vocale en chinois et en anglais, mais dispose également de capacités de traduction vocale du chinois vers l'anglais. Dans l'ensemble de tests de traduction chinois-anglais Covost2, MooER-5K a obtenu un score BLEU de 25,2, proche des résultats de niveau industriel.

L'équipe Moore Thread AI a rendu open source le code d'inférence et le modèle formé sur 5 000 heures de données dans ce travail, et prévoit de rendre encore plus open source le code de formation et le modèle formé sur 80 000 heures de données.

La structure du modèle de MooER comprend trois parties : Encodeur, Adaptateur et Décodeur (Large Language Model, LLM). L'échelle des paramètres spécifiques du modèle est la suivante :

nouvelles

Moore thread open source audio compréhension grand modèle MooER : formation et inférence basées sur un GPU national complet

Introduction

Mes coordonnées