Moore-Thread Open-Source-Audio-Verständnis großes Modell MooER: Training und Inferenz basierend auf inländischen GPU

Moore-Thread Open-Source-Audio-Verständnis großes Modell MooER: Training und Inferenz basierend auf inländischen GPUs mit vollem Funktionsumfang

2024-08-24

IT House berichtete am 23. August, dass MooER ein großes Audio-Verständnismodell als Open-Source-Lösung bereitgestellt hat – MooER, das erste groß angelegte Open-Source-Sprachmodell der Branche, das auf inländischen GPUs mit vollem Funktionsumfang für Training und Inferenz basiert.

Basierend auf der intelligenten Computerplattform Moore Thread Kuae (KUAE) hat das MooER-Großmodell das Training von 5.000 Stunden Audiodaten und Pseudo-Labels in 38 Stunden abgeschlossen.

MooER unterstützt nicht nur die Spracherkennung in Chinesisch und Englisch, sondern verfügt auch über Sprachübersetzungsfunktionen vom Chinesischen ins Englische. Im Covost2-Übersetzungstestset Chinesisch-Englisch erreichte MooER-5K einen BLEU-Wert von 25,2, was nahe an Ergebnissen auf Industrieniveau liegt.

Das Moore Thread AI-Team hat den Inferenzcode und das Modell, das in dieser Arbeit auf 5.000 Stunden Daten trainiert wurde, als Open Source bereitgestellt und plant, den Trainingscode und das Modell, das auf 80.000 Stunden Daten trainiert wurde, weiterhin als Open Source bereitzustellen.

Die Modellstruktur von MooER umfasst drei Teile: Encoder, Adapter und Decoder (Large Language Model, LLM). Die spezifische Modellparameterskala ist wie folgt:

Nachricht

Moore-Thread Open-Source-Audio-Verständnis großes Modell MooER: Training und Inferenz basierend auf inländischen GPUs mit vollem Funktionsumfang

Einführung

Meine Kontaktdaten