ムーアスレッドオープンソースオーディオ理解大規模モデル MooER: 国内のフル機能の GPU に基づくトレーニングと推論_news

ムーアスレッドオープンソースオーディオ理解大規模モデル MooER: 国産フル機能 GPU に基づくトレーニングと推論

2024-08-24

IT House は 8 月 23 日、MooER が大規模な音声理解モデル - MooER をオープンソース化したと報告しました。これは、トレーニングと推論用の国内のフル機能の GPU に基づく業界初の大規模なオープンソース音声モデルです。

Moore Thread Kuae (KUAE) インテリジェントコンピューティングプラットフォームに基づいた MooER 大型モデルは、5,000 時間のオーディオデータと疑似ラベルのトレーニングを 38 時間で完了しました。

MooER は中国語と英語の音声認識をサポートするだけでなく、中国語から英語への音声翻訳機能も備えています。 Covost2 中国語-英語翻訳テストセットでは、MooER-5K は 25.2 の BLEU スコアを達成しました。これは、産業レベルの結果に近い値です。

Moore Thread AI チームは、この作業で推論コードと 5,000 時間のデータでトレーニングされたモデルをオープンソース化しており、トレーニングコードと 80,000 時間のデータでトレーニングされたモデルをさらにオープンソース化する予定です。

MooER のモデル構造には、エンコーダー、アダプター、デコーダー (ラージ言語モデル、LLM) の 3 つの部分が含まれています。具体的なモデルパラメータースケールは次のとおりです。