Moore thread de código aberto para compreensão de áudio de grande modelo MooER: treinamento e inferência com base em GPU doméstico completo

Moore thread de código aberto para compreensão de áudio de grande modelo MooER: treinamento e inferência com base em GPU doméstica completa

2024-08-24

A IT House informou em 23 de agosto que o MooER abriu o código-fonte de um grande modelo de compreensão de áudio - MooER, que é o primeiro modelo de fala de código aberto em grande escala da indústria baseado em GPUs nacionais com todos os recursos para treinamento e inferência.

Baseado na plataforma de computação inteligente Moore Thread Kuae (KUAE), o grande modelo MooER completou o treinamento de 5.000 horas de dados de áudio e pseudo-etiquetas em 38 horas.

MooER não só oferece suporte ao reconhecimento de fala em chinês e inglês, mas também possui recursos de tradução de fala do chinês para o inglês. No conjunto de testes de tradução chinês-inglês Covost2, o MooER-5K obteve uma pontuação BLEU de 25,2, que está próxima dos resultados de nível industrial.

A equipe da Moore Thread AI abriu o código de inferência e o modelo treinado em 5.000 horas de dados neste trabalho, e planeja abrir ainda mais o código de treinamento e o modelo treinado em 80.000 horas de dados.

A estrutura do modelo do MooER inclui três partes: Codificador, Adaptador e Decodificador (Large Language Model, LLM). A escala de parâmetros do modelo específico é a seguinte:

notícias

Moore thread de código aberto para compreensão de áudio de grande modelo MooER: treinamento e inferência com base em GPU doméstica completa

Introdução

Minhas informações de contato