무어 스레드 오픈소스 오디오 이해 대형 모델 MooER: 국내 모든 기능을 갖춘 GPU를 기반으로 한 훈련 및 추론

2024-08-24

IT House는 MooER가 학습 및 추론을 위한 국내 전기능 GPU를 기반으로 한 업계 최초의 대규모 오픈소스 음성 모델인 MooER이라는 대규모 오디오 이해 모델을 오픈소스화했다고 8월 23일 보도했습니다.

KUAE(Moore Thread Kuae) 지능형 컴퓨팅 플랫폼을 기반으로 하는 MooER 대형 모델은 38시간 만에 5,000시간의 오디오 데이터 및 의사 레이블 교육을 완료했습니다.

MooER은 중국어와 영어 음성 인식을 지원할 뿐만 아니라 중국어에서 영어로의 음성 번역 기능도 갖추고 있습니다. Covost2 중국어-영어 번역 테스트 세트에서 MooER-5K는 산업 수준 결과에 가까운 BLEU 점수 25.2를 달성했습니다.

Moore Thread AI 팀은 이번 작업에서 추론 코드와 5,000시간의 데이터에 대해 훈련된 모델을 오픈 소스화했으며, 앞으로 80,000시간의 데이터에 대해 훈련된 모델과 훈련 코드를 오픈 소스화할 계획입니다.

MooER의 모델 구조는 인코더, 어댑터, 디코더(Large Language Model, LLM)의 세 부분으로 구성됩니다. 구체적인 모델 매개변수 규모는 다음과 같습니다.

소식