소식

중국 최초의 대규모 오디오 생성 모델이 출원을 통과했습니다.

2024-09-20

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

ifeng.com technology news, 9월 20일, 중국 상하이 사이버 공간 관리국은 최근 상하이의 생성형 대형 모델 등록 승인 목록을 발표했습니다. 히말라야 오디오 대형 모델에는 mihoyo 및 중국 문학의 the dream island와 같은 텍스트 모델이 합류했습니다. 모델은 공동 등록 절차를 통과했으며 중국 사이버 공간 관리국으로부터 생성 인공 지능 서비스를 받은 국내 최초의 대규모 오디오 생성 모델이 되었습니다.

히말라야 오디오 모델은 다중 감성 해석과 초자연적 표현이 가능한 세계 최초의 4세대 오디오 모델이다.이 모델은 3세대 오디오 세대 모델부터 4세대 오디오 세대 대형 모델까지 오디오 업계 전체의 aigc 진화를 이끌게 된다.

히말라야 오디오 모델은 everest ai 팀이 자체 개발한 텍스트와 오디오의 공동 모델링을 기반으로 하는 llm 프레임워크로, 동일한 공간 벡터 표현에서 오디오와 텍스트의 공동 모델링 훈련을 실현합니다.이 공동 모델링 방법은 오디오 생성 작업에 강력한 의미 정보를 완전히 부여하고 이들 간의 고유 연결과 보완 정보를 최대한 활용합니다.이는 모델의 성능과 일반화 능력을 크게 향상시켜 이전 세대를 능가하는 4세대 대형 오디오 모델의 핵심 기술 혁신이기도 하다.

훈련 과정에서 히말라야 에베레스트 ai는 먼저 오디오 데이터와 텍스트 데이터를 각각 전처리한 후 모델 입력에 적합한 토큰 형식으로 변환하고 오디오 토큰과 텍스트 토큰을 동일한 공간 벡터 표현으로 매핑하여 모델이 데이터를 더 잘 이해하고 처리할 수 있도록 합니다. 오디오와 텍스트의 관계. 전체 훈련 프로세스에는 사전 훈련(pretraining), 감독 미세 조정(sft), 도메인 감독 미세 조정(domain sft), 화자 감독 미세 조정(speaker sft) 및 강화 학습(rl) 등 여러 주요 프로세스가 포함됩니다. 이러한 과정에 대한 교육을 통해모델에는 다음과 같은 기능이 있습니다. (1) 15s 톤 복제 기능 및 사운드 변환 기능. (2) 초의인화, 다중 감정, 인간 선호도 정렬 음성 생성. (3) 고도로 통제 가능한 스타일과 준언어 능력.

히말라야 에베레스트 ai r&d팀은 훈련된 모델을 평가한 결과, 오디오 소설과 같은 긴 오디오 콘텐츠의 맥락에서 문자 해석 스타일의 제어 가능성, 음소 성능의 안정성, 음성 흐름 및 리듬 일시 정지의 자연스러움이 크게 향상된다는 사실을 발견했습니다. 더 높은 국내외 3세대 오디오 세대 모델입니다.

히말라야오디오 대형모델 "제작과 모델의 결합" 패러다임 구현, 업계와 모델을 결합하여 비즈니스, 데이터 및 알고리즘의 긍정적인 피드백 루프를 형성합니다. aigc 오디오북, 채팅 대화 상호작용 등 비즈니스 시나리오에서 널리 사용됩니다. 예를 들어 최근 인기를 끌고 있는 오디오북 'my altay'는 히말라야 오디오 대형 모델로 생성되었습니다. 히말라야 에베레스트 ai(himalaya everest ai)는 오디오 대형 모델 기능을 에베레스트 ai 공식 홈페이지에서 직접 체험할 수 있으며, 사용자는 자신만의 오디오 콘텐츠를 직접 제작할 수 있다고 밝혔습니다.