소식

"GPT-4o의 음성 기능을 갖춘 중국 최초의 모델", Xinchen Lingo 음성 AI 모델이 내부 테스트 예약을 위해 공개되었습니다.

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

IT House는 Jinke Tomcat이 투자한 Xihu Xinchen이 올해 8월 Xinchen Lingo 대형 음성 모델을 출시했다고 8월 24일 보도했습니다. 이는 중국 최초의 엔드투엔드 음성 대형 모델입니다. 공개 베타 테스트 약속.

8월 21일 발표된 발표에서 공식 소개에는 기존 TTS에 비해 종단 간 음성 대형 모델이 보다 포괄적인 기술이라고 명시되어 있습니다.음성 인식을 지원할 뿐만 아니라 자연어 처리, 의도 인식, 대화 관리, 음성 합성 등 여러 링크를 통합하여 음성 입력부터 음성 피드백까지 완전한 상호 작용 프로세스를 실현합니다. 컴퓨터 상호 작용.

IT Home은 공식 보도 자료를 인용하여 Xinchen Lingo 음성 모델이 GPT-4o 음성 기능을 따라잡을 수 있는 중국 최초의 모델이라고 밝혔습니다. 기술 역량 측면에서 다음과 같은 세 가지 중요한 특징이 있습니다.

원어민 음성 이해:엔드투엔드 모델인 Xinchen Lingo는 음성의 텍스트 정보를 인식할 수 있을 뿐만 아니라 감정, 어조, 음조, 심지어 환경 소리와 같은 다른 중요한 특징도 정확하게 캡처하여 모델이 음성 내용을 보다 포괄적으로 이해하도록 돕습니다. , 이를 통해 보다 자연스럽고 생생한 인터랙티브 경험을 제공합니다.

다양한 음성 스타일 표현:Xinchen Lingo는 상황과 사용자 지시에 따라 음성의 속도, 높이 및 소음 강도를 적응적으로 조정할 수 있으며 대화, 노래, 누화 등과 같은 다양한 스타일의 음성 응답을 생성하여 다양한 분야에서 모델의 유연성을 효과적으로 향상시킬 수 있습니다. 응용 시나리오 및 적응성.

음성 모달 슈퍼 압축:Xinchen Lingo는 압축률이 수백 배에 달하는 음성 코덱을 사용합니다. 이를 통해 음성을 매우 짧은 길이로 압축할 수 있어 컴퓨팅 및 저장 비용을 크게 절감하는 동시에 모델이 고품질 음성 콘텐츠를 생성하는 데 도움이 됩니다.