소식

GPT-4o와 비교하면 Her의 iFlytek Spark 버전이 출시되었으며 8월 말에 완전히 공개될 예정입니다.

2024-08-19

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

HKUST 8월 19일 뉴스아이플라이텍발표하다불꽃대규모 음성 모델 업데이트가 Spark에서 공식 출시되었습니다.극한의 속도추월하다의인8월 말 일반에 공개될 iFlytek Spark 앱의 "XiaoXing Chat" 기능에 그 기능을 적용해 보세요.


공식 디스플레이 결과에 따르면 Spark Extreme Super Anthropomorphic Interaction은 반응 및 중단 속도, 감정 인식 및 정서적 공명, 음성 제어 표현, 인간 역할 연기 등 4가지 측면에서 획기적인 성과를 거두었습니다.

응답 속도 측면에서 Xinghuo Extremely Fast Super Anthropomorphic Interaction은 여러 라운드의 상호 작용을 지원하며 응답 속도는 다음과 같습니다.GPT-4o아주 인간의 일반적인 채팅 리듬과 거의 일치합니다. 사용자는 대화 중에 언제든지 중단하거나 끼어들 수 있으며, 시스템은 신속하게 응답하여 진정으로 원활한 대화 경험을 제공합니다.

감정 인식 및 정서적 공명 측면에서 Xinghuo Extreme Super Anthropomorphic Interaction은 소리의 내용으로 판단할 뿐만 아니라 적절한 감정으로 반응하여 행복, 분노, 슬픔, 기쁨 등 사용자의 다양한 감정을 인식할 수 있습니다. 또한 시스템은 기침이나 애완동물 소리와 같은 비언어적 소리도 인식하고 이에 상응하는 응답을 제공할 수 있습니다.

음성 제어 표현 측면에서 음성 상호 작용에서 기계 음성을 조정할 수 없었던 이전 상황과 비교하여 이제는 음성이 지시하는 한 초의인화를 제어하여 감정과 같은 표현의 변화를 만들 수 있습니다. 스타일, 방언, 강도 등

'롤플레잉' 측면에서 다양한 역할 시뮬레이션을 지원하고 사용자 요구에 따라 역할을 변경할 수 있어 대화가 더욱 흥미롭고 상호작용적입니다.

iFlytek은 통합 신경망을 사용하여 엔드투엔드 음성 대 음성 모델링을 구현하고 기존 음성 상호 작용 음성 대 텍스트, 대규모 모델 생성 응답 및 음성 합성 프로세스를 단순화하여 응답을 크게 단축하는 것으로 보고되었습니다. 시간과 상호 작용의 의인화 및 유창성을 향상시킵니다. 또한 다차원 음성 속성 분리 표현 훈련을 통해 시스템은 다양한 시나리오와 요구 사항을 충족하기 위해 콘텐츠, 음색, 감정 및 기타 요소를 보다 유연하게 제어할 수 있습니다.

iFlytek은 Spark Extreme Super Human Interaction이 8월 말까지 완전히 공개될 예정이며 앞으로도 사용자에게 더욱 풍부하고 실용적인 지능형 음성 서비스를 제공하기 위해 대화형 기능과 모드를 지속적으로 확장할 계획이라고 밝혔습니다. 기술이 계속 성숙해지고 응용 시나리오가 확장됨에 따라 지능형 음성 기술은 스마트폰, 스마트 자동차 등 다양한 분야에서 폭발적인 성장을 가져올 것으로 예상됩니다. IDC 예측에 따르면 2030년까지 전 세계 지능형 음성 서비스 시장은 연평균 성장률 27%로 약 731억 6천만 달러에 이를 것으로 예상됩니다. (짠)

이 기사는 NetEase 기술 보고서에서 발췌한 것입니다. 자세한 내용과 심층적인 내용을 보려면 팔로우하세요.