소식

openai, 중국어를 포함해 50개 언어를 구사할 수 있는 인간과 유사한 chatgpt 음성 도우미 완전 출시

2024-09-25

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

이 기사의 저자: li dan

출처: 하드 ai

openai가 최초 공개 출시된 지 4개월 후, chatgpt의 인간과 유사한 고급 인공 지능(ai) 음성 비서 기능이 마침내 유료 사용자에게 제공됩니다.

동부 표준시인 9월 24일 화요일에 openai는 openai chatgpt plus 및 팀 요금제 구독을 위해 비용을 지불한 모든 사용자가 새로운 chatgpt 고급 음성 모드인 고급 음성을 사용할 수 있다고 발표했습니다. 이 기능은 다음 버전에서 점진적으로 출시될 예정입니다. 며칠 후 처음으로 미국 시장에 출시될 예정입니다. 온라인입니다. 다음 주에 이 기능은 openai edu 및 enterprise 요금제 가입자에게 제공될 예정입니다.

이는 이번 주에 chatgpt plus 버전의 개인 사용자와 teams 버전의 소규모 비즈니스 팀 사용자 모두 프롬프트 단어를 수동으로 입력하고 gpt 대화를 할 필요 없이 간단히 말하면 새로운 음성 기능을 활성화할 수 있음을 의미합니다. 사용자는 앱에서 고급 음성 모드에 접속하면 팝업창을 통해 고급 음성 비서에 진입했다는 사실을 알 수 있으며, 사용자는 앱에서 알림을 받게 됩니다.

openai는 chatgpt의 새로운 음성 버전에 두 가지 기능을 제공했습니다. 하나는 음성 어시스턴트에 대한 "사용자 정의 지침"을 저장하는 기능이고, 다른 하나는 사용자가 음성 어시스턴트가 수행하기를 원하는 동작을 기억하는 "메모리" 기능입니다. openai가 올해 4월 chatgpt에 제공한 텍스트 버전에는 메모리 기능이 도입되었습니다. 사용자는 이러한 기능을 활용하여 음성 패턴을 개인화할 수 있으며 ai 도우미는 모든 대화에 대한 사용자의 선호도에 따라 응답할 수 있습니다.

openai는 화요일에 arbor, maple, sol, spruce 및 vale이라는 다양한 스타일의 5가지 새로운 음성을 출시했으며 이전에 이전 버전의 음성 ​​모드에서 출시한 breeze, juniper, cove 및 ember의 4가지 음성과 선택적 음성 9가지 유형을 달성했습니다. openai는 또한 일부 외국어의 대화 속도, 유창성 및 억양을 향상시킵니다.

openai는 고급 음성 비서가 50개 언어로 "미안해요, 늦었어요"라고 말할 수 있다고 소개했으며, 소셜 미디어 게시물에 동영상을 첨부해 사용자가 할머니를 기다리고 있기 때문에 음성 비서에게 표현해달라고 요청할 수 있음을 보여주었습니다. 오랜만입니다. 영상에는 ai 비서가 먼저 사용자가 원하는 대로 표현하고 싶은 내용을 영어로 말한 뒤, 사용자가 ai 할머니에게 중국어만 말하라고 요청한 뒤 ai 비서가 다시 중국어로 말해주는 모습이 담겨 있다. 표준 중국어.

새로운 음성 기능은 openai의 ai 모델 gpt-4o에서 사용할 수 있으며 최근 출시된 프리뷰 모델 o1에서는 사용할 수 없습니다.

새로운 음성 기능의 출시는 이미 오래 전부터 이루어졌습니다. 월스트리트 뉴스는 올해 5월 openai가 새로운 플래그십 모델 gpt-4o를 출시하면서 음성 모드 음성 모드를 시연했다고 언급한 적이 있습니다. 당시 gpt-4o가 지원하던 chatgpt 음성은 미국 성인 여성의 목소리처럼 들리며 요청에 즉시 응답할 수 있었습니다. 데모의 openai 연구 책임자인 마크 첸(mark chen)이 지나치게 숨을 내쉬는 것을 듣고 긴장한 모습을 알아차린 듯 "마크, 당신은 진공청소기 아니잖아"라며 첸에게 긴장을 풀고 숨을 쉬라고 말했다.

openai는 당초 6월 말 소수의 plus 요금제 사용자를 대상으로 음성 모드를 출시할 계획이었으나, 이 기능이 수백만 사용자의 요청을 안전하고 효과적으로 처리할 수 있도록 하기 위해 출시를 한 달 연기할 것이라고 6월 발표했습니다. . 당시 openai는 올 가을 모든 plus 사용자가 이 기능에 액세스할 수 있도록 할 계획이라고 밝혔으며 정확한 일정은 보안 및 안정성에 대한 높은 내부 표준을 충족하는 데 달려 있습니다.

7월 말, openai는 제한된 수의 유료 plus 사용자를 위해 고급 음성 모드에서 chatgpt를 출시했습니다. 음성 모드는 다른 사람이 말하는 방식을 모방할 수 없으며 소프트웨어가 생성된 특정 음악을 발견하고 거부할 수 있도록 새로운 필터를 추가했습니다. 또는 기타 양식의 저작권이 있는 오디오에 대한 요청. 그러나 새로운 음성 모드에는 컴퓨터 비전 기능 등 openai가 5월에 시연한 많은 기능이 부족합니다. 이 기능을 사용하면 gpt는 스마트폰 카메라를 사용하여 사용자의 댄스 동작에 대한 음성 피드백을 제공할 수 있습니다.