소식

OpenAI가 갑자기 업데이트되었습니다! GPT-4o는 고급 음성 버전을 출시하고 몇 초 만에 질문에 답변하며 네티즌들은 열광하고 있습니다.

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


스마트한 것들(공개 계정:지드엑스컴
작가바닐라
편집하다리 슈이칭

GPT-4o의 고급 음성 기능은 이제 더 이상 "미래"가 아닙니다!

7월 31일 이른 아침, Zhidongxi에서 온 소식입니다.오픈AI소규모 ChatGPT Plus 사용자 그룹을 대상으로 출시 시작 발표고급 음성 모드, GPT-4o 기반으로 보다 자연스러운 실시간 대화를 제공합니다.


▲OpenAI, 고급 음성 모드 출시

해당 모델이 출시된 후, 초대를 받은 많은 네티즌들은 이미 해당 모델을 사용하기 시작했으며 자신의 체험 영상과 소감을 공유했습니다. 예를 들어 ChatGPT에서 선보이는 빠른 랩과 비트박스 곡인데 꽤 스타일리시하게 들립니다.

//oss.zhidx.com/uploads/2024/07/66a9902a60e1d_66a9902a5d0a5_66a9902a5d078_Beatbox.mp4

전반적으로 ChatGPT의 고급 음성 모드는 원래 공식 데모와 크게 다르지 않습니다.지연이 거의 없음 , 다양한 톤도 매우 생생합니다. 그러나 보안 측면에서 많은 보호 조치를 취한 것으로 보입니다.사용자 요청을 거부할 확률이 높아졌습니다.

ChatGPT의 음성 대화 기능은 지난해 9월 처음 출시됐다.올해 5월 OpenAI는플래그십 모델 GPT-4o 좀 더 발전된 버전의 음성대화를 선보이며 공개 시연을 진행했습니다. GPT-4o는 음성 기능을 위해 이전의 세 가지 개별 모델 대신 단일 다중 모드 모델을 사용하여 챗봇과의 대화 지연 시간을 줄입니다. (OpenAI는 하룻밤 사이에 음성 어시스턴트를 뒤집었습니다! GPT-4o 모델은 엄청나게 강력하고 ChatGPT는 화면을 읽는 법을 배웠으며 Her의 실제 버전이 여기에 있습니다)

당시 OpenAI는 이 기능이 몇 주 안에 무료 및 유료 사용자에게 출시될 것이라고 발표했습니다. 하지만 오픈AI는 출시 불과 며칠 만에 영화 '어벤져스' 시리즈에서 '블랙 위도우' 역을 맡아 ChatGPT 사운드로 인해 팬들에게 '과부 언니'로 알려진 스칼렛 요한슨과 분쟁을 벌였다. 대사가 너무 비슷해 스칼렛 본인이 비난을 했고 네티즌들은 강하게 반대했다.

이로 인해 고급 음성 모드의 출시 날짜도 지연되었습니다. OpenAI는 ChatGPT가 Scarlett의 목소리를 모방하지 않았다고 주장했지만 나중에 음성 라인이 제거되었습니다.

1. 가을에 모든 구독자에게 공개될 수 있는 100명 이상의 외부 레드팀 구성원을 대상으로 테스트

GPT-4o 기반의 고급 음성 모드는 현재 소수의 ChatGPT Plus 사용자에게만 제공되며 사용 가능합니다.더욱 자연스러운 실시간 대화사용자가 언제든지 중단할 수 있도록 허용, 그리고 할 수사용자의 감정을 감지하고 반응합니다.

이 알파 테스트에 참여하는 사용자는 ChatGPT 모바일 앱에서 지침과 알림이 포함된 이메일을 받게 됩니다. OpenAI는 계속해서 더 많은 사용자를 추가할 예정이며 가을에 모든 Plus 가입자에게 제공할 계획이라고 밝혔습니다.


▲초대 이메일 및 앱 메인 페이지

ChatGPT의 고급 음성 모드는 올해 5월 출시된 OpenAI의 새로운 플래그십 모델 GPT-4o를 기반으로 하며, 영상 이미지를 통한 선형 방정식 이해, 사람의 표정 이해 및 판단 등 음성 채팅과 실시간 영상 상호작용이 가능합니다. 그리고 감정 등.

OpenAI는 초기 출시 이후 팀이 음성 대화의 보안과 품질을 향상시키기 위해 노력해 왔으며 45개 언어로 100명 이상의 외부 레드팀 구성원과 음성 기능을 테스트해 왔다고 밝혔습니다.

개인 정보 보호를 위해 OpenAI는 모델 훈련 시 미리 설정된 4개의 음성으로만 말했고, 폭력적인 콘텐츠나 저작권이 있는 콘텐츠에 대한 요청을 차단하는 보호 조치도 취했습니다.

OpenAI는 8월 초 GPT-4o의 기능, 제한 사항, 보안 평가에 대한 자세한 보고서를 공유할 계획입니다.

2. 첫 번째 평가판 사용자들은 프랑스어 연습, 야옹 배우기, 축구 설명 등 완전한 삶을 살기 시작했습니다.

첫 번째 평가판 사용자는 고급 음성 모드를 사용하고 평가판 경험을 공유하고 싶어합니다.

아티스트 Manuel Sainsily가 카메라를 켜는 동안라이브 촬영ChatGPT에 새로 키운 새끼 고양이와 내가 마련한 환경에 대해 물었고, 먹이에 대한 의견도 ChatGPT에 물었습니다.

//oss.zhidx.com/uploads/2024/07/66a9900fc37cb_66a9900fbde19_66a9900fbddf7_VideoDialog.mp4

ChatGPT의 반응은 기본적으로 지체 없이 고양이의 귀여움을 매우 칭찬한 뒤, 자세한 내용을 묻자 세인실리에게 걱정하지 말라고 위로해 주었습니다. 세인실리는 “지식이 풍부한 친구와 영상통화를 하는 느낌”이라고 감탄했다.

네티즌 Bergara는 소셜 플랫폼 Reddit에서 ChatGPT가 그의 노래 요청을 모두 거부했으며 그의 목소리를 바꾸려고 하지 않는다고 공유했습니다. ChatGPT는 시를 다양한 방식과 분위기로 낭송해 달라고 하면 성공했지만, 웃으며 낭송해 달라고 하면 거절했다.

예를 들어 Bergara는 자신이 프랑스어를 연습하고 있다고 말하면서 ChatGPT에게언어 코치, 발음에 대한 의견을 묻습니다.

//oss.zhidx.com/uploads/2024/07/66a9903094c84_66a99030913bd_66a990309139a_프랑스어 교육.mp4

Bergara라는 단어의 발음과 관련하여 ChatGPT는 강세, 종료음 등에 대한 자세한 제안을 제공하고 시연을 제공했습니다. 동시에 그의 교육 스타일은 매우 "교육 장려"이며 Bergara의 발음을 주저없이 칭찬하여 정서적 가치를 직접적으로 높입니다.

Bergara에서는 ChaGPT가 별도로 사용할 수 있습니다.수줍어하고 화난 톤 맥주에 관해 농담을 해보세요. ChatGPT의 수줍음에 대한 이해는 숨쉬는 목소리로 발음하는 것이며, 분노를 표현하면 데시벨을 증가시킵니다.

//oss.zhidx.com/uploads/2024/07/66a990398daca_66a9903989c33_66a9903989c08_수줍고 화난 톤으로 농담하기.mp4

ChatGPT 사용을 요청하는 경우슬픈 음색시를 낭송하다 보면 금방이라도 끊어질 것 같은...

//oss.zhidx.com/uploads/2024/07/66a9902fc3720_66a9902fbc252_66a9902fbc230_sadtone.mp4

Bergara는 지금까지의 테스트에서 ChatGPT가 OpenAI가 보여준 것과 유사하게 행동했다고 말했습니다.거부율이 좀 높은 것 같아요, 그는 보안상의 이유일 수 있다고 추측했습니다.

예를 들어 Bergara가 ChatGPT에게 로봇과 사랑에 대한 이야기를 노래해 달라고 요청했을 때 이야기를 전달할 수 있지만 일반적인 톤으로만 이야기할 수 있다고 말했습니다.

//oss.zhidx.com/uploads/2024/07/66a99036460bb_66a9903642127_66a99036420ff_감정적인 스토리텔링.mp4

ChatGPT의 스토리텔링 중에 Bergara는 여러 번 중단하고 "감정을 더 추가해 달라"고 요청했습니다. ChatGPT는 이에 따랐고 톤은 더 느려지고 활기가 더해졌습니다.

일부 네티즌들은 이미 ChatGPT를 사용하여 생활을 정리하기 시작했습니다.

Squad 공동 창립자이자 CTO인 Ethan Sutin이 ChatGPT를 허용합니다.다양한 고양이 야옹을 흉내내다 . 이 고양이의 울음소리는 약간 "마법적"이라고 말해야 하지만, 제 고양이가 그것에 매력을 느꼈기 때문에 꽤 현실인 것 같습니다...

//oss.zhidx.com/uploads/2024/07/66a9901c00939_66a9901bf0c77_66a9901bf0c51_meow.mp4에 대해 알아보기

ChatGPT에도 있는 것 같습니다.음악 공연 능력. 수틴이 그에게 C단조 코드를 연주해 달라고 부탁했는데, 그것을 듣고 정확한지 확인할 수 있는 음악 이론을 아는 독자가 있습니까?

//oss.zhidx.com/uploads/2024/07/66a9903dcfec1_66a9903dcbf91_66a9903dcbf62_chord.mp4

네티즌 Cristiano Giardina는 ChatGPT를 플레이하도록 허용했습니다.축구 경기 해설자 . 그는 고급 음성 모드를 사용해 본 첫 인상을 공유했습니다. 속도가 매우 빠르고, 항상 흥미로운 결과가 나오며, 다른 언어를 말할 때 항상 미국식 억양이 나옵니다.

//oss.zhidx.com/uploads/2024/07/66a9988d2ea93_66a9988d279ea_66a9988d279c4_football commentary.mp4

네티즌 Kesku가 ChatGPT에게 한 가지 말을 해달라고 요청했습니다.존재하지 않는 언어 를 누른 다음 언어가 어떻게 작동하는지 설명하세요. ChatGPT는 마치 노래하는 것과 비슷한 사운드 기반 언어인 Glimnar를 만들었습니다.

//oss.zhidx.com/uploads/2024/07/66a998835c09b_66a9988357da7_66a9988357d83_Creation Language.mp4

ChatGPT의 고급 음성 모드를 사용하는 사용자는 아직 소수에 불과하지만 푸시 범위가 확대되면 더 흥미로운 게임 플레이와 경험을 볼 수 있지 않을까 싶습니다.

결론: OpenAI는 AI 보안에 대한 인식을 높인다

음성 및 영상 속 AI가 사기 도구 역할을 할 수 있는지 면밀히 조사되고 있습니다. OpenAI의 음성 모드는 현재 새로운 음성이나 음성 복제 생성을 허용하지 않지만 이 모드는 여전히 혼란을 일으킬 수 있습니다.

봄 업데이트 이후 몇 달 동안 OpenAI는 보안 및 AI 모델 정렬에 관한 일련의 새로운 논문을 발표했습니다. 이는 보안보다 신제품 출시에 초점을 맞춘 일부 전현직 직원들의 비난을 받아 Super Alignment 팀이 해체된 이후에 나온 것입니다. 현재 고급 음성 모드 출시가 둔화되는 것은 OpenAI가 안전을 중요하게 생각한다는 사용자, 규제 기관, 국회의원들에게 신호로 보입니다.

ChatGPT의 고급 음성 모드 출시는 또한 OpenAI를 Meta의 Llama 3.1 모델 및 Anthropic의 Claude 3과 같은 경쟁업체와 더욱 차별화하여 감정적인 음성에 초점을 맞춘 AI 스타트업에 압력을 가하고 있습니다.