소식

openai, 개발자에게 음성 ai 엔진 공개

2024-10-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

whip bulls는 10월 2일 외국 보도에 따르면 openai가 chatgpt의 고급 음성 모드를 지원하는 음성 ai 엔진을 다른 개발자에게 공개한다고 보도했습니다.

개발자는 ai가 음성 명령을 이해하고 실시간 전화와 같은 시나리오에서 음성 대화를 수행할 수 있는 기술에 실시간으로 액세스할 수 있습니다.

이전에는 이 프로세스를 위해 개발자가 최소한 세 단계를 거쳐야 했습니다. 먼저 오디오를 기록한 다음 생성된 텍스트 모델을 실행하여 쿼리에 대한 답변을 도출하고 마지막으로 별도의 텍스트 음성 변환 모델을 사용했습니다.

이러한 움직임은 대화형 음성 인터페이스를 제공하는 인공 지능 애플리케이션의 물결을 열어줍니다.

새로운 음성-음성 기능은 화요일 샌프란시스코에서 열린 devday 행사에서 openai가 발표한 여러 발표 중 하나입니다.

이 기능의 초기 테스터에는 영양 및 피트니스 앱인 healthify와 언어 학습 앱인 speak가 포함됩니다.

개발자가 사용할 수 있는 다른 새로운 기능에는 이미지를 기반으로 모델을 미세 조정하는 기능이 포함됩니다.

기자들을 위한 데모에서 openai 경영진은 twilio의 api와 결합된 새로운 오디오 기능의 예를 선보였습니다. 이를 통해 ai 보조원은 가상의 사탕 가게에 전화를 걸어 초콜릿으로 덮인 딸기 400개를 주문할 수 있습니다.

도구의 사용자 정의 데모 중에는 ai 시스템과 대화하여 딸기와 같은 지역 제품을 찾는 데 도움을 주는 한 가지 예가 있었습니다. 그런 다음 ai는 판매자에게 전화를 걸어 딸기를 주문하고 사용자로부터 주문 수량과 예상 비용에 대한 지시를 받습니다.

openai는 이러한 기술을 사용하는 사람은 누구나 그것이 인간이 아닌 인공 지능이라는 사실을 숨길 수 없으며 새로운 사운드를 생성하는 대신 개발자에게 6가지 사전 설정만 제공한다고 말합니다.

개발자는 chatgpt와 동일한 옵션인 openai에서 제공하는 사운드만 사용할 수 있습니다.

소리에는 어떤 식으로든 워터마크가 표시되지 않으며 개발자가 ai 시스템에서 스스로를 인식할 필요는 없지만 openai는 자사 시스템을 사용하여 스팸을 보내거나 사람들을 호도하는 것은 회사의 서비스 약관을 위반한다고 말합니다.

이번 발표는 진행 중인 대규모 기금 모금 캠페인과 지난 주 최고 기술 책임자인 mira murati와 다른 두 임원의 퇴사를 포함하여 chatgpt 제조업체를 둘러싼 뉴스가 쏟아지는 가운데 나왔습니다.