소식

openai 선물 패키지: 실시간 음성 및 모델 증류가 모두 가능하며 최고의 제품을 판매하고 가장 많은 돈을 벌 수 있습니다.

2024-10-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

저자│제시카

오늘 openai의 2024년 첫 번째 devday가 샌프란시스코 pier 2의 gateway pavilion에서 조용히 개최되었습니다.

지난해 격동의 공식 발표와 달리 올해 개발자 데이 소식은 두 달 전 openai developers의 x 계정에 한 번만 등장해 많은 사람들이 이를 모르고 있었습니다.

참가자는 기본적으로 초청 고객과 선정된 일선 개발자입니다. 장소는 마지막 순간까지 비밀로 유지됐고, 미스터리한 일정은 이날까지 공개되지 않았고, 생방송도 이뤄지지 않았다.

회의가 시작되기 전에 sam altman은 다음과 같은 트윗을 빠르게 올렸습니다.

“개발자를 위한 몇 가지 새로운 도구가 오늘 출시됩니다!

지난 devday부터 이번까지: gpt-4에서 4o mini까지 토큰당 비용이 98% 감소했고, 시스템의 토큰 수가 50배 증가했으며, 모델 인텔리전스가 탁월한 진전을 이루었으며 약간의 변화가 있었습니다. 그 과정에서 드라마.

이번 devday부터 다음 devday까지의 발전을 기대하고 있습니다. agi로 가는 길은 이보다 더 명확했던 적이 없습니다. "

회사의 개발자 경험 담당 이사인 romain huet가 이전에 x 플랫폼에 대해 알렸던 것처럼 올해 devday에서는 새로운 모델을 출시하지 않고 api 개선에만 중점을 두었습니다.

그리고 openai는 실제로 이 진정한 "개발자의 날"에 o1 api의 범위를 확장하고 개발자를 위한 속도 제한을 높이는 것뿐만 아니라 일련의 실시간 api, 신속한 캐싱, 모델 추출, 시각적 미세 조정, 플레이그라운드 최적화를 패키지화했습니다. 중요한 도구 업데이트.

이러한 새로운 api의 가격은 절대적으로 저렴하지는 않습니다. 많은 개발자는 가격과 기능의 조합이 매력적이라고 ​​말합니다. 이 진심 어린 개발자 선물 패키지를 한 번에 제공하고 있으며, openai는 여전히 최고의 제품을 판매하여 가장 많은 돈을 벌고 싶어합니다.

이미지 출처: @swyx |

1

실시간 api: 한 단계로 나만의 'her' 앱 구축

오늘날 가장 눈길을 끄는 기능인 realtime api를 통해 개발자는 chatgpt 고급 음성 모드의 기본 모델인 gpt-4o-realtime-preview를 호출하여 애플리케이션에서 빠르고 자연스러운 음성 대 음성 대화 환경을 구축할 수 있습니다. 낮은 대기 시간의 음성 상호 작용을 달성하기 위해 6개의 사전 설정된 음성을 지원합니다.

과거에는 음성 도우미를 만들 때 개발자가 다양한 작업을 완료하기 위해 여러 모델을 사용해야 했습니다. 먼저 whisper와 같은 음성 인식 모델을 사용하여 오디오를 텍스트로 변환한 다음 추론을 위해 텍스트를 언어 모델에 전달하고 마지막으로 음성을 생성해야 했습니다. 텍스트 음성 변환 모델을 통해. 과정이 복잡할 뿐만 아니라 감정과 억양이 쉽게 사라지고 상당한 지연이 발생합니다.

실시간 api는 전체 대화 프로세스를 완료하는 데 단 한 번의 호출만 필요합니다. 오디오 입력 및 출력을 스트리밍하여 대화의 자연스러움과 응답성을 획기적으로 향상시킵니다. 이는 지속적인 websocket 연결을 사용하여 gpt-4o와 메시지를 교환하고 요청에 신속하게 응답하고 주문 또는 개인화된 서비스 제공과 같은 작업을 수행할 수 있는 기능 호출을 지원합니다. 또한 고급 음성 모드와 같은 중단을 자동으로 처리하여 보다 원활한 사용자 경험을 보장할 수 있으며 고객 지원, 언어 학습 및 높은 상호작용이 필요한 기타 시나리오에 매우 적합합니다.

현장에서 직원들은 실시간 api를 통해 구축된 음성 비서를 시연해 참석한 100명 이상의 개발자들이 "배달용 딸기 400개에 전화하고 주문"할 수 있도록 도와주었다.