OpenAI大礼包：实时语音、模型蒸馏都上了，要卖最好的货赚最多的钱

2024-10-02

作者｜Jessica

今天，OpenAI 2024年首场DevDay在旧金山2号码头的Gateway Pavilion低调举办。

与去年风风火火的官宣造势不同，今年开发者日的消息只在两月前OpenAI Developers 的X账号出现过一次，以至于好多人都不知道这事儿。

参会者基本是受邀客户和筛选出的一线开发者。地点保密至最后一刻，直至当天才透露的神秘日程，且没有直播。

会前，Sam Altman快速发布一条推特：

“今天为开发者推出了一些新工具！

从上次DevDay到这次：GPT-4到4o mini的每个token成本下降了 98%，我们系统中的token量增加了50 倍，模型智能取得了卓越进展，期间还有一点小drama。

我对从这次DevDay到下一次的进展充满期待。通向AGI的道路从未如此清晰。”

正如此前公司开发者体验主管Romain Huet在X平台告知的那样，今年的DevDay没有任何新模型发布，只集中在API改进。

而OpenAI也确实在这个名副其实的“开发者日”上，打包带来了实时API、提示缓存、模型蒸馏、视觉微调、Playground优化，以及扩大o1 API范围、提升速率限制等一系列面向开发者的重要工具更新。

而这些新API的定价并不是绝对便宜，许多开发者评价当它的定价与能力结合，才显得有吸引力。此次诚意尽显的开发者大礼包一次性奉上，OpenAI还是想通过卖最好的货，来赚最多的钱。

图源：@swyx | x.com

实时API：一步构建自己的“Her”应用

作为今天最吸睛的功能，实时API （Realtime API）允许开发者调用ChatGPT高级语音模式的底层模型gpt-4o-realtime-preview，在应用中构建快速、自然的语音到语音对话体验。支持6种预设语音，实现低延迟的语音交互。

以往创建语音助手时，开发者需要依赖多个模型来完成不同任务：先用类似Whisper的语音识别模型将音频转录成文本，再将文本传递给语言模型进行推理，最后通过文本到语音模型生成语音输出。不仅流程复杂，还容易丢失情感和口音，且存在明显延迟。

而实时API只需一次调用，即可完成整个对话流程。通过流式传输音频输入和输出，极大地提升了对话的自然性和响应速度。它使用持续的WebSocket连接与GPT-4o交换消息，并支持函数调用，能快速响应请求，执行如下订单或提供个性化服务等操作。还能像高级语音模式那样，自动处理中断，确保用户体验更加顺畅，非常适合客户支持、语言学习等需要高互动性的场景。

在现场，工作人员演示了通过实时API构建的语音助理，帮台下100多名开发者“打电话下单400颗草莓外送”的demo。

新闻

OpenAI大礼包：实时语音、模型蒸馏都上了，要卖最好的货赚最多的钱

简介

我的联系方式