2024-10-02
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
著者|ジェシカ
本日、openai の 2024 年最初の devday が、サンフランシスコのピア 2 にあるゲートウェイ パビリオンで控えめに開催されました。
昨年の騒然とした公式発表とは異なり、今年のdeveloper dayのニュースは2か月前にopenai developersのxアカウントに一度だけ掲載されただけだったので、多くの人が知りませんでした。
参加者は基本的に招待された顧客と選ばれた第一線の開発者です。場所は最後まで秘密にされ、謎のスケジュールも当日まで明かされず、生放送もなかった。
会議の前に、サム・アルトマンはすぐに次のようにツイートした。
「開発者向けの新しいツールが本日リリースされます。
前回の devday から今回の devday まで: gpt-4 から 4o mini までのトークンあたりのコストは 98% 低下し、システム内のトークンの数は 50 倍に増加し、モデル インテリジェンスは大幅に進歩しました。ドラマ進行中。
今回の devday から次の devday への進展を楽しみにしています。 agi への道はかつてないほど明確になりました。 」
同社の開発者エクスペリエンス担当ディレクターであるromain huet氏が以前にxプラットフォームについてお知らせしたように、今年のdevdayでは新しいモデルはリリースされず、apiの改善のみに焦点が当てられました。
そして、openai は実際に、一連のリアルタイム api、プロンプト キャッシュ、モデル蒸留、視覚的な微調整、プレイグラウンドの最適化をパッケージ化するとともに、o1 api の範囲を拡大し、この真の「開発者の日」に開発者のレート制限を引き上げました。重要なツールのアップデート。
これらの新しい api の価格は決して安いわけではなく、価格と機能の組み合わせが魅力的であると多くの開発者がコメントしています。この誠実な開発者向けギフト パッケージは一度に提供されますが、openai は依然として最高の製品を販売することで最大限の収益を上げたいと考えています。
画像ソース: @swyx | x.com
1
リアルタイム api: ワンステップで独自の「彼女」アプリを構築
現在最も目を引く機能として、realtime api を使用すると、開発者は chatgpt の高度な音声モードの基礎となるモデルである gpt-4o-realtime-preview を呼び出して、アプリケーションで高速かつ自然な音声対音声の会話エクスペリエンスを構築できます。 6 つのプリセット音声をサポートし、低遅延の音声インタラクションを実現します。
以前は、音声アシスタントを作成する場合、開発者はさまざまなタスクを完了するために複数のモデルに依存する必要がありました。まず、whisper などの音声認識モデルを使用して音声をテキストに変換し、次に推論のためにテキストを言語モデルに渡し、最後に音声を生成します。テキスト読み上げモデルを介して。プロセスが複雑なだけでなく、感情やアクセントが失われやすく、大幅な遅延が発生します。
リアルタイム api では、会話プロセス全体を完了するために 1 回の呼び出しのみが必要です。ストリーミング音声入出力により、会話の自然さと応答性が大幅に向上します。永続的な websocket 接続を使用して gpt-4o とメッセージを交換し、リクエストに迅速に応答し、注文やパーソナライズされたサービスの提供などの操作を実行できる関数呼び出しをサポートします。また、高度な音声モードなどの中断を自動的に処理して、よりスムーズなユーザー エクスペリエンスを確保することもでき、カスタマー サポート、言語学習、および高度な対話性が必要なその他のシナリオに非常に適しています。
現場では、スタッフがリアルタイム api によって構築された音声アシスタントをデモンストレーションし、聴衆の 100 人以上の開発者が「配達用のイチゴ 400 個を電話で注文する」のを支援しました。