ニュース

openai 開発者カンファレンスでギフト パックをプレゼント: モデルのコストを大幅に削減、ai 音声対応アプリ、小型モデルで大型モデルのパフォーマンスを「向上」

2024-10-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

この記事の著者: 李丹

東部標準時間の 10 月 1 日火曜日、openai は年次開発者カンファレンス devday を開催しました。今年のカンファレンスでは主要な製品リリースはありませんでしたが、openai はいくつかの大きな「ギフト パッケージ」も配布しました。 」を開発し、既存の人工知能 (ai) ツールと api スイートを改善します。

この openai devday では、主にプロンプ​​ト キャッシング、ビジョン ファイン チューニング、リアルタイム api、モデル蒸留という 4 つの主要なイノベーションを含む一連の新しいツールが発表され、コストの面で開発者に朗報となり、モデルの視覚的な理解レベルが向上します。音声ai機能と小型モデルの性能向上。

今年の devday の焦点は開発者の能力を向上させ、開発者サークルのストーリーを紹介することにあるというコメントもあり、ai 分野での競争がますます激化する中、openai の戦略が変化していることを示しています。上記の新しいツールは、エンドユーザー アプリケーションで直接競合するのではなく、開発者エコシステムの強化に openai が戦略的に焦点を当てていることを強調しています。

一部のメディアは、devday イベント前の記者会見で、openai の最高製品責任者である kevin weil 氏が、openai の最高技術責任者である mira murati 氏と最高研究責任者である bob mcgrew 氏の最近の退職について語り、彼らの退職は会社の発展に影響を与えるものではないと述べたと言及しました。速度が低下します。」

プロンプト キャッシュにより、入力トークンのコストを最大 50% 削減できます

プロンプトワードキャッシュは、今年の devday でリリースされた最も重要なアップデートとみなされます。この機能は、開発者のコ​​ストを削減し、待ち時間を短縮するように設計されています。

openai によって導入されたプロンプト ワード キャッシュ システムは、モデルによって最近処理された入力トークンに対して自動的に 50% 割引を提供します。これは、コンテキストを頻繁に再利用するアプリケーションにとって大幅な節約につながる可能性があります。このような大幅なコスト削減により、企業や新興企業は、法外なコストのために以前は手が届かなかった新しいアプリケーションを探索する大きな機会を得ることができます。

openai プラットフォーム プロダクト マネージャーの olivier godement 氏は、gpt-3 は 2 年前に大成功を収め、現在 openai は関連コストを 1,000 分の 1 近く削減したと述べました。同氏は、2 年間で同じ額のコストが削減された例を他に挙げることができませんでした。

次の openai グラフは、プロンプト ワード キャッシュにより ai モデルの適用コストを大幅に削減できることを示しています。さまざまな gdp モデルのキャッシュされていないトークンと比較して、入力トークンのキャッシュ コストを最大 50% 削減できることがわかります。

vision fine-tuning: ビジュアル ai の新境地

openai devday は、openai の最新の大規模言語モデル (llm) gpt-4o に視覚的な微調整が導入されたことを発表しました。この機能により、開発者は画像とテキストを使用してモデルを視覚的に理解できるようにカスタマイズできます。

これはビジュアル ai の新境地として知られるメジャー アップデートです。自動運転車、医療画像処理、視覚検索機能などの分野に広範囲に影響を与える可能性がある。

openaiは、meituan + didiの東南アジア版であるgrabが地図サービスを改善するためにこの技術を使用していると述べた。わずか 100 件の例を使用することで、grab は車線カウントの精度を 20% 向上させ、速度制限標識の位置を 13% 向上させました。

この現実世界のアプリは、ビジュアル トレーニング データの小さなバッチを使用して、さまざまな業界の ai サービスを大幅に強化するビジュアル微調整の可能性を示しています。

リアルタイム api が会話型 ai のギャップを埋める

openai devday はリアルタイム api をリリースしましたが、現在パブリック ベータ段階にあります。リアルタイム api は本質的に、音声アシスタントやその他の会話型 ai ツールを構築するプロセスを簡素化し、文字起こし、推論、およびテキストから音声への変換のために複数のモデルをつなぎ合わせる必要性を排除します。

この新製品により、開発者は、特に音声合成アプリにおいて、低遅延のマルチモーダル エクスペリエンスを作成できるようになります。これは、開発者が chatgpt の音声コントロールをアプリに追加し始めることができることを意味します。

api の可能性を説明するために、openai は、昨年のカンファレンスでデモを行った旅行計画アプリである wanderlust の更新バージョンを披露しました。

リアルタイム api の助けを借りて、ユーザーは新しいバージョンのアプリと直接会話し、自然な会話をして旅程を計画することができます。このシステムでは、ユーザーが文章の途中で中断して、人間の会話を模倣することもできます。

旅行計画は一例にすぎませんが、リアルタイム api はさまざまな業界の音声アプリに幅広い可能性をもたらします。顧客サービス、教育、または障害のある人向けのアクセシビリティ ツールを専門とする開発者は、新しいリソースを活用して、より直観的で応答性の高い ai 主導のエクスペリエンスを作成できるようになりました。

栄養およびフィットネスコーチングアプリの healthify や言語学習プラットフォームの speak など、一部のアプリはすでに自社製品へのリアルタイム api の統合を先導しています。

コメントによると、リアルタイム api は音声入力 1 分あたり 0.06 ドル、音声出力 1 分あたり 0.24 ドルと決して安くはありませんが、それでも音声ベースのアプリを作成しようとしている開発者にとっては重要な価値提案となる可能性があります。

モデル蒸留により、小型モデルに最先端のモデル機能を持​​たせることが可能

今回、モデル蒸留は openai の最も革新的な新しいツールとみなされます。この統合ワークフローにより、開発者は gpt o1-preview や gpt-4o などの最先端のモデルの出力を使用して、比較的小規模でコスト効率の高い大学モデルを微調整することができ、それによって gpt-4o mini などのより効率的なモデルを改善できます。パフォーマンス。

このアプローチにより、中小企業でも、最先端のモデルを使用するための計算コストを負担することなく、最先端のモデルと同様の機能を利用できるようになります。これは、ai 業界が長年抱えてきた、リソースを大量に消費する最先端のシステムと、アクセスしやすいが強力ではないシステムとの間に存在していたギャップを埋めるのに役立ちます。

たとえば、医療技術に携わる小規模な新興企業は、地方の診療所向けに ai を活用した診断ツールを開発したいと考えています。同社は、モデルの蒸留を使用して、標準的なラップトップまたはタブレットで実行するだけで、より大きなモデルの診断能力の多くを取り込んだコンパクトなモデルをトレーニングできます。

したがって、モデルの蒸留により、リソースに制約のある環境でも複雑な ai 機能を活用できるようになり、十分なサービスが提供されていない地域の医療レベルが向上する可能性があります。