2024-10-02
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
著者|スホーイ
編集者|王波
幹部が去り、appleが資金調達交渉から撤退するなど、openaiにとって今週は間違いなく激動の週となる。しかしopenaiは依然として、自社のaiモデルを使ってアプリケーションを構築するよう開発者を説得することにこだわっている。
米国現地時間10月1日、openaiはサンフランシスコでdevdayを開催した。昨年の大規模なイベントとは異なり、今年のイベントはより控えめで、開発者向けのロードショーとなりました。
今回、openai は主要な製品を発表するのではなく、既存の製品に取り組んでいます。aiツールとapiキットは段階的に改良されました。
彼らは 4 つのイノベーションを発表しました。リアルタイムの視覚微調整api(リアルタイム api)、モデル蒸留、およびプロンプト キャッシュ。
たとえば、リアルタイム api のパブリック ベータ版を使用すると、開発者は ai 音声応答を迅速に生成できるアプリケーションを作成できます。この新しいテクノロジーは応答が速いだけでなく、6 つの異なるサウンド オプションを提供しており、サウンドはすべて openai 自身によって開発されており、サードパーティの著作権の問題を回避しています。この api は chatgpt の高度な音声モードを「コピー」しませんが、機能は基本的に似ています。
openai の開発者エクスペリエンス担当ディレクターである romain huet 氏も、o1 を使用してプロンプト付きの iphone ios アプリケーションを約 30 秒で構築する方法をデモンストレーションしました。
yute は iphone ios アプリケーションの構築をデモンストレーションします。画像クレジット: x by romain huet
過去 2 年間、openai は、meta や google などの競合他社からの市場圧力に応えて、開発者が api にアクセスするコストを 99% 削減しました。新しいツールのコンテキストから次のことがわかります。openai の戦略は、エンドユーザー アプリケーションで直接競合するよりも、開発者エコシステムの強化を優先しています。
イベントの前に、openai の最高製品責任者である kevin weil 氏は、最高技術責任者の mira murati 氏と最高研究責任者の bob mcgrew 氏のことについて言及しました。辞任は会社の長期的な発展には影響しません。同氏は、「頻繁な人事異動」にもかかわらず、openaiは依然として「開発の勢いを維持」できると述べた。
googleやappleのようなテクノロジーグループがいわゆる人工知能エージェントを消費者に展開しようと競う中、openaiは考えるaiアシスタントは来年「主流になる」だろう。複雑なタスクを推論して完了するなどの ai アシスタントの機能は、テクノロジー企業にとって最新の戦場となっており、各企業はこの急速に発展するテクノロジーを活用して収益源を開発したいと考えています。
「ai のインタラクション手法が人間のあらゆるインタラクション方法をカバーできることが期待されています。つまり、エージェント システムの開発により、ai が人間のさまざまなコミュニケーションやインタラクションを模倣または複製できるようになります。」とウィアー氏は述べています。その手法は、言語コミュニケーション、感情表現、非言語コミュニケーションなどのいずれであっても、人間と ai の間のインタラクションを可能な限り自然でシームレスなものにします。
openai に加えて、microsoft、salesforce、workday などの企業もエージェント機能を ai 計画の中核に据えており、google と meta も ai モデルを自社製品に統合することが重要な注力分野であると述べています。
昨年、openai は開発者がそのテクノロジーを使用してエージェントを構築できるようにする「assistants api」をリリースしました。しかし、初期モデルの機能制限によって計画が妨げられていることも明らかにした。
weill氏は、openaiの最新モデルによってもたらされる思考と推論の改善が、chatgptなどの同社製品や、そのapiを使用してアプリケーションを構築する新興企業や開発者に反映されるだろうと述べたが、直ちに独自のモデルを開発するかどうかについては言及しなかった。 aiエージェント。
openai は、地元で入手可能な製品の検索と購入を支援する任務を負った ai システムとのライブ会話をデモンストレーションしました。たとえば、イチゴを購入すると、ai が販売者に電話をかけて、ユーザーの指示に従って注文を出します。
プロンプトに基づいてイチゴを購入する ai のデモンストレーション 画像出典: ken collins の x
openaiは、このテクノロジーを利用する人は誰でも、それが人間ではなくaiであることを明確にする必要があり、開発者に提供されるのは限られたプリセットのオプションのみであり、新しいサウンドを作成する機能ではないことを強調している。
「正しく行えば、携帯電話を見つめる時間が減り、重要なことに集中する時間が増えるでしょう」とウェア氏は語った。
1. チップ キャッシュ: 開発者の予算の救世主
「ヒント キャッシュ」機能は、このイベントの最も重要な機能の 1 つであり、開発者のコストと待ち時間を削減するために使用されます。
ai アプリケーションを構築する多くの開発者は、コード ベースを編集するときや、チャットボットと複数回にわたる長時間の会話を行うときなど、複数の api 呼び出しにわたって同じコンテキストを再利用します。ヒント キャッシュは、最後に確認された入力トークンを再利用することにより、モデルによって最後に処理された入力トークンに 50% の割引を自動的に適用します。
入力トークンをキャッシュすると、さまざまな gpt モデルでキャッシュされていないトークンと比較して最大 50% を節約できます。画像出典:openai
ヒント キャッシュの可用性と価格 本日より、ヒント キャッシュは gpt-4o、gpt-4o mini、o1-preview、および o1-mini の最新バージョンと、これらのモデルの微調整バージョンに自動的に適用されます。キャッシュされたチップは、キャッシュされていないチップと比べて割引を受けられます。
サポートされているモデルへの api 呼び出しでは、1024 トークンを超えるプロンプトについては、プロンプト キャッシュの恩恵が自動的に受けられます。 api キャッシュの前に計算されたヒントの最長のプレフィックス。マーク 1024 から始まり、128 マークずつ増分します。ユーザーが共通のプレフィックスを持つヒントを頻繁に使用する場合、openai はユーザーが api 統合に変更を加えることなく、ヒント キャッシュの割引を自動的に適用します。
キャッシュは通常、非アクティブ状態が 5 ~ 10 分間続くとクリアされ、キャッシュが最後に使用されてから 1 時間以内に必ず削除されます。すべての api サービスと同様、チップ キャッシュは opai の企業プライバシーに関する取り組みの対象となります。チップキャッシュは組織間で共有されません。
コストの大幅な削減により、さまざまな企業が、以前はコストがかかりすぎて実装できなかった新しいアプリケーションを開発する機会が得られます。
openai プラットフォーム製品リードのオリヴィエ・ゴデマン氏は、openai のサンフランシスコ本社で行われた小規模な記者会見で次のように語った。関連コストを 2 倍に削減できました。わずか 2 年でこれほどの規模のコスト削減を達成したテクノロジーは他に見つからなかったと彼は誇らしげに言いました。」
2. ビジュアルファインチューニング:ビジュアルaiの新境地
もう 1 つの大きな発表は、openai の最新の大規模言語モデルである gpt-4o に視覚的な微調整機能が導入されたことです。開発者はテキストだけでなく画像も微調整でき、自動運転車、医療画像、視覚検索機能などの分野を変革する可能性がある。
テキスト微調整の導入以来、何十万もの開発者がテキストのみのデータセットを活用してモデルを最適化し、特定のタスクのパフォーマンスを向上させてきました。しかし多くの場合、テキストの微調整だけではすべてのニーズを満たすことはできません。視覚的な微調整を通じて、開発者は少なくとも 100 枚の画像をアップロードするだけで gpt-4o モデルを最適化し、視覚タスク、特に大量のテキストや画像データを処理する場合のパフォーマンスを向上させることができます。
openaiによると、東南アジアを代表するフードデリバリー・ライドシェアリング企業であるgrabは、すでにこの技術を活用して自社の地図サービスを改善しているという。わずか 100 件の例を使用することで、grab は車線カウントの精度を 20% 向上させ、速度制限標識の位置精度を 13% 向上させました。
視覚的に微調整された gpt-4o モデルによって正常にマークされた速度制限標識の例 画像ソース: openai。
automat は視覚的な微調整を使用して、スクリーンショットのデータセットに基づいて画面上の ui 要素を認識するように gpt-4o をトレーニングします。これにより、自動化ツールの成功率が向上します。このようにして、automat のロボット エージェントの成功率は 16.60% から 61.67% に増加しました。
デスクトップ ロボットは、web サイトのスクリーンショットを使用した視覚的な微調整を通じて ui 要素の中心を特定することに成功しました、出典: openai
ビジュアル微調整の実世界のアプリケーションは、ビジュアル微調整の可能性を実証し、少量のビジュアル トレーニング データを使用してさまざまな業界の ai サービスを大幅に強化します。
ビジュアル微調整機能は、すべての有料ユーザーが利用できるようになり、最新の gpt-4o モデルをサポートします。開発者はこれらの機能を活用して、既存のトレーニング データセットを拡張して画像を微調整できます。さらに、openai は 2024 年 10 月 31 日まで、1 日あたり 100 万個の無料トレーニング トークンを提供します。トレーニングと推論の微調整にかかる料金は後で調整されます。
3. リアルタイム api: 会話型 ai 間のギャップを埋める
リアルタイム api は現在パブリック ベータ版です。これにより、開発者は、特に音声読み上げアプリケーションにおいて、低遅延のマルチモーダル エクスペリエンスを作成できます。これは、開発者が chatgpt の音声コントロールをアプリに追加し始めることができることを意味します。
api の可能性を説明するために、openai は、昨年のカンファレンスで披露された旅行計画アプリである wanderlust の更新バージョンをデモしました。
リアルタイム api の助けを借りて、ユーザーはアプリケーションと直接会話し、自然な会話形式で旅行の計画を立てることができます。このシステムは、人間の会話を模倣して、会話中に中断することもできます。
healthify は、リアルタイム api を使用して ai との自然な会話を可能にする栄養およびフィットネス コーチング アプリです。画像出典:openai
旅行計画は一例にすぎませんが、リアルタイム api はさまざまな業界の音声アプリケーションに幅広い可能性をもたらします。顧客サービスから教育およびアクセシビリティ ツールに至るまで、開発者は、より直観的で応答性の高い ai を活用したエクスペリエンスを作成するための強力な新しいリソースを利用できるようになりました。
「私たちが製品を設計するときは、基本的にスタートアップと企業の両方について同時に考えます。そのため、アルファ段階では、多くの企業が api を使用しており、新製品の新しいモデルも用意されています。」と goldment 氏は説明しました。
リアルタイム api は基本的に、音声アシスタントやその他の会話型 ai ツールを構築するプロセスを簡素化し、文字起こし、推論、テキストから音声への変換のために複数のモデルをつなぎ合わせる必要性を排除します。
栄養とフィットネスのコーチング アプリ healthify や言語学習プラットフォーム speak などの初期導入企業は、リアルタイム api を自社の製品に統合しています。 api には、医療から教育に至るまで、より自然で魅力的なユーザー エクスペリエンスを生み出す可能性があります。
リアルタイム api の料金体系は、安くはありませんが (音声入力 1 分あたり 0.06 ドル、音声出力 1 分あたり 0.24 ドル)、音声ベースのアプリケーションを作成しようとしている開発者にとっては、依然として重要な価値提案となります。
4. モデルの蒸留: よりアクセスしやすい ai に向けて
おそらく、これで最も変革的な発表は、モデル蒸留の導入です。
統合されたワークフローにより、開発者は o1-preview や gpt-4o などの高度なモデルの出力を使用して、gpt-4o mini などのより効率的なモデルのパフォーマンスを向上させることができます。小規模企業でも、コンピューティング コストを心配することなく、高度なモデルの同様の機能を使用できます。
微調整デモ、出典: openai
モデルの蒸留は、最先端のリソース集約型システムと、よりアクセスしやすいが強力ではないシステムとの間の ai 業界の長年のギャップに対処します。
小規模な医療テクノロジーのスタートアップが、田舎の診療所向けの ai 診断ツールを開発しているとします。チームは、モデルの蒸留を使用して、標準的なラップトップまたはタブレットで実行できる小規模なモデルをトレーニングし、より大きなモデルの診断機能の大部分を取得できるとします。 。
これにより、リソースが限られた環境に高度な ai 機能を導入し、十分なサービスが受けられていない地域の医療成果を向上させることができます。
このアップデートから、openai が重要な戦略的変更を行ったことがわかります。戦略は製品ほど一般向けではないかもしれませんが、単に人目を引く製品の発売を追求するのではなく、エコシステムの開発に重点を置いています。が起動します。
gpt ストアとカスタム gpt ツールが発表された 2023 年のエキサイティングな developer day と比較すると、今年のイベントははるかに控えめです。 ai 分野の急速な変化に、競合他社による大幅な進歩とトレーニング データの可用性に対する懸念の高まりにより、openai は既存のツールを改良し、これらの変化に対応する開発者の能力を強化することにさらに注力するようになりました。
openai は、モデルの効率を向上させ、コストを削減することで、熾烈な競争に対する優位性を維持し、リソース集約度や環境への影響の問題に対処したいと考えています。 openai の成功は、活気に満ちた開発者エコシステムを効果的に育成できる能力に大きくかかっています。
参考文献:
《リアルタイムapiのご紹介》,openai
《ファインチューニングapiへのビジョン導入》,openai
《apiでの即時キャッシュ》,openai
《apiのモデル蒸留》openai
《openai の devday 2024: ai をよりアクセスしやすく、手頃な価格にする 4 つの主要なアップデート》,venturebeat
《openai の devday は、ai アプリ開発者向けにリアルタイム api やその他の特典を提供します》,techcrunch
(カバー画像出典: openai)