ニュース

「最強の機能と低コスト」! OpenAI、小型モデル競争に参加するために GPT-4o mini をリリース

2024-07-19

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

OpenAIは東部時間木曜日に「GPT-4o mini」を発表し、「小型だが洗練された」AIモデルの競争に参入し、この新モデルを「最も強力で低コストのモデル」と呼び、画像、ビデオ、オーディオを統合する計画を立てた。将来的にはこのモデルに。

GPT-3.5 Turboよりも60%以上安く、チャットパフォーマンスは競合製品よりも優れています

同社によると、GPT-4o miniは木曜日からChatGPTの無料ユーザー、ChatGPT Plus、Teamsの加入者に利用可能となり、来週にはChatGPTのエンタープライズユーザーにも利用可能になるという。 GPT-4o mini は、ChatGPT の古いモデル GPT-3.5 Turbo を置き換えます。 OpenAIによると、GPT-4o miniのコストは100万入力トークンあたり15セント、100万出力トークンあたり60セントで、GPT-3.5 Turboより60%以上安いという。

同社はまた、新モデルは現時点でチャットの好みに関して GPT-4 モデルを上回り、大規模なマルチタスク言語理解 (MMLU) テストで 82% のスコアを達成したと述べた。メディアの報道によると、MMLU は言語モデルの機能を評価するために使用されるテキスト インテリジェンスと推論のベンチマークです。 MMLU スコアが高いほど、さまざまな分野での言語の理解と使用が向上し、現実世界への応用が強化されていることを示します。

OpenAI のデータによると、GPT-4o mini モデルのスコアは 82% で、他の 2 つの低価格競合製品よりも高く、Google の Gemini Flash のスコアは 77.9%、Anthropic の Claude Haiku のスコアは 73.8% です。

大型モデルでは、このテストで GPT-3.5 が 70% のスコアを獲得し、GPT-4o が 88.7% のスコアを獲得し、Google は、Gemini Ultra が史上最高の 90% のスコアを達成したと主張しています。

この分析は、言語モデルが小さいほど実行に必要な計算能力が少なく、リソースが限られている企業にとって生成 AI を導入するためのより手頃なオプションになることを示唆しています。

さらに、この新しい軽量モデルは、API でテキストおよびビジュアル機能もサポートし、OpenAI は、ビデオやオーディオなどのすべてのマルチモーダル入出力をまもなく処理できるようになるだろうと述べています。これらの機能を使用すると、より強力な仮想アシスタントのように機能し、旅行日程を理解し、推奨事項を提示できる可能性があります。ただし、このモデルは現時点では主に単純なタスクにのみ使用できます。

「小さくても洗練された」AI モデルをめぐる競争は熾烈を極め、ついに OpenAI が参入

メディアの報道によると、マイクロソフトが支援する OpenAI の評価額は 800 億米ドルを超えており、依然として生成 AI 市場で主導的な地位を占めていますが、同社は増大する競争圧力に直面しています。 OpenAI はモデルの構築とトレーニングにプロセッサとインフラストラクチャに多額の資金を費やしているため、収益を上げる方法を見つける必要もあります。

ただし、多くの企業では大型で高価なモデルを購入する余裕がないため、軽量で安価なモデルの人気が高まる可能性があります。それまでは、多くの開発者は、最も強力なモデルを実行するために必要な高い計算コストを支払うよりも、Claude 3 Haiku または Gemini 1.5 Flash を選択するでしょう。たとえば、小規模なモデルは大量の基本的なタスクを自動化するのに最適である一方、より大きなモデルはより複雑な作業を処理する可能性があります。開発者によっては、1 つのアプリケーションで両方のモデルを使用したい場合があります。

OpenAIのAPI製品責任者であるオリヴィエ・ゴデマン氏はメディアとのインタビューで、同社が「小規模で洗練された」AIモデルを早期に発表できなかった理由を説明し、OpenAIはより大きくより優れたものを作成することに重点を置いているため、これは純粋に「優先事項」の問題だったと述べた。 GPT-4 などのモデルは、大量の人的リソースと計算リソースを必要とします。時間が経つにつれ、開発者が小型モデルの使用にますます熱心になっていることに OpenAI が気づき、同社は今が GPT-4o Mini の開発にリソースを投資する時期であると判断しました。

「私たちの使命は、最先端のテクノロジーを開発し、最も強力で有用なアプリケーションを構築することです。そして、今後も最先端のモデルを作成し、技術の進歩を推進していきたいと願っています」とOpenAIのAPIプロダクトリードであるオリヴィエ・ゴデマン氏はインタビューで語った。メディア。 「しかし、私たちは最高の小さなモデルも望んでおり、非常に人気があると思います。」

「GPT-4o Mini は、AI をよりアクセスしやすくするという OpenAI の使命を真に体現していると思います。AI が世界の隅々、あらゆる業界、あらゆるアプリケーションに利益をもたらすことを望むのであれば、AI をより手頃な価格にする必要があります。」 (オリヴィエ ディレクター)ゴデメント氏はメディアに語った。

GPT-4o mini は従業員の集中力をサポートします

ゴデメント氏は、一部の開発者が過去1週間にわたってこのモデルを試用していると述べた。

OpenAIは、フィンテックスタートアップのRampに、GPT-4o Miniを使用して領収書から経費データを抽出するツールを構築するモデルをテストするよう依頼した。そのため、ユーザーがレシートの写真をアップロードすると、モデルがデータを整理します。電子メール クライアントの Superhuman も GPT-4o Mini をテストし、それを使用して電子メールの返信を自動的に提案する機能を作成しました。

当初、GPT-4o mini はテキストと画像を処理および生成できるようになります。最終バージョンが完成すれば、他のタイプのコンテンツも処理できるようになるだろうとOpenAIは述べている。

OpenAIはまた、GPT-4o miniは、新しいセキュリティポリシー「命令階層」を使用する同社初のAIモデルであるとも述べた。このアプローチの目的は、AI システムに企業からの指示などの特定の指示を優先させ、人間がツールに本来行われていないことを実行させるのを困難にすることです。

分析では、GPT-4o mini モデルは、OpenAI の「マルチモダリティ」、つまり、AI によって生成された幅広いメディア (テキスト、画像、オーディオ、ビデオなど) を 1 つのツールである ChatGPT で提供するという取り組みの一環であると考えられています。

昨年、OpenAIのCOOブラッド・ライトキャップ氏はメディアに次のように語った。

「世界はマルチモーダルです。私たち人間が世界を処理し、関与する方法を考えてみると、私たちはものを見たり、聞いたり、話したりしています。世界は単なるテキストではありません。したがって、私たちにとって、存在するのはテキストとコードだけです。単一のモダリティ、単一のインターフェースでは、常に不完全に感じられます。なぜなら、これらのモデルの能力とその機能がはるかに優れているからです。」