また賑やかになりましたね！ openaiの強化版「her」が正式にオープン、geminiの「本番グレード」アップグレードを上回る...

また賑やかになりましたね！ openai の強化版「her」が正式にオープンし、gemini の「実稼働グレード」アップグレードを超えます...

2024-09-25

著者｜ジェシカ

今日は本当に久しぶりにaiサークルが賑やかな一日でした！

昨日のウルトラマンのaiエッセイで混乱していましたが、彼の作戦の意図が明らかになりました。

ウルトラマンは、宿敵である google を攻撃したいと考えています。より正確に言うと、google が本日アップデートしたばかりの 2 つのアップグレードされた gemini モデル、gemini-1.5-pro-002 と gemini-1.5-flash-002 です。

その狙撃方法は単純かつ粗雑で、待望のgpt音声機能が本日正式オープンすることを直接アナウンスするものだ。

2 時間も経たないうちに、google は苦労して勝ち取ったハイライトの瞬間を奪われてしまいました。私がgoogleだったら、とても怒るでしょう。

50 以上の言語を話す gpt 高度な音声が登場

openaiは、chatgptのadvanced voice modeが今週、すべてのplusおよびteamユーザーに段階的に展開されると述べた。

人々が辛抱強く待っている間、チームはカスタムコマンドの追加、メモリ機能、5 つの新しい音声、アクセントの改善など、いくつかの機能を改善しました。

この問題についてはあまりにも長い間話題になっているため、openai は特別な声明を発表しました。「50 以上の言語で『ごめんなさい、遅れました』と言うことができます。」

英語から北京語に切り替える例を挙げてください。「おばあちゃん、ごめんなさい、遅れました。そんなに長く待たせるつもりはなかったのですが、どうやって埋め合わせればいいでしょうか？」

——いい人ですね、あなたは gpt のおばあちゃんになってしまったので、私にあなたを許してもらいました。

ビデオで見られるように、スピーチモードは、openai が 5 月にテクノロジーをデモンストレーションしたときに使用した黒いアニメーションドットではなく、脈動する青い球体で表されるようになりました。

アクセスが許可されると、アプリ内にプロンプトが表示されます。まずはplusおよびteamsレベルのユーザーに公開され、来週からはエンタープライズおよび教育機関のユーザーにも拡大される予定だ。

chatgpt には、arbor、maple、sol、spruce、vale という 5 つの新しいエクスペリエンス音声も追加されています。この時点で、以前の breeze、juniper、cove、ember を加えた chatgpt 音声の総数は 9 に達しました (google の gemini live 音声数は 10)。

また、これらの名前はすべて、「カエデの木」や「そよ風」から「太陽」や「谷」に至るまで、自然からインスピレーションを得たものであることに気づいたかもしれません。これは、おそらく使用をより自然に感じさせるためです。欠席した音声の1つは、openaiが春の発表会で披露したが、映画「her」のスター、スカーレット・ヨハンソンとの法的紛争により中止された音声であるskyだ。

openaiはまた、ユーザーが応答をパーソナライズできる「カスタムコマンド」機能や、将来の参照のためにchatgptが会話を記憶できるメモリ機能など、chatgptのカスタマイズ機能の一部を高度な音声モードに拡張しました。

たとえば、以下のビデオでは、システム設定のカスタム chatgpt メニューに「私の名前はシャーロットです。サンフランシスコベイエリアに住んでいます。」と入力すると、週末の屋外アクティビティについて尋ねられると、gpt はユーザーをシャーロットと呼びます。地域の天気や交通状況に応じた推奨事項を提供します。

openaiによると、チームは一部の外国語の応答速度、流暢さ、アクセントが改善されたという。会話の調子に応じて声が変化し、さまざまな役割を担うシーンを作成できます。音声の遅延が非常に少なく、相手と自然に会話しているように感じられます。

ただし、openaiが4カ月前に実証したビデオや画面共有機能は今回は更新されていない。その際、スタッフは紙に書かれた数学の問題やコンピュータ画面上のコードについてgptに質問し、自然音声対話を通じてリアルタイムで回答を得た。現在、openai はこのマルチモーダル機能のロールアウトスケジュールを提供していません。

さらに、高度な音声モードは、欧州連合、英国、スイス、アイスランド、ノルウェー、リヒテンシュタイン、およびその他の地域では一時的に利用できません。

それにもかかわらず、ついに openai バージョンの「her」を実際に触ることができるのは、ai サークルに飽きてしまった人々にとっては確かにエキサイティングなことです。熱狂の波を巻き起こした o1 プレビューと相まって、openai はさらに 1 週間にわたって業界をしっかりと支配しました。

この興奮はまた、誰もが断続的な健忘症に悩まされる原因にもなりました。

ところで、google は今日何を投稿しましたか?

gemini 1.5 は 2 つの新しいモデルをアップグレードし、価格は半分になり、速度が向上します

今回のgoogleのアップデートは、少なくとも開発者にとっては実は非常に重要だ。

google blog によると、今回彼らは gemini の 2 つの製品グレードモデル、gemini-1.5-pro-002 と gemini-1.5-flash-002 をアップデートしたとのことです。いわゆる「本番レベル」とは、ai モデルが完全に開発、テスト、最適化されており、商用展開の準備ができていることを意味します。これは、多数のユーザーのリクエストを処理し、製品サービスだけでなく、製品サービスにも適用できます。実験とか研究とか。

今年 5 月の i/o カンファレンスで発表された gemini 1.5 シリーズモデルのメジャーアップグレードとして、新しいモデルはより高速で、より強力で、よりコスト効率が高くなります。

主なハイライトは次のように要約されます。

1. 大幅な価格削減: 1.5 pro の入力価格と出力価格は約 50% 低下し、特に 128,000 トークン未満のチップの構築コストが大幅に削減されました。

2. 全体的な品質の向上: 特に数学、コード生成、長いテキストのコンテキスト、視覚的なタスクのパフォーマンスの向上が著しく、math や hiddenmath などのベンチマークテストでは約 20% の向上、2% ～ 7% の向上が見られます。ビジュアルおよびコードアプリケーションで。

3. レート制限の増加: 1.5 flash と 1.5 pro のレート制限が 1000rpm (1 分あたりのリクエスト数) と 360rpm からそれぞれ 2000 rpm と 1000 rpm に増加し、開発者がタスクをより速く構築して処理できるようになりました。

4. 高速出力と低遅延: 出力速度が 2 倍向上し、遅延が 3 倍短縮され、より効率的なアプリケーションシナリオがサポートされます。

5. より簡潔な応答: 応答スタイルはより簡潔になり、コストが低くなり、出力の長さが 5% ～ 20% 短縮され、多くのトピックでの拒否や回避の数が減り、高い有用性が維持されます。

6. マルチモーダルおよび長いコンテキストのサポート: 1.5 pro の 200 万トークンの長いコンテキストウィンドウは、1,000 ページの pdf や長いビデオのコンテンツ生成など、長いテキストおよびマルチモーダルタスクの処理をサポートします。

7. 更新されたフィルタリング設定: モデルのデフォルトのセキュリティフィルタは自動的に適用されなくなり、開発者は必要に応じてモデルのセキュリティ設定をカスタマイズできます。

開発者は、google ai studio と gemini api を通じて 2 つの最新モデルに無料でアクセスできます。新しいモデルは、大規模組織や google cloud の顧客向けに vertex ai でも利用できます。

gptの影に包まれたジェミニ

しかし、同業者と比較して、多くの一般ユーザーは、これは本当の「リリース」ですらないと感じ、googleの動きに失望を表明した。

abacus.ai ceoで有名なブロガーのbindu reddy氏は、「ああ、openaiはiqテストに合格したo1をリリースしたのに、googleはgemini 1.5にマイナーアップデートを行ったばかりだ。彼らは100倍のリソース、10倍の人材、そして10倍の人材を持っている」と語った。何よりも、どうしてこんなことが起こるのでしょうか？」

開発者の中には今でもgoogleを代弁する人もいるが、たとえば、redditディスカッションフォーラムのネチズンは次のように述べた。

「これらは、実際にアプリケーションを構築し、コストを削減して利益を増やそうとしている人々にとって有益なものです。私が取り組んでいるアプリケーションには、トークンの長さによって決まる操作あたりの固定コストがあり、それによって私の利益が約 30% 増加します。」これはほとんどの人にとってあまり意味のないことかもしれませんが、多くの人が google からのこの「発表」に怒っていることはわかっていますが、実際には開発者にとっては良いアップデートです。

価格は半分になり、速度は向上し、遅延は減少します。これらはまさに開発者が望んでいることです。しかし、誰もが言ったように、魅力は開発者コミュニティに限定されるかもしれません。

開発者の中には、「claude や o1 との比較は見当たりません。そして、私たちは次世代の openai および anthropic モデルを導入しようとしています。deepmind には実際にははるかに優れたモデルがありますが、それらは直接エンタープライズ向けに提供されるものであり、フォルクスワーゲンをバイパスするジェミニは、まったく印象的ではありません。単に残念です。」

googleのモデルのネーミングが下手だったことも、長くてわかりにくいとネットユーザーから嘲笑された。

the information は最近、「ai 開発者が google の gemini を無視している理由」というタイトルの記事を掲載しました。複数の ai 企業創設者や google 社内従業員へのインタビューを通じて、gemini がどのようにして開発者から「見捨てられた」のか、そして chatgpt に追いつく際に遭遇した障害や困難について語ります。

たとえば、競合テクノロジーと比較すると、開発者や企業にとって gemini の呼び出しは複雑すぎます。 topology の創設者 aidan mclaughlin 氏は、初めて openai の api を使用したときはわずか 30 秒しかかかりませんでしたが、gemini の使用には 4 時間かかったと述べました。同時に、google の大規模モデルのパフォーマンスは openai や anthropic に劣っており、これらの障害を克服する価値はありません。

chatgpt と比較すると、開発者の間で gemini の不人気は現実世界では公然の秘密のようです。

エンタープライズソフトウェアのスタートアップである retool が 750 名以上のテクノロジー関連従業員を対象に実施した 6 月の調査では、ai アプリケーションの構築に最も頻繁に gemini を使用すると答えたのは回答者のわずか 2.6% で、76% 以上が gpt の使用を選択したことがわかりました。

samelweb が追跡した web サイトのトラフィックデータによると、6 月から 8 月にかけて、openai のアプリケーション開発者ページのページビューは 8,280 万回だったのに対し、google のページビューは 840 万回でした。

小規模な非公式調査でも同様の証拠が得られます。先月下旬、finetune 創設者ジュリアン・サックス氏は、サンフランシスコにある彼のコワーキングスペースで 50 人の ai スタートアップ開発者に、どの会話型 ai モデルを最もよく使用しているかを尋ねました。ほぼ全員が anthropic または openai のモデルを主に使用していると述べましたが、gemini について言及する人は一人もいませんでした。

gemini モデルは長いドキュメントや長いコードベースを分析する場合に便利ですが、多くの開発者は、google のモデルオプションは多様で、手順が複雑で、開発者システムが openai とは異なり、使用が難しいと述べています。また、場合によっては、google のさまざまなサービスが独自の検索結果で競合するため、ユーザーはツールを理解するのに行き詰まりやすくなります。

この理由から、ジェミニはしばしばxで嘲笑されます。セキュリティスタートアップ xbow の ai 研究者である brendan dolan-gavitt 氏は、今月初め、vertex を通じて gemini を使い始めるまでにとった数多くの手順を詳しくツイートしたツイートが話題になりました。他の開発者もコメント欄に同情の意を表した。

「世界の一流のエンジニアが openai、claude、cursor を使用している」環境では、開発者は実際に他のものを試す必要はありません。一方で、使用量の減少により、gemini は chatgpt ほど多くのデータフィードバックを取得できなくなり、google はモデルを改善する上でより曖昧なロードマップに直面することになります。

人々は google に多くのことを期待していたので失望

googleは、xにおけるgeminiへの批判に応えたり、openaiなどの企業からより多くのスター技術専門家を傘下に迎えたり、一部の重複する開発機能を統合したりするなどして、この認識を変えようとしている。また、開発者イベントを主催して gemini を宣伝しています。

本日、gemini-1.5-pro-002 の発売と同時に、gemini for work のオンラインイベントも開催されます。google は、best buy、snap、ups capital、ウェイフェアなどある程度の「ホワイトグローブ」サービスを提供することで、より多くの大企業顧客を獲得しようとしていると報じられている。

しかし、確固たる市場シェアを前にすると、googleの反撃はそう簡単ではないかもしれない。

今年 4 月に入社する前は openai で開発者対応を担当していた ai studio のプロダクトリード、ローガンキルパトリック氏は次のように述べています。開発者間の現在の開発努力は、確固たる市場シェアを獲得するために戦っています。」

以前、ai 界の著名なブロガーである rowan cheung 氏は、ai モデルの大幅なアップグレードに関するインタビューを終えたと予測しました。今日、開発者にとっては重要な日になるでしょう。

そのツイートの下で、ローガン・キルパトリックの笑顔の表情は、「なぜクロード・オーパス3.5ではないのか？」という多くの後悔の中で少し当惑しているように見えた。

保守的、物議を醸す、遅れているというのは、ai の巨人である google が今日コミュニティに残した固定観念です。 gemini-1.5-pro-002 の打ち上げによってこの行き詰まりは打開されそうにありません。

この会社に対する人々の失望は、同社に対する高い期待から生じている。これほど強力な戦力と人材の予備軍があるのに、openai の「代替」オプションをさらに世界に提供できないのは誰にとっても残念だろう。

ニュース

また賑やかになりましたね！ openai の強化版「her」が正式にオープンし、gemini の「実稼働グレード」アップグレードを超えます...

導入

私の連絡先情報