GPT-4o版「Her」がついに登場！ジョークを言ったり、猫のように鳴いたりする AI のガールフレンドは、どれほどセクシーになるでしょうか?

2024-07-31

新しい知恵のレポート

編集者：Taoziはとても眠いです

【新しい知恵の紹介】 GPT-4o の音声機能がついに期待どおりに登場し、SF バージョンの Her が現実に登場します。 Grayscaleをテストした一部のネチズンは激怒しましたが、OpenAIは現在4つのプリセット音声しか提供していません。さらに、新しい GPT-4o モデルの出力トークンも 16 倍の 64K に急増しました。

ついにウルトラマンとの約束が果たされた。

7 月末までに、GPT-4o 音声モードはついにグレースケールテストを開始し、少数の ChatGPT Plus ユーザーがすでに早期採用チケットを取得しています。

ChatGPT アプリを開いた後に次のインターフェイスが表示された場合は、最初の幸運なユーザーの 1 人になられたことをおめでとうございます。

OpenAI によると、高度な音声モードはより自然なリアルタイムの会話を提供し、自由に中断でき、感情を感知して反応することもできるそうです。

この秋には、すべての ChatGPT Plus ユーザーがこの機能を使用できるようになる予定です。

さらに、より強力なビデオと画面共有が後で開始される予定です。つまり、カメラをオンにすると、ChatGPTで「対面」でチャットすることができます。

グレースケールの影響を受けた一部のネチズンは次々とテストを開始し、GPT-4o 音声モードの多くの使用例を発見しました。

いいえ、スピーキングの練習方法を独学するための「第二外国語コーチ」として機能させる人もいます。

次の指導では、ChatGPT はネチズンが Croissant (クロワッサン) と Baguette (フランスのバゲット) の発音を修正するのを支援しました。

同時に、GPT-4o の出力トークンは、当初の 4,000 トークンから 64,000 トークンまで 16 倍に急増しました。

これは、OpenAI が最近公式 Web サイトで密かに公開した新しいベータモデル gpt-4o-64k-output-alpha です。

出力トークンが長いということは、約 4 つの完全な長編映画スクリプトを一度に取得できることを意味します。

彼女が来た

GPT-4o 音声機能が今回リリースされた理由は、OpenAI が過去数か月間、GPT-4o のセキュリティと品質テストを実施しているためです。

彼らは、100 人以上のレッドチームメンバーを使用して、45 の言語で GPT-4o の音声機能をテストしました。

人々のプライバシーを保護するために、チームは 4 つの「デフォルト音声」のみを使用して話すようにモデルをトレーニングしました。

この4つ以外の音の出力をブロックするシステムも作りました。

さらに、コンテンツのフィルタリングも不可欠であり、チームは暴力的なコンテンツや著作権関連のコンテンツの生成を防ぐための対策も講じています。

OpenAI は、GPT-4o の機能、制限、セキュリティ評価に関する詳細なレポートを 8 月初旬にリリースする予定であると発表しました。

ネットワーク全体の実測値

以下は、ネチズンによって共有された GPT-4o 音声モードのいくつかのケースです。

ChatGPT はビートボックスを実行できます。

ChatGPT はまた、恥ずかしがり屋で怒りっぽい口調でビールのジョークを言いました。

一部のネチズンは、ChatGPT に向けて「なぜ科学者はアダムアトムを信じないのですか。アダムアトムがすべてを作り上げているのですから」とジョークを飛ばしました。

ChatGPTは気まずそうに笑った。

さらに面白いのは、ChatGPT にはまだ鳴き声を学習する方法があるということです。

いくつかのテストの結果、ChatGPT の高度な音声モードは非常に高速で、応答にほとんど遅延がないことがわかりました。

いくつかの音を模倣するように依頼すると、常にその音をリアルに再現します。また、さまざまなアクセントを模倣することもできます。

下のビデオは、AI がサッカーの試合の解説者を務めるシーンを示しています。

ChatGPT は中国語でストーリーを伝えますが、これも非常に鮮やかです。

OpenAIは、ビデオと画面共有機能は後で開始されると主張しているが、一部のネチズンはすでにそれを先に使用しています。

あるネチズンは新しい猫を飼い、巣を作り、餌を用意しましたが、何をすればよいのか分からず、ChatGPT に質問しました。

動画内の会話の中で、猫の家を見せたネチズンはそれを見て、「とても快適だろう」とコメントし、猫の様子を心配した。

ネチズンは、まだご飯を食べておらず、少し心配しているようだと述べた。 ChatGPTさんは「これは正常なことだ。猫が適応するのには時間がかかる」と慰めた。

質疑応答のプロセス全体が非常にスムーズで、実際の人々とコミュニケーションをとっているような感覚が得られることがわかります。

ネチズンもゲーム機の日本語版を探しましたが、彼らは日本語を話せません。

このとき、彼はゲームのインターフェースを ChatGPT に見せて翻訳してもらいました。最終的に、Hu は一緒にゲームを完成させました。

ビジュアル + 音声モードの恩恵により、ChatGPT ははるかに強力であると言わざるを得ません。

GPT-4o ロング出力は静かにオンラインで、最大 64K の出力が可能です

さらに、より大きなトークン出力をサポートする GPT-4o が続きます。

つい昨日、OpenAI は GPT-4o アルファバージョンをテスターに提供すると正式に発表しました。GPT-4o アルファバージョンは、リクエストごとに最大 64,000 トークンの出力をサポートします。これは 200 ページの小説に相当します。

しかし、新モデルの価格は再び新たな上限を設定しました。料金は入力トークン 100 万あたり 6 ドル、出力トークン 100 万あたり 18 ドルです。

出力トークンは GPT-4o の 16 倍ですが、価格も 3 ドル上昇しました。

こうして比較してみると、確かにgpt-4o-miniの方がお買い得ですね！

研究者の Simon Willison 氏は、長い出力は主にデータ変換のユースケースに使用されると述べました。

たとえば、ドキュメントをある言語から別の言語に翻訳したり、ドキュメントから構造化データを抽出したりするには、ほぼすべての入力トークンを出力 JSON で使用する必要があります。

これ以前は、彼が知っていた最長の出力モデルは GPT-4o mini で、これは 16,000 トークンでした。

なぜより長い出力を持つモデルを発売するのでしょうか?

明らかに、出力が長くなると、GPT-4o はより包括的で詳細な応答を提供できるようになり、一部のシナリオでは非常に役立ちます。

たとえば、コードを書いて文章を改善することです。

これは、ユースケースを満たすためにはより長い出力コンテンツが必要であるというユーザーのフィードバックに基づいて OpenAI によって行われた調整でもあります。

コンテキストと出力の違い

GPT-4o は、発売以来、最大 128K のコンテキストウィンドウを提供してきました。 GPT-4o ロング出力の場合、最大コンテキストウィンドウは依然として 128K です。

では、OpenAI は全体のコンテキストウィンドウを 128K に維持しながら、どのようにして出力トークンの数を 4,000 から 64,000 に増やすのでしょうか?

これは、OpenAI が当初、出力トークンの数を最大 4,000 トークンに制限していたためです。

これは、ユーザーが 1 回のインタラクションで最大 124,000 個のトークンを入力として使用でき、最大 4000 個の出力トークンしか取得できないことを意味します。

もちろん、より多くのトークンを入力して、出力されるトークンの数を減らすこともできます。

結局のところ、長いコンテキストの長さ (128K) はそこで固定されており、入力がどのように変化しても、出力トークンは 4000 を超えることはありません。

現在、OpenAI は出力トークンの長さを 64,000 トークンに制限しています。これは、以前の 16 倍のトークンを出力できることを意味します。

結局のところ、出力はより多くの計算量を必要とし、価格の上昇も大きくなります。

同様に、最新の GPT-4o mini の場合もコンテキストは 128K ですが、最大出力は 16,000 トークンに増加しました。

その後、ユーザーは入力として最大 112,000 のトークンを提供し、最終的には出力として最大 16,000 のトークンを取得できます。

一般に、OpenAI は、コンテキストの長さを直接拡張するのではなく、LLM からより長い応答を取得するために入力トークンを制限するソリューションをここで提供します。

市場の他のモデルに関しては、長いモデルでは 100 万を超え (Gemini)、わずかに短いモデルでは 200K (Claude) に達し、モデル出力が 200K に達するものもあります。OpenAI はまだ存在します。

これは開発者にとっても難しい問題です。より多くの入力を望む場合は、より少ない出力を受け入れる必要があり、より多くの出力を望む場合は、より少ない入力を受け入れる必要があります。

それを測定する方法は、どれを犠牲にするかによって異なります...

参考文献:

https://x.com/OpenAI/status/1818353580279316863

https://x.com/tsarnick/status/1818402307115241608

https://x.com/kimmonismus/status/1818409637030293641

https://www.reddit.com/r/singularity/comments/1eg51gz/chatgpt_advanced_audio_helping_me_pronouce/

https://venturebeat.com/ai/openai-launches-experimental-gpt-4o-long-output-model-with-16x-token-capacity/

ニュース