Google版Herがひっくり返った: 成功するまでに3回試し、携帯電話を変えた... ネットユーザー: 手動でやるのに10秒しかかからない

Google版のHerはひっくり返った：成功するまでに3回試して携帯電話を変えた…ネチズン：手動でやったのに10秒しかかからなかった

2024-08-14

ジン・レイはアオフェイ寺院の出身です
パブリックアカウント QbitAI

ロールオーバー、大ロールオーバー。

今朝早く、Google 版の Her—ジェミニライブ正式にリリースされました。

結局のところ、これは明らかに OpenAI の GPT-4o のベンチマークであり、テクノロジー界の注目を集めていると言えます。

公式サイトで公開されているデモでは、写真Q&Aこの関数の効果は次のとおりです。

実装される一般的な機能は、携帯電話を使用してコンサートのポスターの写真を撮り、Gemini がユーザーのカレンダーをチェックして、スケジュールが参加に適しているかどうかを確認することです。

また、これをもとに定時運賃の確認など、その後の一連の操作も行えます。

ところが……記者会見の現地デモンストレーションになると、絵のタッチは一変。

VTRをご覧ください:

ビデオアドレス: https://mp.weixin.qq.com/s/90pixdMaLew4lUjzjeA6jA

初回：失敗しました。
２回目：失敗しました。
3 回目: 携帯電話を変更して成功しました。

うーん…弟の表情は、肉眼では少しパニックになっています。

有名なテクノロジーメディア TechCrunch にも次のような絵文字が含まれています。

一部のネチズンはホットコメントモードをオンにしました。

カレンダーは 10 秒で検索できます。

もちろん、これは今日の Made by Google のほんの小さなエピソードにすぎません。

Gemini Live の詳細については、以下を読み続けてください。

Google版Herの全貌

先ほど述べたように、Gemini Live と GPT-4o の機能は非常に似ています。

「写真 Q&A」に加えて、リアルタイムの会話を実行したり、返信プロセス中に Gemini を中断したりすることもできます。

Gemini Live の機能は現在、Android システムのアドバンストサブスクライバーに公開されていることがわかります (英語のみ)。

今後数週間のうちに、この機能はより多くの言語に拡張され、iOS でも利用できるようになります。

存存在するする対話音一方、Gemini Liveは開始されました10種類新しいサウンドが選択可能になり、その効果は次のとおりです。

ビデオアドレス: https://mp.weixin.qq.com/s/90pixdMaLew4lUjzjeA6jA

存存在するする操作する一方、Gemini はシステムに完全に統合されているため、電源ボタンを長押しするか、「Hey Google」と言うだけで起動できます。

たとえば、メールを書くときに、Gemini に一致する画像を生成させると、次のような効果が得られます。

しかし、海外メディアはこの機能について賛否両論の評価をしている。

たとえば、The Vergeのライターは次のように書いています。個人テスト後に付けられたタイトルは――

Gemini Live は Google よりも高速ですが、扱いにくいです。

具体的な理由は、筆者のカーオーディオシステムが3日間のドライブ中に突然故障したことだった。

オリジナルの Google アシスタントを使用して解決策を見つけるには少なくとも 5 分かかりましたが、Gemini Live ではわずか 15 秒しかかかりませんでした。

しかし、Gemini Live は会話中に発話が続くことと、ユーザーが積極的に割り込む必要がある対話方法に、筆者は戸惑いを感じました。

彼は次のように信じています。

声や話し方がとても人間的で、それを遮るのは気が引けます。
Gemini Live を問題解決ツールとして使用するよりも、Gemini Live と対話することに多くの感情が注がれています。

偶然にも、双子座の場合は、クラウドで実行この点についてはウォール・ストリート・ジャーナルも痛烈に評価した——

対話は進歩するが、機能は後退する。

技術レベルに特化すると、GPT-4o はエンドツーエンドのシステムですが、Google がリリースしたコンテンツから判断すると、Gemini Live はそうではありません。

代わりに、STT、VAD、LLM、および TTS システムが統合されています。

さらに、Gemini Liveは、Googleが発売した新しい携帯電話Pixelシリーズにも搭載されています。

Pixel 9 Pro Fold、Pixel 9、Pixel 9 Pro、Pixel 9 Pro XL を含みます。

AI機能に関しては、GoogleのPixelスマートフォンには以下の機能が追加されています。"私を追加してください"関数。

拡張現実 (AR) と AI テクノロジーを使用して、2 つの異なる写真にキャラクターを「詰め込む」ことができます。

なぜGoogleはOpenAIに追いつけないのでしょうか?

今回の Google の Gemini Live リリースは OpenAI GPT-4o への対応ではありますが、大型モデルの時代が始まって以来、非常に明らかな傾向が見られます——

GoogleはOpenAIに追いつけない。

まず、ChatGPTのリリースという最も重要な時点でOpenAIが先駆者となったが、その後Googleが今度はGemini Liveに非常によく似たBardをリリースし、その後覆された。

過去 1 年半の間、OpenAI はすべての主要なモデルとアプリケーションのリリースをリードしているようです。

一方、Google では、テクノロジーのペースが遅いだけでなく、世論の観点から見ても、OpenAI は人事異動 (イリヤの辞任) のニュースで Google の最大の年次イベント (I/O カンファレンス) に影を落としています。

では、なぜ Google は大型モデルの時代に失敗するのでしょうか?

この点について、元Google CEOエリック・シュミット (2001 年から 2011 年まで勤務) は、スタンフォード大学での最新のスピーチで次のように見解を表明しました。

Googleは従業員の在宅勤務を認めるなど、ワークライフバランスを重視している。
しかし、スタートアップでは、彼らは本当に一生懸命働きます。

ビデオアドレス: https://mp.weixin.qq.com/s/90pixdMaLew4lUjzjeA6jA

一部のネチズンはこのニュースを伝えました。

私の兄は Google のトップ AI プログラマーです。フルタイムの仕事を 3 つ掛け持ちしていますが、Google で過ごすのは 1 日あたり 2 時間だけです。

この件についてどう思いますか。議論するためにコメント欄にメッセージを残してください。

参考リンク:
[1]https://x.com/techcrunch/status/1823410187404743131?s=46&t=6eepxw1G6XRQ7VO0ANjJWg
[2]https://x.com/GoogleDeepMind/status/1823409674739437915
[3]https://blog.google/products/gemini/made-by-google-gemini-ai-updates/
[4]https://x.com/alexkehr/status/1823480786349383879?s=46&t=6eepxw1G6XRQ7VO0ANjJWg
[5]https://www.theverge.com/2024/8/13/24219736/gemini-live-hands-on-pixel-event
[6]https://blog.google/products/pixel/google-pixel-9-new-ai-features/#pixel9phones

ニュース

Google版のHerはひっくり返った：成功するまでに3回試して携帯電話を変えた…ネチズン：手動でやったのに10秒しかかからなかった

Google版Herの全貌

なぜGoogleはOpenAIに追いつけないのでしょうか?

導入

私の連絡先情報