私の連絡先情報
郵便管理者@information.bz
2024-08-14
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
ジン・レイはアオフェイ寺院の出身です
パブリックアカウント QbitAI
ロールオーバー、大ロールオーバー。
今朝早く、Google 版の Her—ジェミニライブ正式にリリースされました。
結局のところ、これは明らかに OpenAI の GPT-4o のベンチマークであり、テクノロジー界の注目を集めていると言えます。
公式サイトで公開されているデモでは、写真Q&Aこの関数の効果は次のとおりです。
実装される一般的な機能は、携帯電話を使用してコンサートのポスターの写真を撮り、Gemini がユーザーのカレンダーをチェックして、スケジュールが参加に適しているかどうかを確認することです。
また、これをもとに定時運賃の確認など、その後の一連の操作も行えます。
ところが……記者会見の現地デモンストレーションになると、絵のタッチは一変。
VTRをご覧ください:
ビデオアドレス: https://mp.weixin.qq.com/s/90pixdMaLew4lUjzjeA6jA
うーん…弟の表情は、肉眼では少しパニックになっています。
有名なテクノロジーメディア TechCrunch にも次のような絵文字が含まれています。
一部のネチズンはホットコメントモードをオンにしました。
カレンダーは 10 秒で検索できます。
もちろん、これは今日の Made by Google のほんの小さなエピソードにすぎません。
Gemini Live の詳細については、以下を読み続けてください。
先ほど述べたように、Gemini Live と GPT-4o の機能は非常に似ています。
「写真 Q&A」に加えて、リアルタイムの会話を実行したり、返信プロセス中に Gemini を中断したりすることもできます。
Gemini Live の機能は現在、Android システムのアドバンスト サブスクライバーに公開されていることがわかります (英語のみ)。
今後数週間のうちに、この機能はより多くの言語に拡張され、iOS でも利用できるようになります。
存存在するする対話音一方、Gemini Liveは開始されました10種類新しいサウンドが選択可能になり、その効果は次のとおりです。
ビデオアドレス: https://mp.weixin.qq.com/s/90pixdMaLew4lUjzjeA6jA
存存在するする操作する一方、Gemini はシステムに完全に統合されているため、電源ボタンを長押しするか、「Hey Google」と言うだけで起動できます。
たとえば、メールを書くときに、Gemini に一致する画像を生成させると、次のような効果が得られます。
しかし、海外メディアはこの機能について賛否両論の評価をしている。
たとえば、The Vergeのライターは次のように書いています。個人テスト後に付けられたタイトルは――
Gemini Live は Google よりも高速ですが、扱いにくいです。
具体的な理由は、筆者のカーオーディオシステムが3日間のドライブ中に突然故障したことだった。
オリジナルの Google アシスタントを使用して解決策を見つけるには少なくとも 5 分かかりましたが、Gemini Live ではわずか 15 秒しかかかりませんでした。
しかし、Gemini Live は会話中に発話が続くことと、ユーザーが積極的に割り込む必要がある対話方法に、筆者は戸惑いを感じました。
彼は次のように信じています。
声や話し方がとても人間的で、それを遮るのは気が引けます。
Gemini Live を問題解決ツールとして使用するよりも、Gemini Live と対話することに多くの感情が注がれています。
偶然にも、双子座の場合は、クラウドで実行この点についてはウォール・ストリート・ジャーナルも痛烈に評価した——
対話は進歩するが、機能は後退する。
技術レベルに特化すると、GPT-4o はエンドツーエンドのシステムですが、Google がリリースしたコンテンツから判断すると、Gemini Live はそうではありません。
代わりに、STT、VAD、LLM、および TTS システムが統合されています。
さらに、Gemini Liveは、Googleが発売した新しい携帯電話Pixelシリーズにも搭載されています。
Pixel 9 Pro Fold、Pixel 9、Pixel 9 Pro、Pixel 9 Pro XL を含みます。
AI機能に関しては、GoogleのPixelスマートフォンには以下の機能が追加されています。"私を追加してください"関数。
拡張現実 (AR) と AI テクノロジーを使用して、2 つの異なる写真にキャラクターを「詰め込む」ことができます。
今回の Google の Gemini Live リリースは OpenAI GPT-4o への対応ではありますが、大型モデルの時代が始まって以来、非常に明らかな傾向が見られます——
GoogleはOpenAIに追いつけない。
まず、ChatGPTのリリースという最も重要な時点でOpenAIが先駆者となったが、その後Googleが今度はGemini Liveに非常によく似たBardをリリースし、その後覆された。
過去 1 年半の間、OpenAI はすべての主要なモデルとアプリケーションのリリースをリードしているようです。
一方、Google では、テクノロジーのペースが遅いだけでなく、世論の観点から見ても、OpenAI は人事異動 (イリヤの辞任) のニュースで Google の最大の年次イベント (I/O カンファレンス) に影を落としています。
では、なぜ Google は大型モデルの時代に失敗するのでしょうか?
この点について、元Google CEOエリック・シュミット (2001 年から 2011 年まで勤務) は、スタンフォード大学での最新のスピーチで次のように見解を表明しました。
Googleは従業員の在宅勤務を認めるなど、ワークライフバランスを重視している。
しかし、スタートアップでは、彼らは本当に一生懸命働きます。
ビデオアドレス: https://mp.weixin.qq.com/s/90pixdMaLew4lUjzjeA6jA
一部のネチズンはこのニュースを伝えました。
私の兄は Google のトップ AI プログラマーです。フルタイムの仕事を 3 つ掛け持ちしていますが、Google で過ごすのは 1 日あたり 2 時間だけです。
この件についてどう思いますか。議論するためにコメント欄にメッセージを残してください。
参考リンク:
[1]https://x.com/techcrunch/status/1823410187404743131?s=46&t=6eepxw1G6XRQ7VO0ANjJWg
[2]https://x.com/GoogleDeepMind/status/1823409674739437915
[3]https://blog.google/products/gemini/made-by-google-gemini-ai-updates/
[4]https://x.com/alexkehr/status/1823480786349383879?s=46&t=6eepxw1G6XRQ7VO0ANjJWg
[5]https://www.theverge.com/2024/8/13/24219736/gemini-live-hands-on-pixel-event
[6]https://blog.google/products/pixel/google-pixel-9-new-ai-features/#pixel9phones