Google バージョンの Her が先行しています。ワンクリックでジェミニを召喚し、世界中の 52 億台の端末を破壊する

Google バージョンの Her が先行しています。ワンクリックでジェミニを召喚し、世界中の 52 億台の端末を破壊します

2024-08-14

新しい知恵のレポート

編集者：編集部

【新しい知恵の紹介】Google バージョンの Her は OpenAI よりも前にデビューしますか? Google の音声モデル Gemini Live は、まもなく世界中の 30 億台の Android デバイスと 22 億台の iOS デバイスで利用できるようになります。ライブデモはまだ少しひっくり返されていましたが、Google はこれ以上待つことはできず、OpenAI を破って Apple と戦うことを決意しました。

OpenAI、ブロックされただけですか？

OpenAIの「Her」に続き、GoogleもAI音声機能のリリースを正式発表！

先ほどの「Made by Google」基調講演の中で、Googleは音声モード「Gemini Live」の開始を発表した。 Gemini Live は間もなく Gemini モバイルアプリで利用できるようになります。

GoogleとOpenAIの間の軍拡競争が再び始まった。

3 か月前に革新的だった OpenAI を見てみましょう。これは Google によって確実に検閲されるリズムです。

出席したグーグルのリーダー、リック・オスターロー氏も意味深に語った。「私たちはAIに関する約束や、今後の発表に関するスローガンをあまりにも多く聞いてきた。今日、私たちが見せたいのは真の進歩だ！」

さらに、このプレゼンテーションで Google は、Gemini が Android、アプリ、新しい Pixel デバイスにどのようにより深く統合されるかについても詳細にデモンストレーションしました。

Googleは、一挙にリリースしたPixel 9シリーズの携帯電話において、Gemini、Android、Pixelの統合によってどのようなデバイスサイドAI製品の形が生まれるのか、「AI+携帯電話」という新しい形も模索した。

さて、AI を搭載した Android で、Google は Apple に勝つことができるでしょうか?

Googleの「Her」も登場

Google によると、Gemini Live は新しいモバイル会話体験です。

私たちが自分のスキルや学歴に基づいてどのような仕事を見つけることができるかをブレインストーミングしたい場合、ジェミニはリアルタイムですぐに話しかけることができます。

この感覚は、ポケットの中にいつでもチャットできる思いやりのあるアシスタントがいるようなものです。

また、OpenAI と同様に、Google の音声機能でもユーザーは自然な会話言語で通信することができ、その応答も人間のような声とリズムを使用します。

以下の音声を聞いてください。いくつかの男性と女性の声は非常に自然な音色です。

最も自然な体験を提供するために、Google は一度に 10 の音声をリリースし、好みのトーンやスタイルを自由に選択できます。

さらに、Gemini Live はハンズフリー機能もサポートしています。 Gemini アプリがバックグラウンドにある場合や電話がロックされている場合でも、通常の電話と同じように通話できます。

また、いつでも話を中断して話題を変えることができます。見覚えがあるでしょう?そうです、OpenAI の音声でできることはすべて実行できます。

5月に誰もを驚かせたOpenAIの高度な音声機能「Her」は、先月末時点ではまだ開発中で、一部のアルファテスト参加者にのみ公開された。

速度の点では、Google は OpenAI を明らかに上回っています。

Gemini Live は、Google Gemini アプリを介して Android デバイスで月額 19.99 ドルで利用できるようになりました。

現在は英語版が公開されており、今後数週間以内に iOS 版と他の言語のサポートが開始される予定です。

一方で、ユーザー規模の観点から見ると、Google の高度な音声モードは OpenAI よりも幅広い潜在ユーザーにリーチすることになります。

ご存知のとおり、現在、世界には Android ユーザーが 30 億人以上、iOS ユーザーが 22 億人以上います。

OpenAIの音声機能が失敗した理由の一部は、レッドチームテストでのAIの異常なパフォーマンスに関連している可能性があります。

Google はこれらのセキュリティ問題を完全に解決したのでしょうか?まだ誰にもわかりませんが、他社に屈したくないGoogleが今回は全力を尽くすことにしたのは明らかです。

でも二回ひっくり返った

唯一の欠点は、Gemini Live のライブデモンストレーション中にいくつかの問題があったことです。

Google 幹部の Dave Citron 氏が、新しい Android スマートフォンで Google カレンダー、タスク、Keep を接続するための Gemini の新機能を披露したとき、彼は 2 回続けてひっくり返ることになるとは予想していませんでした。

彼はまず携帯電話を使って、サンフランシスコで行われたサブリナ・カーペンターのファッションショーの宣伝ポスターを撮り、次にジェミニに「スケジュールをチェックして、サブリナ・カーペンターのファッションショーに参加できるかどうか確認して」と尋ねた。

ジェミニさんの最初の返信では、何か問題が発生したため、もう一度やり直す必要があると言いました。

先ほどの手順を二度目に試してみましたが、ジェミニはまだ応答しませんでした。

3回目（別のデバイスに変更）になってようやく結果が判明し、聴衆からは割れんばかりの歓声がありました。

AI アシスタントの再定義

このスピーチで Google は次のように述べています。Gemini では、パーソナルアシスタントが人間にとって真に役立つとはどういうことかを、より自然で、会話的で、直感的なものとして再考しました。

より多くのアプリを接続する

優れた AI アシスタントにとって最も重要なキーワードは何ですか?

接続する。

Gemini はこのようなもので、大小のタスクを完了するために使用するすべての Google アプリケーションやツールと統合されます。

また、他のアシスタントとは異なり、アプリケーションやサービスの切り替えに時間を費やす必要もありません。

今後数週間のうちに、Google は Keep、Tasks、Utilities、YouTube Music などの新しい拡張機能もリリースする予定です。

写真に写っている食べ物は何ですか？ Gemini に尋ねれば、すべてをリストしてくれるでしょう。

今、食事会を開きたいとすると、ジェミニはさまざまな武術を使うことができます——

Gmail から、誰かが送ってきたラザニアのレシピを見つけて、その材料を Keep の買い物リストに追加し、「90 年代の終わりを思い出させて」とプレイリストを作成するよう Gemini に依頼することもできます。

Google の今後のカレンダー拡張機能では、コンサートのポスターの写真を直接撮って、ジェミニに「その日は空いていますか?」と尋ねることができます。答えが「はい」の場合は、ジェミニにリマインダーを設定してチケットを入手する準備を手伝ってもらうこともできます。

ジェミニに、教授に休暇を求めるメールを書いてもらい、話すだけでさらに数日間締め切りを延長してもらうよう依頼してください。

ワンクリックでジェミニを召喚

現在、Gemini は Android ユーザーエクスペリエンスに完全に統合されています。

このような滑らかなコンテキスト認識を体験できるのは Android だけです。

私たちが Android スマートフォンを持っている限り、私たちが何をしたいと思っていても、必要なときにジェミニが現れることができます。

電源ボタンを長押しするか、「Hey Google」と言ってジェミニを呼び出します。

YouTube を使用している場合は、Gemini にビデオに関する質問をすることができます。

たとえば、海外旅行のガイドを作成していて、旅行ビデオブログを視聴したとします。[このビデオについて質問する] をクリックすると、ビデオに登場するすべてのレストランがリストされ、Gemini に追加されます。一つ一つやっていきます。

下の図を見ると、Gemini によって生成された画像は、Gmail や Google メッセージに直接ドラッグアンドドロップできます。

この手術の素晴らしさは分かっていただけたと思いますが——

Gemini は Android との緊密な統合を構築しているため、AI は画面のコンテンツを読み取るだけでなく、私たちがすでに使用している多くのアプリと対話することができます。

Gemini 1.5 Flash、AIアシスタント搭載

ただし、2 つの問題があります。自然言語をより適切に解釈してタスクを処理できる LLM は、単純なタスクであっても完了するのに多くの時間がかかることを意味します。

また、AI が予期せぬ動作を示したり、不正確な情報を提供したりした場合も、頭痛の種になります。

この目的を達成するために、Google は新しいモデル Gemini 1.5 Flash を特別に導入しました。

応答が速くなり、回答の質も高くなります。

今後数か月以内に、Google はこのモデルを Google Home、Phone、Messages とさらに深く統合する予定です。

Googleは本日、AIアシスタントの有用性がその課題をはるかに上回る変曲点に正式に到達したと発表した。

Imagen 3 ベースで 2 秒で画像を生成

会議では、Google も新しい AI 写真生成アプリケーション Pixel Studio を発表しました。

いくつかの言葉を即座に言うだけで、美しい写真が生成されます。

最も重要なことは、Imagen 3 上に構築されたローカル画像生成アプリであり、2 秒以内にさまざまな画像を生成できることです。

また、本日、Imagen 3 の技術レポートも公開されました。技術的な詳細は 32 ページの論文でご覧いただけます。

論文アドレス: https://arxiv.org/pdf/2408.07009

最初の AI 電話の料金は月額 20 クリプトンドル

これらすべての AI 機能は、Google によって最新の携帯電話ハードウェアに組み込まれています。

このイベントでGoogleは、Pixel 9、Pixel9 Pro、Pixel9 Pro XL、そして第2世代の折りたたみスクリーンPixel 9 Pro Foldの計4台のAIスマートフォンを発表した。

新しいPixel 9シリーズで見逃せないのは、AIを活用したカメラ機能です。

Googleによると、画像処理アルゴリズムであるHDR+パイプラインが完全に再構築され、撮影した写真のコントラスト、シャドウ、露出、シャープネス、色などが改善されたとのこと。

Pixel 9 シリーズスマートフォンの新しい AI 画像編集機能は次のとおりです。

私を追加してください

家族の集まり、チームビルディング、家族旅行の際に、写真を撮る責任を負っているのに、自分だけが写真に写っていない、という事態によく遭遇しませんか?

ただし、将来的には心配する必要はありません。

Google の「Add Me」機能を使えば、その後悔を補うことができます。

まず、集合写真を撮影する必要があります。そして、撮影責任者は写真に写る人物と対話し、「撮影者」も含めた写真を撮影します。

このとき、Pixel はリアルタイム AR 技術を使用して、2 人目の写真が最初の写真の構図と一致するように写真の構図をガイドします。

最後に、Pixel は 2 つの画像を結合して、「写真家」を含む全員が同じ写真に写るようにします。

再考する

もう 1 つの Reimagine 関数は理解しやすいです。

現時点では、Magic Editor の機能を使用して、必要な効果をテキストボックスに直接記述することができます。

AI はあなたのアイデアを現実に変えることができます。

たとえば、写真の背景、火山、夕日、オーロラなどを自由に変更して遊ぶことができます。

自動フレーム

自動合成は、既に撮影された写真を再合成できる Magic Editor の新機能です。

AI を通じて写真を拡大したり、空白領域の背景を生成したりすることもできます。

ズーム強化

ズームエンハンスは、ピクセル間のギャップを自動的に埋め、細部を正確に予測して、高品質の撮影倍率効果を実現します。

AI 機能の実現は、Pixel 9 シリーズの背後にある強力なチップと切り離すことができません。

最も強力な AI プロセッサ: Google Tensor G4

新しい携帯電話には、Google が新たに設計したプロセッサである Google Tensor G4 が使用されています。

Googleは「Tensor G4チップは当社のこれまでで最速かつ最も強力なチップだ」と述べた。

昨年の Tensor G3 をベースに、Google は Samsung と協力して、Arm が提供する CPU および GPU コアを使用し、4nm プロセスに基づくセミカスタムプロセッサ Tensor G4 を作成しました。

同時に、Google独自のモジュールを使用してAI、写真、セキュリティ機能を強化します。

前 2 世代と比較して、G4 は Web ブラウジング速度が 20%、APP の起動速度が 17%、毎日のアプリケーションのバッテリー消費量が最大 20% 増加したと報告されています。

CPUに関しては、G4は3.1GHzで動作するCortex-X4コアを1つ、2.6GHzで動作するCortex-A720コアを3つ、1.95GHzで動作するCortex-A520コアを4つ搭載しています。

比較すると、Tensor G3 には、2.91 GHz の Cortex-X3 コアが 1 つ、2.37 GHz の Cortex-A715 コアが 4 つ、1.70 GHz の Cortex-A510 コアが 4 つあります。

Tensor G4 はコアが 1 つ少ないですが、すべてのコアのクロックが 200 MHz ～ 300 MHz 高くなります。

リークされた Geekbench スコアによると、Tensor G4 はシングルコアテストで 2,005 点、マルチコアテストで 4,835 点でした。比較すると、Tensor G3 のスコアはシングルコアテストで 1,751、マルチコアテストでは 4,208 でした。 14% のパフォーマンス差があります。

GPU に関しては、Tensor G4 は昨年の Tensor G3 と同じ ARM Mali-G715 GPU を使用していますが、周波数は 890MHz から 940MHz に増加しています。これは、Tensor G4 の GPU パフォーマンスが Tensor G3 よりわずかに優れていることを意味します。

新しいAI機能をサポート

もちろん、AI は Tensor プロジェクトの主な原動力の 1 つです。

再設計された Tensor G4 は、最新の Gemini およびコンピュテーショナルフォトグラフィー機能を強化するように設計されています。

ローカルで実行できる Gemini Nano モデル (最大バージョンには 35 億のパラメーターがあります) は、45 トークン/秒の速度でコンテンツを出力できます。

Google の TPU はすでに高速ですが、トークン処理の点では競合他社に勝っていません。

比較すると、Qualcomm Snapdragon 8 Gen 3 は 100 億のパラメーターを実行するときに 1 秒あたり 15 のトークンを出力できますが、MediaTek Dimensity 9300 は 1 秒あたり 20 のトークンで 70 億のパラメーターを実行できます。

ただし、Pixel 9 シリーズの独自の AI 機能は、新しいチップに完全に依存しているわけではなく、他の要因の結果である可能性があります。

AI には大量のメモリも必要であり、より複雑なモデルを実行するには高速で大規模なメモリプールにアクセスする必要があります。

Pixel 9 には 12GB の RAM が搭載されており、Pro シリーズは 16GB にアップグレードされます。

Googleは、よりスムーズなAIエクスペリエンスを実現するために、他のアプリケーションがメモリを使用しないように「デバイス上でGeminiを実行するための専用RAM部分」を確保したのは今回が初めてだと述べた。

ただし、GoogleはAIタスクにどれだけ割り当てられているかを明らかにしなかった。

チップ自体には AI の点で大きなアップグレードはありませんが、RAM 管理の最適化により、より優れた AI エクスペリエンスと新機能がもたらされる可能性があります。

参考文献:

https://blog.google/products/gemini/made-by-google-gemini-ai-updates/

https://x.com/TechCrunch/status/1823410187404743131

https://venturebeat.com/ai/googles-ai-surprise-gemini-live-speaks-like-a-human-aking-on-chatgpt-advanced-voice-mode/

https://www.androidauthority.com/google-tensor-g4-explained-3466184/

ニュース

Google バージョンの Her が先行しています。ワンクリックでジェミニを召喚し、世界中の 52 億台の端末を破壊します

導入

私の連絡先情報