ニュース

一夜にして、Google バージョンの GPT-4o と AI 電話がすべて発売されました

2024-08-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

マシンハートレポート

編集者: ゼナン、チェン・チェン

Gemini Live ベンチマーク GPT-4o と Google AI 携帯電話ファミリー バケットがオンラインです。

GPT-4o が iPhone に登場する前に、Google Gemini が主導権を握り、モバイル版を完成させました。

人々がOpenAI「Strawberry Big Model」を楽しみにしていた水曜日の早朝、GoogleはMade by GoogleイベントでGemini Liveと一連のPixelハードウェア製品を正式にリリースした。



今日のイベントでは、Google はいくつかの小さな問題はあったものの、自信を持って 100% のライブ デモンストレーションを実施しました。



携帯電話を使用して画像を読み取ろうと 2 回試みましたが (Samsung 製を使用しました)、2 回とも失敗しました。

しかし、グーグルが言うように、私たちは「ジェミニの時代」に入った。

Pixel 9 シリーズの後、本日リリースされた一連の Gemini AI 機能は、Android 15 を搭載したさまざまな Android スマートフォンにも搭載される予定です。

Gemini Live: GPT-4o をベンチマークし、すぐにオンラインにします

Gemini Live は、OpenAI の高度な音声モード用に Google によって発売された製品であり、この機能は ChatGPT とほぼ同じであり、以前はアルファ テスト段階にありました。



Gemini Live は、ユーザーが Gemini と自由に会話できるモバイル会話エクスペリエンスを提供し、入力することなく通常の電話のように中断したりトピックを変更したりすることもできます。

Google はブログでこれについて説明しています。(Gemini アプリ経由で) Gemini Live に話しかけて、応答する 10 の新しい自然音から 1 つを選択できます (OpenAI が提供する音は 3 つだけです)。通常の会話と同じように、自分のペースで話したり、回答の途中で中断して追加の質問をしたりすることもできます。



動画链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650930230&idx=2&sn=822b96951da8ef70408c0c546c6c5ae5&chksm=84e43848b393b15e320f663 d6c311ccab54157b0885da6dee24ce8e5260beed4153dfb2a432a&token=2010422951&lang=zh_CN#rd

Gemini Live は、アプリケーションがバックグラウンドで実行されているときや電話がロックされているときでも、直接通話を続けることができ、いつでも会話を一時停止したり再開したりできます。

Gemini Live は、Android アプリケーションのさまざまな機能 (Keep など) とも統合され、Gemini の使いやすさが向上します。



Google は本日より、この機能を Android スマートフォンの Gemini Advanced ユーザーに対して英語のみで展開し、今後数週間のうちに iOS およびその他の言語バージョンにも拡大する予定です。



しかし、ライブ デモンストレーション中、現場担当者がコンサート ポスターに関する情報を求めたとき、Gemini Live は 2 回失敗し、プレゼンターは正常に動作するように携帯電話を変更する必要がありました。デモ中にいくつかの問題がありましたが、最終的には成功し、Gemini Live は画像から関連情報を抽出してカレンダーに接続し、ユーザーに正確な結果を提供しました。



動画链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650930230&idx=2&sn=822b96951da8ef70408c0c546c6c5ae5&chksm=84e43848b393b15e320f663 d6c311ccab54157b0885da6dee24ce8e5260beed4153dfb2a432a&token=2010422951&lang=zh_CN#rd

プロダクト マネージャーの Leland Rechis 氏によると、Google は Gemini Live がこれら 10 個の音以外の音を模倣することを許可していないことは注目に値します。 Google は著作権法への違反を避けるためにこれを行った可能性があります。以前、OpenAIは未亡人の声を使用したとして後者から訴訟を起こされていた。

全体として、この機能は、単純な Google 検索を使用するよりも自然にトピックを深く掘り下げるための優れた方法のように思えます。 Googleは、Gemini Liveは同社がGoogle I/O中にデビューさせたマルチモーダルAIモデルであるProject Astraの一歩前進であると指摘している。現在、Gemini Live は音声会話のみをサポートしていますが、Google は将来的にリアルタイムのビデオ理解機能を追加したいと考えています。

チップの祝福、Google ハードウェアが登場

Gemini Live の発売と同時に、Google は Apple や Huawei よりも早く新世代のスマート ハードウェア デバイスを発売しました。

今朝新たにリリースされたハードウェアには、Pixel 9、Pixel 9 Pro、Pixel 9 Pro XL、および折りたたみスクリーン携帯電話 Pixel 9 Pro Fold が含まれます。これらはすべて、さまざまな生成 AI 機能をもたらす新しい Google Tensor G4 チップを搭載しています。 。

Pixel 9 スマートフォンは、カメラを前面と中央に配置した新しい外観を備えており、象徴的なカメラ モジュールが改良され、手に持ったときの感触が向上しています。 Googleは、これらのスマートフォンはPixel 8の2倍の耐久性があると主張しています。



今回初めて、Pixel Pro モデルには Pixel 9 Pro (6.3 インチ) と Pixel 9 Pro XL (6.8 インチ) の 2 つの異なるサイズが用意され、どちらも Super Actua ディスプレイと 42 MP 前面カメラを搭載しています。ディスプレイのサイズ、充電速度、バッテリーを除けば、Pixel 9 Pro と Pixel 9 Pro XL は同じ仕様と機能を共有しています。



Pixel 9携帯電話がGoogleの新しいカスタムチップTensor G4を使用していることは注目に値します。これは、アプリをより速く開いたり、Web を閲覧したりするなど、日常的な使用例を改善するために設計された新世代の高性能携帯電話チップです。



Tensor G4 は Google DeepMind によって設計され、Samsung によって製造され、Arm アーキテクチャを使用しています。 G4 は、最先端の人工知能モデルを実行するように最適化されています。これは、マルチモーダル Gemini Nano モデルを実行する最初のプロセッサーとなり、大規模なモデルがテキスト、画像、音声などのタスクを携帯電話側のみで理解できるようになります。



現在のニュースによると、Tensor G4 は前世代と同じで、現行世代のテクノロジーと同じコアを使用しています。つまり、9 月には間もなく下位チップセットになる予定です。Mali と呼ばれる静的 GPU コアは、レイ トレーシングではないことも意味します。サポートされています (サポートされているバージョンは Immortalis と呼ばれます)。それでも、私と比較すると、前世代製品と比較した場合の性能向上はまだかなりのものです。

もちろん、DeepMind が開発したチップである Tensor G4 は優れた AI コンピューティング能力を備えており、毎秒 45 トークンという「業界をリードする」出力速度を備えていると明らかにしました。

デバイス上の AI エクスペリエンスがスムーズに実行されるように、Google は Pixel 9 シリーズのメモリもアップグレードし、12GB RAM を搭載し、Pixel 9 Pro と Pixel 9 Pro XL には 16GB RAM を搭載しました。

Pixel シリーズは常に Google のテクノロジー アプリケーションのベンチマークであり、新しい携帯電話には Gemini Live が搭載されており、8 月に発売されます。 Googleは、Pixel 9 Pro、Pixel 9 Pro XL、Pixel 9 Pro Foldのユーザーは、携帯電話を購入した後、1年間のGemini Advancedサブスクリプションを利用できると述べた。 OpenAIを搭載したiPhone 16シリーズの大型モデルと比較すると、今回はGoogleが一歩リードしたと言えそうだ。

Google は、Pixel に一連の生成 AI 機能を導入しました。

その中でも、Pixel Studio は、アイデアを携帯電話上で画像に変換するのに役立ちます。これは、Tensor G4 上で実行されるデバイス側の拡散モデルと、クラウド内の Imagen 3 テキストから画像へのモデルで構成されます。



Google の新しいイメージ モデルである Imagen 3 は、5 月の I/O カンファレンスで初めてリリースされました。モデルは、詳細、照明、干渉などの生成に関して最適化およびアップグレードされ、プロンプトを理解する能力が大幅に強化されました。今日の記者会見で、Google DeepMind は arXiv に Imagen 3 の論文を提出しました。



  • 論文リンク: https://arxiv.org/abs/2408.07009

ピクセル スクリーンショットは、後で覚えておきたい重要な情報を保存、整理、および呼び出すのに役立ちます。

リスが大好きな友達がいて、もうすぐ誕生日だとします。 Google Chrome では、リスのシャツやリスのコースターなど、リスに関連するすべてのもののギフトを検索したり、スクリーンショットを撮ったりすることができます。ピクセル スクリーンショットは、これらすべての画像の内容を分析し、アプリ内でこの情報を検索するのに役立ちます。次に、アプリを開いて「squirrel」を検索すると、その結果がポップアップ表示されます。また、検索したすべてのものへのリンク、表示しているコンテンツの概要と関連情報も含まれます。



人々が携帯電話で行う最も一般的なことの 1 つは、天気を確認することです。 Pixel Weather はより正確な気象情報を提供でき、Gemini Nano はカスタム AI 気象レポートも生成して、人々がその日の気象状況を理解できるようにします。

すべての携帯電話に必要な写真の撮影に関して、Pixel 9 では AI 撮影機能が追加され、映画制作の効率が向上します。

集合写真に指定されたカメラマンが欠けていることがよくあります。 Add Me を使用すると、三脚を持ち歩いたり、見知らぬ人に助けを求めたりすることなく、部屋にいる全員と写真を撮ることができます。



再設計されたパノラマにより、暗い場所でも詳細な写真を撮影できるようになりました。これは、あらゆるスマートフォンで利用できる最高品質の低照度パノラマです。



さらに、Google フォトの Magic Editor には、必要な写真を撮影できる新しい編集機能があり、自動フレーミング機能により、見たいものを入力するだけで写真を再構成できます (例: 空の写真に野の花を追加するなど)。フィールド)つまり、写真を再構成してアイデアを現実にすることができます。

大型モデルのスマート通話録音も Android システムに統合されました。 Clear Calling 機能により音質がさらに向上し、新しい通話メモ機能により、ユーザーが電話を切るとすぐにプライベート サマリーと完全な通話トランスクリプトが送信されます。そのため、折り返し電話がかかってきたときに、メモを取るために紙とペンを取り出す必要はありません。プライバシーを保護するために、通話録音は完全にデバイス上で実行されます。



最新の Pixel 9 デバイスは、新しい衛星 SOS 機能を搭載した最初の Android スマートフォンであるため、ユーザーはモバイル ネットワークがない場合でも、衛星経由で緊急対応者に連絡したり、位置情報を共有したりできます。衛星 SOS は、携帯通信会社のプランに関係なく、米国の Pixel 9 デバイスで最初に利用可能になります。この機能は、Pixel では最初の 2 年間は無料です。



最後に、価格です。Pixel 9、Pixel 9 Pro、Pixel 9 Pro XL はそれぞれ 799 ドル、999 ドル、1,099 ドルから予約注文できます。 Pixel 9 と Pixel 9 Pro XL は、8 月 22 日に Google ストアおよび Google 小売パートナーで発売されます。 Pixel 9 Pro は米国で 9 月 4 日に発売され、Pixel 9 Pro Fold は今後数週間以内に他の市場で発売される予定です。

参考内容:

https://blog.google/products/pixel/google-pixel-9-pro-xl/

https://www.androidauthority.com/google-tensor-g4-explained-3466184/