OpenAI よりも良心的で、Google の記者会見の 11 のハイライトを 1 つの記事にまとめています

OpenAI よりも良心的なこの記事は、Google の記者会見の 11 のハイライトをまとめています

2024-08-14

ちょうどXで、人々のグループがストロベリー兄弟に犯されましたオープンAI頭がおかしくなったときにプレビューしてください。

Googleが取り扱うGoogle24による作成記者会見はこちらです。

OpenAI は、記者会見の数分後に Google を狙撃するためにブログを投稿しました。それはあまりにもひどいブログで、自社の AI Strawberry を 2 日間リドラーとして機能させさえしました。

今のOpenAIは本当にオオカミが泣いているようなもので、もう期待も信頼もありません。毎回出てくる呪いの言葉は、××、××の2つだけ！

そしてGoogleは、何の期待も持たずに、さらにいくつかのサプライズを用意している。

11の見どころをまとめましたこの記事を読めば記者会見を見終わります。

1. GoogleはGeminiをベースにAndroidを再構築したいと考えている。

彼らは AI OS という言葉を定義しました。Google は AI OS をすべての人に提供したいと考えています。

現在、200以上の国と地域で45の言語をサポートしており、数十のデバイスメーカーの数百の携帯電話モデルで使用でき、世界中の数十億のデバイスでサポートされています。

2. ジェミニの携帯電話での画像認識が覆されます。

彼らが最初に実証したのは、Gemini の画像認識能力でした。

マルチモーダルAIとして、画像キャプチャ認識は必須機能に組み込まれそうだ。写真認識能力を試すのに最も適しているのは、撮影指示やスケジュールなどの情報量の多いコンテンツです。画像を認識するだけでなく、テキストの内容を理解して答える必要があります。

デモをしていた人が写真を撮りました紙のコンサートポスター, 上記のツアースケジュール。プレゼンターはジェミニに、スケジュールを確認してサブリナ・カーペンターのショーに行ける時間を選ぶように頼んだ。

しかし、ライブデモには間違いが必ずあります。そしてここでそれが起こります。

ジェミニが写真を撮った最初の2回、ライブデモンストレーションは恥ずかしいことに失敗し、現場で2回気まずい思いをしました。。。 = =

このデモではSamsung Galaxy S24 Ultraの携帯電話が使用されたことも具体的に言及されており、Samsungの強みが発揮されていたのでしょうか。

シーンを別のデバイスに変更して再試行すると、幸いにも画像の内容が 3 回目に認識されました。

ジェミニは非常に具体的な日付を直接言いました：サブリナはそこにいます2024 年 11 月 9 日サンフランシスコに到着し、プレゼンターにその日他に予定がない場合はショーに行きます。

ようやく拍手が起こり、選手たちは目に見えて安堵のため息をついた。

3. ソフトウェア間の相互作用は非常に便利です。

Gemini は、携帯電話上でビデオコンテンツを直接理解して分析できるようになりました。

ビデオを見ながら、Gemini に電話して重要なポイントを要約したり、ビデオの内容に関する質問に答えたりすることができます。

たとえば、夜に YouTube で食べ物のビデオを見た後、その写真を 1 つずつ読む必要はありません。ビデオに登場する食べ物のリストが自動的に生成され、ユーザーの個人的な「食べたい」リストに追加されます。。

グルメな方に朗報です。

また、YouTube 上の旅行ビデオの観光スポットリストや旅程の提案を作成することもできます。

散歩中もBGMが必要な私としては、

また、ジェミニに「ソウルの散歩に適した K-POP プレイリスト」の作成を依頼することもできます。このプレイリストは、ユーザーが説明したシーン、気分、アクティビティの種類に基づいて適切な音楽を推奨します。

音楽の検索がより直感的で個人的なものになります。

4書き込み速度は非常に速く、効果は良好です。

Gemini を使用すると、携帯電話でわずか数秒でメールを作成することもできます。

弟は 2 つのシナリオを実演しました。 1 つ目は、家主に自宅の電源モジュールを修理するよう通知する丁寧な督促状を書くことでした。

2つ目は、病気で仕事を休んだことに対する教授への謝罪の手紙を書くことです（以前にも同じようなことをしたことがあるような気がします）。

さらに、Gemini には、ユーザーがテキストを磨き、電子メールを送信するのを容易にするインタラクティブなデザインもあります。

ジェミニがほんの数秒で謝罪文を書き上げたのを見て、私は笑いをこらえられそうになった。

5. Gemini Live のリアルタイム会話効果は悪くありませんが、低遅延 TTS にすぎません。

Google は、Gemini Live と呼ばれる、いつでも中断できる GPT4o に似たリアルタイム会話機能を開始しました。

音色は10種類からお選びいただけます。

デモガールはGemini Liveで長い間チャットしていましたが、音質は良く、遅延は十分に低いですが、実際にはGPT4oのネイティブマルチモーダル大型モデルではなく、低遅延TTSのように見えます。

Google の尿によると、感情の理解と表現の実証がないため、もしあったとしても、間違いなくそれを狂ったように示します。さらに、いくつかの長い回答では、遅延が依然として明らかに感じられます。

したがって、これは実際には低遅延の TTS 会話です。

現在、Gemini Advanced サブスクライバーのみが利用でき、料金は月額 20 ドルで、すぐに利用できます。

6.Pixel 9 は、マルチモーダル Gemini Nano を搭載した最初の携帯電話です。

これは、これまでスマートフォンでリリースされた中で最も強力なオンデバイス AI モデルで、Pixel 8 Pro で使用されていた以前の AI の 3 倍強力です。

Pixel 9 のプロセッサ (TPU および Tensor G4) は、1 秒間に最大 45 ワードを生成でき、これは以前の 2 倍の速さです。

Pixel 9の通常バージョンのメモリは12GBですが、Proバージョンのメモリはさらに多くなり、16GBに達します。そして最もエキサイティングなことは、ついに衛星通話機能が搭載されたことです。。。

ここで言えるのは、我々ははるかに進んでいるということだけです！

今回発売された製品は、キャンディーバーフォン3機種と折りたたみフォン1機種。通常のラインナップには、6.3 インチディスプレイを備えた基本の Pixel 9、6.8 インチスクリーンを備えた Pixel 9 Pro XL、および新しい小型の 6.3 インチ Pixel 9 Pro が含まれます。

正直に言うと、ちょっとかっこ悪いと思います。。。

新作の屏風もございますPixel 9 Pro Fold。

さらに醜い。。。

7.通話メモは、通話中に重要な情報を記録するのに役立ちます。

今回、Pixelの「通話アシスタント」がさらに強力になり、「通話メモ」機能が追加されました。

通話が終了すると、通話の完全にプライベートな概要が表示されます。これにより、通話中に紙とペンがなくても、電話番号、時間、詳細、その他の忘れたくない情報に簡単にアクセスできます。

さらに、このプロセスはすべてローカルで実行されるため、基本的にプライバシーの問題はありません。

少年は例をあげました。最近髪型を変えようと思っているのですが、担当の床屋では希望通りの髪型にできなかったので、別の床屋を勧められました。

しかし問題は、彼が店の電話番号をメモするのを忘れたことだ。通話メモを使用すると、簡単に遡ることができます。

7. Recall に似たスクリーンショット機能は少し奇妙です。

誰もがよく知っているシーンがあります。携帯電話で何かを目にしたとき、それを頭の中で書き留めたり、スクリーンショットを撮って保存したりすることがあります。

しかし、覚えておきたいことを忘れてしまったり、必要なときに見つけられなかったりすることがよくあります。

それから彼らは新しい製品を作りました。

AI を使用して、保存されているすべての写真をすばやく検索できます。たとえば、携帯電話に自転車の写真が数十枚ある場合、自転車を検索すると、すべての写真が表示されます。

T シャツの価格など、より複雑な質問をすることもできます。Pixel Screenshot が元の画像を見つけただけでなく、画像内の情報に基づいて自然言語で回答を提供してくれたことがわかります。

8. 通常のローカル AI 描画 Pixel Studio。

すべての Pixel 9 スマートフォンには、スマートフォン初の画像生成機能である新しい Pixel Studio が付属しています。

効果は平均的で使えると思います。

たとえば、夕暮れ時のビーチの焚き火台は非常に普通に感じられます。

9.AIカメラは集合写真の撮影に最適です。

Pixel カメラは最初の AI カメラと言われています。

ほとんどのパラメーターがわかりませんが、この写真シーンは非常に興味深いです。

集合写真が撮れないことも多く、カメラマンになりたい友達が必ずいます。

シンプルな画面上のインターフェイスを使用して、カメラを他の人に渡して場所を交換できるなど、写真の撮影をガイドします。次に、最初の写真の輪郭に基づいて新しい写真の人物を配置し、別の写真を撮影します。結果の画像では 2 つの写真が結合され、全員が同時に同じ写真に写っているように見えます。

これは非常にクールで、写真を撮る際の大きな問題点を解決します。

10. 新しい時計とヘッドフォン。

Pixel Watch 3 を送りました。

Pixelbuds Pro 2 ヘッドフォン 1 つ。

ヘッドセットを使用すると、いつでもジェミニを起こして話しかけることができます。

11. GPT4o のプロジェクト Aster を比較します。

Project Aster は、数か月前の Google カンファレンスで発表され、GPT4o のネイティブマルチモーダル大規模モデルを直接ベンチマークしました。

Gemin Live では、今後も使用できるようになりましたアスター。

たとえば、Gemini と話しながらカメラを共有できるので、微積分の宿題で遭遇した問題を直接披露したり、家具の組み立ての次のステップで助けを求めたりすることができます。

また、よく使用するアプリは Gemini Live に統合されているため、会話やメッセージでアクションを起こしたり、Google カレンダーなどのアプリから情報を取得したりするのに役立ちます。

そのため、別のアプリを開かなくても、Gemini Live から直接、近所の人にテキストメッセージを送信したり、ビジネスに関する詳細を共有したり、カレンダーを同時に確認したりすることができます。

GPT4o + Apple の組み合わせはちょっとクールです。

残念ですが、まだケーキです。

AI に関して言えば、Gemini Live は、少なくとも未来のものではなく、現在でも使用できるものであり、非常に興味深いものです。

ケーキしか描けない OpenAI よりはまだマシです。

Googleがどんどん良くなってOpenAIを潰してくれることを願っています。

これを読んで、良いと思っていただけましたら、お気軽にいいね、視聴、リツイートを3回してください。通知を早く受け取りたい場合は、スターを付けることもできます。 ~私の記事を読んでいただきありがとうございます。また次回お会いしましょう。

>/ 著者: Kazik、Wenwen、Xiaorui、Dawn_E

ニュース

OpenAI よりも良心的なこの記事は、Google の記者会見の 11 のハイライトをまとめています

導入

私の連絡先情報