aiにビデオ通話をしてみたところ、aiは何でも話せるようだということがわかりました。。。

2024-08-31

3 か月前の openai カンファレンスで、gpt-4o を見たことがある人もいると思います。それはまるで本物の人間のようでした。シルキーなビデオ会話機能。

googleが立ち上げたproject astraもあり、強度的にはgpt-4oに劣りません。

当時、インターネットのほぼ全体が ai のインタラクティブ機能がいかに強力に進化したかを自慢しており、エピックやネクストレベルなどの用語が使用されていました。

何が起こったのでしょうか? gpt-4o で約束されていたビデオ通話機能は、数か月にわたって何度も延期されました。それらの誰もが、悪いレビュアーにほとんど腹を立てています。。。

しかし、ai 界にはルールがあるようです。それは、良いことを期待して人々をあまり長く待たせてはいけないということです。ソラが半年以上秘密にしていた結果、ケリン、ルマai、ジプー・チンインが次々と現れました。

過去 2 日間、バルセロナで開催されたデータマイニングカンファレンス kdd で、zhipu 氏は世界の学術コミュニティと業界の前に姿を現しました。最新の大型ベースモデルglm-4-plusがリリースされただけでなく、zhipu qingyanのビデオ通話機能もアップグレードされました。

皆さんに重要なポイントを強調しましょう。それは伝説に登場する、見てチャットできる人です人工知能qingyan アプリでビデオ通話機能が直接利用できるようになりました。まずアプリをダウンロードして、試用を申し込むことができます。

openai と比較すると、zhipu の速度は既に openai よりも優れています。。。

そのため、qingyan のビデオ通話機能が開始されるとすぐに、bianbing 氏が最初にそれを使用しました。 qingyanアプリを開き、右下隅にある通話ボタンをクリックして、ビデオに切り替えて直接再生を開始します~

また、gpt-4o が非常に人気がある重要な理由の 1 つは、gpt-4o がビデオを理解する非常に強力な能力を備えていることであることを友人は知っておく必要があります。

最も基本的なことですが、まず qingyan のビデオ理解能力をテストする必要がありますね。

査読者は、編集部が普段ブレーンストーミングを行っている会議室を qingyan に見せて、周囲の環境に基づいて私が何をしているかを推測できるかどうかを確認しました。彼はまた、ビデオを完全に静止させずに意図的にカメラを揺さぶりました。

「わあ、何をしているんだろう」と言うだけで、私はほとんど苦労するところでした。しかし、会議室のテーブルに座っていることは間違いではありません。テーブルの上の紙コップ、リモコン、その隣のテレビも非常に正確に描写されています。

同僚のコンピュータにレンズを装着すると、実際にビデオを編集していることがわかりました。

言わないでください、この種の周囲の環境全体を認識する能力は、これまで openai と google のデモでしか見たことがありませんでした。今日、私はそれを本当に体験しました。まるで sf が現実になったかのような気分です。

さらに、qingyan は gpt-4o で実証されたものと同じです。会話中はいつでも中断できます。時々、彼は「痛い」や「痛い」という助動詞も使い、まるで本物の人とチャットしているかのように、話す前に笑います。

次に、qingyan の知識の蓄積を確認するために、特定のオブジェクト認識機能を試しました。

最も単純なワークステーションのスキャンから始まり、白いキーボード、黒いマウス、モニターなどの大きなアイテムは基本的に欠落しており、オブジェクトの前後左右の方向も明確に記述されています。ガラス上の漫画のキャラクターは細部まで抜かりありませんでした。

100％とは言えませんが、この表では少なくとも 80% ～ 90%すべては青燕に見られていた。

さらに、qingyan には別の機能もあります。円認識、私は遠くから同僚の大きなステレオを囲みました。それはブランド、モデル、そしてその特定の目的さえ知っていました。

スピーカーには文字が入っていますが、肉眼で見るのは難しいほどの鮮明さは、本当に使いやすいと言わざるを得ません。。。

さらに、こんなことも分かりましたqingyan のオブジェクトの認識は、単純なカテゴリーを超えています。

たとえば、このゲームコントローラーがソニー製かマイクロソフト製かを尋ねると、コントローラーの形状設計に基づいて分析できます。これはマイクロソフトの xbox です。これはゲームコントローラーであると単純に説明したり、単に混乱させて明確に説明できないのではなく。

この古代のフィーチャーフォン、nokia の詳細もあり、具体的なモデルは n95、2007 年のクラシックモデルです。

その後、私は qingyan に、コンピューターシステムを特定すること、トニーの写真を見てトニーの年齢を推測すること、有名人の写真を見て人の名前を推測することを依頼しました。。。言ってみれば、qingyan を使い始めてから、ビデオ通話を開いて、気になったことを何でも聞きたいと思うようになりました。

もちろん、ビデオ通話にはさまざまな形式があります。実践的なシナリオ。

編集部の日々のトピックや資料の検索を例に挙げてみましょう。この 2 日間の自動車業界の注目スポットは基本的に成都モーターショーと切り離せないものです。現時点では、成都モーターショーについて qingyan に質問して探すことができます。会話中のインスピレーションのトピック。

主に、qingyan が持っていることもわかりました。メモリー機能, 前回のビデオ通話でこのことについて話しましたが、次に開いたときに、オートショーでどの新エネルギー車をフォローしたかを尋ねてきました。

保護者にとって最も面倒な宿題の指導もあります。これまでは、ai による対話はまだ写真を撮って質問をアップロードすることに基づいていましたが、ビデオ通話に置き換えられれば、それはマンツーマンと同じになります。オンライン家庭教師による宿題の個別指導が 1 つあります。

qingyan に難易度の低い数学の問題をいくつか解いてもらいました。小学校や中学校の簡単な代数の問題には、ほとんど解けないものもあります。

問題を解決するときに、qingyan はプロセス全体を一度に説明することはなく、1 つの結果だけを与えることもありません。ステップごとにガイドして、思考プロセスを可能にします。

数学だけでなく、中国語や英語にも一つずつ挑戦してきました。上級教師とは言えませんが。毎日の宿題、単語の暗記、古代の詩の暗記にはこれで十分です。

これらのシーンだけでは不十分だと思われる場合は、もう少し想像力を働かせてみましょう。

料理も初めて、部屋の電球は切れた、緑の植物の育て方も分からない。。。人生で同じようなことに遭遇して、どうすればよいかわからない場合は、qingyan に聞いてみてはいかがでしょうか。

たとえば、多くの子供たちは、当面は電池のプラス極とマイナス極を区別できない可能性があるため、電卓の電池を逆に取り付けるふりをして、問題が何であるかをほんの数語で理解しました。まだ生活の常識を持っています。

とにかく、最近は何もすることがないときにqingyanを使うのが好きです。さらに、このガジェットは特に優れた機能を備えています感情的な価値を提供する、物語やジョークを話させ、あらゆる文に応答させます。

友達と一緒にブラックジャックをプレイすると、審判としても機能します。

将来的には麻雀ができるように進化して、aiに任せることができるのだろうか。本来の文字入力や音声による会話よりもこちらのほうが面白いと思いませんか？

正直に言うと、qingyan のこの大幅なアップグレードにはまだ多くの驚きがありましたが、それでもまだ小さな欠陥がたくさんあります。彼はナンセンスを話したり、物事を誤認したり、ナンセンスを出力したりすることがあります。

たとえば、私がブラックジャックの審判だったとき、9 は 4 で、スペードはクラブだと言いました。。。

しかし、openaiやgoogleよりも先に中国でaiビデオ通話が可能になっただけで、私たちも zhipu に親指を立てなければなりません。

今回、ビデオ通話機能の最初のバッチは一部のユーザーのみが利用できるようにし、zhipu はできるだけ早くすべての従業員が利用できるように段階的に規模を拡大します。君たちが本当に貪欲なら、qingyan アプリをダウンロードするか、pc (chatglm.cn) にログインしてサイトの内部テストを申請できます。

また、zhipu について詳しくない友人も多いかもしれませんが、この会社は ai 界で最高の企業とも言えます。人気のフライドチキン。

特に今年は、大型モデルに対する彼らの行動が非常に激しく、基本的な大型モデルの狂気の反復から大型モデルのアプリケーションの頻繁な実装に至るまで、zhipu の行為は止まることがありません。

今回のkddでは、新大型モデルglm-4-plusにより、言語理解力と長文テキストの大幅な向上を実現しました。

さらに、zhipu はモデルをオープンソースにすることを主張してきました。データによると、zhipu のオープンソースモデルの累積ダウンロード数は、2000万を超えました。

いずれにせよ、今回は zhipu が率先してこのような「騒ぎ」を起こしており、間もなく国内だけでなく海外の ai 界にもクレイジーな新製品の波が到来すると予想されています。

これは当然、私たちユーザーにとっては良いことです。特に、新しいインタラクション形式である ai ビデオ通話の場合、さらに進めば進むほど、アプリケーションシナリオにおける想像力の余地が大きくなります。

たとえば、ai がメガネやネックレスにインストールされれば、将来的には携帯電話さえ必要なくなるかもしれません。あるいは、視覚障害者の松葉杖に ai がインストールされて道案内ができるようになるかもしれません。あるいは、身体化された知能と組み合わせることで、ロボットが見ているものを真に理解できるようになります。

zhipu ceo zhang peng の言葉を借りれば、次のようになります。「少なくとも私たちはまだ見ていません(人工知能）テクノロジーの上限」。

aiが将来どこまで進化し、どのような価値を生み出すのかを考えてみるとよいでしょう。

記事を書く: 西西

編集：江江省

アートエディター：華艶

写真、ソース：

明快な知恵の言葉

画像ソースネットワークの一部

ニュース