ニュース

meta connect 2024 を理解するための 1 つの記事: llama 3.2 が登場、ar メガネ orian が発表

2024-09-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


tencent technology 著者 wu bin hao boyang

編集者 鄭科軍

北京時間9月26日午前1時、カリフォルニア州メンローパークで毎年恒例のメタコネクト2024が開催された。ザッカーバーグ氏は期待の新製品quest 3sからスタートし、メタのメタバースの夢がエントリーレベルの消費者市場に広がり始めていることを発表した。

同時に、meta は、最新の ai 音声対話機能 ai voice と組み合わせて、視覚的なマルチモーダル機能を提供する大型 ai モデル llama の最新バージョン 3.2 バージョンも発表しました。これらのモデルのリリースの最大の意義は、meta が主流のマルチモーダル モデルをすべて完成させ、ai と xr ハードウェアの統合のための強固な基盤を築いたことです。同時に、「her 2.0」に匹敵するaiリアルタイム翻訳やリアルタイムaiデジタルヒューマンなど、metaが発表したいくつかのaiアプリケーションも業界ソリューションとして一歩前進しており、キラーアプリケーションとなる可能性を秘めている。 。

さらに、今回リリースされた ar メガネ orion は、xiao zha によって地上で最も強力な ar メガネと呼ばれており、将来のメタバース世界へのさらなる入り口も提供します。まだまだ完璧ではありませんが、ai空間計算機器の最終形態という志を持った製品でもあります。海外メディアの報道によると、この製品の価格は1万ドルを超えるという。

mate は今でもメタバースと ai の 2 つの道を前進し続けることを主張しており、製品の統合を通じて仮想現実と人工知能を組み合わせることに努めています。

2024年のコネクトカンファレンスで、ザッカーバーグは再び世界に、彼が描いた仮想現実世界の入り口の形、仮想性と現実の統合、自律制御性と人工知能の統合、そして現実の形を見せた。製品と将来の運用経験の統合。

ザッカーバーグ氏は記者会見を総括: 5 つの新製品を発売し、メタはよりオープンな未来を築くために懸命に取り組んでいる

メタクエスト 3s が登場、価格は値下げされましたが、素材は値下げされませんでした

メタクエスト 3s が最初に登場し、今回は珍しくパラメータや新機能よりも先に製品価格が発表されました。

ザッカーバーグ氏は、この新しい vr メガネの販売価格が 299.99 ドルで、昨年の同時期に発売された quest 3 よりも 200 ドルも安いことを皆さんに知らせたいと考えています。さらに、quest 3 と比べて機能があまり多くありません。

meta quest 3s は、その「兄貴分」quest 3 と同じ qualcomm snapdragon xr2 gen 2 チップと 8gb の実行メモリを搭載しています。これは、データを計算するための処理能力がまったく同じであることを意味します。

同時に、quest 3s は quest 3 と同じ touch plus コントローラーを使用し、目と手のモーション キャプチャ テクノロジーをサポートします。

quest 3s でもバッテリー寿命は長くなります。 meta が提供した公式データによると、4324mah バッテリーを内蔵した quest 3s は 2.5 時間のバッテリー寿命を達成できますが、より大きなバッテリー容量 (5060 mah) を備えた quest 3 は最大 2.2 時間しか動作できません。

quest 3s の残念な点は、安価な vr メガネ製品として主流の pancake 光学構造を使用していないことです。quest 1 および 2 シリーズと同じフレネル レンズを使用しています。このデザインは比較的洗練されています。低コストですが、その分全体のサイズと重量はquest 3よりも大きくなります。

しかし、2 つの製品の本当の違いは、表示効果の違いです。quest 3s は、90/120 hz のリフレッシュ レートを備えた 1832 x 1920 (1 度あたり 20 ppd ピクセル) の高速スイッチング lcd を使用しています。

quest 3 の 2064 x 2208 (1 度あたり 25 ppd ピクセル)、水平視野 110 度、垂直視野 96 度と比較して、水平視野と垂直視野はわずか 96 度と 90 度です。

明らかに、quest 3s は、メタバースの夢に基づく長年にわたるメタの野心を示しています。これは、主流の製品に近いコア構成を備えた仮想現実グラスを使用して、より幅広いユーザー層への vr グラスの普及を促進します。

meta がそのような製品を開発するもう 1 つの原動力は、その仮想現実エコシステムであり、これはまだ徐々に改善されています。

ザッカーバーグ氏は記者会見で、quest 3sはdolby vision技術をサポートし、使用されているコンピュータを識別してワンクリックで画面をキャストできる画面認識機能を追加すると述べた。これにより、quest 3s などの仮想現実ヘッドマウント製品の使用シナリオがさらに広がります。

しかし、メタはこのテクノロジーのライブ デモンストレーション中に、quest 3s が予期せぬクラッシュを起こしてしまい、ザッカーバーグは対処せざるを得ませんでした。

続いてザッカーバーグ氏は、horizo​​n worlds の最新バージョンを紹介しましたが、まだ「ままごと」ゲームのように見えますが、徐々に改善されています。今年、avantar のマルチプレイヤー youtube 機能が開始され、これによりさらに多くの youtube ユーザーが集まることを期待しています。

サードパーティ製アプリケーションに関しては、最大のサプライズは「バットマン:アーカム・シャドウ」で、10月22日にリリースされ、新しいquest 3と3sにバンドルされ、有効期限は来年4月までとなる。以前に発表された『alien: rogue invasion』とゾンビゲーム『arizona sunshine』もquestプラットフォームでリリースされる予定だ。さらに、meta は、quest 向けに wordle (ニューヨーク タイムズ紙が毎日発行する単語ゲーム) を開始することも発表しました。

ああ、ところで、新しい quest 3s を購入するために、meta は quest 2 と quest pro の在庫を完売した後、あなたが選択できる唯一の選択肢として、率先して生産を中止しました。は安価な quest 3s か、より安価な quest 3s の上位構成です。

xiao zha氏は、最も強力なエンドサイドモデルllama 3.2が登場したと述べた

meta が llama 3.2 マルチモーダル大型モデルを発表、軽量バージョンは携帯電話で実行可能

前回の connect カンファレンスと同様、このカンファレンスの主役も欠かせないのが ai です。

ザッカーバーグ氏は、基本モデル llama の 3.2 アップデートを発表しました。その大型モデルには 90b および 11b バージョンがあり、エンドサイド モデルには 1b および 3b サイズがあります。

xiao zha 氏は、llama 3.2 用に開発された新製品機能をデモしました。写真をアップロードすると、マジック ブラシ機能をクリアして追加できるだけでなく、テキストの説明に基づいてキャラクターの服装を直接変更したり、現在の背景を虹に置き換えたりすることもできます。

mata が提供する技術文書によると、llama 3.2 は、マルチモダリティをサポートする llama 3.1 のバージョンとして直接理解できます。 meta は画像認識トレーニング プロセス中に言語モデルのパラメーターを更新しないためです。

トレーニング方法に関しては、meta はより従来的な方法を使用し、llama3.1 に画像アダプターとエンコーダーを追加し、拡散モデルを使用して対応するテキストと画像をトレーニングし、ドメイン コンテンツの微調整を実行します。

最後に、モデルを調整するトレーニング後の段階で、llama 3.2 は複数回の教師あり微調整、拒否サンプリング (補助分布を使用してサンプルを生成し、特定の確率に従ってサンプルを受け入れるか拒否する)、および直接優先も使用します。モデルを調整します。

興味深いことに、このプロセス中に、meta は llama 3.1 を使用して複数の画像キャプションのセットを生成し、モデルによる画像の説明を最適化しました。

meta は llama 3.1 を使用して複数の画像字幕セットを生成し、モデルによる画像の説明を最適化します。

meta が提供したテスト結果では、llama 3.2 の 90b バージョンのグラフィカル推論機能は、複数のテストにおいて gpt 4o-mini よりも優れています。 11b バージョンは、claude 3 の小型バージョンである haiku バージョンを総合的に上回っています。

ザッカーバーグ氏は、llama 3.2のクライアント側バージョン1bと3bが最も強力なクライアント側aiになると述べた。

現在、テキストの入出力を受け入れ、最大 128k トークンのコンテキスト長をサポートしています。これら 2 つのエンドサイド モデルは、llama 3.1 8b での枝刈り (大規模モデルで使用率が低いパラメータの枝刈り) と蒸留 (大規模モデルを教師として使用し、小規模モデル学習のコア パラメータ トレーニング モードを使用) を通じてトレーニングされました。 70bになります。微調整トレーニング プロセス中に、要約、書き換え、指示に従って、言語推論、ツールの使用などの複数の機能でパフォーマンスを最適化するために、llama 3.1 405b によって提供される合成データも追加されました。

記者会見では、llama 3.2の3bバージョンが、特に一般的に使用される端末側の機能に関して、多くの指標において、googleが6月にリリースしたgemma 2 2bモデルやmicrosoftが8月にリリースしたphi 3.5 3.8bモデルを上回ったことが示された。要約として、コマンドに従うと、書き換えタスクでのスコアの優位性は明らかです。

たとえば、ユーザーの指示に従う能力をテストするテスト セット ifeval では、llama 3.2 3b バージョンは、同じサイズの phi 3.5 と比較して 20% 以上向上しています。ツールを呼び出す機能をテストする 2 つのベンチマークでは、llama 3.2 にも明らかな利点があります。

これにより、llama 3.2 は、デバイス側での実用的なアプリケーション エクスペリエンスの点で、xiao zha 氏が現時点で「最も強力」であると述べたものになります。ただし、推論や数学などの基本的な能力の点では、llama 3.2 3b は phi 3.5 mini にほとんど遅れをとっています。

さらに、これらのモデルは発売日に qualcomm および mediatek ハードウェアをサポートし、arm プロセッサ用に最適化されています。

画像のマルチモーダル理解をサポートする llama 3.2 に加えて、meta は今回 connect で meta ai voice も開始しました。主流のマルチモーダル機能をすべて一度に完了します。 gpt-4o と同様に、ライブ デモンストレーションでは対話の中断をサポートでき、サウンドは非常に自然ですが、残念ながら gpt-4o のような豊かなイントネーションや感情表現は示されていません。

性能は gpt-4o と同等にすぎませんが、meta ai voice は新たなセールス ポイントを発見しました。それは、007 の冷酷な顔の女上司のジュディ デンチや、クレイジー リッチ アジアンのヒロインなど、5 人の有名人の音声オプションを提供します。主人公リン・ジアジェンの声。

スカーレット・ヨハンソンの声を盗んだとして法廷で訴えられたopenaiと比較すると、この点ではmetaのほうが明らかに信頼できる。ウォール・ストリート・ジャーナルによると、メタは各有名人の声に「数百万ドル」を支払ったという。一部の有名人は、自分の声の使用方法を制限し、メタ ai が使用された場合に責任を負わないようにしたいと考えています。

「ロイター」によると、celebrity voiceは今週、facebook、instagram、whatsappなどのmetaのアプリファミリーを通じて米国およびその他の英語圏市場でローンチされる予定だという。

基本的なモデル機能を補完することに加えて、meta は ai アプリケーションのいくつかの新機能も実証しました。これらの機能は既存の ai ソリューションによって主にサポートされていますが、meta はさらに一歩進んでいます。ソーシャルメディアやaiグラスの利用シーンにもより適しています。

たとえば、meta ai studio は、ai デジタル ヒューマン システムの直接構築をサポートするようになりました。ライブ デモンストレーションでは、デジタル ヒューマンとの会話の遅延は非常に短く、モーション エフェクトとサウンドはリアルで自然でした。

meta ai studio は ai デジタル ヒューマン システムの直接構築をサポートします

あなたの心の伴侶として、リアルな声と顔で話しかけてくれる ai を想像してみてください。私はそれを「目に見える」her 2.0 と呼びたいと思います。

ai コンパニオン製品の黄金時代の到来をもたらすかどうかは、ユーザーによってさらにテストされる必要があります。

もう 1 つの非常に素晴らしい製品は、meta live 翻訳です。meta ai の新しいマルチモーダル機能を使用すると、元の言語の口の形状を直接認識して、ターゲット言語の口の形状に置き換えることができます。この機能は実際に heygen などの企業によって実装されていますが、メタ アプリケーションの範囲の広さを考えると、完全に人気のある最初の関連製品になる可能性があります。

llama 3.1 はすでに開発者によって最も広く使用されているオープンソース モデルですが、アプリケーション層をさらに拡張するために、meta はワークフローを大幅に簡素化できる最初の公式 llama 製品開発ツール llama stack リリース バージョンも connect カンファレンスでリリースしました。さまざまな環境で llama モデルを使用する開発者の数を増やすことができ、検索拡張生成 (rag) や統合セキュリティ機能などのツールベースのアプリケーションをワンクリックで展開することもできます。

llama 3.2 のリリースは meta にとって非常に重要です。これは、最先端のマルチモーダル モデルにおける llama の主要な欠点を補完し、ai インテリジェンスをサポートするレイバン メガネなど、後続の ai ハードウェア製品のマルチモーダル機能の基盤も提供します。

人気商品「レイバンメガネ」、鉄は熱いうちに打て新商品発売

昨年の meta connect カンファレンスで、最も人気のある製品が quest 3 ではなく、meta と眼鏡メーカーの ray-ban が発売した第 2 世代 ai メガネ製品であるとは誰も予想していなかったかもしれません。

第 1 世代は不明ですが、ヨーロッパや米国のテクノロジー愛好家が第 2 世代のレイバン スマート グラスを購入するのを妨げるものではありません。idc の統計によると、meta は 700,000 ペア以上のレイバン グラスを出荷しました。特に今年の第 2 四半期の注文量は、第 1 世代よりも増加しており、四半期ごとに 2 倍以上に増加しています。レイバン メタ メガネのライフサイクル全体を通じて、2024 年 5 月の時点で世界販売数は 100 万本を超え、市場では 2024 年の通年の出荷数が 150 万本を超えると予想されています。

メタは鉄が熱いうちに打って、早速今年の新製品を発売した。

全体的なデザインは昨年とまったく同じで、新作というよりも、まったく新しい透明感のあるスタイルと言ったほうがいいかもしれません。

しかし、よりテクノロジー感の強い透明なメガネボディとなっています。やはり、世界中のハードウェア企業が「テクノロジー感」については同じ認識を持っており、半透明でなければなりません。

meta は、この世代のメガネにさらに ai 機能を追加しました。最大の改良点は、リアルタイムの人工知能画像認識機能の追加であり、ユーザーが現在見ているシーンやオブジェクトについて ray-ban meta メガネに質問できるようになります。ユーザーはメガネを通して直接 qr コードをスキャンし、目に見える電話番号に電話をかけることもできます。

さらに、このサングラスはスマートフォンのようなリマインダー機能、英語からフランス語、イタリア語、スペイン語へのリアルタイム言語翻訳、amazon music、audible、iheart radio などの音楽ストリーミング アプリとの統合もサポートしています。

オリアン、メタ曰くarグラスの究極形?

orian はずっと前に量産されるはずでしたが、疫病の影響で meta の全体的な予算が逼迫したため、zuckerberg はリリースを延期することを決定し、その結果 meta は最初の ar メガネ製品を 2024 年まで発売することはできませんでした。

重さはわずか98グラムとarグラス製品の中でも特別軽いわけではないarグラスです。

オリアンのフレームはアルミニウムよりも軽く、熱を放散しやすいマグネシウム合金で作られています。レンズは耐久性があり、軽量で屈折率が高い炭化ケイ素で作られているため、プロジェクターからメガネ上に放射された光がより広い視野範囲に広がります。

しかし、オリアンを ar メガネと呼ぶのは厳密ではないようです。正しく動作させたい場合は、リストバンドとコンピューティング本体と連携する必要があります。

コンピューティング本体はより多くの処理能力を提供しており、orian を通常に使用したい場合は、メガネはコンピューティング本体を常に側に装着する必要があります。

このリストバンドはさらに興味深い役割を果たしており、高性能繊維素材で作られており、筋電図検査 (emg) を使用してジェスチャーに関連する神経信号を理解しています。数ミリ秒以内に、これらの信号は入力信号に変換され、コンピューター エージェントに伝達されます。これは、sf 映画に似ています。

ディスプレイに関しては、orion の視野は 70 度で、フレーム内にマイクロ led プロジェクターが装備されており、レンズのシリコン基板に画像を投影できます。これは、現在のすべての ar グラスの動作原理と同様です。 。

ザッカーバーグ氏は、現実世界に重ねられたデジタル情報との通信と、人工知能との対話という2つの主な目的で人々がorionを利用することを望んでいると語った。

後者は、新しく追加された画像認識機能や言語インタラクション機能など、レイバン メタ メガネと同じ ai 機能を備えています。

前者はより抽象的です。現場では、メタ氏は、あたかも相手が隣に立っているかのようなリアルタイムのホログラフィック投影ビデオ通話を実現できる、このメガネ用のar版メッセンジャーアプリケーションを開発し、ホログラフィック画像と現実世界を組み合わせたシーンをデモした。あなた。

ar メガネを宣伝するために、メタは orion を体験したユーザーの第一陣として黄仁訓氏を起用し、「フアン氏はそれを試してみて、良いと言ってくれました」と述べました。

ザッカーバーグ氏の見解では、ar メガネの成熟は段階的なプロセスになるだろう。一方で、レイバンメタのようなディスプレイのない人工知能メガネは、より早く普及するでしょう。

一方で、meta が今後発売する hypernova のような小さなディスプレイを備えたメガネによって普及するでしょう。これにより、meta ai との対話や友人とのコミュニケーションなど、より簡単なタッチ操作が可能になります。

xiao zha 氏は、orion は ar メガネの最終形態であると述べ、成熟した ar メガネはスマートフォンを家に置いたままにできる十分な計算能力を備えています。

とはいえ、携帯電話から離れたとはいえ、外出時にはコンピューティング本体を持ち歩かなければならず、私たちが思い描いていた最終形にはまだまだ程遠いです。

さらに、時間内に冷水が注がれる洗面器もあります。orion のバッテリー寿命はわずか 2 時間です。もっと簡単に言うと、オリオンでは仮想世界でスーパーヒーローになれるのは 2 時間だけです。

そして、ar グラスの究極の自由を実現するのは、それほど安価ではないかもしれません。 the vergeやtechcrunchなどの海外メディアの報道によると、metaのスタッフはテストマシンを披露する際、現在のorionのハードウェアコストは1万ドルを超えていると語ったという。これは、この製品の価格が apple の vision pro よりもはるかに高いことを意味します。

結論

2022 年のメタバースの失敗と多くの関係者からの嘲笑に至るまで、2023 年にオープンソース ai の王となり、そして今年スマート グラスを使用して新世代の ai ハードウェアへの扉を開きました。ザッカーバーグは過去3年間でほぼ不可能な反撃を完了した。

この期間中に、オープンソース ai の作成と軽量スマート グラスの開発という 2 つの重要な決定が、両方とも今日の connect で結実しました。

ai機能を搭載したレイバンメガネの展示から、ai時代のキャリアとしてのメガネの利点が実際にわかりました。音声を使用して大型モデルを呼び出すことができるだけでなく、その可能性を最も直接的に活用できるということです。マルチモーダルai。直接「見る」ことは、携帯電話で「スキャンする」ことよりもはるかに自然なユーザー エクスペリエンスです。そして、この直接性が次世代スマートデバイスの移行を決定すると考えられます。

最後にリリースされた orion は、ai 空間コンピューティング機器の最終形態の野望を担う未来の作品です。重くて不快な vision pro と比較すると、xiao zha の軽量 mr ビジョンは空間コンピューティングの未来に似ています。そして今、このビジョンが形になりました。 ai 時代におけるスマート デバイスの移行が運命づけられているのであれば、ai pin のような小規模な試みと比較して、meta はその閾値に最も近い企業です。

2022 年の人にこのすべてのことを話しても、彼は間違いなくそれを信じないでしょう。ザッカーバーグはテクノロジーオタクで、少し胡散臭いように見えますが、本当に約束を守り、私たちをメタバースの入り口にどんどん近づけてくれます。