ニュース

li feifei の最新の a16z 対談: 空間インテリジェンスは仮想世界の生成に適しているだけでなく、ai テクノロジーの進歩により、想像を絶する新しいアプリケーション シナリオがもたらされます。

2024-09-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

最近、リー・フェイフェイ氏は、a16z パートナーのマーティン・カサド氏および研究者のジャスティン・ジョンソン氏と ai 分野の歴史、現状、将来の発展の方向性について話し合いました。このトピックでは、ai テクノロジーのあらゆる側面、特に生成 ai と空間インテリジェンスの将来の可能性が取り上げられました。

li feifei 氏は、生成 ai は大学院での研究中にすでに存在していたが、初期のテクノロジーはまだ成熟していなかった、と強調しました。ディープラーニングとコンピューティング能力の飛躍により、生成 ai は近年目覚ましい進歩を遂げ、ai 分野の中核となるブレークスルーの 1 つとなっています。

彼女はまた、「空間インテリジェンス」、つまり 3d および 4d 空間を理解し対話する機械の能力に焦点を当てた、最新の起業家プロジェクト world labs を紹介しました。

彼女は、空間インテリジェンスは仮想世界の生成に適しているだけでなく、現実世界を統合することもでき、拡張現実 (ar)、仮想現実 (vr)、ロボット工学の分野で広く使用されていると指摘しました。テクノロジーは、仮想世界の生成、拡張現実、物理世界とのインタラクションなど、想像を絶する新しいアプリケーション シナリオを私たちにもたらします。

以下がこの会話の主な内容です、お楽しみください~

マーティン・カサド

過去 2 年間、消費者向け ai 企業やテクノロジーが次々と登場し、そのプロセスは驚異的でした。そしてあなたは何十年もこの分野で働いてきました。そのため、このプロセスでの主な貢献と洞察についてお話しするかもしれません。

フェイフェイ・リー

今は非常にエキサイティングな時代であり、振り返ってみると ai はエキサイティングな時代にあります。私は個人的にこの分野に 20 年以上従事しており、昨年の ai の冬から抜け出し、現代の ai の誕生を目撃しました。その後、ディープラーニングの台頭が見られ、チェスのようなことが可能になることが示されました。

その後、テクノロジーのさらなる発展と、言語モデルなどの初期の可能性の業界への応用が見られ始めました。今、私たちは「カンブリア爆発」の真っ只中にいると思います。

ある意味、今はテキストだけでなく、ピクセル、ビデオ、オーディオなどもaiのアプリケーションやモデルと組み合わされ始めており、非常にエキサイティングな時代です。

マーティン・カサド

私はお二人のことを長い間知っており、この分野では非常に著名な方なので、多くの人があなたのことを知っています。しかし、誰もがあなたがどのようにして ai 分野に参入したのかを知っているわけではありません。そのため、聴衆が基本的な理解を確立できるように、あなたの背景を簡単に紹介できるかもしれません。

ジャスティン・ジョンソン

私が ai に初めて触れたのは、学部の終わり頃でした。私はカリフォルニア工科大学で数学とコンピューターサイエンスを学びましたが、素晴らしい時間を過ごしました。この時期に、home neck lee 氏や andrew ng 氏らによる google brain に関する「猫の論文」という非常に有名な論文が発表されました。これが私にとってディープラーニングの概念に初めて触れたきっかけでした。

このテクノロジーに私は驚きましたが、このレシピに初めて出会ったのもこの時でした。強力な汎用学習アルゴリズム、膨大な計算リソース、大量のデータが組み合わされると、魔法のようなことが起こります。このアイデアに出会ったのは2011年か2012年頃で、その時は将来これをやるだろうと感じていました。

明らかに、この種の仕事をするには大学院に行かなければなりませんでした。そこで、フェイフェイがスタンフォード大学にいて、この分野を深く研究している世界で数少ない人の一人であることを知りました。ディープ ラーニングとコンピューター ビジョンが初期段階から成熟して広く普及する段階に移行していた時期であったため、ディープ ラーニングとコンピューター ビジョンに取り組むには素晴らしい時期でした。

その間、私たちは言語モデリングの始まりを見てきました。また、画像から何かを理解できる、識別型コンピューター ビジョンの始まりも見てきました。この時期には、現在生成型 ai と呼ばれるものの初期開発も行われ、画像の生成やテキストの生成などのアルゴリズムの中核部分も、私の博士号取得中に学術コミュニティによって解決されました。

当時は毎朝起きるとarxivを開いて最新の研究結果をチェックしていました。まるでクリスマスプレゼントを開けるような気分でした。過去 2 年間、ai テクノロジーを通じて毎日新たな「クリスマス ギフト」が届いていることに、世界中の人々も気づき始めています。しかし、この分野に10年以上携わっている私たちにとって、この経験はすでにあります。

フェイフェイ・リー

明らかに、私はジャスティンよりもはるかに年上です。私は学部が物理だったため、物理からaiの分野に入りました。物理学は、世界の未解決の謎のような大胆な問題について考えることを教える科目です。物理学では、これらの問題は原子の世界、宇宙に関連する可能性がありますが、このトレーニングにより、私は別の問題、つまり知性にも興味を持つようになりました。そこで私はカリフォルニア工科大学で ai と計算神経科学の博士研究を行いました。ジャスティンと私はカリフォルニア工科大学で重複しませんでしたが、母校が同じでした。

ジャスティン・ジョンソン

そして同じ指導者ですか?

フェイフェイ・リー

はい、あなたの学部の指導教官は私の博士課程の指導教官でもあったピエトロ・ペローナでした。私が博士課程の勉強をしていたとき、世間では ai は寒い冬の真っただ中にありましたが、私の目にはそうではありませんでした。これはどちらかというと春前の冬眠期間に似ており、機械学習と生成モデルが勢いを増しています。私は自分自身を機械学習の分野では「ネイティブ」だと考えていますが、ジャスティンの世代はディープラーニングの「ネイティブ」です。

機械学習はディープラーニングの前身であり、当時はさまざまなモデルを実験しました。しかし、博士課程の終わり頃、そして助教授時代に、私の学生と私の研究室は、一般化を推進する ai の中に、当時この分野であまり考慮されていなかった見落とされている要素があることに気づきました。それはデータです。私たちはベイジアン モデルなどの複雑なモデルに焦点を当てており、データにモデルを駆動させることの重要性を見落としていました。

これが、私たちが imagenet に賭けている理由の 1 つです。当時、コンピュータ ビジョンや自然言語処理の標準的なデータ セットのサイズは、どの分野でも非常に小さく、数千から数万のデータでしたが、インターネットに合わせてスケールアップする必要があることに気づきました。 。幸いなことに、インターネットの時代も到来しており、私もその波に乗りました。私がスタンフォードに来たのはこの頃でした。

マーティン・カサド

imagenet など、私たちがよく話している時代は、生成 ai の分野でコンピューター ビジョンを普及させ、少なくとも実現可能にする上で明らかに重要な時代です。私たちは通常 2 つの重要なブレークスルーについて言及します。1 つは「注目メカニズム」である transformer 論文であり、もう 1 つはあまり話題になっていない「安定した拡散」です。

学術界 (特に google) によるこれら 2 つのアルゴリズムの画期的な進歩をこのように理解するのは妥当でしょうか?それともこれは意図的なプロセスなのでしょうか?それとも、あまり言及されないが、私たちを今日の地位に押し上げた他の大きな進歩があったのでしょうか?

ジャスティン・ジョンソン

はい、最大の進歩はコンピューティング能力だと思います。 ai の話がコンピューティング能力の話でもあることは知っていますが、よく言及されているにもかかわらず、その影響は過小評価されていると思います。

過去 10 年間に見られたコンピューティング能力の成長は驚異的です。コンピューター ビジョンにおけるディープ ラーニングのブレークスルーの瞬間であると考えられている最初の論文は、2012 年の論文 alexnet です。この論文では、ディープ ニューラル ネットワークが imagenet の課題で優れたパフォーマンスを示し、当時の他のアルゴリズムをはるかに上回っていました。

大学院生の間に触れる可能性のあるアルゴリズムは、alexnet に比べれば見劣りします。 alexnet は 6,000 万のパラメータを持つディープ ニューラル ネットワークで、2 枚の gtx 580 グラフィックス カードで 6 日間トレーニングされました。gtx 580 は、2010 年にリリースされた当時最も強力なコンシューマー向けグラフィックス カードでした。

昨夜、いくつかのデータを調べていて、これをより大きな文脈に落とし込みたいと思いました。 nvidia の最新のグラフィックス カードは gb200 です。gtx 580 と gb200 のコンピューティング能力の差はわかりますか?

その数は数千単位なので、昨夜計算してみました。たとえば、2 週間のトレーニング中、6 日間は 2 台の gtx 580 で実行されました。延長すると、おそらく gb200 で 5 分未満で実行できるでしょう。

このように考えると、実に適切な議論があります。imagenet challenge に関する 2012 年の alexnet 論文は、実際には非常に古典的なモデル、つまり畳み込みニューラル ネットワーク モデルです。

実際、この概念は 1980 年代に登場しており、私が大学院生のときに研究した最初の論文も同様で、6 層または 7 層のネットワーク構造でした。 alexnet と畳み込みニューラル ネットワーク モデルのほぼ唯一の違いは gpu であり、2 つの gpu と大量のデータを使用します。

つまり、私が言いたかったのは、ほとんどの人がいわゆる「苦い教訓」をよく知っているということです。つまり、アルゴリズムを開発する場合は、既存のコンピューティング リソースを確実に活用できるようにしてください。これらのリソースは、時間の経過とともに利用可能になります。したがって、必要なのは改善し続けるシステムだけです。

一方で、同様に説得力のある別の議論もあるようです。それは、新しいデータ ソースが実際にディープ ラーニングの可能性を解き放つというものです。 imagenet が良い例です。多くの人は自己注意メカニズムが transformer モデルにとって重要であると考えていますが、それは人間がラベル付けしたデータを活用する方法でもあるとも言うでしょう。

人間が文構造の注釈を提供するため、clip モデルを見ると、実際には人間がインターネット上で alt タグを使用して画像にタグを付けることができます。つまり、これは実際にはデータに関する話であり、コンピューティングに関する話ではありません。では、答えは両方あるのでしょうか、それともどちらか一方的なものなのでしょうか?両方ともあると思いますが、もう一つ非常に重要な点も指摘されました。

マーティン・カサド

実際、アルゴリズムの分野には 2 つの異なる時代があると思います。 imagenet の時代は教師あり学習の時代です。今の時代、私たちはたくさんのデータを持っていますが、データそのものだけを使ってトレーニングする方法がわかりません。

imagenet やその他の同時代のデータセットでは、大量の画像が存在すると予想されていましたが、各画像に人間が注釈を付ける必要がありました。私たちがトレーニングしたすべてのデータは、人間のアノテーターによって 1 つずつ表示され、注釈が付けられました。

アルゴリズムの大きな進歩は、人間による注釈に依存しないデータでトレーニングする方法がわかったことです。 ai の背景がない一般の人にとって、人間のデータでトレーニングしている場合、人間が実際にアノテーションを行っているように見えますが、そのアノテーションは明示的ではありません。

ジャスティン・ジョンソン

はい、これは哲学的に非常に重要な問題ですが、イメージの領域よりも言語の領域に当てはまります。はい、しかしそれは重要な違いだと思います。 clip には確かに人間によって注釈が付けられています。自己注意のメカニズムは、人間が物事間の関係を理解し​​、その関係を通じて学習することだと思います。

したがって、依然として人間によって注釈が付けられていますが、注釈は明示的ではなく暗黙的です。違いは、教師あり学習の時代では、学習タスクがより制限されていることです。私たちは発見したい概念のオントロジーを考案する必要があります。

たとえば、imagenet では、fei-fei li とその生徒たちは、imagenet チャレンジの 1,000 のカテゴリが何であるべきかを考えるのに多くの時間を費やしました。同時に、ターゲット検出に使用される coco データ セットなどの他のデータ セットでも、どの 80 のカテゴリに含めるかを決定するために多くの検討を費やしました。

マーティン・カサド

それでは、生成 ai について話しましょう。私が博士課程を取得していたとき、皆さんが登場する前に、andrew ng の機械学習コースと daphne koller の非常に複雑なベイジアン コースを受講しましたが、これらは私にとって非常に複雑でした。

当時の多くは予測モデリングでした。あなたがこのビジョン全体のロックを解除したことを覚えていますが、生成 ai が登場したのはここ 4 年ほどです。これは私にとってまったく異なる分野です。もはやオブジェクトを識別するのではなく、何かを予測するのではなく、新しいものを生成するのです。

そこで、生成 ai を可能にする重要な要素は何なのか、これまでとどう違うのか、それが継続的な開発部分なのか、まったく新しい分野なのか、別の見方をすべきなのかについてお話しできるかもしれません。

フェイフェイ・リー

生成モデルは私が大学院時代から存在していたというのは非常に興味深いですね。当時、私たちは生成をやりたかったのですが、たとえ文字と数字を使って生成を行っていたとしても、私たちが何かを試みていることを誰も覚えていませんでした。当時、ジェフ・ヒントンは生成に関する論文をいくつか持っていて、私たちも生成方法について考えていました。

実は確率分布の観点から見れば数学的に生成できるのですが、当時生成されたものは全然すごいものではありませんでした。したがって、生成という概念は数学的な観点からは存在しますが、実際には満足のいく生成効果はありません。

次に、深層学習に強い関心を持って私の研究室に来た博士課程の学生について特に触れたいと思います。この博士課程学生の博士課程での学習経験全体は、この分野の発展の軌跡の縮図であるとほとんど言えます。

彼の最初のプロジェクトはデータであり、私は彼にそれを強制しましたが、彼はそれが好きではありませんでしたが、後に多くの有益なことを学んだことを認めました。 「そう言っていただけてうれしいです。」そこで私たちはディープラーニングに目を向けましたが、中心的な問題は画像からテキストを生成する方法でした。実際、このプロセスには 3 つの明確な段階があります。

最初の段階では、画像とテキストを一致させます。画像とテキストがあり、次にそれらがどのように関連しているかを確認する必要があります。私の最初の学術論文、また最初の博士論文では、シーン グラフに基づく画像検索について研究しました。次に、私たちは徹底的に研究を続け、ピクセルからテキストを生成します。彼と andrej はこの分野で多くの研究を行ってきましたが、それでも非常に損失の多い生成方法であり、情報を取得するときに情報が大幅に失われます。ピクセルの世界。

中盤に超有名な作品があったのですが、その時初めてリアルタイムに気づいた人がいました。 2015 年に、leon gatys のリーダーシップの下、「ニューラル アルゴリズムのアート スタイル」と呼ばれる論文が発表されました。彼らは、現実世界の写真をゴッホ風の画像に変換するデモを行いました。

今では当たり前のことだと思っているかもしれませんが、それは 2015 年のことであり、その論文が arxiv に掲載され、私に衝撃を与えました。私の脳に「ai生成ウイルス」が注入されたような気分です。 「なんてことだ、このアルゴリズムを理解し、いろいろ試して、自分の写真をゴッホのように見せる必要がある」と思いました。

そこで、私は長い週末をかけてアルゴリズムを再実装し、適切に実行できるようにしました。実際、これは非常に単純なアルゴリズムで、コードは約 300 行しかありません。当時は pytorch がなかったため、lua torch を使用しました。しかし、アルゴリズムは単純であるにもかかわらず、非常に遅いです。イメージを生成するたびに最適化ループを実行する必要があり、これには時間がかかります。結果として得られる画像は美しいですが、もう少し高速であればいいのにと思います。ついに、それを高速化しました。

私がもう 1 つ誇りに思っているのは、彼が生成 ai が実際に世に出る前に博士研究の最後の部分で非常に最先端の研究を行ったことです。このプロジェクトは、自然言語を入力することで完全な画像を生成するもので、生成aiの初期の取り組みの1つと言えます。私たちは gan を使用していましたが、当時は非常に使いにくかったです。問題は、自然言語を使用して完全な画像を記述する準備がまだ整っていないことです。

そこで彼は、シーングラフ構造の入力方法を使用し、入力内容は「羊」、「草」、「空」などであり、この方法を使用して完全な画像を生成しました。

データマッチングからスタイル転送、画像生成に至るまで、徐々に完全な変化が見られます。これは大きな変化なのかと尋ねると、私たちのような人々にとっては進行中のプロセスですが、大衆にとっては結果は突然で影響力のあるものに見えます。

マーティン・カサド

あなたの本を読みましたが、皆さんにぜひ読んでいただきたい素晴らしい本です。そして、フェイフェイ、私が言いたいのは、長い間、あなたの研究や方向性の多くは空間知能やピクセル処理などの分野に焦点を当ててきたということです。あなたが現在取り組んでいる world labs も空間インテリジェンスに関連しています。これがあなたの長期的な旅の一部であることについて話していただけますか?なぜ今これをやろうと思ったのですか?これはある種の技術的な進歩なのでしょうか、それとも個人的な理由なのでしょうか? ai 研究の文脈から world labs に話を移してもらえますか?

フェイフェイ・リー

私にとって、これは個人的な追求であると同時に知的な旅でもあります。あなたは私の本について言及しましたが、私の知的旅全体は実際には「北極星」の探求であり、それらの北極星は私たちの分野の進歩にとって不可欠であるという強い信念でした。

大学院を卒業した当初、私にとって北極星は「画像で物語を語る」ことだと思っていたことを覚えています。それは私にとって、それが視覚知性、いわゆる ai の重要な部分だからです。

しかし、ジャスティンとアンドレイが仕事を終えたとき、私はこう思いました。「なんてことだ、これは私の生涯の夢だ。次は何をするつもりだ?」これを達成するには何百年もかかります。

視覚的知性は常に私の情熱です。私は、人間であれ、ロボットであれ、その他の形態の存在であれ、あらゆる知的存在にとって、世界の見方、推論の仕方、世界との関わり方を学ぶことが極めて重要であると強く信じています。ナビゲーション、制御、製造、さらには文明の構築においても、視覚的および空間的知性は基本的な役割を果たします。

それは言語と同じくらい基本的なものかもしれませんし、ある意味ではさらに古くからあるものかもしれません。したがって、world labs の north star は宇宙インテリジェンスのロックを解除することになっており、今が適切な時期です。

justin が言ったように、コンピューティング能力やデータの深い理解など、必要なリソースはすでに揃っています。私たちは、imagenet の時代よりもデータを理解する点でより洗練されました。

また、共同創設者のベン・ミルデンホール氏とクリストフ・ラスナー氏によるナーフに関する最先端の研究など、アルゴリズムの進歩もあります。私たちは今が決断を下し、この分野に焦点を当て、その可能性を解き放つ適切な時期であると感じています。

マーティン・カサド

皆さんに明確に理解していただくために、あなたはこの会社 world labs を設立しましたが、解決したい問題は「空間知能」です。空間知能とは何か簡単に説明していただけますか?

フェイフェイ・リー

空間インテリジェンスとは、3d 空間と時間内で理解し、認識し、推論し、行動する機械の能力を指します。具体的には、オブジェクトやイベントが 3d 時空間にどのように配置されているか、また世界の相互作用がこれらの 3d 位置にどのような影響を与えるかを理解することを指します。

これは、マシンをデータセンターやホストに留まらせるだけではなく、マシンを現実世界に出して、この豊かな 3d および 4d 世界を理解できるようにすることを意味します。

マーティン・カサド

あなたが言う「世界」とは、現実の物理的な世界を指しますか、それとも抽象的な概念的世界を指しますか?

フェイフェイ・リー

両方だと思います。これは私たちの長期的なビジョンも表しています。仮想世界やコンテンツを生成している場合でも、3d で配置することには多くの利点があります。あるいは、現実世界を特定する場合、3d の理解を現実世界に適用できることもその一部です。

マーティン・カサド

あなたの共同創設者チームは本当に強力です。では、なぜ今がこれを行うのに適切な時期だと思いますか?

フェイフェイ・リー

これは実際には長期的な進化のプロセスです。博士号を取得した後、私は独立した研究者になる道を探し始め、ai とコンピューター ビジョンの分野における大きな問題について考え始めました。当時私は、過去 10 年は既存のデータを理解することに費やされ、次の 10 年は新しいデータを理解することに費やされるだろうと結論付けました。

過去のデータは主にインターネット上にすでに存在する画像やビデオでしたが、未来のデータはまったく新しいものです。カメラや新しいセンサーを備え、3d 世界で位置を測ることができるスマートフォンの登場です。インターネットから大量のピクセルを取得して、それが猫なのか犬なのかを判断しようとするだけの問題ではありません。

私たちはこれらの画像を物理世界への普遍的なセンサーとして扱い、物理空間と生成空間の両方で世界の 3d および 4d 構造を理解するのに役立つことを望んでいます。

博士課程を卒業した後、私は大きな転換をして 3d コンピュータ ビジョンの分野に参入し、同僚と物体の 3d 形状を予測する方法について研究しました。その後、2d データから 3d 構造を学習するというアイデアに非常に興味を持ちました。

データについて議論するとき、3d データの取得が難しいとよく言われますが、実際には 2d 画像は 3d 世界の投影であり、活用できる数学的構造が数多くあります。大量の 2d データがある場合でも、これらの数学的構造を通じて 3d 世界の構造を推測できます。

2020年は画期的な瞬間です。当社の共同創設者であるベン ミルデンホールは、nerf (neural radiation field) 法を提案しました。これは 2d 観察から 3d 構造を推定するための非常にシンプルかつ明確な方法であり、3d コンピュータ ビジョンの分野全体に火をつけます。

同時に、llm も台頭し始めました。実際、多くの言語モデリング作業が学術界で長い間開発されてきました。博士課程の在学中にも、2014 年に andrej karpathy と言語モデリングの仕事をしました。

ジャスティン・ジョンソン

これは実は transformer よりも前から登場していたものですが、gpt-2 の時代では計算リソースが多すぎるため、学術界でこのようなモデルを作るのは困難でした。ただし、興味深いことに、ben が提案した nerf 手法では、単一の gpu で数時間のトレーニングしか必要としません。

これにより、多くの学術研究者がこれらの問題に再び注目するようになりました。いくつかの主要なアルゴリズム問題は限られたコンピューティング リソースで解決でき、単一の gpu で最先端の結果が得られるからです。当時、非常に多くの学術研究者は、「コア アルゴリズムを通じてこの分野の発展をどのように促進できるだろうか?」と考えていました。フェイフェイと私は何度も話し合いましたが、二人ともこれについて非常に確信しています。

フェイフェイ・リー

はい、私たちの研究の方向性はある程度同様の目標に向かって進んでいることがわかりました。また、非常に興味深い技術的な問題や、ピクセルに関する技術的な話をしたいと思っています。

言語研究に従事している人の多くは、生成 ai の時代以前に、コンピュータ ビジョンの分野に従事する私たちには、実は 3d 再構築と呼ばれる研究の長い歴史があることを知らないかもしれません。

これは 1970 年代に遡り、写真を撮ることができました。人間には 2 つの目があるため、ステレオ写真を使用して三角形分割して 3d 形状を構築することができました。しかし、マッチング問題など複雑な問題があり、未だ完全には解決されていない非常に難しい問題です。

この分野には長い進歩の歴史がありますが、特に拡散モデルのコンテキストにおいて、nerf を生成手法と組み合わせると、3d 再構築と生成が突然融合し始めます。コンピュータービジョンの分野では、何かを見たり想像したりすると、両方がそれを生成する方向に収束する可能性があることが突然発見されました。これは非常に重要な瞬間ですが、llm について話すほど広範囲に語られることがないため、多くの人は気づかないかもしれません。

ジャスティン・ジョンソン

はい、ピクセル空間での再構築が行われます。たとえば、実際のシーンを再構築し、そのシーンが見えない場合は生成手法を使用します。実際、この2つは非常によく似ています。あなたはこの会話全体を通して言語とピクセルについて話していましたが、空間知能と言語のアプローチについて、それらは補完的なものなのか、それとも完全に異なるものなのかなどについて話す良い機会かもしれません。

フェイフェイ・リー

それらは補完的なものだと思います。 「完全に異なる」をどう定義するかはわかりませんが、比較してみることはできます。今日、多くの人が gpt、オープン ai、マルチモーダル モデルについて話しています。これらのモデルはピクセルと言語の両方を処理できると思われます。それでは、彼らは私たちが望む空間推論を実現できるのでしょうか?この質問に答えるには、これらのシステムの「ブラック ボックス」を開いて、内部でどのように動作するかを確認する必要があります。

私たちが現在目にしている言語モデルとマルチモーダル言語モデルの基礎となる表現は「一次元」です。コンテキストの長さ、トランスフォーマー、シーケンス、アテンション メカニズムについて話しますが、結局のところ、これらのモデルの表現は 1 次元のシリアル化されたトークンに基づいています。

テキスト自体は離散文字の一次元シーケンスで構成されているため、この表現は言語を扱う場合には非常に自然です。この 1 次元表現は llm の成功の基礎であり、同じことが現在見られるマルチモーダル llm にも当てはまり、他のモダリティ (画像など) をこの 1 次元表現に「ハードコア」します。

空間インテリジェンスの分野では、私たちはまったく逆のことを考えています。世界の 3 次元の性質が表現の核となるべきだと信じています。アルゴリズムの観点から見ると、これにより、データを処理してさまざまな種類の出力を取得する新たな機会が開かれ、まったく異なる問題の解決に役立ちます。

大まかなレベルでも、「マルチモーダル llm は画像も見ることができます。」と言うかもしれません。実際には見ることができますが、画像を処理する際のアプローチの中心に 3 次元の性質を置いているわけではありません。

ジャスティン・ジョンソン

1 次元表現と 3 次元表現の根本的な違いを議論することが非常に重要であるということに、私は完全に同意します。さらに、もう少し哲学的な点がありますが、私にとっては同様に重要です。言語は本質的に純粋に生成された信号であり、世界には言語は存在しません。自然の中に出かけると、空に文字が書かれているのを見ることはありません。どのようなデータを入力しても、言語モデルは十分な一般化を行ってほぼ同じデータを吐き出すことができます。これが言語生成の性質です。

しかし、3d 世界は異なり、物理法則に従い、独自の構造と素材を持っています。基本的にこの情報を抽出し、表現し、生成できることは、まったく異なる種類の問題です。言語モデルからいくつかの有用なアイデアを借用しますが、これは根本的に異なる哲学的問題です。

マーティン・カサド

そうです、言語モデルは一次元であり、人間が損失を伴って生成したものであるため、おそらく物理世界の表現としては不十分です。生成モデルのもう 1 つのモダリティは、2d 画像およびビデオであるピクセルです。ビデオを見る場合は、カメラがパンできるため、3d シーンを見ることができます。では、空間インテリジェンスと 2d ビデオの違いは何でしょうか?

フェイフェイ・リー

ここで考慮すべき点が 2 つあります。 1 つは基礎となる表現、もう 1 つはユーザー エクスペリエンスの利便性です。両者は時々混同されます。私たちが認識しているものは 2d です。私たちの網膜は 2 次元の構造ですが、脳はそれを 3 次元の世界の投影として認識します。

オブジェクトを移動したり、カメラを動かしたりすることもできます。原理的には 2d 表現やモデルを使用してそれらのことを行うこともできますが、それは質問している問題には適切ではありません。動的な 3 次元世界の 2 次元投影はモデル化可能かもしれませんが、3 次元表現をモデルの中心に置く方が問題のニーズによりよく適合します。

私たちの目標は、より多くの 3d 表現をモデルのコアに統合して、ユーザーにより良いエクスペリエンスを提供することです。これは私の「北極星」にもつながります。なぜ「フラットピクセルインテリジェンス」ではなく「空間インテリジェンス」を重視するのでしょうか?

知性の軌跡により、進化の歴史を振り返ると、その究極の目標は、動物と人間が世界を自由に移動し、交流し、文明を築き、さらにはサンドイッチを作ることを可能にすることです。したがって、たとえ表面的な進歩のように見えるものであっても、この 3d エッセンスをテクノロジーに変換することが、無数の潜在的なアプリケーションを解放する鍵となります。

マーティン・カサド

これは非常に微妙ですが重要なポイントだと思います。おそらく、いくつかのアプリケーション シナリオについて説明することで、この議論をさらに掘り下げることができるでしょう。空間インテリジェンスを可能にするテクノロジー モデルの開発について話すとき、それは具体的にどのようなものになるでしょうか?潜在的なアプリケーションシナリオは何ですか?

フェイフェイ・リー

私たちが構想している空間インテリジェンス モデルではさまざまなことが可能ですが、私が特に楽しみにしているものの 1 つは「世界の生成」です。テキスト画像ジェネレーターと同様に、テキストビデオジェネレーターが登場しました。画像またはビデオを入力すると、システムが素晴らしい 2 秒のクリップを生成します。しかし、この経験を 3d の世界に持ち込めると思います。

将来的には、空間インテリジェンスがこれらのエクスペリエンスを 3d にアップグレードし、画像やビデオを生成するだけでなく、完全でシミュレートされた豊かなインタラクティブな 3d 世界を生成するのに役立つと想像できます。もしかしたらゲームに使われているかもしれないし、バーチャル写真撮影に使われているかもしれないし、その応用分野は想像を絶するほど広いです。

ジャスティン・ジョンソン

時間が経つにつれて技術は向上すると思います。これらのものを構築するのは非常に難しいため、静的問題は比較的単純かもしれませんが、長期的には、今説明したすべてを完全に動的でインタラクティブなものにしたいと考えています。

フェイフェイ・リー

はい、これはまさに空間知性の定義です。もっと静的な問題から始めますが、あなたが言及したものはすべて、空間インテリジェンスの未来にあります。

ジャスティン・ジョンソン

これは、当社の名前「world labs」にも反映されており、その名前は世界の構築と理解に関するものです。コンピュータービジョン、再構成、生成の分野では、できることを区別していることが多いため、名前を伝えると最初は理解できないことがあります。最初のレベルは、マイク、椅子、その他の世界の個別のオブジェクトなどのオブジェクトを認識することです。 imagenet の仕事の多くはオブジェクト認識に関連しています。

しかし、次にシーンのレベルに進みます。シーンはオブジェクトで構成されます。たとえば、現在、テーブル、マイク、椅子に座っている人々が配置されたレコーディング スタジオがあり、これはオブジェクトの組み合わせです。しかし、私たちが想像する「世界」はシーンを超えます。風景はひとつのものかもしれませんが、私たちはその境界線を打ち破って外に出て、通りに出て、行き交う交通を見たり、風に揺れる木の葉を見たり、それらのものと対話できるようにしたいと考えています。

フェイフェイ・リー

もう 1 つ非常に興味深いのは、「ニューメディア」という用語です。このテクノロジーを使用すると、現実世界、仮想想像世界、または拡張され予測された世界の間の境界線が曖昧になります。現実世界は 3d であるため、デジタル世界でも現実世界と融合するために 3d 表現が必要です。 2d だけ、あるいは 1d だけでは、現実の 3d 世界と効果的に対話することはできません。

この機能により、無制限のアプリケーション シナリオが可能になります。 justin が述べた最初のアプリケーション シナリオと同様に、仮想世界の生成はあらゆる目的に使用できます。 2 つ目は拡張現実かもしれません。 world labs が設立された頃、apple は vision pro をリリースし、彼らは「空間コンピューティング」という用語を使用しました。ほぼ同じことを話していますが、私たちが重視しているのは「空間知性」です。空間コンピューティングには空間インテリジェンスが必要であることに疑いの余地はありません。

将来のハードウェアの形態がどのようなものになるかはわかりません。それは、ゴーグル、メガネ、さらにはコンタクト レンズになる可能性があります。しかし、現実世界と仮想世界の境界面では、作業能力を向上させたり、プロの整備士でなくても車の修理を手伝ったり、単にエンターテイメントとして「pokemon go++」のような体験を提供したりする場合でも、このテクノロジーは役に立ちます。 ar/vr用のosになります。

ジャスティン・ジョンソン

極端な場合、ar デバイスが行う必要があるのは、常にあなたに寄り添い、あなたが見ている世界をリアルタイムで理解し、日常生活のタスクを完了するのに役立つことです。これ、特に仮想と現実の融合にとても興奮しています。周囲の状況を 3d でリアルタイムに完全に理解できれば、現実世界の一部のものを置き換えることさえできるかもしれません。

たとえば、現在では、ipad、コンピューター モニター、テレビ、時計など、さまざまなサイズの画面があり、さまざまなシナリオで情報を表示しています。しかし、仮想コンテンツを物理世界とシームレスに融合できれば、これらのデバイスは必要なくなります。仮想世界では、必要な情報を適切なタイミングで、最も適切な方法で表示できます。

もう 1 つの巨大なアプリケーションは、特にロボット工学において、デジタル仮想世界と 3d 物理世界を混合することです。ロボットは物理世界で行動しなければなりませんが、ロボットのコンピューティングと頭脳はデジタル世界にあります。学習と行動の間の橋は、空間知性によって構築されなければなりません。

マーティン・カサド

あなたは仮想世界や拡張現実について言及しましたが、今はロボット工学などの純粋に物理的な世界について話しています。これは非常に幅広い分野であり、特にこれらのさまざまな分野への進出を計画している場合には当てはまります。これらの特定のアプリケーション分野に関連するディープテクノロジーをどのように見ていますか?

フェイフェイ・リー

当社は、自社をディープ テクノロジー企業であると同時に、プラットフォーム企業として、これらのさまざまなアプリケーション シナリオに対応できるモデルを提供していると考えています。私たちが最初に焦点を当てたものにどのアプリケーションシナリオがより適しているかについては、現在の装置は十分に完璧ではないと思います。

実は私が初めてvrヘッドセットを手に入れたのは大学院生の時でした。これを装着したとき、「なんてことだ、これはクレイジーだ!」と思いました。初めて vr を使用するときに、多くの人が同じような経験をしているはずです。

私は vision pro が大好きなので、発売日には夜更かしして購入しましたが、現時点では大衆向けプラットフォームとして完全に成熟していません。したがって、当社は企業として、すでにより成熟した市場を選択して参入する可能性があります。

多用途性の中にシンプルさが含まれる場合もあります。私たちはディープテクノロジー企業としてのビジョンを持っており、うまく解決する必要があるいくつかの根本的な問題があり、うまく解決できればさまざまな分野に応用できると信じています。私たちは、会社の長期目標を、空間インテリジェンスの夢を構築し、実現することであると考えています。

ジャスティン・ジョンソン

実際、そこにあなたの活動の影響があると思います。私たちが実際にそこに到達することは決してないと思います、なぜならそれはとても基本的なことだからです - 宇宙は本質的に進化する四次元構造であり、広い意味での空間知性とはその構造の完全な深さを理解し、発見することですアプリケーションのすべて。したがって、今日私たちは具体的なアイデアを持っていますが、この旅は私たちが今はまったく想像できない場所に私たちを連れて行ってくれると信じています。

フェイフェイ・リー

テクノロジーの素晴らしいところは、さらなる可能性を広げ続けていることです。私たちが前進し続けるにつれて、これらの可能性は拡大し続けるでしょう。

今年のaiスタートアップに対するvcの投資は641億米ドルに達し、2021年のピークに近づいているが、全世界のaiの年間総収益は数百億米ドルに過ぎない