ニュース

「AIゴッドマザー」リー・フェイフェイ:ソラはまだ2次元のイメージであり、AGIを達成できるのは3次元の宇宙知能だけ|Titanium Media

2024-08-03

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


TMTpostアプリは8月2日、スタンフォード大学が開催したアジア系アメリカ人学者フォーラムの非公開会議で、次のように報じた。「AIのゴッドマザー」として知られるスタンフォード大学教授のリー・フェイフェイ氏は、TMTpost Appに独占的に語った。アメリカ企業OpenAIのSoraモデルはビデオを生成できるものの、本質的には依然として平面的な2次元モデルであり、 3 次元の物体を理解する能力はありません。AGI の将来の方向性は「空間知能」だけです。

Li Feifei 氏は、「空間インテリジェンス」モデルと、TMTpost Media の創設者 Zhao Hejuan 氏が提起した大規模言語モデルとの関係について議論した際に、上記の反応を示しました。彼女はさらに、GPT4o や Gemini 1.5 などの現在のほとんどのモデルは依然として言語モデル、つまり入力言語と出力言語であると説明しました。マルチモーダル モデルもありますが、ビデオがあるとしても、それらは依然として言語に限定されています。 、それらは二次元の平面画像に基づいています。しかし、将来の AGI 実現の鍵となるのは「空間知能」であり、これには 3 次元の視覚モデルが必要です。

彼女はソラが見せた「ネオン輝く東京の街を歩く日本人女性」のAI動画を例に挙げた。


「街を歩いている女性のビデオを表示するために、カメラを女性の後ろに置くなど、アルゴリズムに角度を変更してもらいたい場合、Sora ではそれができません。このモデルは 3 つについて実際には深く理解していないからです。人間は心の中でそれを行うことができます。「女性の背後にある光景を想像してください。」とリー・フェイフェイ氏は言いました。基本的に、空間知性は幾何学であり、オブジェクト間の関係は 3 次元空間で生成 (視覚的マップ) し、推論し、行動を計画する能力を解放します。 ARやVR、ロボット、空間インテリジェンスなどの幅広いデザインも必要です。」

Li Feifei 氏は TMTpost App に対し、「自然の進化により、動物は 3 次元の世界を理解し、3 次元空間で生活し、予測し、相互作用できるようになりました。この能力には、三葉虫が初めて水中で光を見たときから 5 億 4,000 万年という長い歴史があります。進化が進むにつれて、動物の空間知能は向上します。そして私たちは形状を理解し、深さを理解します。」

リー・フェイフェイ氏(48歳)は、有名なコンピューター科学者であり、全米工学アカデミーと全米医学アカデミーの会員であり、スタンフォード大学の人間中心AI研究所の所長でもある。彼女は、2009 年に ImageNet 画像データベースと視覚認識コンテストの開発を主導し、大量の画像に正確に注釈を付けて分類し、コンピューター ビジョン認識機能の進歩を促進しました。また、AI の急速な発展を促進する重要な要素の 1 つでもあります。昨年、彼女が発表した VoxPoser は、身体性 AI の開発における重要なテクノロジーの方向性になりました。

今年7月、リー・フェイフェイ氏が設立したAI企業ワールド・ラボは、a16z(アンドリーセン・ホロヴィッツ)などが投資家として2ラウンドの資金調達を完了したと発表した。同社の最新の評価額は10億米ドル(約72億6000万元)に達した。

7 月末の非公開のアジア系アメリカ人科学者フォーラムでのリー・フェイフェイのスピーチにより、Word Labs と彼女の「空間インテリジェンス」開発コンセプトとは何なのか、つまり AI を真に「見てから実行する」ものにするということを、より多くの人が理解することができました。 ”。

「見る」から「やる」への道のり

いわゆる「空間知能」とは、3 次元空間を認識し、理解し、対話する人間または機械の能力を指します。

この概念は、多重知能理論の中でアメリカの心理学者ハワード・ガードナーによって最初に提案されたもので、外部の空間世界のモデルを脳内に形成し、使用および操作することができます。実際、空間知性により、人々は 3 次元で考えることができるようになり、外部および内部のイメージを認識したり、イメージを再現、変換、変更したりできるため、空間内を静かに移動し、やりたいことを何でも行うことができます。グラフィック情報を生成または解釈するためのオブジェクトの位置。

大まかに言えば、空間知能には、空間方向を認識する能力だけでなく、視覚識別能力やイメージ思考能力も含まれます。機械の場合、空間知能とは、3 次元空間で視覚データを処理し、正確に予測を行い、これらの予測に基づいてアクションを実行する能力を指します。この能力により、機械は人間と同じように複雑な 3 次元の世界でナビゲート、操作、意思決定を行うことができるため、従来の 2 次元視覚の制限を超えることができます。

今年4月に開催されたTEDトークで、リー・フェイフェイ氏は視覚能力がカンブリア爆発を引き起こし、神経系の進化が知性をもたらしたと率直に語った。 「私たちは、ただ見えて話せるAIを望んでいるのではなく、それができるAIを望んでいるのです。」

Li Feifei 氏の見解では、空間インテリジェンスは「AI の技術的問題を解決するための重要な魔法の武器」です。

7月末のこの非公開イベントで、李飛飛氏はまず、10年前に始まった現代AIの3つの主要な推進力について概説した。主にアルゴリズムで構成される「ニューラルネットワーク」、つまり「ディープラーニング」。 NVIDIA GPU チップとビッグデータ。

2009 年以来、コンピューター ビジョンの分野は爆発的な進歩を遂げました。機械は物体を素早く認識し、人間のパフォーマンスに匹敵します。しかし、これは氷山の一角にすぎません。コンピューター ビジョンは、静止している物体を識別し、移動する物体を追跡するだけでなく、物体をさまざまな部分に分離し、物体間の関係を理解することもできます。したがって、画像ビッグデータに基づいて、コンピュータビジョンの分野は飛躍的に進歩しました。

リー・フェイフェイさんは、約 10 年前、彼女の学生であるアンドレイ・カルパシーさんが顔文字アルゴリズムを確立する研究に参加したことをはっきりと覚えています。彼らはコンピュータに写真を見せると、ニューラルネットワークを通じて、コンピュータは「これはベッドに横たわっている猫です」などの自然言語を出力することができた。

「私はアンドレイに『逆転しましょう』と言ったのを覚えています。たとえば、文章を与えてコンピューターに写真を要求します。私たちは皆、それは決して実現しないかもしれない、あるいは遠い将来に実現するだろうと考えながら笑いました。」とリー・フェイフェイ氏は語った。思い出した。

生成 AI テクノロジーは、過去 2 年間で急速に発展しました。特に数か月前、OpenAI はビデオ生成アルゴリズム Sora をリリースしました。彼女は、生徒たちが Google で開発した同様の製品を披露しましたが、それは優れた品質でした。この製品は Sora がリリースされる数か月前に存在しており、Sora よりもはるかに小型の GPU (グラフィックス プロセッシング ユニット) を使用していました。問題は、AI が次にどこへ行くのかということです。

「私は何年もの間、『見る』ということは『世界を理解する』ということだと言い続けてきました。しかし、私はこの概念をさらに一歩進めて、『見る』ということは単に理解するということではなく、私たちと同じように物事を創造するということだと考えています。知覚を持つ動物ですが、そのような動物は実際に4億5千万年前から存在していました。これは進化の必要条件であり、見ることと行うことは閉じたループだからです」とリー・フェイフェイ氏は語った。

彼女は自分のお気に入りの猫を例として挙げました。


テーブルの上にある猫、牛乳の入ったグラス、植物の写真。この写真を見ると、実際に立体的な映像が頭の中に浮かび上がります。形状が見え、幾何学が見えます。

実際、数秒前に何が起こったのか、そして数秒後に何が起こるのかがわかります。この写真は 3 次元で表示されます。次に何をするかを計画しています。特に猫はあなたのものであり、カーペットはあなたのものであるため、あなたの脳はカーペットを救うために何ができるかを計算しています。

「私はこのすべてを空間知性と呼んでいます。これは、3 次元の世界をモデル化し、3 次元の時空間における物体、場所、出来事などについて推論しています。この例では、現実の世界について話していますが、また、それは仮想世界を指すこともありますが、空間インテリジェンスの本質は、「見ること」と「行うこと」を結び付けることです。いつか、AI がこれを実現できるようになるでしょう」とリー・フェイフェイ氏は語った。

次に、Li Feifei 氏は複数の写真に基づいて再構成された 3D ビデオを示し、次に 1 枚の写真に基づいて 3D ビデオを提示しました。これらの技術はデザインに使用できます。

Li Feifei 氏は、身体化されたインテリジェント AI や人型ロボットは、「見る」ことと「行う」ことの間に閉ループを形成できると述べました。

彼女は、スタンフォード大学の同僚と半導体大手NVIDIAが共同でBEHAVIORと呼ばれる研究を実施しており、家庭環境におけるさまざまなロボットのパフォーマンスを評価するための家庭活動のためのベンチマークとなる動的空間を構築していると述べた。 「私たちは、ロボットが計画を立てて行動を開始するように指示できるように、言語モデルを大規模な視覚モデルに接続する方法を検討しています」と彼女は述べた。彼女は 3 つの例を挙げました。1 つは引き出しを開けるロボット、もう 1 つは携帯電話の充電ケーブルを抜くロボット、そして 3 つ目はサンドイッチを作るロボットです。すべての指示は人間の自然言語を通じて行われます。

最後に、彼女は例を挙げ、未来は「空間知能」の世界に属すると信じており、そこでは人間がそこに座り、センサーを備えた脳波計の帽子をかぶって、話すために口を開けなくても、ロボットに遠隔操作で指示を与えることができる。感想: 和食のダイニングバーを作ります。ロボットはアイデアを受け取ると、そのアイデアを解読し、完全な食事を準備できるようになります。

「空間知性を通じて『見ること』と『行うこと』を結びつけると、それが可能になります」と彼女は言いました。

リー・フェイフェイさんはまた、過去 20 年間の AI のエキサイティングな発展を目の当たりにしてきたと語った。しかし、彼女は AI または AGI の鍵は空間知能であると信じています。空間知能を通じて、私たちは世界を見て、世界を認識し、世界を理解し、ロボットに何かをさせることができ、こうして好都合な閉ループを形成することができます。

ロボットは人類を乗っ取るのでしょうか?

リー・フェイフェイ氏は会議で、今日の人々はAIが将来何ができるかについて誇張しすぎていると述べた。彼女は、野心的で勇気ある目標と現実を混同しないように警告しています。これは私たちがよく耳にするフレーズです。

実際、AI、特に大規模な言語モデルは転換点に達しています。 「しかし、それは依然としてバグだらけで限界のあるテクノロジーであり、人間がそれに深く関与し、その限界を理解する必要がある。現在非常に危険な議論は、いわゆる人類滅亡のリスクである。つまり、AIは人工知能になりつつある」 「これは社会にとって非常に危険だと思います。この種のレトリックは多くの予期せぬ結果をもたらすでしょう。私たちはAIについて思慮深く、バランスの取れた、偏見のないコミュニケーションと教育を必要としています」とリー・フェイフェイ氏は語った。と強調した。

リー・フェイフェイ氏は、AIは人間に根ざしたものであるべきだと信じています。人間が作り、人間が開発し、人間が利用し、人間が管理しなければなりません。

Li Feifei 氏は、スタンフォード大学の「人間中心 AI」研究所では、個人、コミュニティ、社会の 3 つのレベルを含む、AI への 3 つのアプローチを採用していると述べました。

  • 個人レベルでは、AI が関与し、受け入れられる必要があります。これは文明の技術です。 AI は、子供たちの学習方法、医師の診断方法、アーティストのデザイン方法、教師の教え方を変えます。あなたが技術者であるかどうかに関係なく、自分の役割を果たし、責任を持って AI を使用することができます。
  • コミュニティ レベルでは、AI はコミュニティに力を与え、コミュニティの環境保護のニーズや農業のニーズを満たすことができます。一部の農村地域では、機械学習テクノロジーを使用して地域の水質を監視しています。アーティスト コミュニティは AI を使用しているだけでなく、問題を解決しリスクを軽減する方法についての懸念やアイデアを表明しています。
  • 社会レベルでは、政府、研究機関、企業、連邦機関、国際機関がこのテクノロジーを真剣に受け止めるべきです。エネルギー問題があり、それは地政学的な影響を及ぼします。オープンソースと非オープンソースの間では依然として大きな議論があり、経済と生態系に影響を及ぼします。 AIのリスクや安全性など、経営上の課題は依然としてある。積極的なアプローチ、マルチステークホルダーのアプローチ、そして社会全体のアプローチを採用する必要があります。もう後戻りはできない、とリー・フェイフェイ氏は語った。彼女は 2017 年から 2018 年まで Google で AI プロジェクトを率い、2020 年から 2022 年まで Twitter の取締役を務め、現在はホワイトハウスの AI アドバイザーを務めています。

AI が仕事に与える影響について、Li Feifei 氏は自身の見解を共有しました。

リー・フェイフェイ氏は、スタンフォード大学の人間中心AI研究所内に、エリック・ブリニョルフソン教授が率いるデジタル経済研究所があると指摘した。この非常に複雑な問題には多くの層があります。彼女は特に、実際には誰の仕事も複数のタスクで構成されているため、「仕事」と「タスク」は 2 つの異なる概念であることを強調しました。

彼女はアメリカの看護師を例として挙げました。看護師の 8 時間の勤務中には、何百もの仕事があると推定されています。したがって、AI が人間の仕事を引き継ぐ、あるいは代替することについて議論するとき、それがタスクを代替するのか、仕事を代替するのかを区別する必要があります。

Li Feifei 氏は、AI が仕事内の複数のタスクを変更したため、仕事の性質も徐々に変化すると考えています。コールセンターのシナリオでは、初心者の作業品質は AI によって 30% 向上しましたが、熟練者の作業品質は AI によって向上しませんでした。フェイフェイ・リー氏の意見は、スタンフォード大学デジタル経済研究所の「AI は管理者の仕事を置き換えることはありません: AI を使用する管理者が、使用しない管理者の代わりを務めています。」というタイトルの記事にも反映されています。

李飛飛氏は、科学技術は生産性の進歩をもたらすが、生産性の進歩が自動的に社会の共通の繁栄につながるわけではないと強調した。彼女は、そのような事件は歴史上何度も起きていると指摘した。

(この記事は最初に Titanium Media App に掲載されました。著者|Chelsea_Sun、編集者|Lin Zhijia)