ニュース

Tencent の首席科学者、Zhang Zhengyou 氏: ロボットに大きなモデルを詰め込むだけでは、真の身体化された知能を生み出すことはできない

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

張正佑 テンセント主任研究員、テンセントロボティクスX研究所所長

AI時代における人間と機械の関係を深く探求し、社会が人間と機械の共生時代における経済発展の機会と社会的対応戦略を共同で考えるよう導くために、テンセント研究所は共同で前海国際問題研究所を組織した。 、青騰、香港科技園区公司およびその他の機関AI時代における人間と機械の関係の展望フォーラム、これも人工知能 + 社会開発シリーズ ハイエンド セミナー第2号の。
フォーラムでは、テンセントの主席科学者でテンセント・ロボティクスのディレクターである張正佑氏が登壇した。 「階層」には、オントロジー、環境、タスクに対する 3 つのレベルの制御が含まれます。階層的な具体化インテリジェンスの利点は、各レベルの知識を継続的に更新および蓄積でき、レベル間の機能を分離できることです。テンセントのロボティクス

インテリジェントロボットが人々の生活にどのように浸透していくかについて、張正佑氏は、「長期的にはロボットは間違いなく数千世帯に導入されるだろう。現時点では、ロボットはまずリハビリテーション、高齢者介護、個別化された教育の分野で大きな変化をもたらす可能性がある」と述べた。 。」

以下は張正佑氏のシェア全文です。


親愛なる指導者、著名な来賓の皆様、著名な教師、そして著名な生徒の皆様、こんにちは。今日は、身体化された知能に関するいくつかの課題と進歩について共有したいと思います。

身体化された知性とは何かというと、この言葉は昨年突然流行し、誰もがこの言葉がかっこいいと思いました。実際、身体化された知性は、身体を持たない知性と相対的なものです。私にとって、肉体を持ったエージェントは知的なロボットです。この知能に身体があるべきかどうかについては、ロボットを作る私たちは間違いなく身体を持ちたいと思っています。身体があってこそ知能はより良く発達するのです。

2018 年の初めに、テンセント会長兼 CEO の馬化騰氏は、テンセント ロボティクスを設立することを決定しました。 ウォーキング・デッド、肉体のない魂は虚無の幽霊です 私たちはウォーキング・デッドを作りません、幽霊がさまようことを望んでいません。つまり、人間の知性を高め、人間の身体的可能性を解き放ち、人間とロボットの相互作用を促進し、共存の時代を迎えるためのインテリジェントなロボットを作りたいのです。」 -人間とロボットの創造とWin-Win、これがTencent Robotics X設立の当初の意図です。

実際、知性が具体化を必要とするかどうかは議論の余地があります。この論争は主に認知科学を中心に展開しています。この分野では、生物の知性を形成するには多くの認知特性が生物の全体的な特性を必要とする、と誰もが信じていますが、私たちが主に直面しているのは情報処理、問題解決、そして知能であるため、知性には身体は必要ないと考える人もいます。意思決定やガバナンス、その他のタスクはすべてソフトウェアとアルゴリズムを通じて実現できます。身体化された知性という用語と概念は、多くの人にとって長い間存在していました。知性は生物とその環境との相互作用から生まれ、両者の間の相互作用が成長と成長に役立つからです。知能の発達。

振り返ってみると、チューリングは 1950 年に機械知能を実現する方法について論じた記事を書きました。チェスをするなどの非常に抽象的な活動が(知性)を達成するために使用できると考える人もいれば、機械にはスピーカー(マイク)などの何らかのオルガン(器官)が必要であると考える人もいることがわかります。マシンインテリジェンスをより迅速に実現するのに役立ちます。しかし、チューリング自身はどのカテゴリーが最適なのかは分からないと述べた。 Open AI が最初に数百のロボット アームを購入したとき、彼らはロボットを使用して AGI を実装することを直接希望していました。1 年以上の懸命な作業の結果、この道は一時的に実行不可能であることがわかり、諦めてテキストベースの ALA に焦点を当てました。モデルを作成し、最終的に ChatGPT の開発に成功しました。

ロボットには長い歴史があります。これは、既知の環​​境で一連の動作を完了することを意味し、このプロセスには知性がまったく必要ないため、私はそれをゼロインテリジェンスと呼んでいます。このタイプのロボットは非常に強力な操作能力を持っていますが、これらの操作能力は固定環境向けに事前にプログラムされており、知能はゼロです。

大型モデルの時代に入ると、大型モデルは非常に強力で、すぐにロボットに実装できると考える人もいます。実際にはそうではありません。今はどうなっているのでしょうか?たとえて言えば、3 歳の身体に 20 歳の脳を乗せたようなものです。ロボットはある程度の運動能力は持っていますが、操作能力は非常に弱いです。実際の身体化された知能は、独立して学習して問題に対処できなければならず、環境が変化して不確実な場合に自動的に調整して計画を立てることができなければなりません。これは、AGI や一般的な知能ロボットの作成につながる可能性があると私たちが信じている非常に重要なプロセスです。

具体的には、身体化されたインテリジェンスは、一連のインタラクションにおける知覚、制御、自律学習を通じて知識とスキルを蓄積し、インテリジェンスを形成し、物理世界に影響を与える、物理的キャリアを持つエージェント (インテリジェント ロボット) の能力です。これは、ChatGPT とは異なります。身体化された知能は、人間のような知覚方法 (視覚、聴覚、言語、触覚) を通じて知識を取得し、それを表現意味論に抽象化して、世界を理解し、行動を起こし、世界と対話します。これには、機械工学の自動化、組み込みシステム制御の最適化、認知科学、神経科学など、複数の分野の統合が含まれます。これは、すべての分野がある程度発展した後に出現する可能性のある能力です。

身体化された知能は多くの課題に直面しています。

1 つ目は、視覚と聴覚を含む複雑な知覚機能です。現在、GPT-4o を含む大型モデルには視覚と聴覚のみが含まれており、タッチは含まれていません。身体化された知性にとって、接触は非常に重要です。ロボットには、周囲の予測不可能で構造化されていない環境や物体を認識して理解するための複雑な認識能力が必要です。

2 つ目は、環境やオブジェクトと対話できるようにするための移動、把握、操作などの強力な実行機能です。

3 つ目は学習能力です。これは、環境の変化をよりよく理解し、対応するために、経験とデータから学習して適応する能力です。

4つ目は適応能力であり、さまざまな環境や課題にうまく対処するために自分の行動や戦略を独立して調整する能力です。

5 番目は非常に重要です。これらの能力を重ね合わせることで具体化された知性が達成されるのではなく、これらの能力が有機的かつ効率的に連携して統合され、私たちが話している望ましい具体化された知性を真に達成することができます。

第 6 に、このプロセスでは、必要なデータが非常に不足しています。オープン AI は当初、ロボットを通じて直接 AGI を実現することを望んでいましたが、データが依然として不足しているため断念しました。データは大きな課題です。実際のシナリオでデータを収集する際には、ユーザーのプライバシーも保護する必要があります。

第七に、身体化された知性は人間の生息地に住む必要があるため、それ自身とその周囲の安全を確保しなければなりません。

8番目は社会倫理の問題です。ロボットが人間と対話する場合、ロボットは道徳的および法的規範に従い、人間の利益と尊厳を守らなければなりません。

現時点では、大きなモデルが知能ロボットの問題を解決できると誰もが考えていますが、これはロボットの頭に大きなモデルを組み込むことに相当します。 . しかし、これは話の一部にすぎません。私たちは、インテリジェンスとオントロジーが有機的に統合され、ロボットと環境との相互作用から真のインテリジェンスが生まれることを期待しています。

このビジョンを達成するために、制御パラダイムを変える必要があると思います。ロボットの教科書を見ると、従来の制御パラダイムは、まず知覚、その後に計画、計画に続いて行動、その後に行動という閉ループのプロセスです。この制御パラダイムでは知能を実現することはできません。 2018年に私は、Sが認識、Lが学習、Aが行動、Pが計画である「SLAPパラダイム」を提案しました。環境の変化にリアルタイムで対応するには、認識と行動が密接に連携している必要があります。その上には、より複雑なタスクを解決するための計画があります。学習はすべてのモジュールに浸透しており、経験やデータから学ぶことができ、自分の行動や戦略を独立して調整できるようになります。この SLAP パラダイムは人間の知性と非常によく似ています。

ノーベル賞受賞者のダニエル・カーネマンは、「思考、速い、遅い」という本の中で、人間の脳には 2 つのシステムがあると考えています。最初のシステムであるシステム 1 はより直観的であり、問​​題を迅速に解決します。 2 つ目のシステムは、システム 2 と呼ばれる、より深い思考、合理的思考です。実際、人は時間の 95% をシステム 1 に費やしており、少数の複雑なタスクに対してのみシステム 2 をスケジュールする必要があるのですが、なぜ人間の脳は思考の問題を解決するのにわずか数十ワットしか必要としないのでしょうか。 GPU は消費します。エネルギーは必要ありません。これは、人間がシステム 1 で問題の 95% を解決でき、難しいタスクのみがシステム 2 に送られるためです。

私が提案した SLAP パラダイムは、最下位レベルで、システム 1 に対応する反応的な自律性を解決するために、認識と行動が密接に関連しています。意識的な自律とは、システム2の合理的な思考と思考を実現することです。

SLAP パラダイムに従って、人間の脳と小脳が手足をどのように制御するかに関する知識と組み合わせて、3 つの層に分割された階層的な身体化知能システムを開発しました。最下層は固有受容であり、ロボット自身の認識が場所に対応します。モーターの動きを制御するモーター信号。

2 番目の層は外受容です。これは環境の知覚であり、環境の知覚知性を通じて、タスクを完了するためにどの機能を呼び出す必要があるかを認識します。

最上位の層はタスクに関連しており、戦略レベル プランナーと呼ばれます。特定のタスク、環境、ロボット本体の能力を計画することによってのみ、タスクを適切に解決できます。

以下に、最も低いレベル (固有受容レベル) での動作の制御もデータから学習する具体的な例を示します。ここでは、実際の犬をトレッドミル上で継続的に走らせ、データ収集を同時に実行します。模倣学習と強化学習により、ロボットは本物の犬と同様の動きを学習できます。私たちは、仮想世界と現実世界が統合された世界、デジタルツイン、仮想世界と現実世界が統合された世界を使用します。ここで見られるのは犬の外向きの動き方だけですが、ロボットがどのように動くのか、どのくらいの力が必要なのか、関節やモーターに送られる信号の強さはすべて強化学習によって取得する必要があります。

もう 1 つのビデオでは、人間による特別な制御はなく、ロボット犬に本物の犬の動き方を学習させ、学習した後は自分で走ります。これは少し本物のように感じられます。

これが最も基本的な能力(運動能力)です。次のステップは、環境を認識し、平地で移動することについて説明しました。クロール。段差を自然に登る方法、ハードルを越える方法、障害物を飛び越える方法。

この時点で、ロボット犬はシミュレーション世界でジャンプして障害物を横切る方法を学習しました。この犬は弊社が独自に開発した犬で、名前はマックスです。普通の犬と違うのは、膝に車輪が付いていることで、平らな場所では車輪を使って速く歩くことができ、凹凸のある場所でも4本の足を使うことができるという点です。モーダルの組み合わせ。

環境に適応する能力があれば、例えば片方の犬にもう片方の犬に追いついてもらい、追いついた後は勝ちます、などといろいろなことをさせることができます。さらに複雑なことに、旗が現れた場合、もともと逃げていた犬が旗に触れると追跡者になる可能性があります。ご覧ください。これも強化学習によって自動的に学習されます。犬が他の犬を追いかけているとき、当然、速度を制限して犬を遅く走らせます。さて、追いかけたのは走っている犬でした。追いかける犬が変わった後、角を曲がって他の犬を騙しました。

このような階層的な具体化されたインテリジェンスの利点は、各レベルの知識を継続的に更新および蓄積でき、他のレベルの更新が他の既存の知識レベルに影響を与えないことです。

たとえば、先ほど一匹の犬が別の犬を追いかけたとき、集中学習中に障害物をまったく追加せずに平地で訓練するだけでしたが、障害物を追加した後は再学習する必要がなく、自動的に学習したためです。 1階にいるときに障害物に対処する方法を知っています。ビデオをご覧ください。これには障害物が追加されていません。障害物に遭遇すると、それを飛び越えます。自動(学習)です。

この研究は昨年初めに完了し、近い将来、世界トップクラスの学術誌「Nature Machine Intelligence」に掲載される予定であり、カバーストーリーとしても使用される予定であり、このような研究が依然として先頭に立っていると誰もが信じていることを示しています。 。

昨年私たちが行ったことについて話しましょう大型モデル融合の進展つまり、大規模な言語モデルとマルチモーダル知覚モデルを階層的な具体化された知能システムに統合します。たとえば、人間がロボットにオムレツのタスクを割り当てる場合、LLM に基づく大規模な計画モデルはオムレツのタスクを分解します。つまり、まず冷蔵庫から卵を取り出し、鍋に卵を割り入れ、次に揚げます。卵。マルチモーダルな認識から、卵が冷蔵庫に置かれていることを最初に認識する必要があり、ロボットはまず冷蔵庫に行って卵を取り出し、冷蔵庫のドアを開け、卵をつかんでストーブに戻します。一番下は最下層の制御で、ロボットが冷蔵庫に行く方法、冷蔵庫のドアの開け方などを制御します。ロボットが学習すると、それは自動的に行われます。最後に、トップレベルの戦略レベル プランナーに戻ります。この閉ループでは、ロボットの動作は、デジタル世界と物理世界が密接に統合された仮想現実統合世界に作用することに注意してください。デジタル シミュレーション空間には、ロボットと非常に現実に見えるシーンが存在します。ロボットのスキルを仮想空間で学習し、現実空間に直接適用できます。

ここでビデオをご覧ください。知的なロボットをこれまでに見たことのない環境に置きます。最初のステップは、ロボットが向きを変えて世界を探索することです。たとえば、ビデオでは、ロボットのタスクはゴミをゴミ箱に送ることなので、まずゴミ箱を見つけて、ゴミ箱を見つけたらそこにゴミを置く必要があります。また、ゴミ箱を別の場所に移動します。彼は環境を知りませんが、探索によってゴミ箱を見つけ、そこにゴミを送りました。

次のシーンは、青い服とジーンズを着ている人にマウスを渡すシーンです。ここには他にもたくさんの人がいて、彼は自動的に探索して見つけます。この時期に私が出会った人の多くは青い服かジーンズを着ていましたが、ロボットは青い服とジーンズを見つけるまでマウスを送りました。

探索プロセス中、ロボットは周囲の環境を記憶できるため、毎回再度探索する必要はありません。次のシーンでは、最初に薬が同僚に与えられ、次に風邪薬の袋がロボットによって捨てられます。ロボットは探索とモデリング中にすでにゴミ箱の場所を認識しており、ゴミ箱に直接行きます。ホワイトボードとハイスツールの間に物体を送りたい場合、真ん中に障害物がある場合は、スツールとホワイトボードの位置などの空間の関係を利用することもできます。自動的に回避されます。

昨年もバーテンダーロボットを製作しましたが、その際は自社開発の3本指ハンドを使用し、シャーシを固定した様子をご覧いただけます。

この派手なバーテンダーも、まずバーテンダーをする実際の人物を集め、その軌跡を学習してからロボットに実装しました。指にも触覚センサーが付いていますが、穴に棒を差し込むには視覚だけでは精度が不十分で、差し込まれているかどうかは触覚に頼っています。 、それを横に移動して、最後にスティックを挿入する必要があります。

これは昨年の作品です。今年の作品には、自社開発の 5 本指ハンドと、これも自社開発したロボット アームが含まれています。昨年は自社開発のロボット アームがありませんでした。ロボットが自由に会話してタスクを実行できる大型センシングモデルと大型プランニングモデルをご覧ください。

右下は、移動型知能ロボットから見たものです。テーブルの上にウイスキーのボトルがあり、グラスにウイスキーを注ぐよう求められています。これはロボットの視野から見え、さまざまなものを認識できます。ワインの種類をリアルタイムで確認できます。

今すぐここで共有してください。皆さん、ありがとうございました。