ニュース

googleが7年かけて月面着陸計画に取り組み失敗した後、alphabet ceo「機械は人間と同じでなければならないのか?」

2024-09-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

ハンス・ピーター・ブロンモ氏、アルファベット元ceo。 2016年にgoogleに入社し、ロボット開発を担当。当時、最も人気があったのはソーシャル メディアとモバイル インターネットでした。身体化された知性は空中の城のようなものでした。誰もが憧れていましたが、それはあまりにも遠いものでした。

ブロンモ氏自身も入社当時の仕事は大したプロジェクトではなかったが、グーグルがロボット関連企業9社を相次いで買収しており、これらの企業の人員や技術を手配しなければならなかったからだ。

これらのロボット エンジニアは最終的に、「月面着陸工場」として知られる google x 研究所に統合されました。

「moon landing factory」は 7 年間にわたってロボット工学の分野に深く関わってきましたが、その後、大規模な言語モデルの出現により、身体化された知能の未来はこれまでにないほど輝かしいものになりました。しかし、google はプロジェクト everyday robots を終了することを決定しました。 、この研究室では大きな期待を寄せられていました。

最近、ブロンモ氏は「ワイアード」誌に長い記事を書き、グーグルでの自身の歩みと、彼が長年考えてきた疑問、つまり機械は「人間」のようにならなければならないのかを振り返った。

以下は brondmo の readme をまとめて要約したものです。

ロボットは難しい、「月面着陸」は難しい

グーグル

私たちはメンバーにリスクを負い、迅速に実験し、さらには「失敗を祝う」よう奨励することに多大な努力を払っています。失敗するということは、私たちが設定した目標が非常に高いということを意味します。

私が参加したとき、研究室ではすでに waymo や google glass のほか、成層圏に到達してインターネットを普及させるためのエネルギー風車や気球を飛行させるなど、sf のようなプロジェクトを立ち上げていました。

プロジェクト x が他のシリコンバレーのスタートアップと違うのは、x のメンバーが壮大かつ長期的な思考を奨励されていることです。実際、プロジェクトがムーンショットとみなされるために、x はそれを判断するための一連の「公式」を持っています。

まず、プロジェクトは、それが解決する問題が数億、さらには数十億の人々に影響を与えることを実証する必要があります。第二に、問題を解決する新しい方法を提供する画期的なテクノロジーがなければなりません。最後に、狂気の瀬戸際に聞こえるかもしれないが、完全に実行不可能ではない、抜本的なビジネスまたは製品ソリューションが必要です。

aiに「身体」を与える

文字通り「ムーンショットのキャプテン」という称号を持ったアストロ・テラーほど、x の経営に適した人物を想像するのは難しい。 google の内部

彼のポニーテール、常にフレンドリーな笑顔、そしてもちろん「アストロ」という名前を加えれば、hbo シリーズ「シリコンバレー」に足を踏み入れたような気分になるかもしれません。

astro と私が最初に座って、google が買収したロボット会社について何をすべきかを話し合ったとき、行動を起こす必要があることに同意しましたが、どうなるでしょうか?

これまで、有用なロボットのほとんどは大型で知性が低く危険で、工場や倉庫に限定されており、人々を危害から守るために厳重に監視されるか閉じ込められる必要がありました。日常の環境で役に立ち、安全なロボットを作成するにはどうすればよいでしょうか?これには新しいアプローチが必要です。

つまり、ai に物理世界に体を与えているわけですが、この規模のプロジェクトが考えられる場所が 1 つあるとしたら、それは間違いなく x だと思います。

長い時間と多くの忍耐がかかり、クレイジーなアイデアを試し、何度も失敗することになるでしょう。ai とロボット工学における大きな進歩が必要となり、おそらく数十億ドル (そう、数十億ドル) の費用がかかるでしょう。

ai とロボット工学の融合は避けられず、これまで sf の中でしか存在しなかった多くのことが現実になりつつあると私たちは感じています。

本当に難しいです

私はほぼ毎週、母と電話で話しますが、母はいつも同じ質問から始めます。「ロボットはいつ来るの?」

彼女は挨拶すらせず、ただ私たちのロボットがいつ助けに来るのか知りたかったのです。私が「ちょっと時間がかかるよ、お母さん」と答えると、彼女は「急いだほうがいいよ!」と言うのです。

ハンス・ピーター・ブロンドモ

私の母は、公衆衛生が充実したノルウェーのオスロに住んでおり、介護者が 1 日に 3 回アパートに来て、主に進行性のパーキンソン病に関連したさまざまな仕事や家事を手伝ってくれます。

これらの介護者のおかげで母は自宅で一人暮らしができるようになったが、母はロボットに、今では恥ずかしくて手に負えない小さなことを手伝ってもらったり、時々寄りかかるための腕を提供してもらいたいと考えていた。

「ロボット工学がシステム全体の問題であることは知っていますよね?」ジェフは疑問の表情で私に尋ねました。ジェフ・ビンガムは、生物工学の博士号を取得した、引き締まった真面目な男です。彼は農場で育ち、ほとんどすべてのことを知っていることで知られていました。

ジェフが言おうとしている重要な点は、ロボットは非常に複雑なシステムであり、その全体的なパフォーマンスは最も弱い部分によって決まります。

たとえば、視覚を担当するサブシステムが直射日光の下で目の前にある物体を感知するのが難しい場合、窓から日光が差し込むとロボットが突然「失明」し、動作を停止する可能性があります。

あるいは、ナビゲーション システムが階段を理解できない場合、ロボットが階段から落ちて、ロボット自身やおそらく無実の傍観者を傷つける可能性があります。そのため、私たちと一緒に生活し、働くことができるロボットを構築することは困難です。本当に、とても難しいです。

何十年にもわたって、人々はさまざまな形式のロボットをプログラムして、テーブルからカップを掴んだり、ドアを開けたりするなどの単純なタスクでも実行できるように試みてきましたが、これらのプログラムは常に、環境のわずかな変化に対して非常に脆弱になってしまいました。失敗します。

一度すべてを考え始めると、すべてがあらかじめ設定された固定位置にあり、光が適切で変化しないようにすべてをロックしない限り、それは単に緑のリンゴを拾って置くだけの問題であることがわかります。キッチンテーブルのガラスボウルに入れると、解くのはほぼ不可能なパズルになります。工場内のロボットが閉じ込められ、照明からロボットが作業するアイテムの配置に至るまですべてが解決可能であるのは、予想通り、ロボットが解決する必要がない理由です。人とぶつかるのが心配。

現実の世界には、太陽の光のような予測可能性が欠けています。そして、私たちが暮らしたり働いたりする雑然とした空間を移動するなど、本当に難しい部分にはまだ触れていません。

学習ロボットをどう理解するか

しかし、明らかに、必要な機械学習の専門家は 17 人だけです。

少なくとも、それがラリー・ペイジが私に語ったことであり、彼の古典的で理解しがたい洞察の一つです。

私が主張したいのは、機械学習研究者の少数のグループだけではハードウェアとソフトウェアのインフラストラクチャを構築することはできないということです。

彼は不満そうに手を振り、「必要なのは17個だけだ」と言った。

私は混乱しています。なぜ11ではないのでしょうか?それとも23?何かを見逃したのでしょう。

最終的に、ロボット工学に ai を適用するには主に 2 つの方法があります。 1 つ目はハイブリッド アプローチで、システムのさまざまな部分が ai によって駆動され、プログラミングによってつなぎ合わされます。

このアプローチでは、視覚サブシステムは ai を使用して、見ている世界を識別し、分類する可能性があります。ロボットは、表示されるオブジェクトのリストを作成すると、そのリストを受け取り、コード内のメソッドを使用してそのリストに基づいて動作します。

たとえば、テーブルからリンゴを拾うようにプログラムが書かれている場合、ai 駆動のビジョン システムがリンゴを検出し、プログラムはリストから「タイプ: リンゴ」を選択し、制御ソフトウェアを使用して質問します。ロボットがそれに手を伸ばす。

もう 1 つのアプローチは、タスク全体を学習しようとするエンドツーエンド学習 (e2e) です。 「物を拾う」などのこと、または「テーブルを片付ける」などのより包括的な取り組み。学習プロセスは、人間が物理的なタスクの実行を学習するのと同じように、ロボットを大量のトレーニング データにさらすことによって実現されます。

幼い子供にカップを持ち上げるように頼むと、カップとは何か、そしてカップには液体が入っている可能性があることを学ぶ必要があるかもしれません。カップで遊んでいる間、彼は何度もカップを倒し、その過程で大量の牛乳をこぼしてしまいました。しかし、模範を示したり、他の人の真似をしたり、遊び心のある練習をたくさんすることで、いつでも、最終的には手順を考えることなく、それができるようになります。

だんだんわかってきて、ロボットがタスクの実行方法をエンドツーエンドで学習できることを最終的に証明しない限り、他に何も問題はありません。そうして初めて、混沌とした予測不可能な現実世界でこれらのタスクをロボットに確実に実行させる本当のチャンスが得られ、私たちが真にムーンショットになる資格を得ることができます。

それは「17」という数字のことではなく、大きな進歩には小規模なチームが必要、エンジニアの軍隊ではなく。明らかに、ロボットは ai の頭脳以上のものであり、物理的なロボットを設計して構築する必要があります。

しかし、エンドツーエンドのミッションが成功すれば、(月面着陸計画の言葉で言えば)地球の重力から逃れることができると私たちが信じるようになることは明らかです。

片腕ロボット

peter pastor はドイツのロボット工学者で、南カリフォルニア大学でロボット工学の博士号を取得しました。まれに仕事の必要がないときは、ピーターはガールフレンドとカイトサーフィンに近づこうとします。研究室では、彼は 14 台の独自のロボット アームの制御にほとんどの時間を費やしましたが、これらは後に 7 台の工業用ロボット アームに置き換えられました。私たちはこの構成を「機械式」と呼んでいます。

これらのロボット アームは 24 時間稼働し、スポンジ、レゴ ブロック、小さな黄色いアヒル、プラスチックのバナナなどの物体を箱から拾おうと常に試みています。当初、彼らは爪のようなグリッパーを箱の上のランダムな位置から箱の中に動かし、グリッパーを閉じて引き上げ、何かを掴むかどうかを確認するようにプログラムされていました。箱の上にはカメラがあり、箱の中の物体、ロボットアームの動き、それが成功したかどうかを撮影します。

この訓練は数か月間続きました。当初、ロボットの成功率はわずか 7% でした。しかし、ロボットが成功するたびに、ポジティブな強化が得られます。ロボットの場合、これは基本的に、ニューラル ネットワーク内のいわゆる「重み」が、望ましい動作を積極的に強化し、望ましくない動作を否定的に強化するために、さまざまな結果に基づいて調整されることを意味します。最終的に、腕は 70% 以上の確率で物体をうまく掴めるようになりました。

ある日、ピーターは、ロボット アームが黄色のレゴ ブロックを正確に掴むだけでなく、より明確な把握角度を得るために他の物体を押しのける様子のビデオを私に見せてくれました。

これが本当の転換点であることはわかっていました。ロボット アームは、従来のヒューリスティックを使用してこの動作を実行するように明示的にプログラムされていませんでした。それは学習を通じて獲得されるものです

しかし、それでも、7 台のロボットが小さな黄色いアヒルを捕まえる方法を学ぶのに数か月かかったでしょうか?これでは十分とは言えません。数百台のロボットと数年間の練習でも、実際の役に立つ最初のタスクを実行する方法をロボットに教えるには十分ではありません。そこで私たちはクラウドベースのシミュレーターを構築し、2021 年に 2 億 4,000 万以上の仮想ロボット インスタンスを作成しました。

このシミュレーターは、物体の重さや表面の摩擦をシミュレートするのに十分現実的な物理モデルを備えた巨大なビデオ ゲームだと考えてください。

何千もの仮想ロボットが仮想カメラ フィードと仮想ボディ (実際のロボットをモデルにした) を使用して、テーブルからカップを拾うなどのタスクを実行します。

これらは同時に実行され、何百万回も試行と失敗を繰り返しながら、ai アルゴリズムをトレーニングするためのデータを収集します。ロボットがシミュレーションで十分なパフォーマンスを発揮したら、これらのアルゴリズムは最終的な現実世界のトレーニングのために物理的なロボットに転送され、新しく学習したアクションを実装できるようになります。

私はいつも、このシミュレーションのプロセスを、一晩中夢を見て、何か新しいことを学んで目覚めるロボットのようなものだと考えています。

バカ、問題はデータだ

私たちが初めて chatgpt に目覚めたとき、それは魔法のように思えました。 ai を活用したシステムは、実際に完全な段落を書き、複雑な質問に答え、継続的な会話を形成することができます。しかし同時に、私たちはその根本的な限界も理解しています。これを達成するには、大量のデータを消費する必要があります。

ロボットはすでに、指示を理解するために大規模な言語モデルを活用し、見ているものを理解するために視覚モデルを活用しているため、youtube のデモンストレーション ビデオは素晴らしいものになっています。

しかし、ロボットに自律的に生活し、私たちと一緒に働くように教えることは、同様に大きなデータの問題です。トレーニングデータを生成するにはシミュレーショントレーニングなどの方法もありますが、ロボットがある日、高度な能力を備えて「目覚める」可能性は低く、代わりにシステム全体を制御できる基本モデルに依存することになります。

aiを使ってロボットにどれだけ複雑なタスクを実行させることができるかはまだわかりません。私は、これらの非常に限定的で明確に定義されたタスクを除いて、ロボットに何かを学習させるには、現実世界で何千、さらには何百万ものロボットが繰り返しタスクを実行し、エンドツートレーニングを行うのに十分なデータを収集する必要があるかもしれないと信じるようになりました。エンドモデル。言い換えれば、ロボットが近いうちに人間の制御を逃れて、プログラムされていないことをするようになるとは期待しないでください。

彼らは本当に私たちと同じように見えるべきでしょうか?

馬は四本足で歩いたり走ったりするときに非常に効率的ですが、私たちは車輪の付いた車を設計しています。人間の脳は非常に効率的な生物学的コンピューターであり、チップベースのコンピューターは私たちの脳のパフォーマンスには遠く及びません。なぜ車には足がないのでしょうか、そしてなぜコンピューターは私たちの生物学をモデルにしていないのでしょうか?

ロボットを作る目的は、ただ模倣することではありません。

先日、everyday robots の技術リーダーとのミーティング中にこのことを学びました。私たちは会議テーブルの周りに座り、ロボットに脚を付けるか車輪を付けるかについて議論しました。

このような議論は、多くの場合、事実に基づいた議論や科学的な議論ではなく、宗教的な議論に発展する傾向があります。ロボットは人間に似ているべきだと強く主張する人もいますが、それには正当な理由があります。私たちは人間に合わせて生活環境や作業環境を設計しており、人間には足があるのですから、ロボットにも足があるべきかもしれません。

約 30 分後、その部屋の最上級エンジニアリング マネージャーである vincent dureau が声を上げました。 「どこかに行けるなら、ロボットでも行けるはずだと思ったんです」と車椅子に座った彼は簡潔に語った。

部屋は静まり返り、議論は終わった。

実際、ロボットの脚は機械的にも電子的にも複雑です。これらはあまり速く動かず、ロボットが不安定になる傾向があり、車輪に比べてエネルギー効率もあまり高くありません。

今日、企業がヒューマノイド ロボット、つまり人間の形状や機能を模倣しようとするロボットを開発しようとしているのを見ると、これは想像力の限界ではないかとよく思います。

人間の欠点を補うことができるデザインはたくさんあるのに、なぜ模倣にこだわる必要があるのでしょうか?ヴィンセントの言葉は、最も困難で最も影響力のある問題を優先する必要があることを思い出させます。everyday robots では、ロボットが現実世界のタスクをより早く実行できるようになり、貴重なデータをより早く収集できるようになるため、ロボットをできるだけシンプルに保つよう努めています。

ロボットに囲まれるのはどんな感じですか?

私が机に座っていると、丸い長方形の頭を持つ片腕ロボットが転がり、私の名前を呼んで、片づけてほしいかどうか尋ねました。私は「はい」と言って脇に立ちました。

数分後、空の紙コップ数個、スターバックスの透明なアイスティーカップ、カインドエナジーバーのプラスチックの包装紙を拾い上げた。それは物を台座に取り付けられたゴミ箱に置き、それから私の方を向いてうなずき、次の机に移動しました。

このデスク清掃サービスは重要なマイルストーンを表しています。これは、ロボット工学のパズルの未解決の部分の解決に向けて、私たちが順調に進んでいることを示しています。ロボットは ai を確実に使用して人や物体を認識し始めています。

benji holson はソフトウェア エンジニアであり、元人形遣いであり、このサービスの開発チームを率いています。彼は常にハイブリッド アプローチを提唱しており、エンドツーエンドの学習タスクに反対しているわけではありませんが、「すぐに役立つことをやらせる」という態度を好みます。

私はロボットが動き回って机の掃除などの雑用をすることに慣れています。時折、新しい訪問者やチームに加わったばかりのエンジニアを見かけますが、彼らは驚きと喜びの表情を浮かべながらロボットの忙しそうな姿を眺めています。

彼らの視点から見ると、それがどれほど斬新なものであるかがわかりました。当社の設計責任者であるリース・ニューマンは、ある日通り過ぎるロボットを見て(ウェールズ訛りで)こう言いました。「これが標準になっているのは、少し奇妙ではないでしょうか?」

すべてが終わる、それは始まりにすぎない

2022年末の時点でも「エンドツーエンド」と「ハイブリッド方式」についての議論は活発だ。

peter と彼のチームは、google brain の同僚とともに、強化学習、模倣学習、transformer アーキテクチャを複数のロボット タスクに適用するために熱心に取り組んできました。彼らは、ロボットが一般的で堅牢かつ回復力のある方法でどのように学習できるかを示す点で大きな進歩を遂げました。

一方、beinji が率いるアプリケーション チームは、ai モデルと従来のプログラミングを組み合わせて、人間の環境に展開できるロボット サービスのプロトタイプを作成し、構築しています。

一方、プロジェクト スターリングとして知られるようになったマルチロボット インスタレーションでのダンサーのケイティとのコラボレーションは、これらのマシンに対する私の感じ方を変えました。

人々は驚き、喜び、好奇心を持ってこれらのロボットに惹かれていることに気づきました。このことから、ロボットが私たちの間を移動し、その音が発する音がどのように人間の深い感情を引き起こすのか、これがロボットを私たちの日常生活に受け入れるかどうかの重要な要素の 1 つになることがわかりました。

言い換えれば、私たちは ai を活用したロボットという最大の賭けを実現しようとしているのです。 ai は、聞いた言語 (話し言葉や書き言葉) を理解してそれを行動に変換したり、見たもの (カメラ画像) を理解して操作できるシーンやオブジェクトに変換したりする能力を人間に与えます。

7 年以上の取り組みを経て、google の複数の建物にロボット群を配備することができました。同じタイプのロボットが、カフェテリアのテーブルの自動拭き、会議室の点検、ゴミの分別など、さまざまなサービスを実行しています。

しかし、openaiがchatgptをリリースしてから2か月後の2023年1月、googleは全体的なコストの問題を理由にeveryday robotsを閉鎖した。

確かに費用と時間がかかりましたが、それでも関係者全員にとってショックでした。最終的に、ロボットと数人の従業員は研究を続けるために google deepmind に移管されました。

私たちが解決しなければならない大きな問題は、世界的な人口動態の変化、つまり人口高齢化、労働力人口の減少、労働力不足です。そして、私たちの画期的なテクノロジーは、2016 年にわかっていましたが、人工知能になるでしょう。抜本的な解決策: 日常生活で発生するタスクを支援してくれる完全自律型ロボット。

ロボットは母を助けるのに間に合わず、母は2021年初めに亡くなった。彼女の人生の終わりに向けての彼女との会話は、エブリデイロボットの将来のバージョンが最終的に登場するという私の信念を強化しました。そして、それは早ければ早いほど良いのです。

そこで問題は、この変化と将来はどのように起こるのかということです。これについては心配でもあり、興味でもあります。