ハサビス氏: Google は 2 番目の Transformer を作成したい、AlphaGo と Gemini が提携

ハサビス氏: GoogleはAlphaGoとGeminiを組み合わせた第2のTransformerを作成したいと考えている

2024-08-20

マシンハートレポート

マシーンハート編集部

「AI 企業の CEO がセールスマンというよりもコンピューター科学者に近いほうが、私にとっては安心感があります。」

DeepMind にとって、2023 年は変化に満ちた年です。今年4月、GoogleはGoogle BrainとDeepMindを統合し、Google DeepMindという新しい部門を設立すると発表した。新しい部門は、倫理基準を維持しながら、画期的な AI 製品の研究と進歩を主導します。

Google Brain と DeepMind - 1 つは Transformer を作成し、もう 1 つは AlphaGo、AlphaFold を作成しました...2 つの部門が協力して、2023 年末に ChatGPT のベンチマークを行う Gemini を作成しました。現在、Gemini は LMSYS チャットボットアリーナの大型モデルランキングで常に上位 3 位にランクされています。両者の合併により一定の成果が得られたことがわかります。

では、Google DeepMind はこれからどこへ向かうのでしょうか?ユニバーシティ・カレッジ・ロンドンの高度空間分析センターの都市数学准教授であるハンナ・フライとの最近の会話の中で、Google DeepMind CEO 兼共同創設者のデミス・ハサビス氏は、同社の計画の一部についても自分の見解を述べたことを明らかにした。 AI分野における現在の問題。

動画链接：https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650930939&idx=2&sn=00d72f97f26fc7acc3b2a2fd39434048&chksm=84e43a85b393b393d7a9bd 7caeafce2fcd71b6299e195df3e5a716cb840a401c85dc9efff669&token=899618486&lang=zh_CN#rd

ハサビスの主な見解は次のとおりです。

AIは短期的には過大評価されていますが、長期的には過小評価されています。何が誇大宣伝であり、AI の分野で何が実現可能であるかをどのように見分けるかについて、ハサビス氏は、リサーチを行うことに加えて、発言をする人の背景、テクノロジーについてどれだけ知識があるか、そして、昨年他の分野で勉強したばかりかどうか。その方向性は AI に向かっています。コメントをする人が単に流行を追っているだけであれば、その人が良いアイデアを思いつく確率は宝くじのようなものです。
DeepMind と Google Brain の合併は多くのイノベーションの機会をもたらし、彼らの目標は、Google Brain が Transformer アーキテクチャを発明したように、AI のフロンティアを押し上げることができる次のアーキテクチャを発明することです。
既存の学術ベンチマークは飽和状態になっており、上位モデル間の微妙な違いを区別できなくなっています。 Hassabis 氏は、AI の分野、特にマルチモーダルな理解、長期記憶、推論能力などの分野において、より優れたベンチマークが必要であると考えています。
現在のモデルの多くは、5 ～ 6 年前に発明されたテクノロジーから派生しています。したがって、これらのモデルにはまだ多くのものが欠けており、幻覚があり、長期計画が苦手で、複雑なタスクを積極的に完了することができません。これらの問題に対応して、Google は、計画と意思決定における AlphaGo の利点を Gemini などのマルチモーダルモデルと組み合わせるなど、ゲームエージェントと大規模言語モデルに関する専門知識を組み合わせることにより、より強力なエージェント動作を備えたシステムを開発する予定です。
オープンソースについて話すとき、Hassabis 氏は、Transformer や AlphaFold などの多くのテクノロジーをオープンソース化していると述べました。しかし同氏は、最先端のモデルはさらなるレビューを受け、リリースから1～2年後にオープンソース化する必要があると考えており、Googleもこのモデルに従っている。 Google はモデルをオープンソース化しますが、最先端のモデルよりも約 1 年遅れることになります。ハサビス氏はさらに、オープンソースの主な問題は、一度リリースされると一方通行のドアを通過するようなものだと述べた。したがって、オープンソースの前には十分な注意が必要です。
AI は、有名な数学的予想の解決に貢献したり、国際的な数学コンテストで好成績を収めたりするなど、複雑な数学的問題のブレークスルーにつながる可能性があります。しかし、現在の AI システムは、それ自体で新しい数学的仮説や独自の理論を考え出すことはまだできません。ハサビス氏は、AGI の重要なテストは、一般相対性理論のようなまったく新しい仮説や理論を自律的に生成する能力であると考えています。
AGI がすべての人に利益をもたらすことを保証する方法について、ハサビス氏は、すべての設定を 1 つのシステムに含めることは不可能ですが、安全なアーキテクチャを構築することは可能であり、人々はそれを好み、使用目的、展開目的に応じて使用できると考えています。 AI システムが何に使用できるか、何に使用できないかを決定します。

インタビューを見た後、ある人は、ハサビスはセールスマンというよりもコンピュータ科学者のように聞こえたので安心した、とコメントした。また、DeepMindを買収して自由に開発させることは、Googleがこれまで下した人工知能に関する最良の決断であり、Googleが可能な限り中断することなく仕事を続けられることを望んでいる、と言う人もいる。

以下はMachine Heartがまとめたインタビュー内容です。

AIの発展は予想外

フライ: 思い返してみると、私たちがこのポッドキャストの企画を始めた 2017 年当時、DeepMind は比較的小規模で集中的な AI 研究研究所で、Google に買収されたばかりで、ロンドンの安全な距離から独自の研究を実施する権限を与えられていました。。しかし、それ以来、状況は劇的に変化しました。昨年以来、Google はアーキテクチャ全体を再編成し、AI チームと DeepMind チームを戦略の中核に据えました。

Google DeepMind は、AI に人間レベルの知能、いわゆる汎用人工知能 (AGI) を与えることを追求し続けています。 Gemini と呼ばれる一連の強力な新しい AI モデルと、オーディオ、ビデオ、画像、コードを処理できる Project Astra と呼ばれる AI エージェントを発表しました。同研究所は、タンパク質だけでなく人体のすべての分子の構造予測など、複数の科学分野への AI の応用においても大きな飛躍を遂げている。 2021年には、疾患治療のための新薬の発見に特化した新会社Isomorphic Labsもスピンアウトした。 Google DeepMind はまた、強化学習を通じてタスクを自分で実行することを学習できる強力な AI エージェントの研究も行っており、Alpha Go が囲碁で人間を破ったという伝説を引き継いでいます。

今日は、DeepMind の共同創設者兼 CEO である Demis Hassabis 氏をお招きしました。

AI に対する世間の関心が高まって以来、あなたの仕事は楽になりましたか、それとも難しくなりましたか?

ハサビス：それは諸刃の剣だと思います。難しいのは、現在、この分野全体に非常に多くの監視、注目、そして多くの騒音があることです。人が少なくて科学にもっと集中できるときのほうがいいと思います。しかし、明るい面としては、テクノロジーがさまざまな方法で現実世界に影響を与え、人々の日常生活にポジティブな影響を与える準備ができていることを示しているので、それもエキサイティングなことだと思います。

フライ: 大衆の想像力がいかに早く捕らえられているかに驚いたことはありますか?こうなることは予想してたんじゃないでしょうか？

ハサビス：確かに。この分野を何十年も研究してきた私たちも、いつかは AI がどれほど重要になるかを理解するでしょう。しかし、それがすべてこのように結実して起こるのを見るのは、まだ少し現実離れした気分です。これは本当にチャットボットの出現と言語モデルの開発によるものだと思います。誰もが言語を使用し、誰もが言語を理解できるため、一般の人々が AI の開発レベルを理解し、測定する簡単な方法だからです。

フライ: これらのチャットボットを「非常に効果的」と表現していると聞きましたが、これはどういう意味ですか?

ハサビス: つまり、5 ～ 10 年前を振り返ると、AI の開発を達成するには、抽象的な概念のような具体的な問題を解決する必要はなく、素晴らしいアーキテクチャを構築し、その上に拡張する必要があると考えられていたかもしれません。具体的な質問。 5 年から 10 年前の多くの議論では、人々は抽象的な概念を扱うには特別な方法が必要であると考えていました。なぜなら、それが脳の仕組みのようだからです。しかし、AI システムにインターネット全体のデータなど、十分なデータが与えられれば、暗記学習だけでなく、そこから学習してパターンを一般化することができ、実際に処理している内容をある程度理解できるようです。コンテンツ。これは一種の「非常に効果的」です。なぜなら、5 年前には今ほど効果があるとは誰も考えていなかったはずだからです。

フライ: それで、それは驚きでした...

ハサビス: はい、先ほどコンセプトと基礎についてお話しました。言語を現実世界の経験、おそらくシミュレーションやロボットの身体化された知能の中に位置づけるということです。もちろん、これらのシステムはまだそのレベルに達しておらず、多くの間違いを犯しており、世界の真のモデルがまだありません。しかし言語を学ぶだけで、彼らは予想以上に進歩しました。

フライ: グラウンディングの概念を説明する必要があると思います。

ハサビス:グラウンディング問題は、1980 年代から 1990 年代に MIT などで構築された古典的な AI システムで遭遇した問題です。これらのシステムは、単語が相互に接続された巨大な論理データベースと考えることができます。問題は、「犬には足がある」と言うとそれがデータベースに登録されることになりますが、システムに犬の写真を表示すると、そのピクセルの束がそのシンボルにどのように関連しているのかがシステムにはわからないということです。それが基礎の問題です。これらの象徴的で抽象的な表現がありますが、現実の世界、特に乱雑な現実世界では、それらは実際には何を意味するのでしょうか?彼らは問題を解決しようとしましたが、まったく成功しませんでした。

そして今日のシステムはデータから直接学習するので、ある意味では最初からそのつながりを形成しているのですが、興味深いのは、言語から学習するだけであれば、理論的にはグラウンディングに必要なものの多くが欠けているはずだということです。 , しかしその結果、多くの根拠となる情報が何らかの形で推測できるようになります。

フライ: なぜそんなことを言うのですか?

ハサビス: 理論的には、これらの初期の大規模言語モデルは現実世界に存在せず、シミュレーターにも接続されておらず、ロボットにも接続されておらず、最初はマルチモーダルでさえなかったので、公開されていませんでした。視覚やその他のあらゆるものに対して、それらは言語空間にのみ存在します。したがって、それらは抽象領域で学習されます。したがって、彼らがその領域から現実世界について何かを推測できることは驚くべきことです。

フライ: グラウンディングは人々とシステムとの相互作用を通じて獲得されると言うのは理にかなっています...

ハサビス：本当に。したがって、確かに、特定の質問に答えるときに間違いを犯した場合、たとえば、初期のバージョンでは、現実世界での犬の吠えに対処するときに、根拠がなかったため、質問に間違って答えていました。人々はフィードバックを通じてそれらを修正します。このフィードバックの一部は、私たち自身の現実の知識から来ています。こうして、アースが少しずつ浸透してきました。

フライ: 「英仏海峡を渡る」ことと「英仏海峡を歩いて渡る」ことの違いを示す非常に鮮明な例を見た記憶があります。

ハサビス: この例は機能します。答えが間違っている場合は、それが間違っていると教えてから、それを理解する必要があります。歩いて英仏海峡を渡ることはできません。

AI は過剰に宣伝されていますか、それとも過小評価されていますか?

フライ: 誇大宣伝について少しお聞きしたいのですが、現在、AI は誇大宣伝されすぎているのでしょうか、過小評価されているのでしょうか、あるいは単に間違った方向に誇大宣伝されているだけだと思いますか?

ハサビス：一方で、短期的にはAIが過剰に宣伝されています。多くのことができると人々は主張しますが、実際にはできません。そして、まだ十分に成熟していないクレイジーなアイデアを追いかけているスタートアップやベンチャーキャピタルがたくさんあります。

一方で、AIはまだ過小評価されていると思います。おそらく人々は、AGI に到達すると何が起こるのか、そしてその責任がどれほど大きいのかを完全には理解していません。

フライ：あなたは何十年もこの分野に携わっていますが、これらのスタートアップやVCが追求しているものとそうでないものについての現実的な目標は簡単にわかります。しかし、他の人はどうやって違いを見分けるのでしょうか？

ハサビス: 当然、技術的なデューデリジェンスを行い、テクノロジーと最新のトレンドをある程度理解する必要があります。同時に、コメントをした人の背景も考慮する必要があります。彼らはテクノロジーについてどの程度の知識を持っていますか? 昨年、別の方向から AI に切り替えましたか?彼らは去年仮想通貨をやっていましたか?これらは、彼らが時流に乗っているかもしれないという手がかりになるかもしれないが、彼らが素晴らしいアイデアを思いつくという意味ではなく、たとえ思いついたとしても、それはおそらく宝くじになるだろう。

ある分野が突然大きな注目を集め、その後資金が集まり、誰もがそれを逃すわけにはいかないと感じるとき、これはいつも起こることだと思います。

それは、いわばご都合主義的な環境を生み出します。これは、ディープテクノロジーやディープサイエンスに何十年も取り組んできた人々とは少し反対であり、AGI にアプローチする際に私たちが今後もこの姿勢を維持すべきだと思います。

Gemini: Google Brain と DeepMind の合併後の最初の灯台プロジェクト

フライ: 次にジェミニについて話しましょう。 Gemini は、他の研究室がリリースした他の大規模な言語モデルとどのような点で異なりますか?

ハサビス: 当初から、Gemini が複数のモダリティを処理できることを望んでいました。そのため、言語だけでなく、オーディオ、ビデオ、画像、コードなどのさまざまなモダリティを処理できます。まず第一に、私たちがこれを行いたい理由は、これがこれらのシステムが周囲の世界を実際に理解し、世界のより良いモデルを構築するための方法だと思うからです。これは、以前のグラウンディングの問題に戻ります。

また、ユニバーサルアシスタントを導入するというビジョンもあります。私たちは、ユーザーが入力している内容を理解するだけでなく、ユーザーがいる環境を実際に理解する Astra と呼ばれるプロトタイプを作成しました。このようなスマートアシスタントがあれば、さらに便利になるでしょう。そこで私たちは最初からマルチモダリティを組み込みました。これも、当時は当社のモデルだけが行っていたことですが、今では他のモデルも追いつきつつあります。

長いコンテキストなど、メモリに関する他の大きなイノベーションは、実際には約 100 万または 200 万のトークンを記憶できます。したがって、戦争と平和、または映画全体を与えて、質問に答えたり、ビデオストリームで何かを見つけたりすることができます。

フライ: Google I/O では、メガネを置いた場所を思い出すのに Astra がどのように役立つかの例を示しましたね。でも、これは昔の Google メガネの進化版なのだろうか。

ハサビス: もちろん、Google には Glass デバイス開発の長い歴史があり、実際には 2012 年頃まで遡りますが、これは時代をはるかに先取りしていました。しかし、エージェントやスマートアシスタントがあなたの言っていることを実際に理解するためのテクノロジーが欠けているだけかもしれません。したがって、私たちは、いつでもあなたと一緒にいて、あなたの周りの世界を理解できるデジタルアシスタントに非常に興奮しています。実際に使ってみると、本当に自然な使用例のように思えます。

フライ: 次に、Gemini の起源について少し戻りたいと思います。結局のところ、Gemini は Google の 2 つの異なる研究部門から来ています。

ハサビス：はい、昨年私たちはAlphabetの2つの研究部門を統合し、Google BrainとDeepMindをGoogle DeepMindに統合しました。私たちはこれをスーパーユニットと呼んでおり、全社の優秀な人材を 1 つの部門に集めます。これは、すべての研究、特に言語モデルから得られた最良の知識を組み合わせることを意味します。

そのため、チンチラやゴーファーなどのモデルを発売し、PaLM、LaMDA などの初期モデルを構築しました。これらのモデルにはそれぞれ長所と短所があるため、それらを Gemini に統合し、部門の統合後に立ち上げられた最初の Lighthouse プロジェクトとなりました。次に、もう 1 つ重要なことは、非常に大規模なトレーニングを実行できるように、すべてのコンピューティングリソースをまとめることです。これらは素晴らしいと思います。

フライ: 多くの点で、Google Brain と DeepMind は焦点が少し異なります。これを言ってもいいでしょうか？

ハサビス: Google のさまざまな部門は明らかに人工知能の最先端に焦点を当てており、個々の研究レベルではすでに多くの協力が行われていますが、戦略レベルでは異なります。 Google DeepMind の導入により、私はこれを Google のエンジンルームと形容したいのですが、非常にうまく動作しています。仕事のやり方は違うところよりも似ているところのほうが多いと思いますので、これからも基礎研究などの強みを維持・強化していきます。

例えば、次の Transformer アーキテクチャはどこから来るのでしょうか?私たちはそれを発明したいのです。 Google Brain の研究者は、現在人気のある Transformer アーキテクチャを発明しました。私たちはこのアーキテクチャを、私たちが先駆けて開発した深層強化学習と組み合わせました。さらなるイノベーションがまだ必要だと思います。 Google Brain チームと DeepMind チームが過去 10 年間行ってきたように、私もこれを行うことを支持します。とても刺激的です。

今後の方向性: AlphaGo と Gemini の組み合わせ

フライ: ジェミニについて話したいのですが、ジェミニのパフォーマンスはどうですか?他のモデルと比べてどうですか？

ハサビス: この質問にはベンチマークが含まれます。この分野全体に、より良いベンチマークが必要だと思います。有名な学術的なベンチマークがいくつかありますが、それらは現在飽和状態であり、異なる上位モデル間のニュアンスを区別することはできません。。

私の意見では、現在、最上位かつ最先端のモデルは 3 種類あります。当社の Gemini、OpenAI の GPT、Anthropic の Claude です。。また、Meta社やMistral社などが発売したLlamaシリーズやMistralシリーズなど、性能の良いモデルも多く、それぞれ得意とする分野が異なります。実行したいタスクの種類によって異なります。エンコードには Claude、推論には GPT、記憶、長いコンテキスト、マルチモーダルな理解には Gemini を選択します。

もちろん、企業はモデルを改良し続けるでしょう。たとえば、Gemini はまだ発売から 1 年も経っていないモデルです。私たちはとても良い軌道に乗っていると思うので、次回話すときはジェミニが先頭に立ってくれることを願っています。

フライ: そうですね、大型モデルにはまだ長い道のりがあります。これは、これらのモデルがいくつかの面であまり優れていないことも意味しますか。

ハサビス：確かに。実際、これが現在最大の議論です。現在のモデルの多くは、5 ～ 6 年前に発明されたテクノロジーから派生しています。つまり、これらのモデルにはまだ多くのものが欠けており、幻覚があり、計画が下手です。

フライ: 計画は何ですか?

ハサビス: たとえば、一部の長期計画では、モデルでは長期的には問題を解決できません。あなたが目標を与えても、彼らはあなたのために実際に行動を起こすことはできません。それで、このモデルは受動的な質問応答システムによく似ています。。質問すると何らかの返答は得られますが、問題を解決してくれるわけではありません。たとえば、イタリアでの休暇全体の予約や、すべてのレストラン、美術館などの予約を支援するデジタルアシスタントが必要だとします。残念ながら、これらのことはできません。

私は、これが次の時代の研究のテーマであると考えています。それは、(より広い意味で) エージェントベースのシステム、またはエージェントのような動作を持つインテリジェントシステムと呼ばれています。もちろん、これは Google が得意とするところです。 Google は過去にゲームエージェント AlphaGo やその他のエージェントを構築しました。それで、私たちが行っていることの多くは、有名なプロジェクトと新しい大規模マルチモーダルモデルを組み合わせて、AlphaGo と Gemini を組み合わせたような次世代システムとなることです。。

フライ: AlphaGo は計画を立てるのがとても上手だと思います。

ハサビス：はい、AlphaGoは計画を立てるのがとても上手です。もちろん、それはゲームの領域でのみです。したがって、日常業務や言語など一般的な領域にまで一般化する必要があります。

フライ: 先ほど、Google DeepMind が Google のエンジンルームになったとおっしゃいました。それはかなりの変化です。では、GoogleはAIに大きな賭けをしているのだろうか？

ハサビス：そう思います。 Google は AI の重要性を常に理解していたと思います。サンダー氏がCEOに就任したとき、GoogleはAIファーストの企業だと述べた。私たちはこの問題について彼の在任初期に議論しましたが、彼は AI がモバイルインターネットに次ぐ大きなパラダイムシフトとなる可能性があり、以前よりも大きな可能性を秘めていると信じています。

おそらくここ 1 ～ 2 年で、研究の観点だけでなく、製品やその他の側面からも、それが何を意味するのかを実際に理解し始めました。とてもエキサイティングなことであり、私たちがすべての才能を結集して AI を前進させるために全力を尽くすのは正しいことだと思います。

フライ氏: 私たちは、Google DeepMind が研究と科学を非常に真剣に考えていることを知っています。しかし、Google のエンジンルームになると、純粋なものではなく、商業的利益にもっと関心を持たなければならないということなのでしょうか?

ハサビス: はい、私たちは委託条件内の商業的利益のほうを間違いなく懸念しています。しかし実際には、ここで私が言わなければならないことがいくつかあります。まず、私たちは AlphaFold に関する科学的研究を継続し、数か月前に AlphaFold 3 をリリースしました。私たちはこれへの投資も倍増しています。これはGoogle DeepMindならではの取り組みだと思います。

競合他社ですら、これは一般的な AI 製品になると考えています。私たちは医薬品開発を行うために新会社 Isomorphic Labs を設立しました。すべてがとてもエキサイティングで、すべてがとてもうまくいっている。ですから、これからもそれを続けていきます。同時に、気候予測やその他の面でも多くの研究を行ってきました。

私たちは大規模なチームを持っているので、同時に複数の仕事を行うことができます。私たちは大規模モデル Gemini et al を構築しています。私たちは、これらの素晴らしいテクノロジーをすべて Google が存在するすべての分野に導入するための製品チームを構築しています。つまり、いつでもすべてのテクノロジーを接続できることは、ある意味、私たちにとって利点です。 10億人がすぐに使えるものを発明できるのは本当に感動的です。

もう一つのことは、現在、製品用に開発された AI テクノロジーと、純粋な AGI 研究目的で行われる作業との間で、より高度な統合が必要です。。 5 年前、製品用に特別な AI を構築する必要がありました。これで、主要な調査を分離できるようになりました。もちろん、製品固有の作業もいくつか行う必要がありますが、それはおそらく全作業の 10% にすぎません。

したがって、実際、AI 製品の開発と AGI の構築の間には、もはや矛盾はありません。。 90％は同じ研究計画だと思います。したがって、製品を発売して世界に送り出すと、そこから多くのことを学ぶことができます。人々もそれを使用するので、内部の指標が人々の意見と完全に一致していないことなどについて多くのことを学び、その後更新することができます。これは研究に非常に役立ちます。

GenAI テクノロジーをテストする方法

フライ氏: AI を科学に応用する画期的な進歩と、それらを一般に公開する適切な時期との間に緊張があるのではないかと思います。 Google DeepMind 内では、大規模言語モデルなどのツールは潜在的な商用製品として見なされず、研究のために使用されています。

ハサビス: 私たちは当初から責任と安全性を非常に重視してきました。 2010 年以前でも、Google は AI ガイドラインにいくつかの基本的な倫理を組み込んでいました。私たちは Google 全体で連携しており、この分野のリーダーの 1 つとして責任を持って展開したいと考えています。

したがって、GenAI 機能を備えた実際の製品の発売を開始するのは興味深いことです。実際、学ぶべきことはたくさんありますが、すぐに学べます。それは良いことです。現在のテクノロジーはまだそれほど強力ではありませんが、リスクは比較的低いです。しかし、テクノロジーが強力になるにつれて、私たちはより注意しなければなりません。

製品チームと他のチームは、GenAI テクノロジーをテストする方法を学んでいます。これらのテクニックは、常に同じことを行うわけではないという点で通常のテクニックとは異なります。それはオープンワールドゲームをテストするようなもので、それを使って試せることはほぼ無限です。したがって、どのようにレッドチームを組むかを考えるのは興味深いことでした。

フライ: それで、ここでのレッドチームのテストは、お互いに競うことですか?

ハサビス：はい。レッドチームテストとは、開発技術チームから専任のチームを集めてテクノロジーのストレステストを行い、可能な限りの方法でそれを破ろうとすることです。実際にはテストを自動化するにはツールを使用する必要がありますが、たとえそれを行う人が数千人いたとしても、数十億人のユーザーに比べれば十分ではありません。

さらに、これまでのゲームと同じように、実験段階、クローズドベータ段階、そして再リリースなど、段階的に行う必要があると思います。つまり、あらゆる段階で学習していることになります。私たちがもっとやるべきことは、AI 自体を使用して社内のレッドチームのテストを支援し、実際に自動的にいくつかのバグを見つけたり、三重のスクリーニングを行ったりすることだと思います。こうすることで、開発者とテスターはそれらの難しい状況に集中できるようになります。

フライ: ここには非常に興味深いことがあり、あなたはより高い確率の空間にいるのです。つまり、たとえ何かが起こる可能性が低くても、十分に試してみれば、最終的にはうまくいかないでしょう。公的な間違いもあったと思います。

ハサビス: 先ほども言いましたが、製品チームはあらゆる種類のテストに慣れていると思います。彼らはこれをテストしたことを知っていますが、それはランダムで確率的なものです。実際、一般的なソフトウェアであれば、多くの場合、その 99.999% をテストしたと言えます。次に、これで十分であると推測します。

ただし、生成システムの場合はそうではありません。彼らは、標準から少し外れた、これまで見てきたものから少し外れたあらゆる種類のことを行うことができます。賢い人や敵対者が、ハッカーのように、何らかの方法でこれらのシステムをテストしようと決めた場合。

これらのシステムは、これまでに述べたすべてを含む組み合わせで存在する可能性があります。その場合、それは何らかの特別な状態にあるか、メモリが特別なもので満たされているため、何かを出力する必要があります。ここは複雑で、無限ではありません。この問題を解決する方法はありますが、通常のテクノロジーを展開するには多くの微妙な違いがあります。

フライ: 私があなたにインタビューしたのは初めてだったと思いますが、実際にはこれはまったく異なるコンピューティングの方法であることを認識する必要があるとあなたが言っていたのを覚えています。私たちが完全に理解している決定論的なものから離れて、確率論のようなもっと厄介なものに移行する必要があります。一般の人々もコンピューティングの種類について少し見方を変える必要があると思いますか?

ハサビス：はい、その通りです。興味深いことに、それは私たちが考える必要があるもう一つのことなのかもしれません。システムをリリースする前に、実際に原則文書などをリリースできます。、このシステムの使用目的を明確に示すために、このシステムは何をするように設計されていますか?何に使われますか?何ができないのですか？ここには、ある種の意識が本当に必要だと思います。例えば、このように使えば便利ですが、うまくいかないからといって他のことをしようとしないでください。

これはいくつかの分野で私たちが行う必要があることだと思いますし、ユーザーもこの分野での経験を必要とするかもしれません。これは実際には非常に興味深いものであり、ChatGPT を含む OpenAI にとってさえチャットボット自体が多少驚くべき理由であると考えられます。私たちは独自のチャットボットも持っていますが、これらのロボットにはまだ幻覚やその他の問題などの欠陥があることに気づきました。

しかし、私たちが気づいていないのは、こうした欠陥があるにもかかわらず、実際にはチャットボットの優れた使用例がたくさんあるということです。今日、人々はファイルや長い文書の要約、電子メールの作成、フォームへの記入など、非常に価値のある用途を見つけています。使用シナリオは多岐にわたるため、たとえ小さなエラーがあったとしても、人間はこれらのエラーを簡単に修正でき、時間を大幅に節約できます。これらのシステムには私たちが知っているあらゆる点で欠陥があるにもかかわらず、人々が実際に使用すると、これらの貴重なユースケースが見つかるという驚くべきことだと思います。

オープンソースについて：一度公開すると取り下げることはできません

フライ: それで、私が尋ねたい次の質問につながりますが、それはオープンソースに関するものです。あなたが言ったように、物事が人々の手に渡ると、本当に驚くべきことが起こります。 DeepMind が過去に多くのプロジェクトをオープンソース化してきたことは理解していますが、これは時間の経過とともに変化したようです。

ハサビス: はい、私たちはオープンソースとオープンサイエンスを非常に支持しています。ご存知のとおり、Transformer など、私たちが行っていることはほぼすべて公開されており、AlphaGo と AlphaFold の研究は Nature やその他の雑誌に掲載されており、AlphaFold もオープンソースです。情報を共有することで、技術と科学は急速に進歩します。したがって、私たちはほとんど常にそれを行っており、それが非常に有益なことであり、それが科学の仕組みであると考えています。

唯一の例外は、AI、AGI、強力な AI には両方の側面があることです。問題は、誰がそれを利用しているのかということです。実際に善意を持って行動し、社会が最速で進歩するための建設的かつ批判的な提案を行うことができる科学者や技術者です。しかし問題は、同じシステムを悪い目的で使用したり、兵器システムなどの悪用をしたりする可能性のある悪意を持った人々のアクセスをどのように制限するかということですが、それを事前に予測することはできません。さらに、このようにユニバーサルシステム自体を再利用することもできます。システムがまだそれほど強力ではないと思うので、私たちは今日でもそれを持ち続けることができます。

今後 2 ～ 4 年間、特にエージェントの動作を備えたシステムの開発が始まると、これらのシステムが誰かによって悪用された場合、重大な損害が引き起こされる可能性があります。私たちには具体的な解決策はありませんが、コミュニティとして、これがオープンソースにとって何を意味するのかを考える必要があります。

おそらく最先端のモデルは、リリースから 1 ～ 2 年後にオープンソース化される前に、さらなるレビューを受ける必要があるでしょう。。私たちは Gemma と呼ばれる独自のオープンソースモデルを持っているため、このモデルに従っています。これらのモデルは小型で最先端ではないため、その機能は依然として開発者にとって非常に役立ち、パラメータが少ないラップトップで簡単に実行できます。これらの機能は現在ではよく理解されています。ただし、これらのモデルのパフォーマンスは、Gemini 1.5 などの最新の最先端モデルほど優れていません。私たちがとれる最終的なアプローチは次のとおりです。オープンソースモデルも用意されますが、最先端のモデルよりも約 1 年遅れます。これにより、ユーザーによる公共の場でのこれらのモデルの使用を実際に評価し、最先端のモデルの機能を理解できるようになります。

オープンソースの主な問題は、一度リリースすると撤回できないことです。プロプライエタリなモデルとは異なり、オープンソースモデルが不適切に使用された場合、開発者は単純にそれをシャットダウンすることはできません。オープンソースになると、一方通行のドアを通過するようなものなので、オープンソースにする前には十分な注意が必要です。

フライ: 汎用人工知能 (AGI) を組織内の堀に限定することは可能でしょうか?

ハサビス：これはまだ未解決の問題です。それを実現する方法はまだわかりません。それは、高レベルの人間に似た AI について話し始めるときに考慮する必要があることだからです。

フライ：中間層はどうですか？

ハサビス: 中間層では、これらの問題に対処するためのより良いアイデアがいくつかあります。たとえば、安全なサンドボックス環境を通じてテストできます。これは、ゲーム環境またはインターネットの部分的に接続されたバージョンでエージェントの動作をテストすることを意味します。この分野だけでなく、フィンテックなどの他の分野でも、すでに多くのセキュリティ関連の取り組みが行われています。私たちはそれらのアイデアを採用し、それに応じてシステムを構築する可能性があります。これが、初期のプロトタイプシステムをテストする方法です。しかし、これらの対策では、私たちより賢いかもしれないシステムである AGI を制限するには十分ではない可能性があることも私たちは知っています。したがって、AGI 用のプロトコルを設計するには、これらのシステムをより深く理解する必要があります。それまでに、私たちはそれを制御するより良い方法を確立し、おそらく AI システムやツールを活用して次世代の AI システムを監視することになるでしょう。

AIをどう規制するか

フライ: セキュリティの話題に関しては、規制という言葉ですべての問題が解決すると多くの人が考えているようです。規制はどのように構築されるべきだと思いますか?

ハサビス：政府はAIテクノロジーへの理解と関与を加速させており、これは前向きな現象です。特に規制や安全対策、配備仕様などの分野で国際協力が必要だと思う。

AGI に取り組むとき、テクノロジーは急速に進歩しているため、私たちの規制アプローチも柔軟であり、最新の技術開発に迅速に適応する必要があります。。 5 年前に AI を規制していたら、まったく異なるものを規制していたことでしょう。私たちが現在目にしているのは生成型 AI ですが、5 年後には変わっているかもしれません。

現在、エージェントベースのシステムが最も高いリスクを引き起こす可能性があります。したがって、以前にモバイルやインターネットの規制が更新されたのと同じように、すでに規制されている分野（健康、交通など）の既存の規制を強化してAI時代に適応させることをお勧めします。

私が最初にやることは、集中力を維持し、最先端のシステムを理解し、テストすることです。状況がより明確になり、これらの状況に基づいた規制の策定を開始する必要があるため、数年以内にそうすることがより合理的になる可能性があります。私たちに今欠けているのは、業界が知りたいと思っているように、どの時点で私たちの能力が重大なリスクを引き起こす可能性があるかなど、ベンチマークと適切な能力テストです。現時点ではこれに対する答えはなく、先ほど述べたエージェントベースの機能が次のしきい値になる可能性がありますが、現在受け入れられているテスト方法はありません。

考えられるテストの 1 つは、システムに不正な機能があるかどうかを検出することです。システムに欺瞞がある場合、システムが報告するものは何も信頼できません。したがって、新しい機能では、欺瞞のテストが最優先事項である必要があります。さらに、特定の目標を達成する能力、複製能力など、テストする価値のある能力が他にも数多くあり、現在多くの関連作業が進行中です。これらは基本的に政府機関の出番だと思います。彼らがこれに全力で取り組むことは素晴らしいことだと思いますし、もちろん、研究室は彼らが知っていることを提供する必要があります。

フライ: あなたが描く世界の中で、制度はどこに当てはまりますか?たとえすべての科学研究をサポートできるAGIを備えた段階に到達したとしても、機関にはまだ居場所があるでしょうか?

ハサビス：そう思います。 AGI に到達するには、コミュニティ、学界、政府、産業研究所の協力が必要になると思います。これが最終段階に到達する唯一の方法だと私は心から信じています。

カザフスタンのAGI試験基準

ハサビス: AGI の後に何が起こるのかを尋ねているのであれば、私が常に AGI を構築したいと思っていた理由の 1 つは、AGI を使用して、自然、現実、物理学、意識に関する最大かつ最も基本的な質問のいくつかに答え始めることができるようにするためです。。どのような形態をとるかによっては、人間の専門家と AI の組み合わせになる可能性があります。次のフロンティアを開拓するという意味では、しばらくはこの状況が続くと思います。

現在、これらのシステムは独自に推測や仮説を立てることができません。。現状では、それらは特定の問題を証明したり、国際数学オリンピックで金メダルを獲得したり、有名な数学的予想を解くのに役立ちますが、リーマン予想や一般相対性理論のような仮説を立てることはまだできません。これが真の汎用人工知能に対する私のテスト基準でした- それはこれを行うことができ、さらには新しい理論を発明することもできるでしょう。私たちはまだシステムを持っておらず、これを行うシステムを理論的に設計する方法さえ知らないかもしれません。

フライ: コンピューター科学者のスチュアート・ラッセルは、私たちが開発の AGI 段階に到達すると、私たちは皆、人生の目的もなく、無制限の贅沢な生活を楽しむことになるかもしれないと私に懸念を表明しました。このような生活は物質的な快適さに満ちていますが、深い意味や目的が欠けています。

ハサビス：これは確かに興味深い質問ですね。これはおそらく AGI を超えており、人々が時々 ASI と呼ぶものに似ています。その頃には私たちは膨大な資源を持っているはずで、その資源の公平かつ平等な分配が確保できれば、私たちは行動の仕方を自由に選択できる立場になり、「意味」が大きな哲学的問いとなるだろう。今からこのことについて考え始めるには、哲学者、さらには神学者や社会科学者が必要になると思います。何が意味をもたらすのでしょうか？私は今でも自己実現が重要だと考えていますし、私たち全員が瞑想に没頭するだけではなく、おそらくコンピューターゲームをプレイすることになると思います。しかし、そうだとしても、これは本当に悪いことなのでしょうか？これは検討する価値のある質問です。

AGI は、多くまたはすべての病気の治療やエネルギーや気候問題の解決など、大きな変化をもたらすでしょうが、同時に、私たちに「人生の意味とは何なのか」というより深い問いに直面させる可能性もあります。エベレストに登ったり、エクストリームスポーツに参加したりするのと同じように、これらの活動は一見無意味に見えますが、実際には人々が自分自身に挑戦することを追求しています。 AGI の発展により、物質的なレベルではすべてが手に入るかもしれませんが、それに伴い人生の意味についても再考する必要があります。この問題は技術開発の初期段階でも後期段階でも過小評価されており、いわゆる誇大宣伝とそれが私たちの将来に及ぼす実際の影響を再評価する必要があります。

フライ: AGI についての質問に戻りましょう。あなたの大きな使命は、すべての人に利益をもたらす AI を構築することだと思います。しかし、それが実際にすべての人に利益をもたらすことを確認するにはどうすればよいでしょうか?デザイナーだけでなく全員の好みを考慮に入れるにはどうすればよいでしょうか?

ハサビス: 多くの問題については人々が同意できないため、すべての好みを 1 つのシステムに含めることは不可能だと思います。パーソナライズされた人工知能を構築できる安全なアーキテクチャがあり、人々は自分の好み、使用目的、導入目的に基づいて AI システムを使用できるものとできないものを決定できるのではないかと思います。一般に、アーキテクチャはセキュリティを確保する必要があり、その後、人々はアーキテクチャに基づいていくつかのバリエーションや増分を加えることができます。

したがって、AGI に近づくにつれて、おそらく国際的により理想的に協力し、安全な環境で AGI を構築する必要があると思います。

このタスクを完了すると、希望に応じて誰もが独自のパーソナライズされたポケット API を使用できるようになります。

フライ: わかりました。しかし、私が言いたいのは、AI は何らかの悪い動作を示す可能性があるということです。

ハサビス：はい、悪い行動や能力が現れています。欺瞞はその一例です。私たちはこれらすべての問題をより深く理解する必要があります。

心配すべきことは 2 つあります。人間が AI を悪用する可能性があることと、AI 自体 (AGI に近づくにつれて、その性能が異常になる) です。これら 2 つの問題には異なる解決策が必要だと思います。はい、これは、AGI の構築にますます近づくにつれて対処しなければならないことです。

AlphaFold を例に挙げて、すべての人に利益をもたらすというあなたの論点に戻りますが、AI 医薬品設計が機能すれば、今後 1 ～ 2 年以内にほとんどの病気を治療できると思います。その後、それらを個別化された医薬品に変換して、特に個人の病気や個人の代謝などに関連する個人の副作用を最小限に抑えることができます。これらは素晴らしいことです。クリーンエネルギー、再生可能エネルギー、テクノロジーは多大な利益をもたらしますが、リスクも軽減する必要があります。

フライ: リスクを軽減する方法の 1 つは、基本的にはいつか「アベンジャーズ・アッセンブル」の科学版を作ることだとおっしゃっていましたね?

ハサビス：確かに。

フライ: それで、適切な時期をどうやって知ることができるのですか?

ハサビス：そうですね、これは大きな質問です。一部の否定論者の支持は決して得られないため、早すぎることはできません。今日、非常に有名な人々が AI にはリスクがないと発言しているのを目にします。そして、ジェフリー・ヒントンのような人は、多くのリスクがあると言っています。

フライ: 神経科学についてもっと話したいと思います。それは今でもあなたの活動にどれだけインスピレーションを与えていますか？なぜなら、数日前に DeepMind が人工脳を備えた仮想マウスを発表したことに気づいたからです。これは、脳がどのように動きを制御するかについての私たちの理解を変えるのに役立ちます。生物学的システムから直接インスピレーションを得ることについてよく話し合ったことを覚えていますが、これは今でもあなたのアプローチの中核となっていますか？

ハサビス：いえ、今は進化して、大規模システムや大規模なトレーニングアーキテクチャなど、エンジニアリングの段階に入っていると思います。神経科学はこれに対して少し影響力が少ないです。神経科学はアイデアの源の 1 つですが、エンジニアリングの量が多い場合、神経科学は後回しになります。したがって、現在は人工知能を神経科学に応用することが重要になっているのでしょう。 AGI に近づくにつれ、脳を理解することが AGI の最も素晴らしいユースケースの 1 つになると思います。

フライ: あなたも、AGI が私たちの発見と理解に役立つ、人間の理解を超えた事柄が存在することを想像しているのでしょうか?

ハサビス: AGI システムは、私たちよりも高いレベルの抽象化を理解することが可能だと思います。 AI システムは効果的にあらゆる種類の前頭前野を備え、より高いレベルの抽象化やパターンを想像でき、私たちが実際には理解したり覚えたりできない宇宙をすぐに見ることができると思います。

そして、解釈可能性の観点から、私たち自身の脳を無限に拡張することはできないと思いますが、理論的には、十分な時間、SPE、メモリがあれば、AGI は計算可能なものはすべて理解できます。

フライ: DeepMind は 20 年かかるプロジェクトだと言いましたね。軌道にどれくらい近づいていますか?

ハサビス：順調に進んでいます。

フライ: AGI は 2030 年に利用可能になるでしょうか?

ハサビス：今後10年以内に出てきても驚かないですね。

ニュース

ハサビス氏: GoogleはAlphaGoとGeminiを組み合わせた第2のTransformerを作成したいと考えている

導入

私の連絡先情報