深層学習科学者のヤン・ルカン氏と大規模モデルの考え方について語る

ディープラーニング科学者のYann LeCunとビッグモデルについて考える方法について話しましょう

2024-08-09

過去 2 年間の生成 AI テクノロジーの進歩と人気により、大規模なモデルを使用してコンテンツを生成することが徐々に一般の人々の生活の一部になってきました。このプロセスは簡単そうに見えます。命令を入力すると、大きなモデルが答えを直接出力します。ただし、舞台裏では、モデルの内部動作原理やモデルの意思決定プロセスは誰も知りません。これがよく知られている「機械学習のブラックボックス」です。

ブラックボックスモデルの説明不可能性のため、AIの安全性は常に疑問視されてきました。そこで科学者たちは、業界では「ホワイトボックス研究」と呼ばれる、大型モデルのブラックボックスを開けようと試み始めました。一方で、ホワイトボックスモデルの研究は、人々がブラックボックスモデルを理解するのに役立ち、それによって大規模なモデルが最適化され、効率が向上します。一方、ホワイトボックス研究の目標は、工学分野である AI を科学に押し込むことです。

今回お招きしたのは、Chen Yubei 氏、カリフォルニア大学デービス校電気・コンピュータ工学部助教授, 彼の研究内容は「ホワイトボックスモデル」に関するものです。さらに、彼はチューリング賞受賞者でありメタ主任科学者であるヤン・ルカン氏の博士研究員でもあります。このエピソードでは、彼はホワイトボックスモデルの最新の研究の進歩について私たちとチャットし、AI 業界の浮き沈みを経験しながらも純粋に集中し続けている彼がよく知っている科学者、ヤンルカンについても話してくれました。。

グラフィック：バイオレット・ダシ。イラスト：ナディアとシンプル・ライン

以下は厳選されたインタビューです

01 人間の脳と大型模型

「シリコンバレー101」：まずは、あなたが行っている「ホワイトボックスモデル」の研究について簡単に紹介してもらえますか？研究中に、GPT の入力および出力の問題を説明する方法を発見しましたか?

チェン・ユーベイ：実際、この方向における比較的大きな目標は、純粋に経験的な主題から科学的な主題への深層学習を促進すること、または工学を科学に変えることです。現在、工学は比較的急速に発展していますが、科学は比較的遅いからです。かつては、言語の表現を学習できる単語埋め込みと呼ばれるモデルがありました。

実際、当時誰もが疑問を抱いていました。タスクのパフォーマンスは向上しましたが、このパフォーマンスが向上した原因は一体何だったのでしょうか?そこで私たちは当時、これらの言葉の表現をオープンにするという非常に初期の研究を行いました。開いてみると、非常に興味深い現象がいくつかあります。

たとえば、リンゴという言葉をとってみると、その中には果物を表すものもあれば、デザートを表すものもあります。さらに深く掘り下げていくと、テクノロジーやデザートの意味が見えてきます。もちろん、Apple 製品のことです。したがって、単語に沿ってこれらのメタ意味を見つけることができ、この方法を大規模な言語モデルに拡張できることがわかります。

言い換えれば、大規模な言語モデルを学習した後、モデル内でいくつかのメタ意味を探し、それを開いてみることができます。実際には多くの層を持つ大規模な言語モデルが見つかります。

初級レベルでは「単語の曖昧さ回避」と呼ばれる現象が現れます。たとえば、英語には「left」という単語がありますが、この単語は左に曲がることと、離れることの過去形の両方を意味します。したがって、その具体的な意味は前後の文脈に依存するため、このモデルは単語の曖昧さの解消を完了します。最初の数層で。

中期には、いくつかの新しい意味が現れることに気づくでしょう。そのとき、私たちは「単位変換」というものを考えました。キロメートルをマイルに変換し、温度を華氏から摂氏に変換すると、この意味が表示されます。このように、このメタ的な意味の多くの同様のレベル。

さらに上に進んでいくと、これらのメタ意味にはパターンがあることがわかります。このパターンは、文脈の中で繰り返される意味が現れるときに、この方法を使用して大きな言語を開くことができます。 . モデルと小さな言語モデル。もちろん、これらのアイデアはまったく新しいものではありません。たとえば、Matthew Zeiler 以来、同様の研究がいくつか行われてきました。

「シリコンバレー101」：この考え方に従うと、その一部がどのように機能するかがわかれば、エンジニアリングの観点から大幅に最適化できるでしょうか?

チェン・ユーベイ：はい、これはとても良い質問です。どの理論でも比較的高い要件は、それが実践の指針となることだと思います。そのため、言語モデルと語彙表現を作成していたとき、当時の目標の 1 つは、理論を理解した後、これらのモデルを最適化できるかということでした。 ?実際、それは可能です。

たとえば、大規模な言語モデルでメタ意味を見つけた場合、特定のメタ意味を認識すると活性化され、このニューロンを識別子として使用でき、これを使用していくつかのタスクを実行できます。これらのメタ意味を変更することで、モデルのバイアスが調整されます。

それを見つけることができれば、調整できるということです。最近、Anthropic も同様の作業を行いました。これは、言語モデルに存在する可能性のあるバイアスを見つけて、モデルをより公平で安全なものにするためにそれにいくつかの変更を加えるというものです。

「シリコンバレー101」：OpenAI も昨年、GPT4 を使用して GPT2 を説明し、GPT2 がどのように機能するかを確認する研究を実施したことを知りました。たとえば、1800 年頃の米国の歴史に関連するすべての事柄に答えると、GPT 2 のニューロンが活性化されることがわかりました。中国語に答えると、5 行目の 12 番目のニューロンが活性化されます。行 12. がアクティブになります。

中国語に答えるニューロンのスイッチが切れると、中国語を理解する能力が著しく低下します。しかし、ニューロンが後方になるほど、たとえばニューロンが約 2000 行に達すると、全体的な信頼性は大幅に低下します。彼らの研究に気づいたことがありますか?

OpenAI 研究: GPT4 に GPT2 ニューロンを説明してもらう

チェン・ユーベイ：この記事はまだ読んでいませんが、この方法は脳のニューロンを操作するのとよく似ています。ニューラルネットワークがある場合に相当します。このネットワークは、ある意味、完全に分散しているのではなく、局所的な存在を見つけることができ、その上でいくつかの操作を実行できることを意味します。たとえば、特定のニューロンが切断されると、その能力の特定の部分が相対的に失われると考えることができます。
実際、これは人にも当てはまります。たとえば、てんかんの人は手術後に言語障害が生じることがありますが、他の人体の機能には影響しません。これは原理的には同様のようです。

「シリコンバレー101」：OpenAI と Anthropic は現在、大規模モデルの解釈可能性を研究しています。あなたの研究と彼らの研究の間に違いはありますか?

チェン・ユーベイ：実際のところ、ホワイトボックスモデルの研究が将来的に成功するかどうかは誰にもわかりません。以前上司とも話し合ったことがありますが、この問題はやってみる価値があるということで全員が同意しています。この分野に戻ると、私たちの研究がやりたいことは、実際に人工知能を理解し、私たちの理解を通じて人工知能を再構築し、根本的に何か異なるものを構築することです。ですから、観察、つまり解釈可能性というのは、単なる手段に過ぎないと思います。
言い換えれば、このモデルを開くか、実験を行うか、モデルに調整を加えるかは、理解の過程で試行する方法の一部だと思いますが、ホワイトボックスで本当に重要なのは何ですかモデルはまだ信号自体に戻る必要があります。なぜなら、それが人間の脳であれ、機械であれ、学習の本質は信号に基づいているからです。

私たちの世界にはいくつかの構造があり、彼らもまたそれらの構造を通して学ばなければなりません、そして彼らが学ぶのはこれらの構造です。それでは、これらの構造の背後にある法則と、それを表現するための数学的ツールを見つけて、これらを再編成して別のモデルを構築することはできるでしょうか?これが実現できれば、システムの堅牢性、安全性、信頼性の向上が期待できると思います。
さらに、その効率も向上します。これは、蒸気エンジンが最初に登場した後に登場した熱力学の理論に似ており、完全な職人から科学への変革を裏付けています。同様に、私たちは今日、初めてデータに蒸気エンジンを搭載したように見えますが、これまではデータを理解していなかったものの、ついにデータ内のパターンを捕捉するための AI アルゴリズムの開発を開始できるようになりました。

「シリコンバレー101」：したがって、よりエネルギー効率が高くなります。

チェン・ユーベイ：省エネに関しては、興味深い例をいくつか挙げることができます。第一のポイントは間違いなく省エネです。脳の消費電力は 20 ワットの電球に相当し、現在のスーパーコンピューターの消費電力は 100 万ワットを超える可能性があります。

2つ目は、自然界のさまざまな生物の進化を見ると、実はその進化効率が非常に高いということです。たとえば、ハエトリグモと呼ばれる特別な種類のクモがいます。このクモはニューロンの数が数百万しかありませんが、獲物を捕らえるために非常に複雑な三次元の群線を作ることができます。

ハエトリグモ、Wikipedia

そして、私にとって最も興味深いことの 1 つは、人々がデータをいかに効率的に使用しているかということです。 Llama3の現在のデータ量は約13兆トークンに達しています。しかし、人は生涯にどれくらいのデータを受け取ることができるのでしょうか? 1秒あたり30フレームの画像を取得できるとして、1日の取得時間を12時間とし、それを20年間行うと、おそらく100億トークンが取得でき、テキストもほぼ同じ量が取得できることになります。データの量は大規模なモデルよりもはるかに小さいです。
そこで問題は、人々はどのようにしてそのような少量のデータからこれほど強力な汎化能力を獲得できるのかということです。これが人間の脳の効率性について私が驚くべき点です。

「シリコンバレー101」：大きなモデルがどのように機能するかを明らかにするのと、人間の脳がどのように機能するかを明らかにするのはどちらが難しいでしょうか?私には難しそうに聞こえます。

チェン・ユーベイ：どちらも独自の難しさはありますが、アプローチは似ています。それが人間の脳であれ、大規模な言語モデルであれ、私たちはそれを観察し、それが何に反応するかを確認しようとします。

この方法は実際に、1980年代にノーベル生理学賞を受賞したデイビッド・ヒューベルとトーステン・ワイゼルによる視覚野の研究から見ることができます。彼らはシンプルセルを発見し、人が何かを見たときにこれらのニューロンがどのようにインパルスを生成するかを研究しようとしました。まったく反応しないときや非常に興奮しているときなど、さまざまなものを見たときのニューロンのさまざまな反応状態を分析しました。そして彼らはニューロンの受容野を発見しました。

1981 年のノーベル生理学・医学賞受賞者、DH フーベル氏と TN ヴィーゼル氏

今日の大規模言語モデルの研究は実際に同様であり、さまざまな入力を探し、モデル内のどのニューロンがどの入力に関心があるかを理解します。しかし、まだ違いがあります。

最初の違いは、プラグイン電極を使用する場合でも、脳とコンピューターのインターフェイスを使用する場合でも、人間の脳の観察には多くの制限があることです。ただし、大規模な言語モデルの当然の利点は、観察方法が制限されないことです。より良い方法では、長期的に分析することができ、いくつかの微分法を使用してモデルをさらに分析することもできます。

しかし、その欠点は、大規模なモデル、特に大規模な言語モデルの能力が脳の能力よりもはるかに低いことです。なぜなら、大規模な言語モデルは言語からしか世界を学習しないため、人間と同じように世界の理解が不完全であるためです。言語以外の他の感覚。

対照的に、脳はより多次元の信号を処理でき、感覚は非常に豊かです。私たちは時々、言語は完成しているのだろうか、という疑問について考えることがあります。他の感覚からのサポートがない場合、言語内のすべての概念は独立して存在できるのでしょうか、それとも真の理解を達成するには他の感覚のサポートが必要なのでしょうか。

例えば、「冷蔵庫」というオブジェクトが、現実世界の暑さ寒さの感覚とは関係がなく、ドアがあるという統計的な特徴だけを記述している場合、この記述は不完全になってしまいます。

「シリコンバレー101」：つまり、実際のところ、脳と比較すると、現在の大型モデルにはまだ多くの点が欠けています。しかし、私たちはそれを分解して研究することができるので、脳の秘密を解明するという野望よりはまだ少し前進していると思われます。

チェン・ユーベイ：大規模な言語モデルを理解することの難しさは、それを観察する方法がたくさんあり、より深く理解できることです。たとえば、2 台のマシンがあり、1 台のマシンが完全に観測可能で、もう 1 台が部分的に観測可能である場合、直感的に言えば、完全に観測可能なマシンの方が理解しやすいです。もちろん、このマシンにはない機能もいくつかあるため、人間の脳の理解を一部置き換えることはできません。

「シリコンバレー101」：また、ゆうべいが以前に神経科学を学んでいたことを聴衆に紹介しましょう。では、あなたの専門分野の背景は、AI 分野での現在の研究に役立つと思いますか?お互いに学び合える学際的な研究手法はあるのでしょうか？

チェン・ユーベイ：実は私は計算神経科学を専攻しているわけではありません。私の学部は清華大学の電子工学科とバークレーの電気工学およびコンピュータ科学科でした。しかし、当時私が働いていた研究機関は神経科学の研究機関だったので、私の指導教員は計算の専門家でした。神経科学。

今の質問に関連して、私は通常、神経科学の研究からインスピレーションを受けると思います。なぜなら、これらのシステムの性質とその機能を理解すると、異なるアイデアが生まれ、目の前の問題を再検討できるからです。

たとえば、画像は 2 次元の入力信号であり、そのピクセルは水平と垂直であり、グリッドを形成します。しかし、人間の網膜はこのようには見えません。まず、この受容体は非常に密に配置されていますが、中央では非常に密で、両側に向かうにつれて疎になります。
このような入力信号に直面すると、まず、私たちが慣れ親しんでいる畳み込みニューラルネットワークは機能しません。これは、ここでは畳み込みさえ定義されていないためです。したがって、生物システムでこの状況が見られるとき、これらのいわゆる畳み込みがどこから来たのかを再考することになります。

「シリコンバレー101」：それで手法を見直すということでよろしいですか。このように実装する必要がありますか?

チェン・ユーベイ：はい。ある日目覚めると、すべてのニューロンが破壊されているとします。それでも世界を理解できますか?なぜなら、目に見えるものはもはや画像ではなく、これを行うために畳み込みニューラルネットワークを使用することはできなくなるからです。どのような方法が必要でしょうか?

この問題を完全に解決したわけではありませんが、実際に一歩前進しました。すべてのニューロンが破壊されています。つまり、受容体画像のピクセルが破壊されていますが、隣接するピクセル間には何らかの関係があります。たとえば、画像を見ると、ピクセルが赤であれば、周囲のピクセルも赤である可能性が高いことがわかり、この関係を通じて、これらのピクセルに再び友達を見つけて、類似したピクセルを配置することができます。ピクセルは相互に自己組織化し、いくつかの関係を形成します。

このとき、大きな言語モデルに Transformer のような構造を追加することで、このイメージを再表現することができ、この表現のパフォーマンスはかなり優れています。これは、自然からインスピレーションを得た現在のエンジニアリング実践の一部を再検討し、いくつかの異なる手法を提案した例です。

ブラックボックスモデル、AIGC画像（Firefly経由）

「シリコンバレー101」：大規模な AI モデルの研究と人間の脳の神経科学の間には、依然として多くの類似点があります。彼らの視点から分野を超えた研究であなたと協力してくれる神経科学者はいますか?

チェン・ユーベイ：実際、自然信号の構造を理解し、脳内のニューロンがどのように動作するかにも注目し、その 2 つを組み合わせて信号の最小限の表現を提案しようとしている神経科学者、統計学者、数学者はたくさんいます。

たとえば、脳には多くのニューロンがあるにもかかわらず、同時に働いているニューロンは実際には非常にまばらであるという現象が見られます。たとえば、100 万個のニューロンがある場合、機能しているのは数千個だけである可能性があります。

これに基づいて、初期の神経科学の分野でスパースコーディング手法が提案されました。つまり、この高レベル信号の中にスパースな低次元表現を見つけることができるでしょうか。このアイデアに基づいて構築されたアルゴリズムは、脳内で観察されるニューロンの表現に非常に似ているため、これは初期の計算神経科学における教師なしの成功です。

現在、私たちの研究分野全体は、信号の背後にあるいくつかの基本構造を明らかにすることを目的としていますが、神経科学を組み合わせた研究の発展はそれほど単純ではありません。モデルなどは実際には比較的遅いです。実際、それは問題が複雑であることが原因ではないかと思いますが、一方で、この方向に投資する人が比較的少ないことも原因であると考えています。

02 ブラックボックスモデルの「電流追い越し」

「シリコンバレー101」：簡単に言えば、現在ホワイトボックスモデルを研究している人が少なすぎます。しかし、大規模なモデルが登場する前は、従来の機械学習もホワイトボックスモデル研究のカテゴリーに分類されるのでしょうか?

チェン・ユーベイ：この記述は正しいと考えられます。これらの以前の機械学習モデルは比較的単純で、比較的理解しやすいものです。

「シリコンバレー101」：では、なぜ現在のブラックボックスモデル全体の研究の進歩がコーナー部分でホワイトボックスモデルをはるかに速く追い越すことができるのでしょうか?

チェン・ユーベイ：この質問をされると、答える前に少し緊張してしまいます。

「シリコンバレー101」：なぜ緊張するのでしょうか？

チェン・ユーベイ：この質問は非常に鋭いため、実際には、それがホワイトボックスモデルなのか、それとも諦めるべきなのかを尋ねているのです。私たちの時代から、AI分野は科学ではなくなり、将来はすべてが実証的な学問になっていくのでしょうか？しかし、私はまだそうは思いません。
先ほどの質問に戻りますが、このプロセスでは具体的に何が起こったのでしょうか？ 1つ目のポイントは、ブラックボックスモデルは荷物が少ないことです。この方法を機能させ、この方法を説明可能にしたい場合、要件が多すぎます。その場合、ブラックボックスモデルは、最初に機能させるために 1 つのことを放棄します。

2 番目の理由は比較的誰もが無視していますが、トレンドに逆らうデータの増加、または規模の拡大です。

Richard Sutton は以前ブログを書き、過去 20 年間破られていないものがあると述べました。それは、より多くのデータとより多くの計算があれば、すべてにおいてこのパターンを真に拡張できるアルゴリズムを見つける必要があるということです。データ。これは、ブラックボックスモデル、つまり現在の実証的な進歩の非常に重要な側面であると思います。

つまり、より大きなデータ、より優れたデータ、より多くの計算、より大きなモデルがあれば、より多くのことを学ぶことができます。しかし、この問題に戻ると、誰もがホワイトボックスモデルを追求しています。つまり、モデル自体がシンプルでなければならないということです。

ブラックボックスMLとホワイトボックスMLの比較

「シリコンバレー101」：なぜホワイトボックスモデルはシンプルでなければならないのでしょうか?複雑すぎると設計が難しくなるということでしょうか？
チェン・ユーベイ：はい。実際、理論をやると簡潔なことしか理解できず、何度も単純化する必要があります。ただし、モデルの単純さを追求すると、何度も単純化しすぎてしまう可能性があり、この過度の単純化が起こると、モデルはデータの形状を完全に記述することができなくなります。さらにデータが増えると、モデルは続行できなくなり、機能が制限されます。

したがって、これは、過去にホワイトボックスモデルや単純なモデルを研究するときに誰もが直面した困難でもあると思います。仕事でモデルを運ぶ必要があるだけでなく、その解釈可能な荷物も必要であり、これらすべてを持ち込むと、この荷物が重すぎることがわかります。単純化しすぎるとエラーが発生し、エラーが蓄積され、後から先に進むことができなくなります。
「シリコンバレー101」：しかし現在、ブラックボックスモデルの急速な発展により、私たちは再びそれを解決しようと試み始めています。
チェン・ユーベイ：はい。そして今回それを解決したら、この問題を再検討するかもしれません。つまり、必ずしもモデルをそのレベルまで完全に単純化する必要はなく、それでも世界のより複雑な側面を表すことができます。

しかし同時に、それが比較的理解しやすいものであることを私たちは依然として望んでいます。そのため、いつかホワイトボックスモデルを達成できれば、それまでのあらゆる試みは単純化しすぎだと思いますが、あらゆる単純化が前進できることを願っています。完全にホワイトボックスモデルを作成する必要さえありません。大きなモデルほど強力ではないものの、比較的シンプルなホワイトボックスモデルを作成できるかもしれません。
学習の背後にある本質を理解することは役立ち、この理解により大規模モデルのトレーニング効率を向上できる可能性があります。私は以前にヤンと効率の問題について何度か議論しました。つまり、この背後にある理論が開発されれば、エンジニアリングの実践の効率を桁違いに向上させることができるかもしれません。
「シリコンバレー101」：ヤン氏の観点は、ホワイトボックスモデルを開発することを好むのか、それともブラックボックスモデルを開発することを好むのかということです。
チェン・ユーベイ：ヤンはエンジニアリングスキルで知られる科学者なので、彼の試みの多くは今でもこれを最初に機能させることに関係しています。しかし、ヤンはホワイトボックスモデルの研究も支持しています。私との話し合いの中で、彼はこの道を探求する価値はあるが、あまりに野心的な目標なので達成できるかどうかはわかりませんが、誰かがやらなければならないと感じました。
「シリコンバレー101」：ブラックボックスモデルは工学的な問題ですが、ホワイトボックスモデルは科学的に説明する必要があるように感じます。商業化の観点から見ると、その入出力比はそれほど高くありませんが、これが最終的に構築できれば、AI のセキュリティと将来の商用アプリケーションにとって依然として大きな価値があるでしょう。
チェン・ユーベイ：実用化に関しては、AIの基礎研究をしている人たちは皆、本来の目的として応用を考えているわけではなく、知能の問題に対する比較的純粋な好奇心に駆られているのではないかと実は思っています。そうすると、いくつかのパターンが見つかるかもしれません。結果的にエンジニアリングの実践に役立つ可能性があります。研究自体は、特定の用途向けに設計されたものではありません。

さらに、この種のホワイトボックスモデルとこの種の究極の効率を追求するときに、私たちが現在構築している大きな言語モデルは、このような規模でしか実現できないのか、それともスケーリング法、そのまま歩いても大丈夫ですか？私はそうは思わない。人間はこれほど大量のデータを受け入れることができないため、いかに少ないデータで比較的高い汎化能力を得ることができるかということも重要な研究課題となっています。

「シリコンバレー101」：これもブラックボックスモデルの学者によって研究される問題であるはずです。現在ホワイトボックスモデルを研究している学者や学校はどれですか?

チェン・ユーベイ：現在、AIには主に3つの勢力があります。最初の力は、Anthropic や OpenAI が最近参加したものなど、これらのエンジニアリングモデルを研究し、それを視覚化するプロセスで生成した経験の一部です。

人類研究: ニューラルネットワークから解釈可能な特徴を抽出するクロード 3 ソネット

2 つ目は、人間の脳を理解し、一部の記憶が存在する可能性がある方法を見つけようとする計算神経科学です。

もう 1 つの考え方は、数学的および統計的な観点から信号の基本構造を考察することです。もちろん、これら 3 つのタイプの間には多くのクロスオーバーが存在します。
「シリコンバレー101」：あなたはどのジャンルに属しますか?
チェン・ユーベイ：実際、私はこの 3 つのグループすべてから多かれ少なかれ影響を受けています。私がバークレーにいたとき、私の指導者で教師のマー・イーは全員神経科学と数理統計学の学部に所属しており、ヤンは工学の訓練を受けていました。また、最終的には同じ方向に進むので、この 3 つの方法は受け入れられると思います。
「シリコンバレー101」：どの方向が同じですか？現在、段階的な結果は出ていますか?
チェン・ユーベイ：最後のステップはモデルを理解することです。これまでにも、2 層または 3 層でもネットワークを作成できるかどうかなど、段階的な結果がいくつかあり、各層で何を学習するかがわかります。最後に、数字を表現したい場合は、そのすべてのストロークを学習し、類似したストロークを接続して、レイヤーごとに次のレベルの表現を構築し、最終的に数字を見つけることができることがわかりました。
「シリコンバレー101」：現在の研究はブラックボックスモデルの最適化につながりますか?

チェン・ユーベイ：まず、理解が深まるにつれて、ブラックボックスモデルを最適化し、より効率的にできるようになります。 2 つ目は、さまざまなブラックボックスモデルを統一し、不必要な無駄を大幅に削減することです。同時に、私の研究室にはもう一つの仕事の柱があります。それは、知覚だけでなく制御についても研究することです。

これらの大規模な言語モデルに世界と対話する機能を与えると、制御システムでも同じ一般化機能を得ることができるでしょうか?それはどういう意味ですか？つまり、知覚システムでは、リンゴ、ナシ、そしてモモを学習したことがわかります。リンゴとナシの同様の概念を以前に学習したため、桃の概念をすぐに学習できます。

では、制御の分野でも同様のパフォーマンスを達成できるのでしょうか?たとえば、ロボットが前方に歩き、その場でジャンプすることを学習した場合、前方にジャンプし、同時に歩くロボットにすぐに変えることができるでしょうか?

「シリコンバレー101」: 結論を求められた場合、ホワイトボックスモデルの研究を使用して大規模モデルの操作の秘密を明らかにすると思いますか? 現在の進行状況バーはどこにありますか?
チェン・ユーベイ：実際、この進捗バーがどれくらいの長さであるかは誰も知りませんが、実際にはこの目標からは程遠いと感じています。それは必ずしも直線的な発展ではなく、むしろ量子ジャンプに似ているかもしれません。新たな理解が出てきたら、すぐに大きな一歩を踏み出せるかもしれません。

ホワイトボックスの ChatGPT を作成したい場合、これはまだかなり先のことだと思いますが、当時の AlexNet の機能を再現できる、かなり優れた完全に理解可能なモデルを作成できるかもしれません。このモデルは Imagenet 認識を行うことができ、その各ステップがどのように行われ、段階的に猫と犬に変化するのか、そしてこの猫と犬の構造がどのように生成されるのかを理解できます。

ImageNet で使用される WordNet の例

「シリコンバレー101」：ImageNet 認識はホワイトボックスですか、それともブラックボックスですか?

チェン・ユーベイ：それがどのように機能するのかはまだ完全には解明されていません。 Matthew Zeiler 氏と Rob Fergus 氏、および多くの研究者によって行われた初期の視覚化の一部からはある程度の理解は得られましたが、各ステップを理解しながら適切に機能するモデルを作成できた人は誰もいませんでした。
「シリコンバレー101」：したがって、ホワイトボックスモデルの目標は、段階的に実現されることなのかもしれません。たとえば、最初のステップは、ImageNet がどのように動作するかを説明することです。謎が解けたら、GPT 4 を使用して GPT 2 がどのように動作するかを説明し、次に、より大きなモデルの動作をゆっくりと説明します。モデルは機能します。
チェン・ユーベイ：はい。このプロセスにはまだかなり長い時間がかかると思いますが、この方向への投資にはさらに多くの人が必要です。なぜなら、今の仕事のほとんどはエンジニアリング分野だからです。これを学校に導入する場合、実際には独自のアイデアが必要です。「あなたは規模を拡大する、私も規模を拡大する」と言うのではなく、誰もが規模を拡大し、最終的には区別はなく、すべては状況に依存します。誰がどのマシンが最も優れており、最も多くのデータを持っているのは誰ですか?

03 ヤン・ルカンについて私が知っていること

「シリコンバレー101」：次に、あなたのポスドク指導教官のヤン・ルクンについてお話したいと思います。まず、ヤン・ルクンについて紹介します。彼の中国語名はヤン・リクンで、機械学習、コンピュータ・ビジョン、計算神経科学の分野で多くの功績を残しています。「。「インターネットの父」。

LeCun 氏は現在、Meta の主任 AI サイエンティストであり、ニューヨーク大学の教授を務めています。彼は 1980 年代に、現代のコンピュータービジョンの基礎となった技術である畳み込みニューラルネットワーク (CNN) を開拓しました。 LeCun 氏は、ジェフリー・ヒントン氏、ヨシュア・ベンジオ氏とともに、深層学習における先駆的な業績が評価され、2018 年チューリング賞を受賞しました。
技術者ではない私たちの友人に、ヤンの主な科学研究結果と、なぜ彼がそれほど有名なのか説明してもらえますか?

チェン・ユーベイ：ヤン氏は 1980 年代からニューラルネットワーク AI の分野を研究しており、山あり谷あり、さまざまな学派の衰退を経験してきましたが、常にディープラーニングネットワークを主張し、暗闇を歩いてきた人物です。

たとえば、2000 年にディープラーニングに関連する記事を出版するのは非常に困難でした。どのくらい難しかったですか?記事内に Neural または Network という単語がある場合、拒否される可能性が非常に高くなります。Neural Network がある場合は、基本的に拒否されます。

つまり、当時は彼らにとって暗い瞬間であり、資金調達にも影響が及んだのです。しかし、彼らはこの暗闇の中で粘り強く、決して諦めず、ついにこの暗闇から抜け出すことができ、今日、ニューラルディープネットワークが世界を変えたのは、彼らの初期の開拓者の思い出であると私は思います。日々。

ヤン・ルカン

「シリコンバレー101」：ポスドクの学生だったときに、なぜ彼のグループを選んだのですか?
チェン・ユーベイ：これはかなり興味深い冒険です。実際、当時私はかなり混乱していて、その学期を卒業することさえ考えていませんでした。なぜなら、私の決意は博士課程の間にホワイトボックスモデルを作ることであり、そのパフォーマンスはAlexNetに匹敵するはずですが、まだ準備ができていません。

研究を続けたい場合、ポスドクとしてどこに行けばよいでしょうか?その時私は会議中だったのですが、その会場でヤンに会ったんです。実際、私は特に思索的な人間ではありません。誰もがヤンをポスドクとして見つけたいと思っていると思います。そのため、彼に会ったときは、主に私の仕事に対する彼の見解と、研究の方向性に関するいくつかの視点について話したかったのです。。

その結果、ミーティングでの会話は非常に良く、彼は私の研究の方向性や私が考えていたいくつかの問題についてもニューラルネットワークの観点から考えてくれました。その時、彼は私にポスドクの職に応募することに興味があるかどうか尋ねました、もちろん私は応募したので、すぐに意気投合しました。

「シリコンバレー101」：彼はどんな指導者ですか?学生たちに自由に探索できるスペースがたくさん与えられ、みんなで話し合うのにとても役立ちます。
チェン・ユーベイ：初め，2 番目の状況は、多くの人が彼の時間を必要としており、彼が全員に割り当てられる時間はそれほど多くありません。

彼は実際、私の博士課程の指導教官に似ていて、いくつかの一般的な方向性において非常に自由な精神を持っていますが、彼らのもう一つの類似点は、彼らが自分の信じていることを主張すること、つまり方向性や目標を与えることだと思います。しかし、船で行くか車で行くかに関係なく、彼はこれらの詳細を制御しません。
実際、彼の全体的な方向性は長年にわたって変わっていません。それは常に自己教師あり学習です。自己教師あり学習は実際には 2 つの部分に分かれています。1 つは知覚に基づく自己教師です。もう一つのより重要な部分は、具体化された方法で自己監視をどのように行うか、つまり私たちは現在ワールドモデルを行っており、これが彼の信じている方向です。

実はこの名前を付けたのは、David Ha と Jürgen Schmidhuber が書いた World Model という記事を読んで、その名前がとてもかっこいいと思ったからです。

自律知能のためのシステムアーキテクチャ、Mata AI

「シリコンバレー101」：ヤンの研究の方向性は、OpenAI や Anthropic の研究の方向性とは異なると思いますか?
チェン・ユーベイ：本当に何か違うことを言いたいのであれば、ヤンが望んでいることは、モデルにはいくつかの特性が必要であるということだと思います。 1 つ目は、具現化できることです。これは、モデルが単なるデータの山ではなく、最終的にはモデルが独自に世界を探索できることを意味します。
「シリコンバレー101」：違いは何ですか?誰もが最終的にそのような結果を達成したいと考えているようです。
チェン・ユーベイ：実行は異なります。たとえば、OpenAI はスケーリングの法則だと思います。これは、より多くのより優れたデータ、より多くの計算とより大きなモデルを意味します。しかし、ヤン氏はさらに科学的だと考えています。本当に人間に近い知性をもたらしたいのであれば、何が必要なのでしょうか。データを積み上げるだけでは不十分だと感じるでしょう。
「シリコンバレー101」：したがって、ヤンは実際にはブラックボックスとホワイトボックスの研究を合わせたものに相当します。

チェン・ユーベイ：現時点では、ヤンはこれが科学として発展するかどうかについてはそれほど気にしていないと思います。彼は、このシステムがより良く機能することを望んでいます。とても上手なこと。

「シリコンバレー101」：OpenAI がスケーリング則が良い結果を達成できることを証明したとき、ヤン氏の科学研究の手法や考え方は変わったと思いますか?それとも、彼はまだ元の路線に固執しているのでしょうか？

チェン・ユーベイ：実際、彼はスケーリング法に反対しているわけではありません。この点については誰もが矛盾しているとは思いません。実際に考えられる違いは、OpenAI の仕事の多くは実際には製品指向であり、エンジニアリングにおいて極限まで実行されているのに対し、ヤンは実際にはより科学的な形式で研究を行っているということです。

これらの問題について考えるとき、彼は実際には製品とはあまり関係がありません。ただ 1 つのこと、それはインテリジェンスを実現する方法について考えています。なぜなら、彼はこの分野に長く携わり、8年以上もこの分野に深く関わってきたため、これらの問題を見るときにまだ自分の理想に固執している可能性があります。

「シリコンバレー101」：知能を自律的に学習させることがヤンの研究の最初の特徴です。他にどのような特徴がありますか?

チェン・ユーベイ：また、Yann が常に信じている JEPA (Joint Embedding Predictive Architecture) と呼ばれるものもあります。つまり、モデルが独立して学習する能力を持っていることはもちろんですが、それよりも重要なのは、モデルがデータを学習する際に、より高いレベルのルールも学習できることです。

実際、現在 2 つのグループがあり、1 つのグループは学習を通じてデータを完全に再構成することを望んでいます。これは圧縮のアイデアと考えられますが、この画像の再構成には詳細が多すぎるため、Yann はこの画像に完全に戻ることを望んでいません。システムについて判断する際、詳細は最も重要な情報ではありません。

「シリコンバレー101」：この点はバークレー校の指導者である馬毅氏との違いですか？

チェン・ユーベイ：実際、この観点では両者の間に本質的な対立はないが、表現の仕方が異なる。マー先生は、この世界の法則は単純だと感じており、これらの詳細は実際には下流のタスクや判断に有害であるため、それらの高度な法則を見つける必要があると考えています。

実際、高レベルのルールは一般に単純であるため、この 2 つは同じです。マー先生はよく「すべては圧縮だ」と言いますが、ヤンの観点から見ると、圧縮は確かに正しいのですが、実際にはデータの階層構造が異なっていることがわかります。

現実世界は複雑なので、現実世界の細部を掘り下げてみると、多くのものが実際には低レベルの構造であることがわかります。データには構造があり、構造があるものはすべてノイズからの逸脱を反映しています。つまり、構造がまったくないものはすべてノイズであり、ノイズを残すものはすべて構造があることを意味します。

これらの構造を学習していきますが、構造にはさまざまなレベルがあります。しかし、より大きなレベルに上がると、そのレベルで見ると、これらのことは実際にはもはや重要ではなくなっていることがわかります。

つまり、ヤン氏の見解は、圧縮は正しいが、そのような階層的な学習が必要であり、信号内のすべての構造を学習し、より高次の構造を学習する必要があるということです。ただし、最も高度な構造は、多くのものが低レベルであり、ノイズなどの情報量が最大であるため、圧縮全体に占める割合が大きくなく、最適化プロセス中に失われる可能性があります。上に行くほど、そのような構造物は見つけにくくなります。

なぜ？最適化された損失関数は目的関数であるため、このルールが見つかるかどうかは、損失にほとんど影響を与えない可能性があります。メインはこの2点だと思います、1つは世界モデル、もう1つはこの階層表現です。

ヤン・ルカンがニューヨーク大学で講演

「シリコンバレー101」：特に印象に残っている特質は何だと思いますか?

チェン・ユーベイ：私が特に感銘を受けたのは、おそらく彼らが物事に取り組む集中力と純粋さでした。

あるとき、ヤンとランチをしたとき、彼は、「あなたが若い頃に欲しかったものはすべて私にある。でも、私にはもう時間がない。だから、残りの時間は自分が本当に信じていることをするためにしか使えない」と言っていました。

そのような科学者と一緒に仕事をすると、彼らの気質の影響を受ける可能性があり、彼らが現在置かれている立場や彼らが持っているものに到達する前でさえ、彼らの視点から世界を少し見ることができます。

ですから、選択をしたり何かをするとき、あなたは現在の立場を超えて、いつか私も彼のようにすべてを手に入れたらどうするだろうと考えるかもしれません。

「シリコンバレー101」：彼はあなたの決定を何か変えましたか？

チェン・ユーベイ：はい、多くの選択をするときにこれについて考えさせられます。博士課程への入学初日、指導教官から 2 つのことを言われたのを覚えています。

一つは、私にたくさんの記事を投稿する必要はないということですが、私が投稿できるような記事が時を超えて、20年後にこの記事を読んでもまだ新鮮であることを願っています。多くの仕事には明確な時代感覚があるため、これは実際には非常に困難ですが、本当に深遠な思考の中には数百年も続く可能性があるため、これは非常に高い目標であり、あなたがもうすぐ達成できるかもしれません。退職することを確認する。しかし、それは魂の苦痛を引き起こす。それは、時間と共存できる何らかの仕事を粘り強く続けることができるかどうかということである。

2 つ目は、学者には自分なりの態度を持ってほしい、ということです。a や b や自分にできると思うなら、それをすべきではありません。つまり、この仕事をしていると、この仕事があなたを必要としているのではなく、この仕事を必要としているのはあなた自身であることがわかります。これは投機的な考え方です。これは実際、私が彼らに見ている同様の気質です。つまり、彼らは群衆に従うのではなく、独自の態度を持ち、自分自身の意見を見つけることを望んでいます。

したがって、研究の方向性を選択するときは、自分が行っている研究が推測的なものであるか、それとも真の主力であるかをその時々で判断します。

彼ら、特にヤンの素晴らしいところは、このほとんど絶望的な時期を乗り越えて夜明けを迎えることができることだと思います。どん底を経験したことがない人は、最も暗い瞬間を経験したときに十分に落ち着くことができないかもしれません。ビジョンと粘り強さを使ってこの短い期間を乗り越えて、それが正しいことを証明してください。とても興味深い気質。

「シリコンバレー101」：ヤンについて同意できない科学的見解はありますか?

チェン・ユーベイ：時々彼は無愛想になることもあった。たとえば、彼は最近、研究者であれば大規模な言語モデルを研究すべきではないと言いました。この文には多くの解釈がありますが、文字通りに受け取ると、私を含めて多くの人が反対するでしょう。大規模な言語モデルには、理解して研究する価値のある構造がいくつかあると感じるかもしれません。

もちろん、ヤンが本当に言いたいのは、私が先ほど述べた、A や B のような憶測的な研究をしないでください、ということかもしれません。研究者にはもう少し粘り強く、より独創的な貢献を見つけてほしいと思います。このように言われたら、実際はもっと同意できると思います。しかし、ビッグ V として、彼の言葉は時には衝撃を与え、多くの議論を引き起こすことがあります。とても面白いと思う場所です。

「シリコンバレー101」：あなたは Meta でも働いたことがあるのですが、Yann の Meta に対する最大の貢献は何だと思いますか?

チェン・ユーベイ：まず最初にすべきことは、メタ AI の構築を支援することです。メタAIの構築を計画していた際にマークに見出され、また、初期にベル研究所に勤めていたため、当時のベル研究所の様子に憧れを抱いており、そのような研究所を再現したいという理想も抱いていた。メタで。また、このコンセプトに従って、彼はメタ AI 分野で非常に優れた人材のグループを採用し、訓練し、この分野に多大な貢献をし、この分野全体の発展を促進しました。

「シリコンバレー101」：たとえば、Meta llama がオープンソースの道を選んだ理由は、Yarn の全体的なアイデアと非常に一致しているはずです。

チェン・ユーベイ：はい、はい、オープンソースは確かにヤンが主張しているものです。ただし、Meta が将来的にオープンソースであり続けるかどうかはわかりません。結局のところ、Meta も競争に直面することになるからです。しかし、これは、最終的にどの程度うまく実装できるか、どこまで実現できるかということは、Yann のコンセプトだと思います。実際に実行できるかどうかは、開発環境全体に依存します。

「シリコンバレー101」：現在、大型モデルの研究全体は科学者によって推進されなければならないと思いますか?それとも徐々にエンジニアリング主導のものになるのでしょうか？

チェン・ユーベイ：初期の頃は科学者主導だったように思います。過去 2 年間での主な進歩はプロジェクトの実行によるものだと思います。データの品質は向上しましたか?データは増えましたか？流通が豊かになったのでしょうか？計算は並列化できますか?すべてはエンジニアリング分野の非常に重要な詳細によって引き起こされます。 0から1への開発には科学的なブレークスルーが必要ですが、1から100へはエンジニアリングの厳密さと実行力が必要であり、異なる役割を持った人が異なる段階で推進する必要があります。

「シリコンバレー101」：今、誰もが GPT 5 を楽しみにしています。GPT 5 が登場したら、それは科学的な問題になると思いますか、それとも工学的な問題になるでしょうか?

チェン・ユーベイ：データの質や計算能力の拡大も含めて、スケーリング則の実現にはまだまだ長い道のりがあるとさえ考えられます。しかし同時に、私たちが現在発見している最も強力な方法がスケーリング則であるとしても、それだけでは明らかに十分ではないと思います。

では、他に何が必要なのでしょうか？必要なのは人間のような高い効率性だと思います。では、どうすればそのような効率性を実現できるのでしょうか。データがトリガーになることもあれば、それ以外のこともあるかもしれないので、AGIに至るまでのプロセスで言うと、0から1への比較的大きな変化があるはずだと思います。

「シリコンバレー101」：たとえ科学が進歩したとしても、工学にはまだ改善の余地がたくさんあります。

ニュース

ディープラーニング科学者のYann LeCunとビッグモデルについて考える方法について話しましょう

導入

私の連絡先情報