2024-09-27
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
この記事の内容は、「agixに何に投資するか」の 6 記事。世界中の数千のテクノロジー上場企業から選ばれた「ai純度の高い」企業40社を組み合わせたものです。 agix インデックスは、agi プロセスを位置付けるための座標であり、投資家が ai アルファを把握するための貴重なツールも提供します。 「agix に投資する対象」セクションでは、agix インデックスのポートフォリオ企業の詳細な分析を実施し、市場に包括的な ai 投資のリファレンスを提供します。
テスラ 同社は、agix index ポートフォリオの上位 10 社に入る持株会社の 1 つであり、過去 10 年間における自動運転とロボットへの大規模投資により、物理世界で最強の agi プレーヤーとなる機会が得られました。最近、テスラは 2024 年の株価上昇の第 2 波を先導し、過去 2 か月で最高水準に達しただけでなく、今年の下落をすべて消し去り、この成長を牽引する最も重要な要因となっています。 。
ark の分析によると、テスラは 10 月 10 日にロボタクシーを正式にリリースします。 2029年までにテスラの企業価値と収益の90%近くが自動運転タクシー事業によるものになると予想されている。テスラは今週、新車販売を促進するためにfsdオプションの価格も引き下げた。同時に、fsdオプション率の引き上げは、テスラがfsdのパフォーマンスを向上させるためにより多くのデータを収集するのにも役立つだろう。オプティマスロボットはまだ大規模な商業化には程遠いが、テスラ工場の労働者の代わりにオプティマスが使用され、人間の効率が向上すれば、アークのテスラモデルを参照すると、オプティマスがテスラ工場に導入されれば、利益は大幅に改善される可能性がある。今後 5 年間の導入により、最大 30 ~ 40 億米ドルのコストを節約できます。
01.
自動運転はagiによく似ている
サラ・グオ:今日の自動運転の発展についてどう思いますか?自動運転が普及するまでどれくらいかかるでしょうか?
アンドレイ・カルパシー: 私は自動運転の分野で 5 年間働いてきましたが、この分野は非常に興味深いと感じています。この分野の現状の発展から判断すると、自動運転とagiは非常に似ています。私が自動運転の分野に精通しているせいもありますが、自動運転の分野ではagiに近いと感じます。たとえば、waymo はすでに有料で利用できる製品があり、多くの人が waymo を体験しており、商用製品になっています。
私が waymo を初めて体験したのは約 10 年前で、当時友人が waymo で働いていて、技術的な観点から言うと、10 年前に waymo に乗って一周させてもらいました。 もうとても良いです, しかし、デモから都市で大規模に展開される製品になるまでのプロセスには10年かかりました。もちろん、waymoは現在も拡大しています。
エラド・ギル:デモから有料化までに10年かかったのは、どの程度の規制によるものなのでしょうか?自動運転技術はいつ完成すると思いますか?
アンドレイ・カルパシー:実際、自動運転は10年前にはかなり成熟したレベルに達していたと思いますが、30分のデモでは過去10年間に直面したすべての課題を完全に実証することはできません。デモと実際の製品の間には大きなギャップがあります。もちろん、規制上の理由もあります。
しかし、自動運転の分野ではある程度agiに到達していると思います。同時に、デモを行うことと世界的に宣伝されることの間には大きな隔たりがあります。waymo はすでにサンフランシスコで稼働していますが、世界市場での普及という観点からは、まだ大きな影響と成果をもたらしていません。ここがagiと自動運転の似ているところだと思います。
自動運転の分野に戻りますが、waymo は技術的には tesla よりも進んでいると多くの人が考えていますが、私個人としては、tesla は実際には waymo よりもさらに進んでいると考えています。この見方は現在の主流の意見と同じではないかもしれませんが、私は tesla の自動運転に自信を持っています。
tesla はソフトウェア レベルの問題に直面していますが、waymo の課題はハードウェアに起因するものと比較すると、ソフトウェアの問題は解決するのが簡単です。テスラは世界中で大規模に車両を配備しているが、ウェイモはまだその規模に達していない。したがって、テスラのシステムが大規模に実装され、効率的に実行できれば、素晴らしい結果が得られると私は信じています。昨日、最新バージョンの fsd を試乗したところですが、運転体験は非常にスムーズでした。テスラの自動運転システムの一連の動作を見ると、今日のテスラは自動運転においてかなり良い成果を上げていると感じます。
全体として、テスラの自動運転の最大の課題はソフトウェアの観点からのものであり、ウェイモの課題はよりハードウェアから来ていると思います。現在の視点から見ると、ウェイモが強い立場にあるように見えますが、10年間で見ると、規模や収益モデルの点ではテスラの方がさらに先を行くのではないかと思います。
エラド・ギル:ソフトウェアの問題を解決するにはどれくらい時間がかかると思いますか? waymo の車両には高価な lidar とセンサーが多数搭載されているとおっしゃいましたが、これらのハードウェアが、tesla のようにカメラ システムのみに依存している場合、コストを大幅に削減できるだけでなく、システムの複雑さも軽減できます。のシステムであり、より多くのモデルに適用されます。この変更はいつ実現される可能性がありますか?
アンドレイ・カルパシー: 個人的には数年以内に解決することを期待しています。実際、テスラはトレーニング段階で高価なセンサーを多数使用し、ワイヤレスなど大規模に推進できない多くのテクノロジーも開発しました。ラインセンサートラストモデル調査や地図マッピングなどテスト段階で、テスラはこのデータをビジョン システムのみに依存するテスト パッケージに合理化し、量産車両に導入しました。多くの人は、これが実際にはセンサーとコストの間の非常に賢い「裁定取引」であることに気づいていないかもしれません。カメラは十分な情報を取得できるため、ニューラル ネットワークもこの情報を処理できます。トレーニング段階では、これらのセンサーは非常に役立ちますが、テスト段階では、その役割はそれほど重要ではありません。だから、カメラに頼るだけで十分だと思います。
エラド・ギル: 自動運転分野の最近の傾向は、エッジケースに基づいて設計されたヒューリスティックアルゴリズムからエンドツーエンドのディープラーニングに徐々に移行しています。その理由とロジックは何ですか?
アンドレイ・カルパシー: エンドツーエンドは、実は私たちが最初からやりたかったことなのです。私が初めて tesla に入社したとき、最終的にはニューラル ネットワークがテクノロジー スタック全体を置き換えるだろうと話し合いました。当時のシステムには大量の c++ コードがありましたが、現在ではテスト スイートで実行される c++ コードはほとんどありません。ニューラル ネットワークは、当初は画像認識処理のみに使用されていましたが、その後、複数フレームの画像を処理して予測結果を生成するように拡張され、徐々に c++ コードに置き換えられました。最終的に、システムは運転指示を与えるだけでよく、ニューラル ネットワークが結果を出力できます。
つまり、テスラがやっているのはエンドツーエンドのai運転だが、ウェイモはおそらくこの技術的な道を選択しなかったのだろう。彼らは試してみましたが、結果は満足のいくものではありませんでした。
私個人としては、エンドツーエンドのルートは正しく、将来の発展にとって必然の方向であると信じています。この観点から見ると、10 年後のテスラ システムは、ビデオ ストリームが入力され、運転指示が直接出力されるエンドツーエンドのニューラル ネットワークに発展する可能性があります。もちろん、このプロセスでは、システムの各モジュールを段階的に改善する必要があります。現在の中間予測のすべてが開発プロセスにおいて誤解を招くとは思いません。むしろ、それらはシステムの重要な部分です。完全にエンドツーエンドのニューラル ネットワークをトレーニングする場合、人間の運転をシミュレートするための監視信号は非常に限られており、そのような大規模なネットワークのトレーニングをサポートできないためです。中間予測は機能や検出器の開発に役立ち、エンドツーエンドの問題の実現可能性が高まります。したがって、私の推測では、将来のエンドツーエンドの微調整を可能にするために、彼らは多くの事前トレーニングを行っているのではないかと思います。
全体として、テクノロジースタック全体をニューラルネットワークに置き換えるプロセスは必要だと思いますが、そのプロセスは段階的に行う必要があります。テスラの現在の試みは初期の成果を示しており、人々は将来への期待に満ちています。
💡
中間予測:モデルのトレーニングまたは推論中に生成される、最終ではない結果または出力。これらの予測は、複数ステップの計算プロセスの中間ステップとして機能し、モデルが徐々に最終結果に近づくのに役立ちます。これらは、階層的な意思決定、機械翻訳、マルチタスク学習などの複雑なタスクで役立ち、これらの中間結果を評価してモデルのパフォーマンスを最適化し、バイアスを修正し、モデルのトレーニングを改善できます。さらに、中間予測はモデルの内部動作を説明するのに役立ち、モデル調整の参考になる可能性があります。
02.
テスラもロボット企業です
サラ・グオ: あなたはテスラを離れる前に、テスラの人型ロボットプロジェクトにも参加していました。自動運転からロボットまで、どのような技術が移転できるのか?
アンドレイ・カルパシー: 基本的にすべてのテクノロジーを移行できます。しかし、人々はまだこのことに気づいていないのではないかと思います。ロボットと自動車の間には大きな違いはありません。テスラを単純に自動車会社として理解するのは、実は誤解だと思います。
テスラは実際には、自動車を製造するだけでなく、自動機械も製造する大手ロボット企業です。量産というのは全く違う分野で、テスラは大型ロボットに特化した会社だと思います。
自動車テクノロジーから人型ロボットへの移行には、実際にはそれほど余分な作業は必要ありません。実際、初期のオプティマス ロボットは、車とまったく同じコンピューターとカメラを使用していたため、自分を車だとさえ思っていました。興味深いことに、ロボット上で自動車用に設計されたニューラル ネットワークを実行していたところ、ロボットがオフィス内を歩き回ると、ロボットが認識した「運転スペース」が実際に「歩行可能なスペース」になりました。多少の微調整は必要ですが、これはテクノロジーの多用途性を示しています。
サラ・グオ: ある観点から見ると、テスラは確かにロボット企業と見なすことができ、多くのコアテクノロジーはプラットフォーム間で移行できます。実際、生産ロボットに欠けている重要な部分は、実行メカニズムと関連するアクション データです。
アンドレイ・カルパシー: はい、まだ完全ではない部分もありますが、多くのテクノロジーは直接移行できることを強調したいと思います。たとえば、オプティマス プロジェクトは、イーロン マスク氏がプロジェクトを発表した後、すぐに開始され、関連するチームとツールがすぐに設置されました。 cad モデル、サプライ チェーンなどのリソースはすぐに準備されました。そのとき私は、テスラは実際に社内にすでにかなり豊富なロボット製造リソースを持っており、そのすべてがテスラ車から得られたものであると感じました。この感覚は、「トランスフォーマー」で示されているものに似ています。車がロボットに変形した後は、すべてが同じですが、いくつかの点を少し調整して再構成する必要があります。ハードウェアに加えて、全体の考え方、アノテーション チーム、さまざまなコンポーネント セクション間の連携などが変わります。ただし、一般に、一部の経験とリソースは移転できます。
エラド・ギル:人型ロボットの最初の応用シナリオは何になると思いますか?
アンドレイ・カルパシー: 多くの人は、ロボットが洗濯などの日常業務を手伝ってくれると考えているでしょう。しかし、これらの技術が実際に実用化されるまでには長い時間がかかるのではないかと思います。消費者直販は人型ロボットの出発点としては適切ではないと思います。なぜなら、「転倒」などの事故を避けるなど、高齢者などの人々と対話する際のロボットの安全性をまだ完全に確保できていないからです。おばあさん」のように、このような状況は法的なリスクが非常に大きいので、この方向性は適切ではないと思います。多くの単純なインタラクション シナリオでも、ロボットが人を直接転倒させる可能性があります。
しかし、今日のテクノロジーは十分に成熟しておらず、さらなる改善が必要です。したがって、ロボット開発者にとって、第一段階の最良の顧客はロボットそのものであると考えます。これをロボット開発者が実現できれば、まずこれらの技術を社内でインキュベートし、その後工場に応用することが可能になります。 、マテリアルハンドリング(マテリアルハンドリング)などの分野で、第三者と契約を結ぶ必要がなく、弁護士や契約書を伴う煩雑な手続きを回避できます。
社内でのインキュベーションと成功の後、b 市場に参入し、大規模な倉庫業を営むいくつかの企業と協力してマテリアルハンドリングなどのタスクを実行できます。これらの協力では、ロボット企業は市場セキュリティ システムを構築でき、複数の企業による導入が成功した後、段階的に消費者向けアプリケーションに移行できます。今後、コンシューマー向けに多くのロボットが開発されると思います。例えば、unitree が開発した製品は、私自身も unitree g1 を購入したいと思っています。
ロボットがさまざまなシーンで普及すると、完全なエコシステムが形成され、誰もがロボット プラットフォームに基づいてさまざまな種類のロボットを開発するようになります。しかし、規模の観点からは、段階的に進歩する道が最も合理的であると思います。
まずはマテリアルハンドリング(資材運搬)関連の仕事から始めて、徐々によりニッチで需要の高い分野に拡大していくかもしれません。個人的に特に気になっているアイテムが「葉吹き機」です。たとえば、オプティマス ロボットが街を歩いて落ち葉をすべて丁寧に拾い上げ、葉吹き機を使用する必要がなくなる日が来るかもしれません。これは素晴らしいプロジェクトだと思いますので、これが早期の応用シナリオになることを願っています。
サラ・グオ: ロボットの形式に関しては、人型ロボットの方が良い選択であると考える人もいます。今日の物理世界の設計の多くは人間の行動習慣に基づいているため、人型ロボットに基づく統一されたハードウェア形式の開発モデルは、ますます多くのタスクを完了できるからです。 .タスク、別の見方は、人型ロボットが必ずしも万能ロボットに対する唯一の答えではないということです。この問題についてどう思いますか?
アンドレイ・カルパシー: 多くの人は、さまざまなロボット プラットフォームの固定コストの複雑さを実際には過小評価していると思います。そのため、ユニバーサル ロボットのルートは、統合されたプラットフォームに基づいてさまざまなタスクを実行することになります。試み。
したがって、人型ロボットには実際に大きな可能性があり、人間が簡単に遠隔操作してデータ収集を支援できると思います。同時に、先ほど述べた視点の 1 つと同様に、世界全体は人間の行動や習慣を中心に回っています。これが人型ロボットが重要であるもう 1 つの理由です。
もちろん、将来的に人型ロボットにもさまざまな変化が起こる可能性がありますが、新しいロボットプラットフォームにおいては、固定費は考慮すべき重要な問題です。
また、情報を共有し、さまざまなタスク間で互いに学び合うことで、より多くのことを得ることができるということも強調したいと思います。
aiの分野では、複数のタスクを処理できるニューラルネットワークを構築し、複数のタスクを通じて相互に学習して全体的な知能レベルを向上させたいと考えています。言語モデルの興味深い点は、言語モデルがテキストを処理するためのマルチタスク モデルとして機能し、さまざまな種類の問題を処理しながら、これらのタスク間で情報を共有できることです。しかし、これらのタスクはすべて、実際には単一のニューラル ネットワークを通じて実行されます。
同様に、葉摘み作業中に収集されたデータが他の作業を完了するのに役立つことを期待していますが、特定の作業専用にシステムを開発した場合、利益率が狭くなる可能性があります。
サラ・グオ: unitree g1 のようなロボットの価格は現在 30 万ドル程度であり、人型ロボットの分野は現在低コスト化を実現しているようです。、高機能フラットバランスが難しいですが、車輪構造を採用し、特定の作業を行うためにロボットアームを追加すれば、よりコスト効率の高い汎用ロボットが実現できる可能性が高まるのではないでしょうか。
ユニツリー g1 ロボット
アンドレイ・カルパシー:ハードウェアの観点からすれば、より安価な汎用プラットフォームを探すのは理にかなっています。状況によっては、足の代わりに車輪やその他の構造物を使用してタスクを完了する方が効率的な選択かもしれませんが、これは局所的な最適解を追求している可能性があると思います。長い目で見れば、おそらく 1 つの形式を選択し、それを完璧に磨き上げる方が賢明だと思います。そして、人間の心理的な観点から見ると、人型ロボットの利点はより明らかであり、人々は親しみを感じ、触れ合いたくなるでしょう。
もちろん、不気味の谷効果を考慮すると、おそらく抽象的な形式の方がユーザーに人気があるでしょう。なぜなら、仕事を遂行するために 8 輪のモンスターが登場したとしても、人々がそれを好むか、あるいはより恐れるかはわかりません。
エラド・ギル: 機械仕掛けの犬も一つの形態ルートであり、犬は人間にとってより身近な形態でもあります。
アンドレイ・カルパシー:はい、でも「ブラックミラー」を見た人の多くは、機械の犬を特定のホラーシーンと組み合わせるかもしれないので、心理的に受け入れられるかどうかは人によって異なります。それに比べて、人型の形は人々にとって理解しやすいかもしれません。その機能と動作。
エラド・ギル:人型の形状を実現したい場合、技術的な観点からどのような重要な進歩を達成する必要があるでしょうか?
アンドレイ・カルパシー: この質問に対する明確な答えはまだないと思います。ここでのより興味深い議論の 1 つは、人型ロボットの設計において、下半身は模倣学習に適しておらず、上半身 (上半身) については、より遠隔制御に依存しているということです。 、データ収集、エンドツーエンドの学習。ある意味、ロボット システムは複数のテクノロジーを統合する必要がありますが、これらのシステムがどのように相互に連携するのかはまだよくわかりません。
💡
倒立振子:振り子を不安定な直立位置に保つという問題は、ロボット工学、航空宇宙、その他の分野で広く応用される古典的な制御問題です。従来の倒立振子制御方式には、pid 制御、線形二次レギュレータ (lqr)、スライディング モード制御などが含まれます。
aiの発展に伴い、rlパスでは、強化学習手法が倒立振子の制御に徐々に導入され、正確なモデルがなくても最適な戦略を学習できるため、大きな注目を集めています。強化学習に基づく倒立振子のバランス制御アルゴリズムは非常に実用的な技術であり、ロボット工学やオートメーションなどの分野で広く使用されています。
エラド・ギル: ロボット工学の分野の何人かの人々とコミュニケーションをとると、彼らは動力駆動、制御、デジタル操作などの問題に非常に関心を持っていることがわかりました。
アンドレイ・カルパシー: はい、初期段階では、システムが 95% の確率で自律的に実行できるようになるまで、ロボットに人間が地面からアイテムを拾う真似をさせるなど、確かに多くの遠隔制御シナリオが存在すると思います。その後、徐々にロボットの作業割合を増やし、人間がオペレーターからスーパーバイザーに変わっていきます。
実際のところ、特別な技術的な障害はなく、多くの基本的な作業を行う必要があるだけだと思います。私たちは、transformer アーキテクチャなどの適切なツールとリソースをすでに持っています。このようなテクノロジーは、適切なデータを準備し、トレーニングして実験し、最終的に導入するだけで済みます。プロセスは複雑ですが、実際には本質的な技術的なボトルネックはそれほど多くありません。
03.
合成データ、小規模モデル、llm 企業
サラ・グオ: ラージブロブの研究に関して、私たちはどの段階にいると思いますか?
💡
大きなブロブの研究:通常、ディープラーニングとコンピュータービジョンの分野における研究の方向性またはテクノロジーを指します。 blob は「バイナリ大」です 物体「binary large object」の略で、重要な視覚情報が含まれているか、特定のオブジェクトやシーンの部分を表す可能性がある画像または特徴マップ内の大きな連続領域です。これらの大きな領域を研究することは、モデルを理解し、理解する能力を向上させるのに役立ちます。大規模な視覚的特徴を処理します。
アンドレイ・カルパシー: 私たちは今、急速な発展段階にいると感じています。 transformer は単なるニューラル ネットワークではなく、強力で多用途なニューラル ネットワークです。
たとえば、誰もがスケーリング則について議論するとき、多くの場合、transformer アーキテクチャの特性に言及します。 transformer が登場する前は、主にスタックされた lstm を使用して作業を行っていましたが、明確なスケーリング則は見つかりませんでした。 transformer は、これを明確にし、効果的に拡張する最初のモデルです。
💡
スタック型 lstm は、複数の lstm (long short-term memory) 層を積み重ねることによって形成されるディープ ニューラル ネットワーク構造を指します。
transformer は一般的なコンピューター、より具体的には微分可能ニューラル コンピューター (dnc) に似ています。非常に大規模な入出力を実行させ、バックプロパゲーション法を通じてこのコンピューターをトレーニングすることができます。最終的には、自己進化型のミッション完了システムになるでしょう。
💡
微分可能ニューラル コンピューター (dnc):コンピュータのメモリ システムに似た、情報の保存と取得が可能な特殊なタイプのニューラル ネットワーク。これは「微分可能」であり、バックプロパゲーションを通じてパラメータを最適化して、複雑なタスクを解決する際のパフォーマンスを向上させることができることを意味します。
transformer は、私たちがアルゴリズムの分野で偶然発見した奇跡ですが、その背後には、残差接続、層の正規化、アテンション ブロックなど、実際に多くの重要な革新があります。従来の方法とは異なり、transformer は勾配を消失させる非線形活性化関数を使用しません。代わりに、技術文書で言及されている革新的なテクノロジーを統合し、トレーニングの効率とパフォーマンスを大幅に向上させます。
サラ・グオ:この間、データウォールについての議論があり、次世代モデルのスケールアップには非常にコストがかかります。データの問題についてどう思いますか?
アンドレイ・カルパシー: これは私たちが最初から議論したことです。 transformer が誕生する前は、確かにアーキテクチャの問題が障害になっていましたが、現在では、新しいボトルネックは主に損失関数とデータセットに焦点が当てられています。したがって、多くの企業や研究者は、transformer アーキテクチャの変更に焦点を当てなくなりました。たとえば、llama には特に明らかなアーキテクチャ上の革新はありません。唯一の大きな変更は、「回転位置エンコーディング」(rope 位置エンコーディング) かもしれません。transformer 自体は過去 5 年間で大きな変化はなく、全員が既存の基盤に基づいたトレーニング、データセット、損失関数の革新に重点を置いています。
💡
「ロータリー位置エンコーディング」 (rope、ロータリー位置エンコーディング):変圧器モデルの位置エンコード技術。 rope は、ベクトルを回転させることで入力シーケンス内の位置情報を表現します。従来の位置エンコーディングと比較して、長いシーケンスを処理する際にモデルに多くの利点をもたらします。その主な機能は、相対距離情報を維持しながらベクトルの角度を回転させることによってシーケンス内の各要素の位置をエンコードすることです。このアプローチにより、さまざまな場所でモデルの柔軟性と拡張性が向上し、長距離の依存関係を扱うタスクに特に適しています。
サラ・グオ:インターネット上に十分なデータがない場合、私たちは合成データ、または同様のより高価なデータ収集方法を使用し始めるのでしょうか?
アンドレイ・カルパシー: 現在、多くの研究が言語モデルに焦点を当てています。インターネット データは、transformer にとって最も理想的なデータ ソースではありませんが、モデルの機能を継続的に向上させるツールとして使用できます。インターネット データは単なる web ページの集合ですが、本当に価値があるのは私たちの脳内にあるものです内なる独白——その複雑で深い思考の軌跡。
「思考の足跡」に似たデータを数十億個持つことができれば、ある程度はagiに近づくことができるかもしれません。しかし、これらのデータは現在存在していないため、現在の研究は主に既存のデータセットを「内なる独白(インナー・モノローグ)」のような形式に再編成することに焦点を当てています。これが合成データの重要性です。現在のモデルは、次世代のモデルを生成するのに役立ちます。これは、はしごを登るように、段階的に目標に近づいていくような、継続的な反復的な進歩のプロセスです。
エラド・ギル:合成データはどの程度役に立ちますか?おっしゃるとおり、各モデルは次のモデルのトレーニングに役立つか、少なくともデータ アノテーション (その一部は合成データである可能性があります) などのタスク用のツールを提供します。
アンドレイ・カルパシー: モデルの機能を向上させるには合成データが不可欠だと思います。ただし、合成データを使用する場合は注意してくださいなぜなら、いつモデルが「崩壊」するか分からないからです。たとえば、chatgpt にジョークを教えてもらうとき、さらに数回試してみると、たくさんのジョークを知っているように見えても、実際にはそのジョークしか知らないことがわかります。崩壊" "、つまり、単一の出力では問題ありませんが、この特定の方向の出力では、モデルの多様性と柔軟性が大幅に低下します。これは、データを生成するとき、特に合成データを生成するときに問題になります。 「崩壊」しやすい これは、単一すぎるデータセットによって引き起こされる問題を避けるために、実際にはデータの多様性と豊富さ、つまり「エントロピー」が必要だからです。
💡
モードの折りたたみ:これは、敵対的生成ネットワーク (gan) で発生する現象で、生成モデルが多様なサンプルではなく、非常に類似したサンプルまたは繰り返しのサンプルを生成し始める現象です。これは、モデルがデータの豊かな多様性を学習できないことを示すため、問題として見られることがよくあります。
たとえば、誰かが、「私は教師です」または「私はアーティストです、私はここに住んでいます、私はこの仕事をしています」など、10 億の架空のキャラクターの背景を含むキャラクター関連のデータセットをリリースしました。合成データを生成するときは、実際に特定の人物と対話するプロセスを想像させることで、モデルに探索する余地が与えられ、より多くの情報が出力され、データセットの多様性が高まります。したがって、データ分布の安定性を維持しながらエントロピーを慎重に注入する必要があります。これが合成データを生成する際の最大の課題です。
サラ・グオ:この研究から人間の認知について何が学べると思いますか?たとえば、思考の軌跡の形成プロセスを理解することは、脳の仕組みを理解するのに役立つと信じている人もいます。
アンドレイ・カルパシー:研究モデルと人間の認知はまったく別のものですが、場合によっては比較できることがあります。たとえば、transformer はいくつかの点で人間の脳よりも強力であり、モデルは人間の脳よりも効率的なシステムであると私は考えていますが、データの制限により、現在のパフォーマンスは人間の脳ほど優れていません。しかし、これは大まかな説明にすぎません。
たとえば、メモリ能力の点では、長いシーケンスを処理する場合、トランスフォーマーは人間の脳よりも優れたパフォーマンスを発揮します。シーケンスを与えて前後の計算を実行するように依頼すると、シーケンスの前部と後部を記憶してタスクを完了できますが、これは人間の記憶力では困難です。したがって、ある面では、勾配最適化に基づくトレーニング方法は実際に人間の脳よりも効率的であると思います。また、将来的には、このモデルはいくつかの認知レベルで人間を本当に超える可能性があります。
エラド・ギル:メモリ容量はコンピュータの強みの 1 つです。
アンドレイ・カルパシー: はい、実際には人間の脳には多くの制限があると思います。たとえば、作業記憶の容量は非常に限られていますが、それに比べてトランスフォーマーの作業記憶ははるかに大きく、その差は依然として広がっています。さらに、トランスフォーマーはより効率的に学習します。人間の脳の働きは、背景、責任、環境などの多くの隠れた要因によって制限されており、そのため人間の脳システムはよりランダムで制限されています。したがって、いくつかの側面では、これらのモデルはすでに人間の脳よりも強力ですが、まだその可能性を最大限に発揮していないと感じています。
エラド・ギル:人間と ai の関係については、ai を外部ツールとして使用するという議論もあれば、人間と ai モデルがより深く統合されるだろうという議論もあります。この問題についてどう思いますか?
アンドレイ・カルパシー: 「コンピュータは人間の脳の自転車である」とよく言われるように、技術ツールは常に人間の能力から派生したものであり、人間と ai の統合はある程度達成されていると思います。ただ、現在のモデルの問題は情報の入出力プロセスのボトルネックにあるため、人間とaiの統合にはまだまだ継続的な試みが必要です。ただし、モデルが完成していれば、これらのモデルの使用は非常に簡単で、いくつかの簡単な操作で実現できます。したがって、いくつかの障害はありますが、現在のテクノロジーにより、この統合は比較的簡単かつ実現可能になっています。
エラド・ギル:ai分野の一部の人々は次のように考えています。将来、私たちとaiが衝突しても大丈夫
人間とaiの何らかの融合によって解決される。
アンドレイ・カルパシー: はい、これは neuralink の哲学と非常によく似ています。この融合がどのようなものになるのか正確にはわかりませんが、明らかなことは、人間とツールの間の入出力の待ち時間を短縮したいということです。これは、大脳皮質に新しい皮質を追加するものと考えることができます。この新しい皮質はクラウドベースであり、本質的には脳の次の層です。
エラド・ギル: 存在する アッチェレランド この本にも同様の前提があり、ウェアラブルなスマートグラスを通じてすべてが脳に伝達されます。このメガネを紛失すると、人格や記憶の一部を失うようなものです。
アンドレイ・カルパシー: こういうことが起こる可能性が高いと思います。今日の携帯電話は、まるで脳の外部装置のように、私たちの生活の一部になっています。携帯電話を置くたびに、私たちは元の状態に戻ったように感じます。
別の例として、私たちが「ユニバーサル翻訳者」を持っていて、それを長期間依存していた場合、突然それを失ったときに、異なる言語を話す人々と直接コミュニケーションする能力を失う可能性があります。ビデオで示されているように、子供は雑誌を持って指でスライドさせようとしています。何が自然で何がテクノロジーによってもたらされたのかわかりません。テクノロジーがますます普及するにつれて、人々はこれらのツールに依存するようになり、結局、何がテクノロジーで何がそうでないのか、それが消滅するまで分からないことに気づくかもしれないと考えさせられます。特に、タスクの実行を常に支援してくれる翻訳機のようなデバイスは、テクノロジーと自然の間の境界に対する人々の感受性を大幅に低下させます。
サラ・グオ: 「外皮質」というと非常に重要なもののように聞こえますが、それは誰にとっても重要です。現在、llm 研究は少数の ai ラボによって主導されており、次世代モデル トレーニングの開発を促進するリソースを持っているのは彼らだけです。今日のllm研究におけるこの構造についてどう思いますか?将来、ai技術の普及にどのような影響を与えるでしょうか?
アンドレイ・カルパシー: 実際、llm のエコシステムは現在いくつかのクローズド プラットフォームによって独占されていますが、最下位に位置する meta llama は比較的オープンです。この現象はオープンソース エコシステムをある程度反映しています。 llm を「外層」と考えると、情報とデータのプライバシーの問題が関係します。暗号化の分野では、「キーではなく、トークンではない」という格言があります。おそらく、llm 分野では、将来、「重みではなく、頭脳ではありません」が強調されるようになるでしょう。将来、ai がすべての人にとっての新しい大脳皮質であり、この大脳皮質が特定の企業によって管理されているとしたら、人々は実際に脳を所有しているのではなく、脳を「借りている」ように感じるでしょう。
サラ・グオ: あなたは自分の脳の所有権と制御を放棄して、より強力な脳を借りるつもりですか?
アンドレイ・カルパシー: これは重要なトレードオフだと思います。将来の傾向としては、ほとんどの人が強力なクローズド ソース モデルをデフォルトのオプションとして使用することになるでしょうが、特定のケースではオープンソース システムが代替手段となるでしょう。現在と同じように、一部のクローズド ソース モデルのプロバイダーが api に問題を抱えている場合、人々はオープンソース エコシステムに目を向け、より自分をコントロールできていると感じます。
これは、将来の脳テクノロジー開発の方向性でもあるかもしれません。問題が発生した場合、ほとんどの場合、依然としてクローズド システムに依存している一方で、オープンソース システムに切り替えることができます。オープンソース システムを前進させ続けることは重要ですが、今日ではおそらく誰もがこの問題を認識しているわけではありません。
エラド・ギル:ミニチュアについてどう思いますか?今日の小型モデルはどのレベルのパフォーマンスを達成できるでしょうか?
アンドレイ・カルパシー: モデルはもっと小さくてもいいと思います。データセットに問題があるため、現在のモデルは無関係な情報を保存するために多くの容量を無駄にしていると感じています。小規模モデルの鍵は、コアの認識に焦点を当てることであり、このコアは実際には非常に小さい可能性があります。これは、情報を見つける必要があるときに、モデルに多くの不必要な詳細を保存させるのではなく、さまざまなツールを柔軟に使用して情報を取得できるという考え方に似ています。
パラメータに関して言えば、目標を達成するには 1 億個のパラメータしか必要としないかもしれません。効率的な圧縮テクノロジーにより、モデルを非常に小さくすることができます。圧縮の原理は単純です。非常に大きなモデルを使用するか、より小さなモデルを監視するために大量のコンピューティング リソースを使用します。このプロセスにより、小さなモデルに多くの機能を詰め込むことができます。
この問題の本質は、今日の大きなモデルはインターネット データ セットを扱っており、認知に関連するコンテンツはわずか約 0.001% であり、残りの 99.99% は実際にはコピー権テキストなどの無関係な情報であるということです。ほとんどの情報は、思考パターンの改善に実質的な役割を果たしません。
エラド・ギル:このプロセスは数学やある種の情報学理論で説明できるでしょうか?モデルのサイズと認知力の関係は定量化できますか?たとえば、将来的には、十分な理解を得るために 10 億のパラメータ モデルだけが必要になる可能性があります。
アンドレイ・カルパシー: コストは 10 億未満である可能性もあり、モデルやエンドサイドの機器などのコストを考慮すると、モデルはこの種の認識能力を持つことができます。そして、これから議論するのは単一の認知モデルではないかもしれませんが、モデルには逐次処理に依存するのではなく、並列処理する機能が必要だと思います。これは会社と同じで、多くの作業を並行して実行できますが、情報をより適切に処理するには階層構造も必要です。したがって、将来的には、プログラマー型、プロジェクトマネージャー型など、それぞれの分野に特化して、みんなでたくさんの仕事をこなす「llmのための会社」というモデルが生まれるのではないかと考えています。また、llm で構成される「グループ ブレイン」を形成するために協力することもできます。
エラド・ギル:この llm のクラスターはエコシステムのようなもので、各部分には独自の専門知識と立場があります。
アンドレイ・カルパシー: 将来は間違いなくこの方向に発展すると思います。クラウド モデルは最もインテリジェントであり、このグループの従業員であるオープンソース モデルが多数あります。しかし、システムが非常に複雑な問題に遭遇すると、タスクは自動的にエスカレーションされ、グループの他の部分に割り当てられます。
04.
ai時代の教育
サラ・グオ:openaiを辞めた後、独自の教育プロジェクトに取り組み始めたのはなぜですか?
アンドレイ・カルパシー: 私は常に教育業界が大好きで、学ぶことと教えることが好きで、この分野に非常に情熱を持っています。
💡
カルパシー設立 エウレカ研究所は、人工知能技術による学習方法の革新を目指す、aiを核とした教育プラットフォームです。 eureka labsの最初のコース llm101n 学生は、ai 教育をよりインタラクティブで普及させることを目標に、独自の大規模言語モデルを構築するよう指導されます。このプラットフォームは、ai と教育を統合するという長年にわたる彼のビジョンを反映して、ai ティーチング アシスタントと人間のコース設計を統合することで学習体験を強化することを計画しています。
私がこの分野に参入するきっかけとなった重要な理由は、多くの ai が人間に取って代わろうとしており、多くの人が職を失っていると感じているからですが、私は人間の能力を強化できるテクノロジーにもっと興味があります。全体として、私は人類の側に立ち、ai によって人類が疎外されるのではなく、より強力になることを願っています。
さらに、すべての科目の指導タスクを達成できる「パーフェクト家庭教師」があれば、誰もがすべての科目の学習を指導できるようになり、より大きな成果を上げることができると思います。
エラド・ギル: 1980 年代以来、個別指導は個人の成績を 2 標準偏差向上させることができると文献で明確に述べられています。また、個別指導教師に関する事例も数多くあります。ai と家庭教師はどのように組み合わせることができると思いますか。
アンドレイ・カルパシー: これらの例から私は多くのインスピレーションを得ています。私は現在、ai を学習するための最初の選択肢となることを目標に、完全なコースを構築しています。以前はスタンフォード大学の最初のディープ ラーニング コースを教えていましたが、受講生の数はわずか 20 ~ 30 人でしたが、結果は良好でした。現在の課題は、この種のコースを世界中の 80 億人を対象にどのように拡大するかですが、言語や能力の違いを考慮すると、これを 1 人の教師で達成するのは困難です。
したがって、aiを活用して優れた教師の役割をどのように拡大していくかが鍵となります。教師の中心的なタスクはコース設計と教材作成であるべきですが、ai はフロントエンドで生徒と対話し、コンテンツを教えることができます。現在の ai は完全なコースを独立して作成することはできませんが、知識の説明と伝達には十分です。これにより、教師はバックエンドの設計に集中できる一方で、ai はフロントエンドで複数の言語を使用して生徒と対話し、生徒の学習完了を支援します。
サラ・グオ:ai はティーチングアシスタントに例えられますか?
アンドレイ・カルパシー: ティーチング・アシスタントは、私が検討している方向性の 1 つであり、学生と直接対話してコースを完了するように導くフロントエンドであると考えており、これは現在のテクノロジーで実現可能なソリューションであると考えています。この分野には多くの可能性があり、テクノロジーが進歩するにつれて、さまざまな調整が可能になると思います。今日の多くの企業は、モデルの機能を直観的に十分に理解しておらず、その結果、開発する製品が高度すぎたり、精度が不十分になっているように感じます。ですから、この分野には大きな可能性があると思います。
サラ・グオ: 優れたツールがあれば、人間の能力の限界にどこまで到達できるでしょうか?例えばオリンピックに例えると、この10年間でトレーニング科学技術が進歩したことにより、トップランナーの成績は10年前よりも向上しています。
アンドレイ・カルパシー: 今日はまだポテンシャルを最大限に発揮できていないように感じます。この問題は2つの観点から考えることができます。1つは、すべての人が高いレベルの教育を受けられるようにすることです。2つ目は、個人の能力の限界です。どちらの視点も貴重です。
エラド・ギル: 通常、1対1の学習指導について議論するとき、パーソナライゼーションと適応、つまり各人のレベルに応じて対応する学習課題を与えることが話題になりますが、今日、aiがそれを行うことができると思いますか。
アンドレイ・カルパシー: 今日の ai 教育分野における「簡単に実現できる成果」は翻訳アプリケーションだと思います。現在のモデルはそのようなタスクに非常に優れており、できることはまだ基本的なタスクです。
一人ひとりのレベルに応じたパーソナライゼーションを実現するのは難しいですが、不可能ではありません。これもai開発の焦点となるべきだと思いますし、それが可能になる可能性は明らかにあります。ただし、これには新しい分野が含まれる可能性があります。プロンプト プロジェクトを通じてより単純なモデルを実装することもできますが、本当に役立つ方法は、モデル自体にそのような機能を持たせ、教師のように機能させることだと思います。
これは現在開発が遅れているいくつかの領域に触れていると思います。モデルにヒントを与えることで助けを得るなど、簡単なバージョンが登場するのもそう遠くないかもしれませんが、私が話しているのは、デモで見栄えが良いだけではなく、実際に機能するソリューションについてです。私が話しているのは、各人の状況を理解し、個別の指導を提供する、本物の教師と同じように効果的に働く能力についてですが、これにはさらなる開発が必要です。
エラド・ギル: 他のモデルを導入することでこの適応を達成できるでしょうか?
アンドレイ・カルパシー: これもaiの特徴だと思います。実際には、1 つのプロンプトだけで多くの機能を実装できると思います。ということで、デモはよく見ますが、いよいよ実物を納品できるのでしょうか?したがって、いくつかのデモを作成することは難しくないかもしれませんが、大規模に使用できる製品に開発するまでにはまだ長い道のりがあります。
サラ・グオ:数週間前、学習と娯楽は異なるとおっしゃいましたが、学習には挑戦的であるべきであり、社会的地位やアイドル効果などの特定のインセンティブシステムが必要です。インセンティブ制度は人々の学習意欲をどの程度変えることができると思いますか?あなたは、人々が自分の能力の範囲内でできる限りのことをできるようにするためのリソースを提供することにもっと関心がありますか?それとも、学習意欲のある人の数を変えて、より多くの人が学習を始めるように導きたいですか?
アンドレイ・カルパシー:もともと学習に興味がない人もいるかもしれないので、学習を少しでも簡単にできるようにしたいと思っています。多くの人は就職などの現実的な必要性から勉強しますが、これは非常に合理的です。教育は知識を提供するだけでなく、人の経済的地位を向上させるため、私たちの社会において重要な役割を果たしており、それが人々が教育によって動機付けられることを望む理由です。
サラ・グオ:ポストagi社会では私たちの未来はどのようになるのでしょうか?
アンドレイ・カルパシー:ポストagiの時代には、教育はよりエンターテイメントに近づいていくと思います。教育の成功は、知識の伝達だけでなく、その知識の深い理解と応用にもかかっています。
サラ・グオ:『ユリイカ』の最初の視聴者は誰ですか?
アンドレイ・カルパシー:この最初のコースの主な対象者は学部生、特に技術分野で学位を取得している学生です。テクノロジー関連の学部コースを勉強している人は、このコースの理想的な対象者です。
アンドレイ・カルパシー:現在の教育の概念は少し時代遅れだと思います。常に学校に通い、卒業し、働くという古いやり方は、今日の変化の中で崩壊するでしょう。テクノロジーは急速に変化しており、人々は学び続ける必要があります。ですので、学部向けの講座ではありますが、実際には幅広い年齢層の方が参加できると思います。特に、関連知識をより深く理解したいと考えている技術的な背景を持つ人にとっては、得るものがあるでしょう。
今年後半にコースを提供する予定で、来年初めが適切な時期かもしれませんが、それまでに、コースの品質が期待される基準に達していることを確認するために一生懸命努力します。
エラド・ギル:もしあなたに子供がいたら、どんな知識やスキルを学ばせたいですか?
アンドレイ・カルパシー:私の答えは、数学、物理学、コンピュータサイエンスなどです。これらの科目は、実は思考力を養うための非常にコアなトレーニングになります。もちろん、この視点は私のバックグラウンドに影響を受けていますが、これらの分野は問題解決スキルの点で非常に役立つと信じています。将来agiの時代が近づいても、これらのスキルは依然として重要です。人々が多くの時間と注意力を持っているこの重要な時期には、多くの記憶を必要とするタスクではなく、比較的簡単に実行できるタスクに主に焦点を当てる必要があると思います。他の科目を学ぶことの重要性も認識していますが、より実践的で長期的な価値があるため、時間の 80% はこれらの中心的な領域に集中すべきだと考えています。
植字:フィア