ニュース

young scientists 50² forum でのshun xiangyang のスピーチ全文: 大型モデルに関する 10 の考え

2024-09-28

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

9月28日、南方科技大学で第4回「若手科学者50㎡フォーラム」が開催され、国家工程院外国人学者の沈祥陽氏が「現代の大型モデルをどう考えるべきか」と題して基調講演を行った。一般人工知能の時代」と題し、大型モデルに関する10の考えを述べた。

彼の10の考えの具体的な内容は以下の通り。

1. 計算能力が閾値です: 過去 10 年間で、大規模モデルの計算能力要件は膨大なものになりました。今日は、行き詰まりは感情を傷つけ、ブロックがないことは感情がないことを意味するという人工知能の大きなモデルを作成します。

2. データに関するデータ: gpt-5 が出ると、データ量は 200t に達する可能性があります。しかし、インターネット上にはあまり良いデータが存在しないため、将来的には、既存のデータに加えて、さらにマルチモーダルなデータ、さらには人工的に合成されたデータも含めて gpt-5 を構築する必要があります。が必要になります。

3. 大きなモデルの次の章: マルチモーダルな科学研究の取り組みが数多く行われていますが、非常に重要な方向性はマルチモーダルな理解と生成を統合することだと考えています。

4. 人工知能のパラダイムシフト: o1 の登場後、元の gpt 事前トレーニングのアイデアは、推論ステップでの学習を強化し、継続的に自己学習するプロセスである、今日の独立学習パスに変わりました。このプロセス全体は人間が問題を考えて分析する方法と非常によく似ており、大量のコンピューティング能力も必要とします。

5. 大型モデルが数千の業界に普及: 中国では大型モデル構築の波があり、業界で使用される大型モデルがますます増えています。この傾向は間違いなくそうなっており、今後は一般的な大型モデルの割合はどんどん小さくなっていきます。

6. ai エージェント、ビジョンから実装まで: スーパー アプリケーションは最初から存在します。このスーパー アプリケーションはスーパー アシスタントおよびスーパー エージェントです。

7. オープンソースとクローズドソース: meta の llama は従来のオープンソースではないと思います。それはモデルを公開するだけで、オリジナルのコードとデータを提供しません。したがって、オープンソース システムを使用する場合は、独自のシステムも作成する必要があります。モデル システムのクローズド ソース作業の全体像を真に理解する必要があります。

8. ai のガバナンスに注意を払う: 人工知能は何千もの業界と社会全体に多大な影響を与えており、誰もが一緒にそれに直面する必要があります。

9. 人間とコンピューターの関係を再考する: 人間とコンピューターの相互作用を真に理解することによってのみ、私たちは各世代のハイテク企業にとって真に商業的に価値のあるリーダーになれるのです。今話せopenaimicrosoft が加わるということは、この時代はまだ早いということですが、彼らは先を行っていますが、将来にはまだ想像の余地がたくさんあります。

10. インテリジェンスの性質: 大規模モデルは誰もに衝撃を与えましたが、大規模モデルと深層学習に関する理論はありません。についてai問題の発生は語られるだけで、明確には説明されませんでした。

「young scientists 50² forum」は、new cornerstone science foundation が主催する年次学術会議です。南方科学技術大学、tencent sustainable social value division、および new cornerstone science foundation が共同で組織しました。 new cornerstone science foundation は、tencent が 10 年間で 100 億元を投資して設立され、独立して運営されています。現在、その設立と運営は中国最大の公共福祉科学財団の 1 つです。科学資金への具体的な取り組みは良いですね。

「young scientists 50² forum」は、「科学探査賞」受賞者のための学際的な学術交流プラットフォームです。 「科学探査賞」は 2018 年に設立されました。これは、新コーナーストーン科学財団によって資金提供され、科学者が主導する公益賞であり、現在、中国の若い科学技術人材に対する最大の資金提供プロジェクトの 1 つです。各受賞者は、5 年間の資金提供期間中に少なくとも 1 回、自分の大きなアイデアと最新の探求をフォーラムで共有します。 「50²」とは、毎年「科学探査賞」によって選出される50人の若手科学者が、今後50年間の科学技術のブレークスルーに大きな影響を与えることを意味します。

以下は沈襄陽このフォーラムでのスピーチの全文:

今日は深センでの人工知能に関する最近の学びと経験を皆さんと共有する機会を得ることができてとても嬉しく思います。

続けますヤオ・チージーサー氏が話した人工知能の話題について、特に技術統合と産業移行の観点からこの問題を見て、大型モデルの時代に私たちが取り組んでいることのいくつかについてお話したいと思います。

実際、人工知能の時代における技術開発の重要性だけではありません。人類の発展の歴史全体は、技術なくしては gdp の成長もありません。私たちは、薪を掘って火を起こしたり、車輪を発明したりしたことを振り返るつもりはありません。過去 100 年間の物理学における多くの顕著な進歩と、過去 70 年間の人工知能とコンピューター サイエンスの進歩だけを見ていきます。多くの発展があったことがわかります。

今日私たちが話しているトピックは、人工知能と大型モデルです。ここ数年、誰もが新しい人工知能の経験に少しずつ衝撃を受けてきたはずです。たとえ私がこれまでずっと人工知能に携わってきたとしても、数年前の今日の状況を想像するのは難しいでしょう。

3 つの例について説明します。1 つ目はテキストからテキストを生成すること、2 つ目はテキストから画像を生成すること、3 つ目はテキストからビデオを生成することです。先ほど、海外だけでなく国内でも利用できる chatgpt のような人工知能システムについて話しました。たとえば、今日講演するためにここに来る前に、tencent の young scientists 50² forum に参加して、私の経歴を考慮してどのようなテーマについて講演するつもりか、chatgpt に尋ねました。ちょっと面白いと思うかも知れませんが、実際に使ってみると、とても良いと思います。

chatgpt は誰もがよく知っています。2 年前、openai は、段落を与えるとグラフを生成するシステムを発表しました。 7 か月前、sora をリリースしました。メッセージを送信すると、東京の街を歩くこのビデオなどの 60 秒の高解像度ビデオが生成されます。 (時間の都合上、動画はお見せしません。)

このヴィンセント図の例を示しましょう。私はコンピュータグラフィックスを専攻しており、写真の良し悪しの判断力はあるほうだと思っています。 2年前、この写真は人類史上初の人工知能によって生成された写真として発表され、アメリカのファッション雑誌(「コスモポリタン」)の表紙に掲載されました。サンフランシスコのデジタル アーティストが openai システムを使用して質問した結果、このような結果が得られました。この一節は、広大な星空の中、女性宇宙飛行士が火星に闊歩し、広角レンズに向かって歩いた。私にはそれほど芸術的な才能はありませんが、この絵を見たとき、あなたも同意してくれると思います。つまり、この人工知能は非常に知的なレベルに達しているのです。

現在、私たちは非常に素晴らしい技術と素晴らしい製品を持っており、技術からモデル、その後のアプリケーションまで、あらゆる面で大規模なモデルを構築することに熱心に取り組んでいます。先ほど、姚学士も清華大学の最新の研究について多くのことについて話しました。そこで、一般的な人工知能の時代における大規模モデルについてどのように考えるべきか、私自身の意見をいくつか共有したいと思います。

最初に考えられるのは、コンピューティング能力が閾値であるということです。

今日の一般的な人工知能、大規模モデル、深層学習に関して最も重要なことは、近年の人工知能のコンピューティング能力の全体的な成長です。

過去 10 年間で、大規模モデルで使用されるコンピューティング能力は増加し、当初は年間 6 ~ 7 倍、後には年間 4 倍以上に増加しました。そこで質問させていただきますが、年に4倍になった場合、10年後には何倍になりますか。まず考えてください。この問題については後ほど説明します。

この人工知能開発の波から最も恩恵を受ける企業は、次のとおりであることは誰もが知っています。エヌビディア, nvidiaの出荷台数は年々増加しており、そのコンピューティング能力は徐々に向上しており、企業全体の時価総額は世界3社(マイクロソフト、アップル、nvidia)の3兆ドルに入るまでになりました。最も重要なことは、毎年誰もがコンピューティング能力を求めているためです。 2024 年に購入される nvidia チップの数は依然として急速に増加しています。たとえば、イーロン マスクは 100,000 枚のカードのシステムを構築するのが非常に困難です。システムのネットワーク要件は非常に高いです。

今日はコンピューティング能力と大規模モデルについて話します。最も重要なことは、スケーリングの法則 (コンピューティング能力とデータ) です。現在、誰もが限界に達していません。残念ながら、データ全体の量が増加すると、コンピューティング能力の増加は直線的な増加ではなく、むしろ二乗的な増加に近づきます。

モデルが大きくなると、モデルをトレーニングするためにデータの量を増やす必要があるため、相対的に言えば、正方形の成長に似ています。したがって、コンピューティング能力に対する要件は過去 10 年間で非常に大きくなりました。だから一つだけ言っておきます。今日は人工知能の大きなモデルを作ります。もしそれが行き詰まったら、それはあなたの感情を傷つけます。もしそれが行き詰まらなければ、あなたは感情を持ちません。

今質問させていただきましたが、毎年4倍上がったとして、10年後には何倍になりますか。コンピューターを研究している人は皆、「ムーアの法則」と呼ばれるものがあることを知っています。これは、インテルが長年にわたり計算能力が 2 倍になることを意味します。なぜ今、nvidia が intel を超えたのでしょうか?非常に重要な理由は、その成長率が異なるということです。 18か月で2倍になれば、10年で100倍になるでしょうし、毎年4倍になれば10年で100万倍にもなるのです。このように考えると、nvidia の市場価値が過去 10 年間で急速に上昇したことも理解できます。

2 番目の考えはデータについてです。

コンピューティング能力、アルゴリズム、データは人工知能にとって 3 つの重要な要素です。一般的な人工知能を訓練するには大量のデータが必要であると先ほど述べました。 chatgpt3 が登場したときはまだ論文を発表する段階で、gpt-4 が登場するまでに 2 兆のトークン データが必要になると言われていましたが、gpt-4 は常にトレーニングを行っています。現在、その量は20tを超えると推定されています。人工知能に関心がある人なら、誰もが gpt5 が登場するのを長い間待っていたことを知っていますが、gpt-5 が登場すれば、データ量は 200t に達するだろうと個人的に判断しています。 。振り返ってみると、インターネット上にはそれほど良いデータがありません。したがって、将来 gpt-5 を構築したい場合は、既存のデータに加えて 20t が必要になります。より多くのマルチモーダルなデータ、さらには人工的に合成されたデータ。

非常に興味深いのは、過去 30 年または 40 年にわたり、誰もが自分の情報をオンラインで共有してきたということです。今ではさらに注目に値するのは、過去 30 年または 40 年にわたる私たちの蓄積です。 chatgpt のように、すべてを統合し、強力なコンピューティング能力を通じてこのような人工知能モデルを学習したのです。

3 番目の考えは、大きなモデルの次の章です。

今日まで働いてきたけど、次は何をすればいいですか? 1 つ目は言語モデルです。 chatgptに代表されるその基盤技術は自然言語処理です。現在、誰もが取り組んでいるのは gpt-4 に代表されるマルチモーダル モデルであり、その中の技術の多くはコンピュータ ビジョンです。今後、私たちは身体化された知性を開発する必要があります。身体化された知性の目的は何ですか?実際には、マルチモーダルであっても、基礎となる物理モデルがないため、そのような世界モデルを構築する必要があります。世界モデルは、何千冊もの本を読むだけでなく、世界のより多くの知識を脳にフィードバックするために何千マイルも旅する必要があることを意味します。だからロボットを作ればいいのです。深センはロボットと身体化された知能を構築する決意をすべきだと思います。ロボットには自動運転という特殊な軌道があります 自動運転は特殊なロボットですが、決められたルートを走行します。

何をするか?やるべき多くの複合的な科学研究作業があり、非常に重要な方向性は、複合的な理解と生成を統合することであると信じています。 sora が構築されたとしても、マルチモジュールの生成とマルチモジュールの理解は別々になります。この分野で私たちができる科学研究はたくさんあります。

例を挙げると、私の学生数名がステップスターズという大規模なモデル会社を設立しましたが、彼らのマルチモーダルな理解は非常に優れていました。人工知能に写真を見せると、なぜ写真の中の行動が「無効なスキル」と呼ばれるのか、aiはその写真は地面を転がっている子供のように見えるが、母親は無関心であると説明します。彼女は携帯電話を見たり飲み物を飲んだりするので、この子供のスキルは無効スキルと呼ばれます。 ai は現在、グラフを理解する能力がますます向上しています。

4番目の考えは、人工知能のパラダイムシフトです。

2 週間前、openai は最新モデル o1 をリリースしました。 gpt は gpt4 以降開発が進んでいると前述しましたが、gpt5 がリリースされていないため、単に大型モデルのパラメータが増加しただけでは、ピークに達しているのではないかと誰もが考えています。誰も知りません、まだ発売されていません、そして私たちは中国でより大きなモデルを作っていません。

しかし今では、以前の事前トレーニング (拡張) を行うのではなく、推論を行うときに拡張を行うという新しい次元が出現しています。これは、元の gpt のアイデアから、推論ステップでの学習を強化し、継続的に自己学習するプロセスである、今日の独立学習パスに変更されました。

以前は、基本的に次の単語が何になるか、次のトークンが何になるかを予測する事前トレーニングを行っていましたが、新しいアイデアは、草案を作成して、このパスが正しいかどうかを確認することです。人間の脳と同じように、思考には速いシステムと遅いシステムがあり、最初にどちらの方法がうまくいくかを確認し、それから検討します。思考の連鎖を最適化するプロセスの機会に。これまでのところ、このようなシステムをリリースしているのは openai だけです。ここでいくつかの例をご覧になることをお勧めします。

最も重要なことは、プロセス全体が、人間が問題を考えて分析し、草案を作成し、検証し、エラーを修正し、最初からやり直す方法と非常に似ているということです。この思考の余地は非常に大きくなります。これを行うには、大量の計算能力も必要です。

5 番目の考えは、大規模なモデルが何千もの業界に普及しているということです。

すべての企業は大型モデルによってもたらされる機会に直面しなければなりませんが、10,000 枚のカードさえなければ、すべての企業が汎用大型モデルを作成する機会はありません。大規模モデル モデルには少なくとも 10,000 枚のカードが必要です。

たとえば、gpt4 が登場したとき、その総トレーニング量は 2×10^25 flops でした。これほど大量のトレーニングを行うと、この量に達するまでに 10,000 枚の a100 カードを実行するのに 1 年かかります。この量を達成できない場合、真の汎用大型モデルは存在しません。一般的な大規模モデルを使用すると、これに基づいて金融や保険などの独自の業界大規模モデルを構築でき、おそらくキロカロリーで微調整を行うことができます。企業の場合、内部データや顧客データなどの独自のデータがあり、これらのデータを取り出して数十枚または数百枚のカードを使用すると、企業にとって非常に優れたモデルを作成できます。したがって、層ごとに構築されます。

もちろん、私がとても気に入っているもう 1 つの非常に重要な側面があります。それは、未来の個人的なモデルです。今では、私たちは徐々にpcや携帯電話を利用するようになり(データはある程度蓄積されています)、将来的には、関連する情報を収集した後、このような超高知能aiが登場すると信じています。データを使用して、独自の個人モデルを構築できます。これは(個人)端末の部分で、携帯電話は当然のことです。 pcに関してはmicrosoftやlenovoといったpc企業もai pcの概念を推進しており、そういったチャンスもあります。

中国における大型モデル構築の波の中で、業界の大型モデルがますます増えています。ここに例を示します。中国の大型モデルはオンライン化する前に中国サイバースペース管理局の承認が必要なため、今年 7 月末までに、中国では合計 197 のモデルが中国サイバースペース管理局によって承認されました。そのうち 70% は業界の大型モデル、30% は一般的な大型モデルでした。この傾向は間違いなくそうなっており、今後は一般的な大型モデルの割合はどんどん小さくなっていきます。たとえば、一般的な大規模モデルをベースにして金融モデルを作成できます。これは、上海の企業が金融顧客向けに作成した大規模なモデルです。たとえば、nvidia の財務報告書が発表されると、そのハイライトと問題点をすぐに要約できます。

6 番目の考え方は、ビジョンから実装までの ai エージェントです。

今日は、大規模モデルの最大のスーパー アプリケーションが何か、そして最大のチャンスがどこにあるのかを見ていきます。多くの人がまだスーパーアプリを見つけようとしています。実際、スーパー アプリケーションは最初から存在します。このスーパー アプリケーションはスーパー アシスタント、スーパー エージェントです。

ゲイツと私はマイクロソフトで長年一緒に働いており、二人ともこの問題について考えていました。何がそんなに難しいのですか?難しいのは、実際に役立つ作業をしたいときにワークフローを理解することです。質問すると、それを段階的に分解することができます。今私にできることは、カスタマーサービスやパーソナルアシスタントなど、ある程度影響力のある仕事です。しかし、多くの仕事はなぜできないのでしょうか?デジタル脳になる必要があります。以下の大規模モデルは最初のステップにすぎません。大規模モデルの機能は、上記の作業をすべて段階的に実行できるほど強力ではありません。このようなエージェントを実際に作成して、何かを実行できるようにするには、次の問題が何であるかを理解し、各部分に対応するスキルを持たせる必要があります。

今日のモデルを使用してすでに多くの良い例を実行しています。たとえば、ai 健康コンサルタントになり、化粧品についての理解を話し、化粧品を推奨することができます。

7 番目の考え方は、オープンソースとクローズドソースです。

過去数十年間の世界の科学技術の発展、特に中国の科学技術の発展において、二つのことが非常に重要です。

1 つ目は、インターネットの登場です。インターネットにより、あらゆる論文や資料をオンラインで見つけることができます。

2 つ目はオープンソースです。オープンソースを使用すると、アプリケーションを作成する際にリーダーとの差を大幅に縮めることができます。しかし、オープン ソースの機能は現在クローズド ソースの機能に近づいていますが、オープン ソースは大規模なモデルやデータベースのオープン ソースと同じではありません。中国には、オープンソース関連の取り組みを行っている企業も数多くあります。現在、最も優れたオープンソース ツールは、openai に近いと主張する meta の llama 3.1 です。私はそうは思いません。それはモデルを公開するだけで、オリジナルのコードやデータを提供するものではありません。したがって、オープンソース システムを使用する場合は、次のことも決意する必要があります。大規模なモデルのシステム クロージャを真に理解します。

8番目の考えは、aiのガバナンスに注意を払うことです。

ai は急速に発展しているため、世界では ai の安全性が非常に重要視されています。なぜなら、この問題の影響は非常に大きいため、人工知能は何千もの業界と社会全体に多大な影響を及ぼします。

9番目の考えは、人間と機械の関係を再考することです。

ヴィンセントのテキスト、ヴィンセントの写真、ヴィンセントのビデオを紹介しましたが、そのうちのどれくらいがマシンの知能であり、どれくらいが人間とコンピューターの相互作用が私たちにもたらす衝撃でしょうか?

約 10 年前、「ニューヨーク タイムズ」のコラムニスト、ジョン マーコフは、私がとても好きな本「machine of loving grace」を書きました。その本では、過去のテクノロジーの発展の 2 つの系統が要約されています。1 つは人工知能、もう 1 つは ia ( intelligent augmentation)、それは人間とコンピューターの相互作用である知能の強化です。コンピューターが利用可能になってからは、人々がさまざまな作業を行うのに役立ちました。チェスはその一例です。

実際、人間とコンピュータの相互作用を真に理解することによってのみ、私たちは各世代のハイテク企業にとって真の商業的価値を持つリーダーになれるのです。今日の人工知能のインターフェースは、対話のプロセスが非常に明確になりました。その代表的なものが chatgpt です。しかし、openai と microsoft について話すということは、この時代はまだ時期尚早であることを意味しますが、将来には想像力の余地がまだたくさんあります。

10番目の思考は知性の性質です。

大規模モデルは今日誰もに衝撃を与えていますが、大規模モデルと深層学習に関する理論はありません。今日は、いい感じの理論があればぜひ教えていただきたいと思います。物理学とは異なり、物理的な観点から見ると、広大な星空から最小の量子に至るまで、すべてはいくつかの美しい物理法則によって記述されます。現在、説明可能性も堅牢性もない人工知能に関するそのような理論は存在しません。今日の深層学習フレームワークは、真の汎用人工知能には到達できません。

人工知能の出現については、誰もがそれについて話すだけで、明確に説明しませんでした。モデルが十分に大きい場合に知性が現れるのはなぜですか?なぜインテリジェンスを備えた 70b モデルが出現できるのでしょうか?そんな真実はありません。ですから、私たちもこの問題に一生懸命取り組んでいます。昨年の夏、私は香港科技大学でも「創発的知性のための数学理論」をテーマとしたセミナーを企画しました。創発的知性について議論する際には、いくつかの科学的および数学的原理を明確に説明し、より多くの人々に理解してもらう必要があります。特にテンセントの「科学探査賞」と「新コーナーストーン研究者」プロジェクトの出現により、より多くの若い科学者が参加し、より自信と信念を持って、制作という困難な課題に深く取り組むようになりました。人工知能の将来の発展のためのブレークスルー。

すべての受賞者と若い科学者に改めておめでとうございます。科学技術、特に人工知能の発展は、世代を超えて若者が担う必要があります。皆様、改めてありがとうございました。