ニュース

朱嘉明の新しい序文: AI と人間の知能は 8 つの主要なトレンドで「知性の共有」を開始 2024 上海ブックフェア①

2024-08-19

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

『対話の時代:新たな生産性の構築による強国への道』朱嘉明、陶胡、沈陽ほか著、北京大学出版会、2024年8月発行、定価78元
[はじめに] 上海ブックフェアは最高潮に達し、展示会場の内外に多くの人々が集まり、あらゆるレベルの情報と精神が流れ込み、感染しています。
北京大学出版局から出版され、文匯講堂の講演者によって編集された新刊『対話の時代:新たな生産性の構築による強国への道』が、長安街で開催されたブックフェアで発表されました。 8月14日の読書会の新刊リストです。この本は、人工知能の「出現」、仮想世界と現実世界の統合開発、デジタル知能技術のインフラストラクチャの 3 つの主要な章に分かれており、主に人工知能、大型モデル、チップ、ブレイン コンピューター インターフェイスに焦点を当てています。 、Web3、衛星インターネット、デジタルエコロジー、メタ宇宙、AI倫理などのトピック。
14 回の講演、41 人の専門家、学者、業界エリート(Zhu Jiaming、Lin Baojun、Wang Jianyu、Shen Yang、Li Miao、Cai Hengjin、Lu Yong、Lin Longnian、Lin Yonghua、Tao Hu、Yang Guang、Wei Hui、およびJi Weidong、Feng Xiang、Jiang Xiaoyuan、Yu Hai、He Jing、Fu Changzhen、Li Quanminなどを含む何梁講演ゲストは、新世代情報技術、人工知能の分野における技術革新と技術革新について詳細な分析を行いました。知能、航空宇宙、生物医学、量子技術など。産業開発、世界的な人工知能開発のフロンティア、傾向、課題、さらに人工知能の倫理ガバナンスなどの問題を探ることは、読者が新しい生産力の概念と意味を理解するのに役立ちます。そして中国の近代化の発展を促進する上での重要な役割。この本は、科学と技術と人文科学との対話、および技術開発と社会変化のつながりを具体化したものであり、新しい品質の生産性の概念とその意味、そしてその重要な役割を理解するのに役立ちます。中国の近代化の発展を促進する。
この本の序文は 17,000 ワードの長さであり、著者の 1 人である経済学者の朱嘉明氏が個人的に執筆したものであることは特に言及する価値があります。この本の序文は、2022 年から 2024 年までの人工知能開発の最前線、傾向、課題に焦点を当てており、詳しく説明されています。この序文に含まれる人工知能のマクロ経済への影響に関する最新情報は、2024 年 7 月初旬時点のものです。このセクションでは、この序文から AI 開発のフロンティア、トレンド、課題を抜粋します。
ブック フェア期間中、読者は東 1 ホール E1-07 にある北京大学出版局に行って購入 (40% オフ) するか、Dangdang、JD.com、淘宝網などのオンライン プラットフォームで注文できます。
「対話の時代」上海ブックフェア、北京大学出版局(東ホール1、ブースE1-07)
AI と人間の知能は「共知性」の 8 つの主要トレンドに入り始めています
人工知能は新しい生産性の重要な部分です。人工知能は、思想、技術、経済、社会を含む総合的な技術です。人工知能技術は、人類の歴史における農業技術、産業技術、情報技術とは異なり、古代ギリシャから現代に至るまでの知的エリートの信念、概念、精神に由来しています。つまり、知能は人間だけのものではありません。知能は最終的に計算できるため、作成された機械も知能を生み出す可能性があります。 1936 年のチューリング マシンの誕生は、間違いなく人工知能の歴史において画期的な出来事です。 80 年以上にわたり、人間社会にとって、人工知能はある種の科学技術を意味するだけでなく、思想、経済、社会における破壊的な変化も意味してきました。継続的な反復と進化を経て、人工知能は長期主義と加速主義の間の相互作用の歴史的重要性をこれまで、そしてこれからも証明し続けるでしょう。この記事では、2022 年以降の世界的な人工知能開発のフロンティア、トレンド、課題について説明します。
1. 大規模言語モデル (または大規模モデル)
6 月に大きな進歩: 「強化学習」のエラーを見つけて修正できるようになりました
人工知能の発展の歴史はさまざまな段階に分けることができます。 2022 年 11 月に OpenAI が ChatGPT をリリースし、生成型人工知能 (Generative Artificial Intelligence、GenAI) が隆盛を始めました。生成人工知能は、人間のニューラル ネットワークを模倣してテキスト、画像、音楽、ビデオなどを通じて新しいコンテンツを作成する機械学習テクノロジーに基づいています。
GenAI を一元的に代表するのは、Large Language Model (LLM) です。いわゆる大規模言語モデルは、大量のテキスト データに基づいてトレーニングされた深層学習モデルであり、自然言語テキストを生成したり、言語テキストの意味を理解したりすることができます。大規模な言語モデルは深層学習に基づいており、多層ニューラル ネットワークを使用して、人間の脳が情報を処理する方法をシミュレートすることでデータ内の複雑なパターンを識別しているとも言えます。
現段階では、人工知能の中核は大規模言語モデルです。世界の主要国と主要企業が大規模言語モデルの開発を主導し、爆発的な成長を示し、拡大を続ける大規模言語モデルのクラスターを形成しています。大規模な言語モデルのパフォーマンスに影響を与える主な変数は、トレーニング データ、モデル サイズ (つまり、パラメーターの数)、生成アルゴリズム、および最適化手法です。大規模な言語モデルの特徴は次のとおりです。 (1) パラメータが大きい。大規模な言語モデルのパラメーターの数は、多くの場合、数十億、さらには数千億に達することがあります。 (2) 画像認識および予測分析機能を有する。 (3) データを理解し、一般化する能力を持っています。さまざまな複雑なタスクを学習して実行し、正確かつ効率的な機械翻訳、感情分析、自然言語処理 (NLP) によるインテリジェントな質疑応答を実現できます。
ChatGPT、Google の Gopher、LaMDA、Meta の Llama は、大規模な言語モデルの世界的な代表です。このうち、OpenAIが2023年にリリースしたGPT-4は、単一のモデルではなく、一連のモデルの総称です。 2024 年 5 月に OpenAI によって発売された GPT-4o モデルは、テキスト、音声、画像の理解という点で数百の言語を処理する優れた能力を実証し、リアルタイムの音声会話を行い、人間の感情を正確に捉えて表現することができました。 。同年 6 月、Anthropic は、コーディング機能、ビジュアル機能、および新しいインタラクション方法の点で、Claude 3 Opus および GPT-4o を上回る Claude 3.5 Sonnet モデルを正式に開始しました。さらに興味深いのは、Claude 3.5 Sonnet には革新的な「アーティファクト」機能が導入されていることです。これにより、ユーザーは AI が生成したコンテンツを動的なワークスペースでリアルタイムに編集および構築できるようになり、会話型 AI がユーザーにシームレスに統合されるコラボレーション パートナーに変わります。 ' プロジェクトとワークフロー。特に、Claude 3.5 Sonnet は、前世代の 2 倍の速度と 1/5 のコストを実現し、スマート モデルのコスト パフォーマンスを再定義します。
また 6 月には、大規模言語モデルの分野で画期的な進歩が起こりました。OpenAI は、ChatGPT コード出力のエラーをキャプチャするために使用される GPT-4 モデルに基づく CriticGPT をリリースしました。言い換えれば、CriticGPT は GPT-4 を使用して GPT-4 エラーを見つけるモデルであり、ChatGPT の応答結果にユーザーのコメントを書き込むだけでなく、人間のトレーナーが人間の意図をよりよく理解して満たし、発見して修正することもできます。ヒューマン フィードバックによる強化学習 (RLHF) のエラーは、高度な AI システムの出力を評価するという目標に向けた重要なステップを表します。
2.AIプラットフォーム
世界には9つの主要なプラットフォームがあり、垂直化と専門化がトレンドになっています。
AI は人間の生産と生活のあらゆる側面をカバーするため、AI プラットフォームの構築が一般的な傾向になっています。 AI プラットフォームは、音声、画像、NLP などの世界をリードするマルチモーダル人工知能テクノロジーに加え、オープンな会話型人工知能システムとエコシステムを提供します。現在、世界には Google、TensorFlow、Microsoft Azure、OpenAI、NVIDIA、H2O.ai、Amazon Web Services (AWS)、DataRobot、Fotor の 9 つの主要な AI プラットフォームが提供されています。その中でも、NVIDIA Omniverse は、仮想コラボレーションとリアルタイムの現実的なシミュレーションのために設計されたオープン プラットフォームで、GPU や CUDA-X AI ソフトウェアなどの強力なエコシステムの助けを借りて、機械学習、深層学習などの業界をリードするソリューションを提供します。そしてデータ分析。
AI プラットフォームの開発トレンドは主に垂直化と専門化です。たとえば、AI アート プラットフォームは、人工知能テクノロジーによる画像処理と作成のためのプラットフォームであり、アーティストや非専門家が人工知能絵画の形で興味深く美的に価値のある絵画を迅速に生成し、そこからクリエイティブな作品を作成できるようにします。インスピレーションと芸術的な経験をアートに与え、世界にさらなる革新と可能性をもたらします。 Midjourney と Stable Diffusion は、影響力が拡大し続ける AI アート プラットフォームです。別の例として、Suno v3.5 は AI 音楽生成ツールで、生成される音楽の長さが元の 2 分から 4 分に変更され、音楽構造が大幅に最適化されました。 AI音楽生成プラットフォームは、言葉で明確に説明するのが難しい聴覚芸術に精通し、人間を超えた創造的な可能性を発揮します。 Sunoは、ユーザーが任意の声で曲を作曲できる新機能もリリースすると発表した。この新機能は、日常生活のさまざまな音を音楽に変えることができ、音楽制作に新たな可能性をもたらします。
3.AIスタック
基礎的な柱には、データ、計算、モデルが含まれます。
ハードウェアの観点から見ると、AI スタックの基盤は GPU、CPU、TPU です。生成 AI スタックで最も重要なものは GPU です。ただし、AI スタックには AI ソフトウェア システムも含まれており、最終的に構築される AI スタックはシステムおよびエコシステムとなります。
綿密な分析により、AI スタックは、AI システムの開発と展開に必要なさまざまなレイヤーとコンポーネントを含む構造化されたフレームワークであることがわかりました。 AI スタックの主要なコンポーネントには、データ管理、コンピューティング リソース、機械学習フレームワーク、機械学習オペレーション (MLOps) プラットフォームが含まれます。生成 AI スタックは、上部、中間、下部の 3 つのレベルで構成されます。最上層には特定の分野の知識と専門知識が含まれ、中間層は AI モデルの構築に使用できるデータとインフラストラクチャを提供し、最下層はクラウド コンピューティングのリソースとサービスです。 AI を進化させるには、各レベルで進歩することが重要です。 AI スタックの基本的な柱には、データ、計算、モデルが含まれます。そのうち、生成 AI は大量のコンピューティング リソースと大規模なデータ セットを必要とし、それらは高性能データ センターで処理および保存され、フルスタックの再構築が促進されます。
一般に、AI スタックに基づいて、高速検索、高速翻訳、インテリジェントな認識、インテリジェントな制御などの機能を備えた人工知能アプリケーションを構築できます。
4.物理世界シミュレータ
3つ目はAIの物理世界:人間の時空認識を超えたもの
現代人にとって、現実の経験世界、仮想世界、そして人間の時間と空間の認識を超えた物理世界の 3 つの世界があります。人工知能は人間と上記の 3 つの世界との関係に直接影響を与えます。現実の経験世界では、人工知能と自然知能の並行性と相互作用により、現実世界の存在方法が変わりました。仮想世界では、人工知能と現実仮想テクノロジーが人間を非現実的な没入型体験に導くことができます。メタバースとは、人間の時間と空間の認識を超越した物理世界における方法であり、人工知能は人間が感覚の限界を突破し、数百億光年のスケールと微視的なシーンを理解するのに役立ちます。測定単位はナノメートルです。科学実験の分野では、人工知能技術はもはや単なるツールではなく、前提条件となっています。
2024 年初頭にソラが出現した基本的な意味は、ソラが独自の物理世界シミュレーター機能を通じて、人間が認識できない可能性のある物理世界、つまり人間の目に見えるものよりも現実であると思われる物理世界を示すことです。 AI物理エンジンが作り出す世界を人間が認識し統合すると、より多様な物理法則を経験することになります。
Sora が知覚、記憶、制御モジュールのサポートに基づいてビデオ生成タスクを実行すると、生成されたビデオはある程度現実世界の物理法則に従うことができるため、人、動物、環境、現実世界における広範な想像空間は、基本的に空間的一貫性、時間的一貫性、因果的一貫性を実現します。 Sora は可読世界モデルです。現段階でどれだけうまく機能しているかは問題の本質ではありません。 Open-Sora 1.1 のリリース後、ビデオ生成の品質と時間が大幅に改善されました。最適化された Causal Video VAE アーキテクチャにより、Sora のパフォーマンスと推論効率が大幅に向上します。
NVIDIA の重要な貢献の 1 つは、Earth-2 デジタル ツイン地球モデルの完成です。 Earth-2 は生成 AI モデル CorrDiff を組み合わせ、WRF 数値シミュレーションに基づいてトレーニングされており、12 倍の解像度 (25 キロメートルから 2 キロメートルに増加) で気象情報を正確に予測できます。 Earth-2 の次のステップは、予測精度を 2 キロメートルから数十メートルに向上させることです。物理シミュレーションに比べて解像度が高く、実行速度が1000倍、エネルギー効率が3000倍なので、リアルタイムで予測が可能です。
ビジョンは非常に明確です。人間は、現実的で物理的に正しい「世界のモデル」を構築する能力を備えた、知覚/記憶/制御の複合体として構築されています。マイクロソフトの科学者セバスチャン ビューベックが「AI 物理学」の概念と研究の方向性を提案したのはこの意味です。 NVIDIA CEO のジェンスン・ファン氏も、AI の次の波は物理 AI になるだろうと提案しました。したがって、Nvidia のデジタル ツインは地球だけでなく、物理世界全体を対象としています。
5. 身体化知能と知能ロボット
究極の応用:人工知能を「人間」にしよう
人工知能の発展は必然的に人工知能エコシステムの形成につながります。身体型人工知能 (EAI) またはインテリジェント ロボットは、人工知能エコシステムの主体となっています。
身体化知能は、物理世界における人工知能をさらに拡張したものであり、物理世界を理解し、推論し、対話することができ、思考、認識、および自然言語を理解する能力を備えています。アクション。さらに、インテリジェントロボットは、人間の思考経路をシミュレートすることで学習し、マルチモーダル AI によって駆動されることで、人間が期待する行動フィードバックを提供し、自ら学習し、世界を認識し、人間の指示を理解して実行し、パーソナライズされたタスクとコラボレーション要件を完了することができます。継続的な進化。つまり、実際の物理環境で検査および測定できるさまざまなタスクを実行します。つまり、身体化された知性の特徴は、主人公の視点から物理世界を自律的に認識する能力です。
さまざまな形態のインテリジェント ロボットに関しては、それらは身体化された知性の物理的な形態であり、その全体的なアーキテクチャは知覚層、対話層、および動作層で構成されます。テスラの人型ロボット「オプティマス・プライム」は第1世代から第2世代まで開発され、今年2月には米国の人型ロボット新興企業フィギュアAIが巨額投資を受け、NVIDIAは2024年の世界技術会議(GTC)で人型ロボット25台を展示した。いずれも人型ロボット分野の急速な発展を示している。
2024 年 3 月、NVIDIA は世界初の人型ロボットの汎用基本モデル、プロジェクト GR00T を立ち上げました。モデル駆動型ロボットは、自然言語を理解し、人間の行動を観察することで動作を模倣することができ、ユーザーは現実世界に適応し、現実世界と対話するためのさまざまなスキルを調整する方法を迅速に学習するように教えることができます。プロジェクト GR00T の登場は、本格的なロボットの時代が来るかもしれないことを示しています。これは人工知能を「人間」にするという、AIの究極の応用でもあります。
身体化されたインテリジェンスの台頭は、従来の制御ベースのロボティクス技術から学習と操作の新しいパラダイムへの移行を示しています。大型モデル技術の爆発的な発展とハードウェアコストの削減により、物理世界と対話できるインテリジェントロボットの開発を目指す身体化インテリジェンス企業の出現につながりました。
2024 年 5 月に、ロボット工学分野で最も影響力のある国際学術会議の 1 つであるロボット工学とオートメーションに関する国際会議 (IEEE ICRA) が日本の横浜で開催されます。今年のカンファレンスのテーマ「CONNECT+」は、ロボット技術の最新の進歩だけでなく、「身体化された知能」と「学習」の革命も紹介します。長期的には、身体化された知能は人工知能産業の発展にとって非常に重要であり、汎用人工知能 (AGI) にとって無視できない価値があります。
6. 空間知性
人間の目の単なる機械版ではなく、想像もできなかった角度から世界を明らかにします
空間知能には 2 つのタイプがあります。1 つは自然進化によって形成された空間知能です。人間が空間知能を進化させるには自然界で何百万年もかかり、目が光を捉えて網膜に 2D 画像を投影し、脳がこのデータを 3D 情報に変換します。もう 1 つは、人工知能技術に基づく空間知能であり、機械が人間の複雑な視覚的推論と行動をシミュレートし、複数のセンサーの助けを借りて視覚情報を通じて 3D 世界を直接理解して操作します。
自然進化によって形成された空間知性と人工知能技術に基づく空間知性を比較すると、その違いは顕著です。自然進化によって形成された空間知性は空間次元に制限があり、3次元空間を突破することは困難または不可能です。 。しかし、人工知能技術に基づく空間知能は空間次元を突破することができます。このような空間は地理的な境界を打ち破り、流動的で無限で自由で開かれた状態にあります。それだけでなく、そのような空間はニュートンの時間制約の影響を受けなくなり、適時性と時間の最適化が達成されます。たとえば、Google の研究者は、一連の写真だけを使用してデータを 3D 形状またはシーンに変換できるアルゴリズムを開発しました。
この点に関して、スタンフォード大学の人間中心AI研究所の所長であるリー・フェイフェイ氏(全米工学アカデミーの学者)は次のような深い考えを持っています。「視力と百科事典のような深い知識を組み合わせることで、ブランドを生み出すことができます。この種の新しい能力 新しい能力がどのようなものになるかはまだわかりませんが、それは人間の目の単なる機械版ではなく、より深く、より洗練された新しい種類の存在になると思います。 「つまり、人工知能技術による空間知性は、自然の進化によって形成された空間知性を突破し、人間が脳に頼ることができない空間の状態を明らかにすることになる。」想像する。たとえば、量子力学で記述される量子空間とは、いくつかの離散状態または連続状態から構成されるトポロジカルな特徴を持つ空間を指します。人間が自然に進化した空間知能では量子空間を知覚・認識することは不可能ですが、人工知能技術によって支えられた空間知能では可能です。
つまり、大規模な人工知能モデルに基づく空間知能は人間を「全く新しい存在」に導き、身体化された知能はここでは「先住民」となる可能性が高い。
7. 人工知能の深層進化
ムーアの法則は破られる可能性があり、メタ認知はスケーリング則の失敗につながる
人工知能は現在、深い進化の歴史的瞬間を迎えています。ムーアの法則とスケーリングの法則は、徐々に重要な役割を果たしています。
ムーアの法則とは、インテルの共同創設者であるゴードン・ムーアが経験に基づいてまとめた法則で、集積回路上に収容できるトランジスタの数は約18~24か月ごとに2倍になるというものです。つまり、プロセッサのパフォーマンスは約 2 年ごとに 2 倍になります。問題は、チップが 28 ナノメートル (nm) になったときに、ムーアの法則の危機が起こったことです。 1ナノメートルプロセスのチップに入ると、それはムーアの法則の限界に達することを意味する。今、チップを中核とした人工知能のハードウェア基盤全体がムーアの法則の危機、あるいはムーアの法則の限界に直面している。 2024 年 6 月、2024 台北国際コンピューター ショー (Computex 2024) で、Nvidia CEO のジェンスン ファン氏は、GPU アーキテクチャの更新頻度が 2 年ごとから 1 年に 1 回に加速するが、コンピューティング能力の成長は進んでいないと発表しました。チップの計算能力は過去 8 年間で 1,000 倍という驚異的な増加を達成しており、これはムーアの法則の危機とムーアの法則の限界を突破する技術的可能性があることを示しています。
スケーリング則には主に臨界現象の研究が含まれており、その中心的な考え方は、モデル パラメーターのサイズ、データ セットのサイズ、トレーニングに使用される浮動小数点計算の量が増加するにつれて、モデルのパフォーマンスが向上するというものです。 。最適なパフォーマンスを得るには、上記の 3 つの要素を同時に増幅する必要があります。他の 2 つの要因によって制約されない場合、モデルのパフォーマンスは個々の要因とべき乗則の関係になります。
人工知能の分野に特有の、特定の問題に対する GPT-4 のパフォーマンス予測は、GPT-4 の 1,000 倍小さいモデルで予測できます。言い換えれば、GPT-4 はまだトレーニングを開始しておらず、この問題に対する GPT-4 のパフォーマンスはすでにわかっています。したがって、スケーリングの法則は大規模なモデルをトレーニングする場合に重要です。スケーリングの法則は、人工知能の深い進化のためのもう一つの潜在的な法則であると言えます。
少し前に、ビル・ゲイツはポッドキャスト「The Next Big Idea」のエピソードで、スケーリングの法則について深い見解を表明しました。「スケーリングの法則は間違いなく今後も有効です。しかし同時に、私たちが今日知っていることから、次のようなことが起こるでしょう。」単純なアルゴリズムから、より人間らしいメタ認知行動への移行であり、それはより大きなフロンティアである。「なぜなら、意識はメタ認知に関連している可能性があり、メタ認知は測定可能な現象ではないからです。」言い換えれば、メタ認知はスケーリング則を破綻させます。
8. 短期および中期の傾向
AIの一般化ステージが加速、超AIの「夜明け」が到来
2024 年の時点で、人工知能の近期および中期的な傾向が一般的にわかります。
(1) 狭義の人工知能 (ANI) の段階は終わりに近づいています。現段階では、人工知能は画像認識や音声認識などの特定のタスクを実行できる AI システムです。この段階のピークは、生成人工知能をサポートする大型モデルの出現とインテリジェントマシンの普及です。
(2) 一般的な人工知能の段階は加速しています。
(3) 人工超知能 (ASI) の「夜明け」が近づいてきました。超人工知能とは、「人間の精神」を超え、全人類の集合知に追いつき、すぐに追い越す能力を持ち、人間の知能よりも強力な人工知能システムです。
人工知能はすでに、人々の想像力が日々新たにされる歴史的な時代に突入しています。この時期には、これまでの世界の主体や参照体系が変化し、知識体系が再構築され、人間の知能と人工知能が「共同知性」の状態に入り始め、伝統的な経済組織や国家制度、法制度が変化します。将来的には変化も起こり、人類の文明も再編されるでしょう。
朱嘉明
2024 年 7 月 6 日
(元の序文のタイトルとサブタイトルは編集者によって補足および微調整されました)
著者:朱嘉明
文:朱佳明 写真:朱美泉 編集:李念 編集者:李念
この記事を転載する場合は出典を明記してください。
レポート/フィードバック