ニュース

産業分野における身体化インテリジェンスの実装に関する別の探求

2024-08-07

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


制作 | 湖秀シンクタンク

著者 | 黄思宇

ヘッダー画像 | ビジュアルチャイナ

産業変革と新たな生産力の流入の現在の時代において、身体化インテリジェンスは、大型モデル、マルチモーダル大型モデル、視覚/触覚小型モデルなどの一連の最先端技術を工場に導入し、実用化に乗り出しています。工業製造分野での実践的な旅へ。しかし、複雑かつ多様な産業シナリオは、身体化されたインテリジェンスに深刻な課題をもたらします。どのシーンから始めるべきですか?異なるシーンを自由に切り替えるにはどうすればよいですか?インテリジェント システムに必要な大量かつ高品質のデータを取得するにはどうすればよいでしょうか?

したがって、2024 年 7 月 30 日午後 7 時に、Huxiu Think Tank 502 のオンライン同僚が招待されました。上海人工知能技術協会の首席コンサルタント、イン・ジー氏、塔山テクノロジー・エコロジーディレクターのフー・イーフイ氏、ウェイイー・インテリジェント・マニュファクチャリング社CTOの趙和博士、身体化知能の分野における大型モデルの革新的な応用について共同で議論し、身体化知能とヒューマノイドロボットの実用的な応用事例を共有しました。

1. 身体化されたインテリジェンスと大規模モデルの統合と技術的課題

身体化された知性を最もよく担っているのは人型ロボットであり、その成長は大型モデルに依存しています。

大規模なモデルと具体化されたインテリジェンスの組み合わせは、一定の成果を達成しており、幅広い展望を持っています。上海人工知能技術協会の首席コンサルタントであるイン・ジ氏は、大型モデルは計画と推論機能を備えたロボットの頭脳として使用でき、目標をサブ目標に分解して関連機能を呼び出すことができるが、現在の用途は限られていると述べた。この方向性には大きな可能性があります。

Weiyi Intelligent Manufacturing の CTO である Zhao He 博士は、産業シナリオでは、その仕事の性質上、非人型ロボットの方が生活シナリオに適している可能性があると考えています。

この大型モデルは、人間とコンピューターの対話方法を覆し、人間と機械がテキスト、音声、画像などの自然な方法でコミュニケーションできるようにし、機械が人間の意図を理解し、操作を実行できるようにします。大きなモデルは効率的な対話を提供し、ロボットが新しいタスクを学習し、特定の要件と動作仕様を取得できるようにします。

Tashan Technology の生態ディレクターである Fu Yihui 氏は、大型モデルが身体化された知性を強化できることに同意し、人型ロボットは身体化された知性を実現するのに最適であり、その成長は大型モデルの開発に依存すると述べました。人間のように考え、動くヒューマノイド ロボットの作成には、大規模なモデルに依存するだけでなく、深層学習、モーション制御アルゴリズム、および触覚、視覚認識、複雑な環境を理解する能力や論理的推論などの全体的な認識も必要となります。

最近言及された空間インテリジェンスは、ロボットに世界を認識させることに基づいており、ロボットが世界を観察しながら世界をより深く理解し、知識を学習し、行動を取れるようにします。したがって、この前提の下では、ロボットが世界をよりよく認識できるようにする、身体化された知覚 real2sim (シミュレーション環境で訓練されたモデルを現実の環境に適用するプロセス) を達成することが、より柔軟なロボットになるための前提条件となります。

大規模なモデルを具体化されたインテリジェンスに組み込むには、エネルギー消費と収益のバランスをとる必要があります

一部の視聴者は、「大規模なモデルがインテリジェント ロボットに組み込まれている場合、追加のハードウェア サポートが必要ですか? パフォーマンスとエネルギー消費のバランスを再調整する必要がありますか?」と質問しました。

Zhao 博士 これは良い質問だと思います。インテリジェント ロボットを大規模モデルに組み込む場合は、ハードウェアのサポートと、パフォーマンスとエネルギー消費のバランスを考慮する必要があります。人間を含む広義の身体化された知性は、エネルギー消費と得られる利益のバランスをとる必要があります。たとえば、人間の脳は消費電力が少ないですが、賢いのです。しかし、現在の大規模モデルはトレーニングと推論中に計算能力とエネルギーを消費するため、インテリジェントロボットのニーズを満たすことができません。

将来の開発の方向性は、第一に、テクノロジーによって大規模モデルの計算能力とエネルギー消費を大幅に削減すること、第二に、モデルのアーキテクチャとパラダイムを改善すること、第三に、インテリジェンス密度を高めるために、ASIC などの特別なチップを開発することです。これは、ソフトウェアの強化を通じて、開発された特別なチップがモデル推論などに使用されるため、大規模なモデル技術を具体化されたインテリジェントロボットに効果的に適用できるようにするためです。

マルチモーダル大規模モデルは、制御や意思決定などの技術的ブレークスルーを達成するための、身体化されたインテリジェンスの重要なモジュールとなります。

制御、意思決定、身体化された知能のナビゲーションなどの主要なテクノロジーに関して、イン・ジー氏は、大規模な言語モデルによって駆動されるロボットの現在の問題は、情報をテキストに変換してから処理する必要があることであると考えています。一時的な移行では、ロボットはネイティブの知覚環境を理解できるようになり、制御の決定やナビゲーションを行うために言語を介する必要がなく、ビジョン内に多くのロジックが存在するようになります。

将来的には、大規模なモデルは、人間の脳と同じようにさまざまな機能を担当するモジュールを備えたマルチモーダル システムを使用して知能機能を強化する可能性があります。現時点では、複数の小型モデルがそれぞれ異なる機能を制御している可能性がありますが、マルチモーダルな大型モデルがトレンドになっていますが、最初は小型モデルと大型モデルを組み合わせることで知能化が図られる可能性があります。これは、大規模モデルの開発において、マルチモーダルなネイティブ大規模モデル データがまだ不足していることに依存します。

Zhao He氏は、制御の面では、産業用ロボットにビジュアルサーボを導入すると、基礎的な制御と上位レベルのタスクが可能になり、ナビゲーションの観点からアプリケーションのコストが大幅に削減され、マルチモーダル情報を含む認識が前提となると指摘した。マルチモーダル情報統合の有効性には、より大きな技術的課題がありますが、前向きな開発の方向性です。マルチモーダルな複数人の対話と完全な柔軟な接線を通じて機械が人間の意図とタスクの要件を理解できるようにすることは、革命的な進歩であり、よりインテリジェントな産業用ロボットのための基本的なインテリジェント標準を提供し、標準化された生産と現場での柔軟な適応を実現することもできます。 。

Fu Yihui 氏は、Zhao He 博士の見解に同意しました。彼は、人型ロボットに触覚センサーを提供する場合、触覚データと視覚データの融合の問題、および高精度の知覚、複雑な判断などの問題に直面すると述べました。その中でも、触覚データとマルチモーダル知覚データの融合が身体的知覚を突破する鍵となります。触覚センシングデータを備えたマルチモーダル大規模モデルは、ロボットが複雑なシーンで対話するのに役立ちます。従来のアルゴリズムでは、多くのトレーニングを行った後に一部のシーンを実装できますが、まだトレーニングされていないシーンがあり、一般化が低い可能性のある問題をカバーするのは困難です。能力。

2. 産業分野における身体化インテリジェンスの実現シナリオと価値表現

工業製造アプリケーションのシナリオは、柔軟な接線を解決することから始まります

産業用ロボットは古くから使用されてきましたが、そのほとんどは自動化されており、複雑なデバッグ、高コスト、低効率などの問題があります。インテリジェンスの核心は、柔軟な接線の問題を解決することです。 Zhao He 氏は、組み立てラインなどの具体的な産業用途の事例を多数共有し、顧客が高い削減コストや生産ラインの調整の難しさの問題を解決できるよう支援しました。当初、生産ライン全体がフル稼働するように調整するには 3 人のエンジニアが 1 週間近くかかりましたが、インテリジェント産業用ロボット技術の使用により、この状況が改善されることが期待されています。

品質検査工程では、従業員3,000人を超える大規模工場にAI技術を活用した外観品質検査機を導入し、2,000人を超える品質検査員の置き換えに成功し、人件費の削減だけでなく機械の性能も向上させました。肉体労働と比べても遜色なく、24時間休みなく働くことができました。

欠陥検出後の後処理工程では、ダイカスト修理工程における作業者のブラインドタイピングによる効率と品質の問題を解決するため、インテリジェント産業用ロボット技術を活用し、複数のロボットを組み合わせて一連の作業を構築しています。インテリジェントなワークステーションは、欠陥の検出、軌道計画、研磨などを行い、手動操作の制限を解決し、大型ダイカストのプロセス フローにプラスの影響を与えます。

具現化されたインテリジェンスと強力で柔軟なタンジェント機能により、工業製造の生産効率が向上します

企業効率の向上は、人件費と生産および業務効率の 2 つの側面に反映されます。 Fu Yihui氏は、人件費の観点から見て、ロボットの価格が人件費をよりよくカバーできれば、人型ロボット産業は自動車産業の市場よりも大きくなる可能性があると指摘した。生産効率の点では、ロボットは 1 日 24 時間稼働でき、学習効率は人間よりもはるかに高く、最適化された意思決定と正確な制御により、工場や商業業務の効率を向上させることができます。

Zhao He 氏は、製造業に共通する最初の課題は、熟練した労働者の採用と維持の難しさなどの人的問題であると考えており、企業は労働力への依存を減らし、コストを削減したいと考えています。 Weiyi Intelligent Manufacturing は、従業員 3,000 人を超える大規模工場向けに AI 技術に基づいた外観品質検査機を製造し、2,000 人の品質検査員を置き換え、人件費を削減しました。機械の性能は人間と同等であり、24 時間稼働できます。 1日に数時間。

第二に、柔軟なライン切断のコストは高く、生産、供給およびマーケティングモデルは変化しており、従来の生産モデルでは、インテリジェント産業用ロボットなどのインテリジェント生産設備は市場の需要を満たすことができません。製造業の新たな問題点に対処するために、高速かつ低コストで柔軟なライン切断機能が求められており、企業は生産効率を向上できます。

危険なシナリオの実装を優先し、汎化能力が高まるにつれてより複雑なシナリオに入力します。

身体化された知能ロボットが最初に実装されるべきシナリオについては、さまざまな意見があります。イン・ジ氏は、製造業ではロボットアームや物流ロボットなどの具体化されたインテリジェント機器が広く使用されており、将来的には製造業の組立、物流、倉庫リンクでサービスロボットがさらに使用されるようになるだろうと考えている。住宅、ショッピング モール、コミュニティなども含めて、ますます一般的になってきています。シナリオ、自動運転車もカテゴリの 1 つです。人間がやりたくない仕事、不向きな仕事、あるいは危険で退屈な仕事から始めるべきだと彼は感じた。

Fu Yihui 氏は、単純に工業、商業、家族の順序で理解することはできないと考えています。たとえば、自動車の生産ラインでは、機器の設置と配線など、比較的単一のシナリオと機能要件を持つものを最初に実装する必要があります。車載ワイヤーハーネスは依然として手作業に依存しており、薬局での薬の取り替え、スーパーマーケットの交換と補充、ガソリンスタンドでの給油などのビジネスシナリオでは、人型ロボットが触覚的で多目的に使用できるソリューションである必要があります。充電など、危険な作業や特殊なアプリケーション シナリオもあり、危険な作業に従事する人々に取って代わることができ、最終的にはヒューマノイドに従うことができます。ロボットの汎用化機能が強化され、より複雑な家庭でのコラボレーションや対話のシナリオに入るでしょう。

迅速な習得学習と改善された一般化機能により、多くの複雑なシーンの問題を解決できるようになります。

さまざまなシナリオでの応用を達成するためにさまざまなスキルの一般化と一般化能力を向上させる方法について、Fu Yihui 氏は、触覚の観点から開始し、実際のシーンを通じて触覚関連データを収集し、ロボットの器用な操作と一般化能力を向上させるためのシミュレーショントレーニングを推進しました。産業シナリオでは、複雑で多様な把握物に直面した場合、問題を解決するには触覚または把握能力の一般化を向上させる必要があります。

Zhao He 氏は、産業シナリオでは、ロボットが学習せずにすべてを実行する方法は現時点ではありません。つまり、ロボットは、大型モデルなどのテクノロジーを通じて、新しいタスクのスキルを迅速に学習できるということです。この機能が実現できれば、産業におけるインテリジェント産業用ロボットの応用にとって革命的な進歩となるでしょう。

Fu Yihui 氏は、ヒューマノイド ロボットには思考の連鎖で考える能力と、さまざまなシナリオでロボットのニーズを満たすためにある程度の一般化能力が必要であると考えています。たとえば、Google RT2 は LLM と Visual Transformer を統合し、センシングと制御を統合し、環境と意図の判断に基づいて最適な行動戦略を作成し、ロボットの実行能力を向上させることができます。

3. 身体化された知能のためのデータ収集とトレーニング方法の探求

聴衆からは、大量のデータを取得する方法について質問されました。 Zhao He氏は、産業用インターネットの発展により、大規模な産業モデルの誕生に向けたデータが客観的に蓄積されており、実際の実装では、データの収集、整理、自動化、インテリジェントな運用が中核として製品やサービスに実装されるべきであると考えています。

現時点では、身体化された知能を訓練するための成熟した広く受け入れられた方法はありません。インテリジェント産業用ロボットを例に挙げると、大型モデルは人工ビデオ ビジョンなどの方法を通じてタスクを理解し、制御命令を生成できることが期待されています。

身体化された知能のトレーニング方法という点では、シミュレーション環境で身体化された知能をトレーニングするか、シミュレーションと生成されたデータをトレーニングに使用することが重要です。なぜなら、実際のデータを使用して具現化された知能モデルや知能ロボットを訓練するには、データ収集の難しさやデータ量の不足という問題があるからです。

ying Zhi 氏は、データ アノテーション会社などのサードパーティの専門データ サービス プロバイダーが存在し、将来的には AI トレーナーやサービス プロバイダー会社に進化する可能性があると提案しました。中国では、人件費の優位性が比較的明白であり、マルチモーダルデータとインテリジェントトレーニングサービスの産業を形成すると予想されています。

言葉を与える

身体化されたインテリジェンスと大規模モデルの統合は一定の成果を上げていますが、エネルギー消費と収益のバランスをさらに最適化し、マルチモーダル大規模モデルの成熟したアプリケーションを実現する方法については、引き続き研究が必要です。主要なフレキシブル接線問題の解決から、複雑で多様な産業環境に適応する一般化機能の向上、成熟した効果的なトレーニング方法の確立、またはサードパーティ データ サービスの利点の最大限の活用に至るまで、これらはすべて、広範なアプリケーションを促進する要因です。産業分野における身体化されたインテリジェンスの本質。

イベント全体を通じて、アウディチャイナ、NIO、アイデアル、東風、シュナイダーエレクトリック、アマゾンクラウドテクノロジー、ホライゾンロボティクス、ファーウェイターミナル、バイドゥ、チャイナテレコムなどの企業の関係者も含め、オンライン参加者はインタラクティブな交流に積極的に参加した。 CICC Capital、Dingjie Software Ventures、China Software Group、Yizhuang State Investment、China Unicom Industrial IoT などの機関。聴衆とゲストは綿密な対話を行い、実践的な経験を交換し、ビジネス協力について話し合い、この502オンラインピアセミナーを成功裡に終了しました。

デジタルおよび AI イノベーションの実践活動をさらに追跡するには、私たちをフォローしてください。タイガースニフシンクタンク登録を完了すると、コンテンツの更新やイベントの通知を受け取ることができます。

Huxiu Think Tank について: Huxiu Think Tank は、企業のデジタル化と AI イノベーションの実践に焦点を当てた新しい調査サービス組織で、産業インテリジェンスのプロセスにおける当事者 A と B に洞察力に富んだ調査レポート、事例の選択、およびオンライン会議を提供します。インテリジェンスとデジタル化における企業経営者の賢明な意思決定をサポートするために、以下のアクティビティと訪問サービスを提供します。 当社が提供する核となる価値は、タイムリーで質の高い洞察、テクノロジー、業界、競合他社、競合他社の理解、技術および製品の戦略的決定、産業計画、および市場を完全に支援するための重要な参考資料を提供することです。最先端技術の理解と影響を受ける業界の発展状況と今後の動向