ニュース

Nvidiaの「AIボックス」をアップグレード、Huang Renxun氏は物理世界のデジタルコピーを作成したいと考えている

2024-07-30

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

文/騰訊技術李海丹

北京時間 7 月 30 日、NVIDIA (NVIDIA とも呼ばれる) は、米国デンバーで開催されたトップ コンピューター グラフィックス カンファレンスである SIGGRAPH 2024 で、レンダリング、シミュレーション、生成 AI の分野における最新開発の多くをデモンストレーションしました。

昨年の SIGGRAPH で、NVIDIA は GH200、L40S グラフィックス カード、および ChatUSD を発表しました。今年の主役は、NVIDIA の生成 AI 時代の新たな切り札――「Nvidia NIMS」の新バージョンアップ、NIM を通じて生成 AI を USD (ユニバーサル シーン ディスクリプション) に適用し、3D 世界での AI の可能性を広げます。

Nvidia NIMS のアップグレード: 恩恵と課題の両方

Nvidia は、Nvidia NIMS がさらなる最適化を実現し、AI モデルの複雑な展開を標準化したと発表しました。 NIMS は、NVIDIA の AI レイアウトの重要な部分です。黄仁勲氏はNIMがもたらしたイノベーションを繰り返し称賛し、「AI-in-a-Box、本質的には箱に入った人工知能です。”

このアップグレードは間違いなく、AI 分野における Nvidia のリーダー的地位を強化し、技術堀の重要な部分になります。

CUDA は、GPU 分野における Nvidia のリーダーシップにとって重要な要素であると長い間考えられてきました。 CUDA のサポートにより、GPU は単一のグラフィックス プロセッサから汎用の並列コンピューティング デバイスに発展し、AI 開発を可能にしました。ただし、Nvidia のソフトウェア エコシステムは非常に充実していますが、これらの断片化されたシステムはまだ複雑すぎて、基本的な AI 開発能力が欠けている伝統的な業界にとって使いこなすのは困難です。

この問題を解決するために、Nvidia は今年 3 月、GTC カンファレンスで NIM (Nvidia Inference Microservices) クラウドネイティブ マイクロサービスを発表しました。これは、AI アプリケーションの展開を簡素化し、加速するために過去数年間に開発されたすべてのソフトウェアを統合します。 NIM は、クラウド、データセンター、またはワークステーションに展開できる最適化された「コンテナ」としてモデルを使用できるため、開発者は副操縦士やチャットボットなどのための生成 AI アプリケーションを簡単に構築するなどの作業を数分で完了できます。

これまで、Nvidia の NIM エコシステムは、一連の事前トレーニングされた AI モデルを提供してきました。エヌビディアが発表、開発者が複数の領域でアプリケーションの開発と展開を加速し、さまざまな領域 (理解、デジタルマン、3D 開発、ロボット工学、デジタル バイオロジー) の特定の AI モデルが利用可能:

理解の方向では、NIM は Llama 3.1 と NeMo Retriever を使用してテキスト データの処理能力を向上させることができ、デジタル ヒューマンの方向では、高忠実度の音声合成と自動化をサポートする Parakeet ASR や FastPitch HiFiGAN などのモデルを提供します。仮想アシスタントとデジタル ヒューマンを構築するための音声認識。強力なツールを提供します。

3D 開発に関しては、USD Code や USD Search などのモデルにより 3D シーンの作成と操作が簡素化され、開発者がデジタル ツインや仮想世界をより効率的に構築できるようになります。

ロボットの具現化の方向で、NVIDIA は MimicGen と Robocasa モデルを発売しました。合成モーション データとシミュレーション環境を生成することで、ロボット工学の開発と応用を加速します。 MimicGen NIM は、Apple Vision Pro などの空間コンピューティング デバイスによって記録された遠隔操作データに基づいて合成モーション データを生成できます。 Robocasa NIM は、3D 世界での開発とコラボレーションのためのユニバーサル フレームワークである OpenUSD でロボット タスクとシミュレーション対応環境を生成します。

デジタルバイオロジー分野のDiffDockやESMFoldなどのモデルは、創薬やタンパク質フォールディング予測などの先進的なソリューションを提供し、生物医学研究などの進歩を促進します。

さらに、Nvidia は、Hugging Face inference-as-a-service プラットフォームも Nvidia NIM を利用し、クラウドで実行されることを発表しました。

これらの汎用モデルを統合することで、Nvidia のエコシステムは AI 開発の効率を向上させるだけでなく、革新的なツールとソリューションも提供します。ただし、Nvidia NIM の多くのアップグレードは確かに業界にとって「良いニュース」です。しかしその一方で、プログラマーにとっては多くの課題ももたらします。

Nvidia NIM は、事前トレーニングされた AI モデルと標準化された API を提供することで、AI モデルの開発と展開のプロセスを大幅に簡素化します。これは開発者にとって確かに大きな恩恵ですが、将来的には一般のプログラマーの雇用機会もさらに縮小することになるでしょうか。 ?結局のところ、これらのタスクは NIM によって事前に完了されており、一般のプログラマーは複雑なモデルのトレーニングや調整作業を行う必要がなくなるため、企業は同じ作業を完了するために使用する技術担当者を減らすことができます。

AI に 3D で考えることを教え、仮想の物理世界を構築する

NVIDIA は、SIGGRAPH カンファレンスで、オープン USD および Omniverse プラットフォームでの生成 AI のアプリケーションもデモしました。

Nvidia は、OpenUSD (Universal Scene description) 言語、幾何学、材料、物理学、空間を理解できる世界初の生成 AI モデルを構築し、これらのモデルを Nvidia NIM マイクロサービスとしてパッケージ化したと発表しました。現在、Nvidia API カタログでプレビューできる NIM は 3 つあります。USD コードは、オープンな USD 知識の質問に答え、オープンな USD Python コードを生成します。これにより、開発者は自然言語または画像入力を使用して広大なオープン USD 3D を検索できます。画像データベース; USD Validate は、アップロードされたファイルのオープンな USD リリースとの互換性をチェックし、Omniverse Cloud API を使用して完全に RTX レンダリングされたパストレース画像を生成します。

Nvidia は、Nvidia NIM マイクロサービスによる OpenUSD の強化とアクセシビリティにより、将来的にあらゆる階層が物理ベースの仮想世界とデジタル ツインを構築できるようになると述べました。オープン USD に基づく新しい生成 AI と、Nvidia Omniverse プラットフォーム上に構築された Nvidia 加速開発フレームワークにより、より多くの業界が工業デザインやエンジニアリング プロジェクトを視覚化するためのアプリケーションや、物理 AI とロボットの次の波を構築するためのシミュレーション環境のためのアプリケーションを開発できるようになります。 。さらに、新しい USD コネクタはロボット工学および産業用シミュレーションのデータ形式と開発者ツールを接続し、ユーザーが大規模で完全に Nvidia RTX レイトレースされたデータセットを Apple Vision Pro にストリーミングできるようにします。

つまり、物理世界をより深く理解し、大規模モデルを通じて仮想世界を構築するために、Nvidia NIM を通じて USD を導入することは、非常に貴重な資産です。デジタル資産 。たとえば、2019年にはフランスのパリにあるノートルダム大聖堂が大火災に見舞われ、教会の広い範囲が焼失した。幸いなことに、Ubisoft のゲーム デザイナーはこの建物を何度も訪れ、その構造を研究し、ノートルダム大聖堂のデジタル修復を完了し、3A ゲーム「アサシン クリード: ユニティ」でノートルダム大聖堂を再現しました。すべての詳細もノートルダム大聖堂の修復に大きな助けとなりました。ダム・ド・パリ。当時、デザイナーや歴史家は複製に2年を要しましたが、この技術の導入により、将来的には大規模なデジタルコピーの複製が高速化され、AIを使用して物理学をより洗練された形で理解して再現できるようになります。やり方の世界。

別の例として、デザイナーは Omniverse で基本的な 3 次元シーンを構築し、これらのシーンを使用して生成 AI を調整し、制御可能で協調的なコンテンツ作成プロセスを実現します。たとえば、WPP と The Coca-Cola Company は、世界的な広告キャンペーンを拡大するためにこのワークフローを初めて採用しました。

Nvidia はまた、オープン USD プラットフォームでの開発者のアプリケーション機能と効率をさらに強化するために、USD Layout、USD Smart Materials、FDB Mesh Generation などのいくつかの新しい NIM マイクロサービスを近々リリースすることも発表しました。

今回、NVIDIA Research は 20 以上の論文とともにカンファレンスに参加し、合成データ ジェネレーターとインバース レンダリング ツールの開発促進に関する革新的な成果を共有し、そのうち 2 件が技術最優秀論文賞を受賞しました。今年発表された研究によると、AI により、画質が向上し、3D 表現の新しい方法が解放されることで、シミュレーション機能がさらに向上します。 ;また、合成データジェネレーターなどが改良され、AIのレベルが向上しました。これらの研究は、AI とシミュレーションにおける Nvidia の最新の進歩と革新を示しています。

Nvidia は、デザイナーやアーティストが、許可されたデータに基づいてトレーニングされた生成 AI を使用することで、生産性を向上させる新しい方法を手に入れたと述べています。たとえば、Shutterstock (米国の画像サプライヤー) は、ジェネレーティブ 3D サービスの商用ベータ版を開始しました。これにより、クリエイターは 3D アセットのプロトタイプを迅速に作成し、テキストまたは画像プロンプトのみを使用してシーンを照らす 360 HDRi 背景を生成できるようになり、ゲッティ イメージズ (米国の写真交換会社) は、生成 AI サービスを高速化し、画像生成を 2 倍に高速化し、出力品質を向上させました。これらのサービスは、マルチモーダル生成 AI アーキテクチャである Nvidia Edify に基づいており、新しいモデルは 2 倍高速になり、画質と即時精度が向上し、ユーザーが被写界深度や焦点などのカメラ設定を制御できるようになります。ユーザーは約 6 秒で 4 つの画像を生成し、4K 解像度にアップスケールできます。

結論

黄氏は重要な場面に必ず革ジャンを着て、AIがもたらすエキサイティングな未来を世界に向けて語る。

私たちは NVIDIA の成長も経験しており、NVIDIA がゲーム用 GPU の巨人から AI チップの覇者へと段階的に成長し、さらに垂直および水平の AI ソフトウェアとハ​​ードウェアのフルスタック レイアウトに至るまで、NVIDIA が野心に満ちており、急速に反復しているのを目の当たりにしています。 AI技術の波の最前線にいます。

プログラマブル シェーディング GPU、CUDA アクセラレーション コンピューティングから、Nvidia Omniverse および生成 AI NIM マイクロサービスの立ち上げ、3D モデリング、ロボット シミュレーション、デジタル ツイン テクノロジの開発の促進に至るまで、これは AI におけるイノベーションの新たなラウンドを意味します。業界が来ています。

しかし、大企業は資本、技術、人材などのリソースをより多く持っているため、Nvidia NIMS などの先進テクノロジーをより迅速に採用し、実装することができます。リソースが限られているため、中小企業は技術開発のペースについていくことが困難になる可能性があります。人材の技術レベルの違いも相まって、将来的にはさらなる技術格差につながるのでしょうか?

人類が理想とするAIは、人間が手や労力を解放し、より生産性の高い世界を実現することです。しかし、生産性や生産手段が少数の人々によって管理されている場合、それはより深刻な危機を引き起こすのでしょうか?これらはすべて私たちが考える必要がある質問です。