メタバースの錬金術には物理の基本法則が必要です! Nvidia副社長：現実世界のデータトレーニングは不要

次のことは直感に反するように思えるかもしれません:

AI が現実世界のアプリケーションシナリオに適切に対応できるようにするには、現実世界のデータをトレーニングデータセットとして使用しないことが最善です。

はい、合成データは AI の真の可能性を引き出す鍵です。

名前が示すように、合成データは現実世界から収集されたものではなく、人工的に生成されます。

しかし、合成データの使用には常に論争が伴い、業界ではそれが現実世界に正確に対応できるのか、訓練された AI が実際の状況に対処できるのかという疑問が常にありました。

これに対して、シミュレーション技術とOmniverseエンジンの構築を担当するNVIDIAの副社長、Rev Lebaredian氏が独占インタビューで答えた。

物理シミュレーション

2021 年 11 月、Huang 氏は GTC カンファレンスで Omniverse Replicator を発表しました。これは、物理シミュレーション用の合成データを生成し、ニューラルネットワークのトレーニングに使用できる強力な合成データ生成エンジンです。

「シミュレーション」に関して言えば、私たちが最もよく目にするのは実はゲームであり、これに現実世界の物理法則をいくつか加えることで、よりリアルな体験が可能になります。

たとえば、ダイナマイトパックを使用して壁を爆破すると、大きな音とともに壁が崩壊します。しかし、壁がまったく動かないのであれば、また手抜きが行われたのではないかと思わずにはいられません。

もちろん、ほとんどの場合、ゲームは真の 100% 復元を達成しようとはしません。結局のところ、現実世界をシミュレートするには、計算能力を大量に消費してしまいます。

さらに、ゲームは究極的にはファンタジー世界のシミュレーションであり、楽しむことが目的であるため、現実世界の物理的な正確さに従うことは必ずしも良いことではありません。

これまでゲーム内での AI のトレーニングに関する研究は数多く行われてきましたが、その結果は明らかに限られています。

Omniverse の目標は、現実の物理法則に完全に準拠したシミュレートされた世界を復元することです。

ここで言うシミュレーションとは、剛体物理学、軟体物理学、流体力学、その他の関連するものを使用して、原子が互いにどのように相互作用するかをシミュレートすることです。

たとえば、光が物体の表面とどのように相互作用して、最終的に私たちが通常目にする外観を作り出すかなどです。

そして、現実世界を十分にシミュレートできるようになると、それに応じた「超能力」を獲得します。

未来を予測する

たとえば、仮想世界で現在いる部屋を 1:1 スケールで複製すると、鳥瞰図を使用して行きたい場所を選択し、そこに「テレポート」することができます。

例えば、火星にセンサーを設置して現実世界の情報を取得し、それを仮想世界に再現することで、いつでも実際に火星での生活を体験することができます。

そして、これは最も驚くべきことではありません。

十分に正確なシミュレーションがあれば、特定の初期条件を設定するだけで未来を予測できるようになります。

もう一度この部屋を例に挙げてみましょう。私は携帯電話を掲げています。この時点で、実際に手を離さなくても、手を離した瞬間に何が起こるかをシミュレートできます。

当然、重力により携帯電話は落下します。

シミュレーションの世界では、この携帯電話がどのように落ちるか、地面に落ちた後に画面が壊れるかどうかなどを予測できます。

つまり、さまざまな決定や条件下で生成された結果を無制限にテストし、考えられるすべての「並行世界」を探索することもできます。

これに基づいて適切な最適化を行うことができれば、最良の未来を見つけることができます。

AI のトレーニングにまだ実際のデータを使用していますか?

AI 業界が急成長しているこの新しい時代では、大学院生がラップトップだけで高度なソフトウェアを作成することは不可能です。

高度なアルゴリズムの開発には、膨大なデータを持つ巨大なシステムでのトレーニングが必要であると言えます。

そのため、最近では「データは新時代の石油である」という格言があります。

データ収集に便利な大手テクノロジー企業が有利になっているようです。

しかし、企業が現在収集しているビッグデータは、将来生み出される最先端のAIにはほとんど役に立たないというのが実情です。

私は2017年の国際コンピュータグラフィックス会議（SIGGRAPH 2017）でこれに気づきました。

当時、私たちはドミノをプレイできるロボットと、ロボットをトレーニングするための AI モデルをいくつか開発しました。最も基本的なものは、テーブル上のドミノを検出し、ドミノの種類と点の数からドミノの方向を区別できるコンピュータービジョンモデルです。

Google を使えば十分なトレーニングデータをいつでも見つけることができますよね?

もちろん、Google 画像検索では大量のドミノ画像が見つかりますが、次のような画像も見つかります。

これらの画像にはラベルが付いていないため、各画像内の各ドミノに 1 つずつラベルを付けるには、多くの手作業が必要です。
ラベル付けした後でも、データに必要な多様性が欠けていることがわかります。

実際のシーンに適用されるパターン認識アルゴリズムが十分に堅牢であるためには、さまざまな照明条件やカメラ/センサーの状態でも正常に実行できる必要があります。ドミノを識別するアルゴリズムは、あらゆる材質のドミノを正しく区別できなければなりません。

したがって、このような単純なトレーニング要件であっても、必要な十分なデータは存在しません。

実際に本当に必要なデータを収集したい場合は、まず何百もの異なるドミノデッキを購入し、異なるカメラを使用して異なる照明条件下で撮影する必要があります。

そこで 2017 年に、ゲームエンジンを直接使用してランダムドミノジェネレーターをエンコードし、それを使用してすべてのトレーニングデータを生成し、堅牢な画像認識モデルを一晩でトレーニングしました。

このモデルは、会議会場のさまざまなカメラで撮影された画像を処理した後も、満足のいく動作を示しました。

これは単なる簡単な例です。自動運転車や完全自律型マシンなどのはるかに複雑なシナリオでは、必要な量、精度、多様性のトレーニングデータをすべて現実世界から収集することは不可能です。

物理的に十分に正確な AI トレーニングデータを生成できない限り、さらなる進歩の余地はありません。

訓練に必要な危険な状況はカバーできますか？

Omniverse では、昼と夜をいつでも切り替えることができ、氷や雪の環境や急カーブなどのシナリオをシミュレートできます。

歩行者や動物も、現実世界では決して起こらないような危険な状況に陥ることがあります。

実際に人や動物を危険にさらしたい人は誰もいませんが、自動運転車メーカーは、さまざまな危険で限界的な環境で自社製品がどのように機能するかを理解する必要があります。

そのため、仮想世界で AI をトレーニングすることは誰にとっても便利です。

合成データは最良のトレーニング戦略でしょうか?

現在、ほとんどの AI は「教師あり学習」によって作成されています。たとえば、ニューラルネットワーク AI に猫と犬を区別させるには、まずラベル付きの画像を使用して AI に猫と犬が何であるかを教え、その後、新しいラベルのない画像に適用する必要があります。

AI のトレーニングに使用される合成データは、超高精度のデータ注釈が組み込まれているため、「ベンチマーク真実データ」として使用できます。

自動運転車のシナリオでは、ユーザーは現実世界のセンサーを通じて、道路上のさまざまな車両や歩行者の 3D 位置をスマートカーに認識させる必要があります。しかし実際には、センサーが AI に提供する情報は、ピクセルのみで構成される 2D 画像です。

AI に物体の 3D 情報を推測するようにトレーニングする場合、まず 2D 画像内の物体の周囲に枠を描き、「これは特定のセンサーの特定のレンズに基づいて得られた特定の物体の相対距離です」と AI に伝える必要があります。

ただし、Omniverse でデータを合成する場合は、この手順をスキップして、オブジェクトの 3D 位置情報を完全な物理的精度で直接取得できるため、人為的に導入されたデータによって生じる誤った注釈を回避できます。また、ニューラルネットワークをトレーニングして、よりスマートで正確な結果を得るためにも使用できます。

過剰適合の問題は発生しますか?

合成データは、多様なデータセットを生成する方がはるかに便利であるため、実際には過剰適合の問題を解決するための効果的な方法の 1 つです。

ニューラルネットワーク AI に表情を認識するようトレーニングしたいが、トレーニングデータセットがすべて白人男性の場合、AI は白人男性のデータに過剰適合し、多民族の人々の表情を認識できなくなります。

合成データはこの状況を悪化させることはなく、データの多様性をより容易にするだけです。

肖像画を生成する際に顔のパラメータを変更できる合成データジェネレータがあれば、肌の色、目の色、髪型などの情報に豊かで多様な違いを持たせることができ、AI のトレーニングに使用して、前述のような過剰適合の状況を回避することができます。

偏見のないユートピア？

AIが生まれた環境は人工的です。これらはコンピューター内で生まれ、人間が入力したデータのみに基づいてトレーニングされます。そのため、AI のトレーニングに最適な仮想世界を構築することが可能です。

このような世界で訓練された AI は、実際のデータで訓練された AI よりも賢くなり、現実世界でより優れたパフォーマンスを発揮します。

しかし、合成データの難しさは、高品質なデータを生成することが容易ではないという点にあります。必要なのは、現実世界に物理的に正確な Omniverse のようなシミュレーターです。

合成データジェネレータが漫画のような画像を生成する場合、その機能は明らかに役に立ちません。

漫画で訓練された AI を実際の病院で働くロボットに搭載したい人はいないでしょう。そのようなロボットが病人、高齢者、若者の世話をすると、結果はあまりにも恐ろしいものになるでしょう。

したがって、シミュレータは可能な限り物理的に正確である必要がありますが、これを実現するのは簡単ではありません。

<<: 人工知能アルゴリズムが核融合の応用に一歩近づく

>>: 「デジタルマン」もリストに載っているので、怖いのかと聞いてみたいのですが

メタバースの錬金術には物理の基本法則が必要です! Nvidia副社長：現実世界のデータトレーニングは不要

物理シミュレーション

未来を予測する

AI のトレーニングにまだ実際のデータを使用していますか?

Google を使えば十分なトレーニングデータをいつでも見つけることができますよね?

訓練に必要な危険な状況はカバーできますか？

合成データは最良のトレーニング戦略でしょうか?

過剰適合の問題は発生しますか?

偏見のないユートピア？

人工直感は人工知能の次の発展方向となるだろう

イスラエルの科学者がロボットにイナゴの耳を装備させ、バイオセンサーで画期的な進歩を遂げる

人工知能は「大きい」と「小さい」に分けられる

LLaMA の微調整によりビデオメモリの要件が半分に削減され、清華大学は 4 ビットの最適化を提案

IDC、2021年以降のITトレンドトップ10を発表

フォレスターの予測: 2021年に人工知能が輝く

人工知能翻訳は、障害なく外国人と恋に落ちるのに役立ちます

鄒聖龍が初めて人工知能について公に語り、荀雷の将来の計画が明らかにされた

転移学習とクロスドメイン推奨、およびクロスドメイン推奨のソリューション

推薦する

モノのインターネットにおける人工知能の主要技術と手法

P-Careは人間の知的生活の新たなトレンドをリードしています。中瑞富寧と世界をリードする科学者たちが2018年世界ロボット会議（WRC）に輝かしい登場を果たしました。

米政府、AIの競争力と倫理について助言する委員会を設立

OpenAIの主任科学者はスーパーAIを制御する方法を見つける計画を立てている

顔認識の歴史的な禁止が導入され、警察は犯罪者を捕まえるために顔認識を使用できなくなった

Metaは、Llama 2を上回り、GPT-4に匹敵するパフォーマンスを備えた新しいオープンソースの大規模モデルを構築しています。

自動運転のためのマルチモーダルセンサーフュージョンの簡単な分析

520 開発者のバレンタインデー: 全プラットフォームで 35 の PaddlePaddle アップグレード「Show AI」

人工知能の時代において、テクノロジーは中立ではない

ML モデルに魂を吹き込む: MVP に基づく超シンプルなデプロイメントソリューション

物理シミュレーション

未来を予測する

AI のトレーニングにまだ実際のデータを使用していますか?

Google を使えば十分なトレーニング データをいつでも見つけることができますよね?

訓練に必要な危険な状況はカバーできますか？

合成データは最良のトレーニング戦略でしょうか?

過剰適合の問題は発生しますか?

偏見のないユートピア？

推薦する

Google を使えば十分なトレーニングデータをいつでも見つけることができますよね?