メタバースの錬金術には物理の基本法則が必要です! Nvidia副社長:現実世界のデータトレーニングは不要

メタバースの錬金術には物理の基本法則が必要です! Nvidia副社長:現実世界のデータトレーニングは不要

次のことは直感に反するように思えるかもしれません:

AI が現実世界のアプリケーション シナリオに適切に対応できるようにするには、現実世界のデータをトレーニング データ セットとして使用しないことが最善です。

はい、合成データは AI の真の可能性を引き出す鍵です。

名前が示すように、合成データは現実世界から収集されたものではなく、人工的に生成されます。

しかし、合成データの使用には常に論争が伴い、業界ではそれが現実世界に正確に対応できるのか、訓練された AI が実際の状況に対処できるのかという疑問が常にありました。

これに対して、シミュレーション技術とOmniverseエンジンの構築を担当するNVIDIAの副社長、Rev Lebaredian氏が独占インタビューで答えた。

物理シミュレーション

2021 年 11 月、Huang 氏は GTC カンファレンスで Omniverse Replicator を発表しました。これは、物理シミュレーション用の合成データを生成し、ニューラル ネットワークのトレーニングに使用できる強力な合成データ生成エンジンです。

「シミュレーション」に関して言えば、私たちが最もよく目にするのは実はゲームであり、これに現実世界の物理法則をいくつか加えることで、よりリアルな体験が可能になります。

たとえば、ダイナマイトパックを使用して壁を爆破すると、大きな音とともに壁が崩壊します。しかし、壁がまったく動かないのであれば、また手抜きが行われたのではないかと思わずにはいられません。

もちろん、ほとんどの場合、ゲームは真の 100% 復元を達成しようとはしません。結局のところ、現実世界をシミュレートするには、計算能力を大量に消費してしまいます。

さらに、ゲームは究極的にはファンタジー世界のシミュレーションであり、楽しむことが目的であるため、現実世界の物理的な正確さに従うことは必ずしも良いことではありません。

これまでゲーム内での AI のトレーニングに関する研究は数多く行われてきましたが、その結果は明らかに限られています。

Omniverse の目標は、現実の物理法則に完全に準拠したシミュレートされた世界を復元することです。

ここで言うシミュレーションとは、剛体物理学、軟体物理学、流体力学、その他の関連するものを使用して、原子が互いにどのように相互作用するかをシミュレートすることです。

たとえば、光が物体の表面とどのように相互作用して、最終的に私たちが通常目にする外観を作り出すかなどです。

そして、現実世界を十分にシミュレートできるようになると、それに応じた「超能力」を獲得します。

未来を予測する

たとえば、仮想世界で現在いる部屋を 1:1 スケールで複製すると、鳥瞰図を使用して行きたい場所を選択し、そこに「テレポート」することができます。

例えば、火星にセンサーを設置して現実世界の情報を取得し、それを仮想世界に再現することで、いつでも実際に火星での生活を体験することができます。

そして、これは最も驚くべきことではありません。

十分に正確なシミュレーションがあれば、特定の初期条件を設定するだけで未来を予測できるようになります。

もう一度この部屋を例に挙げてみましょう。私は携帯電話を掲げています。この時点で、実際に手を離さなくても、手を離した瞬間に何が起こるかをシミュレートできます。

当然、重力により携帯電話は落下します。

シミュレーションの世界では、この携帯電話がどのように落ちるか、地面に落ちた後に画面が壊れるかどうかなどを予測できます。

つまり、さまざまな決定や条件下で生成された結果を無制限にテストし、考えられるすべての「並行世界」を探索することもできます。

これに基づいて適切な最適化を行うことができれば、最良の未来を見つけることができます。

AI のトレーニングにまだ実際のデータを使用していますか?

AI 業界が急成長しているこの新しい時代では、大学院生がラップトップだけで高度なソフトウェアを作成することは不可能です。

高度なアルゴリズムの開発には、膨大なデータを持つ巨大なシステムでのトレーニングが必要であると言えます。

そのため、最近では「データは新時代の石油である」という格言があります。

データ収集に便利な大手テクノロジー企業が有利になっているようです。

しかし、企業が現在収集しているビッグデータは、将来生み出される最先端のAIにはほとんど役に立たないというのが実情です。

私は2017年の国際コンピュータグラフィックス会議(SIGGRAPH 2017)でこれに気づきました。

当時、私たちはドミノをプレイできるロボットと、ロボットをトレーニングするための AI モデルをいくつか開発しました。最も基本的なものは、テーブル上のドミノを検出し、ドミノの種類と点の数からドミノの方向を区別できるコンピューター ビジョン モデルです。

Google を使えば十分なトレーニング データをいつでも見つけることができますよね?

もちろん、Google 画像検索では大量のドミノ画像が見つかりますが、次のような画像も見つかります。

  1. これらの画像にはラベルが付いていないため、各画像内の各ドミノに 1 つずつラベルを付けるには、多くの手作業が必要です。
  2. ラベル付けした後でも、データに必要な多様性が欠けていることがわかります。

実際のシーンに適用されるパターン認識アルゴリズムが十分に堅牢であるためには、さまざまな照明条件やカメラ/センサーの状態でも正常に実行できる必要があります。ドミノを識別するアルゴリズムは、あらゆる材質のドミノを正しく区別できなければなりません。

したがって、このような単純なトレーニング要件であっても、必要な十分なデータは存在しません。

実際に本当に必要なデータを収集したい場合は、まず何百もの異なるドミノデッキを購入し、異なるカメラを使用して異なる照明条件下で撮影する必要があります。

そこで 2017 年に、ゲーム エンジンを直接使用してランダム ドミノ ジェネレーターをエンコードし、それを使用してすべてのトレーニング データを生成し、堅牢な画像認識モデルを一晩でトレーニングしました。

このモデルは、会議会場のさまざまなカメラで撮影された画像を処理した後も、満足のいく動作を示しました。

これは単なる簡単な例です。自動運転車や完全自律型マシンなどのはるかに複雑なシナリオでは、必要な量、精度、多様性のトレーニング データをすべて現実世界から収集することは不可能です。

物理的に十分に正確な AI トレーニング データを生成できない限り、さらなる進歩の余地はありません。

訓練に必要な危険な状況はカバーできますか?

Omniverse では、昼と夜をいつでも切り替えることができ、氷や雪の環境や急カーブなどのシナリオをシミュレートできます。

歩行者や動物も、現実世界では決して起こらないような危険な状況に陥ることがあります。

実際に人や動物を危険にさらしたい人は誰もいませんが、自動運転車メーカーは、さまざまな危険で限界的な環境で自社製品がどのように機能するかを理解する必要があります。

そのため、仮想世界で AI をトレーニングすることは誰にとっても便利です。

合成データは最良のトレーニング戦略でしょうか?

現在、ほとんどの AI は「教師あり学習」によって作成されています。たとえば、ニューラル ネットワーク AI に猫と犬を区別させるには、まずラベル付きの画像を使用して AI に猫と犬が何であるかを教え、その後、新しいラベルのない画像に適用する必要があります。

AI のトレーニングに使用される合成データは、超高精度のデータ注釈が組み込まれているため、「ベンチマーク真実データ」として使用できます。

自動運転車のシナリオでは、ユーザーは現実世界のセンサーを通じて、道路上のさまざまな車両や歩行者の 3D 位置をスマートカーに認識させる必要があります。しかし実際には、センサーが AI に提供する情報は、ピクセルのみで構成される 2D 画像です。

AI に物体の 3D 情報を推測するようにトレーニングする場合、まず 2D 画像内の物体の周囲に枠を描き、「これは特定のセンサーの特定のレンズに基づいて得られた特定の物体の相対距離です」と AI に伝える必要があります。

ただし、Omniverse でデータを合成する場合は、この手順をスキップして、オブジェクトの 3D 位置情報を完全な物理的精度で直接取得できるため、人為的に導入されたデータによって生じる誤った注釈を回避できます。また、ニューラルネットワークをトレーニングして、よりスマートで正確な結果を得るためにも使用できます。

過剰適合の問題は発生しますか?

合成データは、多様なデータセットを生成する方がはるかに便利であるため、実際には過剰適合の問題を解決するための効果的な方法の 1 つです。

ニューラルネットワーク AI に表情を認識するようトレーニングしたいが、トレーニング データ セットがすべて白人男性の場合、AI は白人男性のデータに過剰適合し、多民族の人々の表情を認識できなくなります。

合成データはこの状況を悪化させることはなく、データの多様性をより容易にするだけです。

肖像画を生成する際に顔のパラメータを変更できる合成データジェネレータがあれば、肌の色、目の色、髪型などの情報に豊かで多様な違いを持たせることができ、AI のトレーニングに使用して、前述のような過剰適合の状況を回避することができます。

偏見のないユートピア?

AIが生まれた環境は人工的です。これらはコンピューター内で生まれ、人間が入力したデータのみに基づいてトレーニングされます。そのため、AI のトレーニングに最適な仮想世界を構築することが可能です。

このような世界で訓練された AI は、実際のデータで訓練された AI よりも賢くなり、現実世界でより優れたパフォーマンスを発揮します。

しかし、合成データの難しさは、高品質なデータを生成することが容易ではないという点にあります。必要なのは、現実世界に物理的に正確な Omniverse のようなシミュレーターです。

合成データ ジェネレータが漫画のような画像を生成する場合、その機能は明らかに役に立ちません。

漫画で訓練された AI を実際の病院で働くロボットに搭載したい人はいないでしょう。そのようなロボットが病人、高齢者、若者の世話をすると、結果はあまりにも恐ろしいものになるでしょう。

したがって、シミュレータは可能な限り物理的に正確である必要がありますが、これを実現するのは簡単ではありません。

<<:  人工知能アルゴリズムが核融合の応用に一歩近づく

>>:  「デジタルマン」もリストに載っているので、怖いのかと聞いてみたいのですが

ブログ    
ブログ    

推薦する

「顔支払い」が破綻?誰かがジャック・マーの写真を使って実験したところ、画面に4つの大きな文字がポップアップしました。

テクノロジーは絶えず発展しています。今や中国では、家から出ることなくお気に入りの商品を購入することが...

...

Google Robotics Research Scientist: ML 論文の要点を素早く理解するための 5 つの質問を覚えておきましょう

[[382214]]編纂者:Qi Lubei編集者:陳彩仙機械学習の分野は非常にホットであり、新しい...

OpenAI: GPT-5が危険すぎる場合、理事会はアルトマンの釈放を阻止する権利がある

OpenAIは新たな発表を行った。取締役会はアルトマン氏の決定を拒否する権限を持つようになった。特に...

テキストマイニングの詳細: ツール、タスク、問題、解決策

[51CTO.com クイック翻訳] 現在、世界中のあらゆる場所で大量のデータが絶えず生成されており...

...

テレンス・タオがGPT-4のチャット履歴を公開、研究アシスタントを入手するにはここをクリック

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

SQL Server データ マイニング: クラスタリング アルゴリズムとシーケンシャル クラスタリング アルゴリズムの理解

最近、クライアントの開発チームと SQL Server データ マイニングとそのアプリケーションにつ...

JD Digits JDDコンペティションが終了、「自動運転」と「人口動態国勢調査」の世界チャンピオンが発表

1月13日、JDD-2018 JDデジタルテクノロジーグローバルエクスプローラーコンペティションの世...

時間畳み込みネットワーク: 時系列の次の革命?

この投稿では、最近の TCN ベースのソリューションをいくつかレビューします。まず、動き検出のケース...

Dynatrace のフルスタック AI モニタリングは、企業が AWS クラウドで飛躍するのを助けます

2018 年 10 月 31 日、上海 - 世界有数のソフトウェア インテリジェンス企業である Dy...

PubDef: パブリックモデルを使用した転送攻撃の防御

翻訳者 |ブガッティレビュー | Chonglou敵対的攻撃は、機械学習システムの信頼性とセキュリテ...

ポピュラーサイエンス | TensorFlow.js から機械学習について学ぶ

フロントエンド開発者にとって、機械学習を理解するのは難しい場合があります。私は機械学習を勉強し始めて...