MITとHKUは、Transformerを超える精度を持つ物理モデルに基づく視覚推論フレームワークを提案

MITとHKUは、Transformerを超える精度を持つ物理モデルに基づく視覚推論フレームワークを提案

[[437809]]

動的視覚推論、特にオブジェクト間の物理的な関係についての推論は、コンピューター ビジョンにおける重要かつ困難な問題です。観察されたビデオが与えられた場合、モデルはビデオに基づいてビデオ内のオブジェクトの相互作用プロセスを推測する必要があるだけでなく、ビデオの長期的な将来と反事実的状況を予測する必要もあります。これら 2 つの予測は、既存のニューラル ネットワーク モデルの弱点です。

既存の手法は、エンドツーエンドのニューラルネットワーク(Vision Transformerなど)を使用してオブジェクト間の関係をモデル化する手法[3]と、ニューロシンボルに基づく推論モデル[2, 4]の2つに大別できます。前者はTransformerなどの強力な表現の恩恵を受け、パフォーマンスは良好ですが、大量のデータに依存しており、推論プロセスは不透明で説明が困難です。後者は、ニューラルシンボルに基づくステップバイステップの推論に基づいています。モデルの解釈可能性は良好ですが、精度は限られています。また、既存のソリューションでは、長期予測や反事実予測の問題を解決することが困難です。

本論文で提案された微分可能な物理モデルに基づくニューラル記号推論フレームワークは、この問題をうまく解決します。ビデオと質問のペアから物理モデルを学習し、明示的な物理モデルを使用してオブジェクトのダイナミクスをモデル化し、正確なダイナミクス予測に基づいて長期および反事実予測の問題に答えます。私たちのフレームワークは透明性と解釈性に優れており、精度の点ではTransformerベースのモデルよりも優れています。さらに、データ効率も良好で、20% 以下のデータのみを使用しても良好な結果が得られます。この記事の著者は香港大学(HKU)、マサチューセッツ工科大学(MIT)、MIT-IBM Watson AI Labの研究者であり、論文はNeurIPS 2021に採択されています

図1. [NeurIPS 2021] VRDP著者紹介

  • プロジェクトのホームページ: http://vrdp.csail.mit.edu/
  • 論文リンク: http://vrdp.csail.mit.edu/assets/NeurIPS21_VRDP/vrdp.pdf
  • コードリンク: https://github.com/dingmyu/NCP

背景とデータ

この論文で最もよく使用されるデータセットはCLEVRERデータセット[2]である。下の図に示すように、単純化されたオブジェクト (球、円柱、立方体など) を使用して、ダイナミクスに関連する推論問題を学習します。1. 何が起こったか? (説明的な質問); 2. なぜそれが起こったのですか? (説明質問)3. 何が起こるでしょうか? (予測的な質問)。4. …だったらどうなるでしょうか。(反事実的な質問)。人間は物理的な直感と常識を使ってこれらの問題を比較的簡単に推測できますが、機械にとっては、特に反事実的問題の場合は、これはやや困難です。たとえば、黄色い金属のシリンダーがなかったらどうなるでしょうか?これは、物理的なモデリングと空間想像力の能力をテストするものです。 Transformer ベースのモデルは記述的および説明的な問題をうまく解決できますが、反事実的な場合には常に失敗します。

図2. CLEVRER推論データセットの例

方法の紹介

この記事の著者らは、既存のソリューションの欠点は、物理モデルを明示的に使用せず、ニューラル ネットワークや GNN の暗黙的な推論に過度に依存しているため、長期予測や反事実的推論においてビデオ内のロジックをうまく捉えることができない点にあることを発見しました。これに基づいて、著者らは微分可能な物理エンジンを導入し、ビデオからオブジェクトの軌跡とプロパティをキャプチャすることにより、ビデオ内のオブジェクトとシーンの物理パラメータ(速度、加速度、質量、弾性係数、摩擦など)を復元しました。すべての相対的な物理パラメータが推測され、つまり明示的な物理モデルが得られると、著者らはその物理モデルを使用して予測ベースおよび反事実的な物理シミュレーションを実行し、シミュレートされた軌跡と特性に基づいて関連する質問に答えます。具体的なプロセスは以下の図の通りです。

図 3. 物理モデルに基づく推論の例。 (1)知覚モジュールを使用して、ビデオから各オブジェクトとそれに対応する軌跡および属性を取得します。(2)上記のビデオ観察を使用して、微分可能な物理シミュレーションを通じて関連する物理パラメータを学習します。(3)物理シミュレーションを通じて予測を行い、関連する質問に答えます。

しかし、上記のフレームワークにはまだ難しさがあります。現実世界では、オブジェクトに属性がラベル付けされていないことがよくあります。この場合、知覚モジュールを通じてオブジェクトの関連属性(色や形など)を取得することは困難です。この事前情報がなければ、微分可能な物理シミュレーションを実行することは不可能であり、正確な物理モデルを学習することは不可能です。そこで著者らは、視覚知覚モジュール、概念学習器、物理モデルを組み合わせ、3つのシームレスなモジュールを使用して上記の問題を解決するVRDPフレームワークを提案した。その中で、視覚認識モジュールは画像の各フレームをセグメント化して各オブジェクトと対応する軌跡を取得するために使用されます。概念学習器はオブジェクトの軌跡情報と質問ペアからオブジェクトの属性を学習する役割を担います。オブジェクトの軌跡と属性が取得された後、微分可能な物理シミュレーションを通じてより正確な物理モデルが学習され、物理モデルに基づいて長期的かつ直感に反する推論が完了します。全体的な枠組みは次のとおりです。

図4. VRDPフレームワーク。これは、視覚知覚モジュール、概念学習器、微分可能な物理モデルの3つの部分で構成されています。

具体的には、フレームワークの物理エンジンは、運動量と運動エネルギーの保存に基づく衝突モデルです。単一のビデオ軌跡からオブジェクトのリアルタイムの速度と加速度を推定し、これを使用してシーンの摩擦などのパラメータを推定します。さらに、衝突イベントを通じて衝突する物体の相対的な質量や弾性係数を推定し、これらのパラメータを学習することで、さまざまなシミュレーションや推論を自由に実行できます。本論文の概念学習器は、質問内の各概念語に埋め込みを割り当て、ビデオの軌跡から物体知覚の特徴を学習する。視覚的特徴と意味的エンコーディングを同じ空間に投影して取得することで、各物体の対応する属性を取得する。NS-CL [1]を参照。下の図の通りです。

図5. 概念学習者

この論文のニューラルシンボリックエグゼキュータは、NS-DR [2] と DCL [4] のスキームを使用して、予測されたオブジェクトの軌跡と衝突イベントに基づいて明示的なシンボリック推論を実行します。たとえば、filter(Green) はすべての緑色のオブジェクトを取得することを意味し、filter(Collision, filter(Green), filter(Cube)) は緑色のオブジェクトと立方体の間の衝突イベントを見つけることを意味します。明示的な物理モデルとニューラルシンボリックエグゼキューターを通じて、私たちのフレームワークの各ステップは説明可能で完全に透明であり、推論プロセス全体が人間の段階的な推論に似ています。

デモ

図6. 物理シミュレーションの例。左側は元のビデオ、右側はシミュレーション結果です。

図7. 予測問題の推論例

図8. 反事実的推論の例

実験セクション

この論文で提案された VRDP フレームワークは優れたパフォーマンスを発揮します。CLEVRER データセット全体でテストしたところ、より困難な予測問題と反事実問題で最高のパフォーマンスを達成し、次の表に示すように、記述問題と説明問題でも競争力のある結果が得られました。

図9. 実験結果(全データ)

さらに、データ利用効率が非常に高く、下の図に示すように、わずか 20% のデータを使用しても、既存の他のソリューションをはるかに上回る非​​常に優れた結果を達成できます。

図10. データ効率評価(部分データ)

著者らはまた、微分可能な物理モデルを使用することで、VRDP を「重い」という概念など、データセットに存在しない新しい概念に簡単に拡張できることを実証しました。VRDP は物理シミュレーションを正常に実行し、より複雑な反事実シナリオである青いシリンダーが重くなった場合に何が起こるかを正確に予測します。

図11. 新しい反事実概念「重い」への拡張

<<:  Waymo - 自動運転技術の解説

>>:  AIがKing of GloryやStarCraftをプレイしています...その背後にあるテクノロジーを理解していないのですか?ゲームAIのレビューはこちら

ブログ    

推薦する

2021年、人工知能は再び疫病との戦いで役割を果たすだろう

[[344407]] COVID-19パンデミックが世界を席巻する以前から、人工知能(AI)、特にそ...

新技術により大規模人工知能モデルの処理性能が効果的に向上

MIT と Nvidia の研究者は、高性能コンピューティング タスクで使用されるデータ構造であるス...

未来を受け入れる: AIと教育テクノロジーによる教育の変革

新しいテクノロジー、特に人工知能 (AI) の急速な台頭により、教育と指導は大きな変化の瀬戸際にあり...

データのクリーニングと前処理の完全ガイド

データの前処理は、機械学習モデルを構築する際の最初の (そしておそらく最も重要な) ステップであり、...

ChatGPT 技術製品の実装: 技術アーキテクチャから実際のアプリケーションまで

導入この共有では、ChatGPTテクノロジー製品の実装についてお話ししたいと思います。技術アーキテク...

...

...

人工知能アルゴリズムが構造生物学の難問を解決

新しい人工知能アルゴリズムは、RNA 分子の正しい 3 次元構造を間違ったものから選び出すことができ...

半導体市場における人工知能の可能性と重要性

人工知能プロセッサは世界の半導体産業を活性化させており、少なくとも1つの市場調査会社は、AIチップの...

...

AIは「技術力」の集中を加速させる。巨大企業によるAIの独占は深刻な結果をもたらすのか?

AI テクノロジーがかなり集中化しており、テクノロジー大手が優位に立っていることにお気づきですか?...

顧客の声: AI はあなたにとって優先事項ですか? データ戦略から始める必要があります

[[337768]]現在、世界中のあらゆる部門が人工知能(AI)の研究を行っています。 AI の画...

スマートテクノロジーが戦いに加わり、宇宙探査が新たな機会をもたらす

今日、現代科学技術の出現と発展、そしてさまざまなインテリジェント技術の登場により、人類の宇宙旅行はよ...

フランスの科学者がアリのように移動できる六脚ロボットを開発

通常、ロボットやその他のデバイスは GPS を使用して屋外で自律的に移動を行います。しかし、フランス...

TinyML を理解する: エッジでの超低消費電力機械学習

導入最も普及している IoT デバイスは小型で、電力が限られている傾向があります。これらは、組み込み...