動的視覚推論、特にオブジェクト間の物理的な関係についての推論は、コンピューター ビジョンにおける重要かつ困難な問題です。観察されたビデオが与えられた場合、モデルはビデオに基づいてビデオ内のオブジェクトの相互作用プロセスを推測する必要があるだけでなく、ビデオの長期的な将来と反事実的状況を予測する必要もあります。これら 2 つの予測は、既存のニューラル ネットワーク モデルの弱点です。 既存の手法は、エンドツーエンドのニューラルネットワーク(Vision Transformerなど)を使用してオブジェクト間の関係をモデル化する手法[3]と、ニューロシンボルに基づく推論モデル[2, 4]の2つに大別できます。前者はTransformerなどの強力な表現の恩恵を受け、パフォーマンスは良好ですが、大量のデータに依存しており、推論プロセスは不透明で説明が困難です。後者は、ニューラルシンボルに基づくステップバイステップの推論に基づいています。モデルの解釈可能性は良好ですが、精度は限られています。また、既存のソリューションでは、長期予測や反事実予測の問題を解決することが困難です。 本論文で提案された微分可能な物理モデルに基づくニューラル記号推論フレームワークは、この問題をうまく解決します。ビデオと質問のペアから物理モデルを学習し、明示的な物理モデルを使用してオブジェクトのダイナミクスをモデル化し、正確なダイナミクス予測に基づいて長期および反事実予測の問題に答えます。私たちのフレームワークは透明性と解釈性に優れており、精度の点ではTransformerベースのモデルよりも優れています。さらに、データ効率も良好で、20% 以下のデータのみを使用しても良好な結果が得られます。この記事の著者は香港大学(HKU)、マサチューセッツ工科大学(MIT)、MIT-IBM Watson AI Labの研究者であり、論文はNeurIPS 2021に採択されています。 図1. [NeurIPS 2021] VRDP著者紹介
背景とデータ この論文で最もよく使用されるデータセットはCLEVRERデータセット[2]である。下の図に示すように、単純化されたオブジェクト (球、円柱、立方体など) を使用して、ダイナミクスに関連する推論問題を学習します。1. 何が起こったか? (説明的な質問); 2. なぜそれが起こったのですか? (説明質問)3. 何が起こるでしょうか? (予測的な質問)。4. …だったらどうなるでしょうか。(反事実的な質問)。人間は物理的な直感と常識を使ってこれらの問題を比較的簡単に推測できますが、機械にとっては、特に反事実的問題の場合は、これはやや困難です。たとえば、黄色い金属のシリンダーがなかったらどうなるでしょうか?これは、物理的なモデリングと空間想像力の能力をテストするものです。 Transformer ベースのモデルは記述的および説明的な問題をうまく解決できますが、反事実的な場合には常に失敗します。 図2. CLEVRER推論データセットの例 方法の紹介この記事の著者らは、既存のソリューションの欠点は、物理モデルを明示的に使用せず、ニューラル ネットワークや GNN の暗黙的な推論に過度に依存しているため、長期予測や反事実的推論においてビデオ内のロジックをうまく捉えることができない点にあることを発見しました。これに基づいて、著者らは微分可能な物理エンジンを導入し、ビデオからオブジェクトの軌跡とプロパティをキャプチャすることにより、ビデオ内のオブジェクトとシーンの物理パラメータ(速度、加速度、質量、弾性係数、摩擦など)を復元しました。すべての相対的な物理パラメータが推測され、つまり明示的な物理モデルが得られると、著者らはその物理モデルを使用して予測ベースおよび反事実的な物理シミュレーションを実行し、シミュレートされた軌跡と特性に基づいて関連する質問に答えます。具体的なプロセスは以下の図の通りです。 図 3. 物理モデルに基づく推論の例。 (1)知覚モジュールを使用して、ビデオから各オブジェクトとそれに対応する軌跡および属性を取得します。(2)上記のビデオ観察を使用して、微分可能な物理シミュレーションを通じて関連する物理パラメータを学習します。(3)物理シミュレーションを通じて予測を行い、関連する質問に答えます。 しかし、上記のフレームワークにはまだ難しさがあります。現実世界では、オブジェクトに属性がラベル付けされていないことがよくあります。この場合、知覚モジュールを通じてオブジェクトの関連属性(色や形など)を取得することは困難です。この事前情報がなければ、微分可能な物理シミュレーションを実行することは不可能であり、正確な物理モデルを学習することは不可能です。そこで著者らは、視覚知覚モジュール、概念学習器、物理モデルを組み合わせ、3つのシームレスなモジュールを使用して上記の問題を解決するVRDPフレームワークを提案した。その中で、視覚認識モジュールは画像の各フレームをセグメント化して各オブジェクトと対応する軌跡を取得するために使用されます。概念学習器はオブジェクトの軌跡情報と質問ペアからオブジェクトの属性を学習する役割を担います。オブジェクトの軌跡と属性が取得された後、微分可能な物理シミュレーションを通じてより正確な物理モデルが学習され、物理モデルに基づいて長期的かつ直感に反する推論が完了します。全体的な枠組みは次のとおりです。 図4. VRDPフレームワーク。これは、視覚知覚モジュール、概念学習器、微分可能な物理モデルの3つの部分で構成されています。 具体的には、フレームワークの物理エンジンは、運動量と運動エネルギーの保存に基づく衝突モデルです。単一のビデオ軌跡からオブジェクトのリアルタイムの速度と加速度を推定し、これを使用してシーンの摩擦などのパラメータを推定します。さらに、衝突イベントを通じて衝突する物体の相対的な質量や弾性係数を推定し、これらのパラメータを学習することで、さまざまなシミュレーションや推論を自由に実行できます。本論文の概念学習器は、質問内の各概念語に埋め込みを割り当て、ビデオの軌跡から物体知覚の特徴を学習する。視覚的特徴と意味的エンコーディングを同じ空間に投影して取得することで、各物体の対応する属性を取得する。NS-CL [1]を参照。下の図の通りです。 図5. 概念学習者 この論文のニューラルシンボリックエグゼキュータは、NS-DR [2] と DCL [4] のスキームを使用して、予測されたオブジェクトの軌跡と衝突イベントに基づいて明示的なシンボリック推論を実行します。たとえば、filter(Green) はすべての緑色のオブジェクトを取得することを意味し、filter(Collision, filter(Green), filter(Cube)) は緑色のオブジェクトと立方体の間の衝突イベントを見つけることを意味します。明示的な物理モデルとニューラルシンボリックエグゼキューターを通じて、私たちのフレームワークの各ステップは説明可能で完全に透明であり、推論プロセス全体が人間の段階的な推論に似ています。 デモ図6. 物理シミュレーションの例。左側は元のビデオ、右側はシミュレーション結果です。 図7. 予測問題の推論例 図8. 反事実的推論の例 実験セクションこの論文で提案された VRDP フレームワークは優れたパフォーマンスを発揮します。CLEVRER データセット全体でテストしたところ、より困難な予測問題と反事実問題で最高のパフォーマンスを達成し、次の表に示すように、記述問題と説明問題でも競争力のある結果が得られました。 図9. 実験結果(全データ) さらに、データ利用効率が非常に高く、下の図に示すように、わずか 20% のデータを使用しても、既存の他のソリューションをはるかに上回る非常に優れた結果を達成できます。 図10. データ効率評価(部分データ) 著者らはまた、微分可能な物理モデルを使用することで、VRDP を「重い」という概念など、データセットに存在しない新しい概念に簡単に拡張できることを実証しました。VRDP は物理シミュレーションを正常に実行し、より複雑な反事実シナリオである青いシリンダーが重くなった場合に何が起こるかを正確に予測します。 図11. 新しい反事実概念「重い」への拡張 |
>>: AIがKing of GloryやStarCraftをプレイしています...その背後にあるテクノロジーを理解していないのですか?ゲームAIのレビューはこちら
ビッグデータからChatGPTまで、人工知能を定義する10の重要な用語を紹介します。人工知能とは、機...
LDA (潜在的ディリクレ分布) や Biterm などの統計トピック モデルを適用することで、大量...
TensorFlow 入門記事: 初心者でも理解できる TensorFlow 入門小学校で受けた理...
今年初めの流行は、特にCOVID-19の非常に感染力が強い性質により、適切な免疫ワクチンがない中で原...
この記事では、今後 12 ~ 24 か月の間にグローバル ビジネス エコシステムを変革する外部要因と...
[[317160]]建設作業中には、火災、電気、機械など、多くの潜在的な安全上の危険が存在します。安...
ニューラル ネットワーク アルゴリズムと機械学習における人類の現在の成果に基づくと、コンピューター ...
勉強計画(いつも顔を叩かれるような気分です)煙台での仕事を辞めて北京に来ました。アルゴリズムが苦手だ...
[[389635]]私の国では高齢化が進み、高齢者介護は長い間、社会全体で広く関心を集めるテーマとな...
以前、チャット中に友人が人工知能についての印象を「西洋的」「商業的」「未来志向」という 3 つの言葉...