人間の認知的推論の新たな課題に挑戦するため、MITと他の研究者らは共同で新世代の視覚的推論データセットを提案した。

[[440343]]

MIT-IBM Watson AI Labの主任科学者であるガン・チュアン氏が率いるチームは、部分ベースの視覚推論を提案し、概念的推論、関係的推論、類推的推論、数学的推論、物理的推論という5種類の人間の認知的推論タスクを統合した、新世代の視覚推論データセットを提案した。

人間の視覚認識の重要な点は、視覚シーンをオブジェクトに解析し、さらにそれをオブジェクトの部分に解析して、部分と全体の階層を形成することです。この階層構造は、視覚情報の解釈と整理、および視覚的知覚と推論の一般化において重要な役割を果たす、豊富な意味概念と関係を誘発します。しかし、既存の視覚推論データセットは、オブジェクト内のローカルな部分ではなく、主にオブジェクト全体に焦点を当てています。部分と全体の階層に基づく視覚的推論は、より細かい概念、より豊富な幾何学的関係、およびより複雑な物理的関係のため、オブジェクト全体を中心とした推論よりも困難です。

したがって、ローカルベースの概念と関係をよりよく説明し理解するために、この論文では、PTR と呼ばれる新しい大規模な診断視覚推論データセットを紹介します。 PTR には、セマンティックインスタンスセグメンテーション、色特性、空間および幾何学的関係、および特定の物理的特性 (安定性など) に関するオブジェクトとパーツの注釈が付いた約 7 万枚の RGBD 合成画像が含まれています。画像は、概念的推論、関係的推論、類推的推論、数学的推論、物理的推論の 5 種類の質問とペアになっています。これらのタイプはすべて人間の認知的推論の重要な側面から来ていますが、これまでの研究では十分に研究されていません。

この論文では、このデータセット上で最先端の視覚推論モデルをいくつか検討します。研究者たちは、特にいくつかの新しいタイプの推論タスク（幾何学、物理学の問題など）において、彼らのパフォーマンスが人間のパフォーマンスをはるかに下回っていることを観察しました。この研究では、このデータセットによって機械推論がより複雑な人間の認知的推論へと進歩することが期待されています。

論文アドレス: http://ptr.csail.mit.edu/assets/ptr.pdf
プロジェクトのホームページ: http://ptr.csail.mit.edu

1. 背景

視覚的推論では、機械が特定のシーンを観察して推論の質問に答える必要があります。近年、自然データには大量のノイズとバイアスが含まれているため、研究者はデータセットを合成してきました。合成データセットの生成は完全に制御可能であるため、研究者は推論モデルの欠陥をより簡単に診断できます。 CLEVR[1]はこのタイプの代表的なデータセットです。しかし、CLEVR 上のさまざまな視覚推論モデルの精度は飽和状態に達しています。これは、CLEVR データセットの推論が知覚レベルに限定されており、認知レベルでの人間の推論能力に大きく遅れをとっているためです。したがって、本論文では、人間にとっては比較的容易であるが、機械推論の分野では十分に研究されていない新しいタスクに焦点を当てた、新世代の視覚推論データセットを提案します。

一方、これまでの視覚推論データセットは、主にオブジェクトの全体的な特徴に焦点を当てており、詳細な局所的な理解はあまり重視されていませんでした。しかし、心理学的証拠は、人間が視覚的なシーンを部分と全体の階層に解析することを示唆しています。したがって、本論文で提案するデータセットは、主に全体と部分の関係についての推論に焦点を当てています。

図2: PTRデータセットの概要

2.データセットの紹介

PTR データセットには、70,000 枚の RGBD 画像と、これらの画像に基づく 700,000 個の質問が含まれています。この記事の著者は、セマンティックインスタンスセグメンテーション、ジオメトリ、物理状態の注釈を含む詳細な画像注釈を提供しています。データセットは、バイアスとノイズを慎重に制御して生成されました。

次の図は、PTR データセットでカバーされる概念をまとめたものです。

図3: PTRデータセットの概念

PTR データセットには、認知レベルの概念と関係性が豊富に含まれてることが分かります。物体全体の観点からは空間関係や物理的状態などの概念があり、局所的な側面の観点からは幾何学的関係などの概念があります。全体と部分の追加により、視覚的推論のレベルと豊かさが大幅に向上します。

PTR データセットには、概念的推論、関係的推論、類推的推論、数学的推論、物理的推論の 5 種類の質問が含まれています。

2.1 概念的推論

主に、機械が全体と部分の概念と関係を理解しているかどうかを検査します。

2.2 関係推論

主に、物体間の空間関係と部品間の幾何学的関係に対する機械の理解を調べます。

2.3 類推的推論

主な焦点は、機械がオブジェクト/パーツ間の関係を他のオブジェクト/パーツに転送できるかどうかにあります。

2.4 数学的推論

主に、機械がシーンについて数学的な推論を実行できるかどうかを検査します。

2.5 物理的推論

主に機械が物体の物理的状態を判断できるかどうかを検査します。

3.実験部分

この論文では、NS-VQA[2]、MDETR[3]、MAC[4]などを含むいくつかのSOTA視覚推論モデルをこのデータセット上でパフォーマンスを検証します。

図4: 実験結果

結果から、視覚推論モデルのパフォーマンスは人間のパフォーマンスをはるかに下回っていることがわかります。その中で、NS-VQA はグラウンドトゥルースセグメンテーション、セマンティクス、およびその他のトレーニングモデルを使用します。しかし、物理学や幾何学などの難しい問題ではパフォーマンスがまだ低いです。

この論文では、結果が誤った認識から生じたものか、不十分な認知的推論から生じたものかをさらに研究するために、NS-VQA モデルの除去研究を実施しました。

図5: NS-VQAモデルのアブレーション研究

結果は、完璧な知覚を備え、モデルに必要なすべてのオブジェクトとローカルセグメンテーションが与えられても、モデルは幾何学、類推、および物理学の問題に対してまだうまく機能しないことを示しています。

実験により、この研究データセットは、特により困難な物理的および集合的な問題において、将来の機械が人間のように認知的推論を実行できるようにする方法について非常に重要な方向性を示していることが示されました。

<<: 英国メディアが人工知能の軍事応用とそのリスクを分析

>>: 2022年にエネルギー・公益事業分野で注目すべき4つの技術トレンド