人間の認知的推論の新たな課題に挑戦するため、MITと他の研究者らは共同で新世代の視覚的推論データセットを提案した。

人間の認知的推論の新たな課題に挑戦するため、MITと他の研究者らは共同で新世代の視覚的推論データセットを提案した。

[[440343]]

MIT-IBM Watson AI Labの主任科学者であるガン・チュアン氏が率いるチームは、部分ベースの視覚推論を提案し、概念的推論、関係的推論、類推的推論、数学的推論、物理的推論という5種類の人間の認知的推論タスクを統合した、新世代の視覚推論データセットを提案した。

人間の視覚認識の重要な点は、視覚シーンをオブジェクトに解析し、さらにそれをオブジェクトの部分に解析して、部分と全体の階層を形成することです。この階層構造は、視覚情報の解釈と整理、および視覚的知覚と推論の一般化において重要な役割を果たす、豊富な意味概念と関係を誘発します。しかし、既存の視覚推論データセットは、オブジェクト内のローカルな部分ではなく、主にオブジェクト全体に焦点を当てています。部分と全体の階層に基づく視覚的推論は、より細かい概念、より豊富な幾何学的関係、およびより複雑な物理的関係のため、オブジェクト全体を中心とした推論よりも困難です。

したがって、ローカルベースの概念と関係をよりよく説明し理解するために、この論文では、PTR と呼ばれる新しい大規模な診断視覚推論データセットを紹介します。 PTR には、セマンティックインスタンスセグメンテーション、色特性、空間および幾何学的関係、および特定の物理的特性 (安定性など) に関するオブジェクトとパーツの注釈が付いた約 7 万枚の RGBD 合成画像が含まれています。画像は、概念的推論、関係的推論、類推的推論、数学的推論、物理的推論の 5 種類の質問とペアになっています。これらのタイプはすべて人間の認知的推論の重要な側面から来ていますが、これまでの研究では十分に研究されていません。

この論文では、このデータセット上で最先端の視覚推論モデルをいくつか検討します。研究者たちは、特にいくつかの新しいタイプの推論タスク(幾何学、物理学の問題など)において、彼らのパフォーマンスが人間のパフォーマンスをはるかに下回っていることを観察しました。この研究では、このデータセットによって機械推論がより複雑な人間の認知的推論へと進歩することが期待されています。

  • 論文アドレス: http://ptr.csail.mit.edu/assets/ptr.pdf
  • プロジェクトのホームページ: http://ptr.csail.mit.edu

1. 背景

視覚的推論では、機械が特定のシーンを観察して推論の質問に答える必要があります。近年、自然データには大量のノイズとバイアスが含まれているため、研究者はデータセットを合成してきました。合成データセットの生成は完全に制御可能であるため、研究者は推論モデルの欠陥をより簡単に診断できます。 CLEVR[1]はこのタイプの代表的なデータセットです。しかし、CLEVR 上のさまざまな視覚推論モデルの精度は飽和状態に達しています。これは、CLEVR データセットの推論が知覚レベルに限定されており、認知レベルでの人間の推論能力に大きく遅れをとっているためです。したがって、本論文では、人間にとっては比較的容易であるが、機械推論の分野では十分に研究されていない新しいタスクに焦点を当てた、新世代の視覚推論データセットを提案します。

一方、これまでの視覚推論データセットは、主にオブジェクトの全体的な特徴に焦点を当てており、詳細な局所的な理解はあまり重視されていませんでした。しかし、心理学的証拠は、人間が視覚的なシーンを部分と全体の階層に解析することを示唆しています。したがって、本論文で提案するデータセットは、主に全体と部分の関係についての推論に焦点を当てています。

図2: PTRデータセットの概要

2.データセットの紹介

PTR データセットには、70,000 枚の RGBD 画像と、これらの画像に基づく 700,000 個の質問が含まれています。この記事の著者は、セマンティックインスタンスセグメンテーション、ジオメトリ、物理状態の注釈を含む詳細な画像注釈を提供しています。データセットは、バイアスとノイズを慎重に制御して生成されました。

次の図は、PTR データセットでカバーされる概念をまとめたものです。

図3: PTRデータセットの概念

PTR データセットには、認知レベルの概念と関係性が豊富に含まれてることが分かります。物体全体の観点からは空間関係や物理的状態などの概念があり、局所的な側面の観点からは幾何学的関係などの概念があります。全体と部分の追加により、視覚的推論のレベルと豊かさが大幅に向上します。

PTR データセットには、概念的推論、関係的推論、類推的推論、数学的推論、物理的推論の 5 種類の質問が含まれています。

2.1 概念的推論

主に、機械が全体と部分の概念と関係を理解し​​ているかどうかを検査します。

2.2 関係推論

主に、物体間の空間関係と部品間の幾何学的関係に対する機械の理解を調べます。

2.3 類推的推論

主な焦点は、機械がオブジェクト/パーツ間の関係を他のオブジェクト/パーツに転送できるかどうかにあります。

2.4 数学的推論

主に、機械がシーンについて数学的な推論を実行できるかどうかを検査します。

2.5 物理的推論

主に機械が物体の物理的状態を判断できるかどうかを検査します。

3.実験部分

この論文では、NS-VQA[2]、MDETR[3]、MAC[4]などを含むいくつかのSOTA視覚推論モデルをこのデータセット上でパフォーマンスを検証します。

図4: 実験結果

結果から、視覚推論モデルのパフォーマンスは人間のパフォーマンスをはるかに下回っていることがわかります。その中で、NS-VQA はグラウンドトゥルースセグメンテーション、セマンティクス、およびその他のトレーニングモデルを使用します。しかし、物理学や幾何学などの難しい問題ではパフォーマンスがまだ低いです。

この論文では、結果が誤った認識から生じたものか、不十分な認知的推論から生じたものかをさらに研究するために、NS-VQA モデルの除去研究を実施しました。

図5: NS-VQAモデルのアブレーション研究

結果は、完璧な知覚を備え、モデルに必要なすべてのオブジェクトとローカルセグメンテーションが与えられても、モデルは幾何学、類推、および物理学の問題に対してまだうまく機能しないことを示しています。

実験により、この研究データセットは、特により困難な物理的および集合的な問題において、将来の機械が人間のように認知的推論を実行できるようにする方法について非常に重要な方向性を示していることが示されました。

<<:  英国メディアが人工知能の軍事応用とそのリスクを分析

>>:  2022年にエネルギー・公益事業分野で注目すべき4つの技術トレンド

推薦する

新しいインフラの推進により、人工知能の応用は新たな段階に入る

レポート概要新しいインフラストラクチャにより人工知能アプリケーションの実装が加速COVID-19パン...

AIの開発パターンは「データ」から「知識」へと進化している

半世紀以上前に誕生して以来、人工知能(AI)革命は全世界に大きな影響を与えてきました。特に過去10年...

崑崙Core2が量産開始:性能が2~3倍向上し、中国の産業知能に強力な「コア」を注入

8月18日、百度とCCTVニュースは共同で「百度ワールド2021」カンファレンスを開催し、AIが何千...

Transformer のコンテキスト学習機能はどこから来るのでしょうか?

トランスフォーマーはなぜ優れたパフォーマンスを発揮するのでしょうか?多くの大規模言語モデルにもたらさ...

...

ニューラル機械翻訳のための談話レベルの単一言語修正モデル

[[280280]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...

2021年は新たなAIを形作る

人工知能が世界を形作っています。コロナウイルスを克服する方法、自動車の自動化、ロボット工学など、世界...

Google、イスラエルの交差点にAI信号機を設置

2021年最後の法定休日に別れを告げ、皆が仕事に戻り、仕事帰りの通勤のリズムが戻りました。北京、上海...

RSAは過去2世紀で最も重要なアルゴリズムの1つです

Diffie-Hellman暗号化アルゴリズムの欠点[[225219]]前回の記事では、Diffie...

世界的EDA大手のシノプシスは米国から情報漏洩の疑いで捜査を受けており、ファーウェイとSMICもその渦中に巻き込まれている。

再度調査中! 世界最大の半導体設計ソフトウェア(EDA)サプライヤーであるシノプシスは、中国に重要な...

Google は人工知能の分野で「堀」を持っていないのでしょうか?

少し前、匿名の人物が、Google 社内の研究者による研究メモを Discord プラットフォームに...

MIT テクノロジーレビュー: 6 つの質問が生成 AI の未来を決定する

「生成AIは2023年に世界を席巻します。その未来、そして私たちの未来は、私たちの次の一手によって決...

...

AIとIoTの統合が加速

近年、モノのインターネットは大きな注目を集めていますが、ほとんどのアプリケーションには 2 つの重要...