中山大学が偏りのない視覚的質問応答データセットを公開、その論文はトップジャーナルTNNLSに掲載される

中山大学が偏りのない視覚的質問応答データセットを公開、その論文はトップジャーナルTNNLSに掲載される

最近、中山大学は常識に基づいた偏りのない視覚的質問応答データセット (Knowledge-Routed Visual Question Reasoning、KRVQA) をリリースしました。自然言語と注釈者には自然なバイアスがあるため、既存のアルゴリズムでは、対応するテキストや画像の情報を理解せずに、データセット内でこれらのバイアスを適合させることで、良好な結果を得ることができます。関連論文は国際的に有名なトップジャーナルTNNLSに掲載されました。

自然言語処理とコンピュータービジョンの分野では、常識に基づく読解と視覚的な質問応答の問題を調査する研究が行われてきました。こうした種類の質問では、答えを出すためにアルゴリズムに追加の常識が必要になります。しかし、既存の常識的な視覚的な質問応答データセットのほとんどは手動で注釈が付けられており、適切な知識や感情表現に基づいて構築されていません。これにより、常識の分布がかなりまばらになり、解釈が曖昧になりやすくなるだけでなく、注釈者のバイアスも簡単に導入され、関連するアルゴリズムが、質問と回答の表面的なつながりに適合するようにニューラル ネットワークの表現力を高めることに依然として重点を置くことになります。

この問題に対処するため、研究者らは新しい知識ルーティング視覚質問推論データセット (KRVQA) を提案しました。このデータセットは、既存の画像シーン グラフに関連する複数の既存の公開知識/常識グラフの部分に基づいています。事前定義されたルールに従ってグラフ内の推論パスを検索し、大規模な偏りのない質問と回答、および推論の注釈を生成します。図 1 に示すように、このデータセットは、既存のデータ駆動型ディープ モデルが過剰適合によって高い精度を達成することを回避し、視覚的な質問応答モデルが画像内の視覚オブジェクトを正しく認識し、質問を理解し、オブジェクトと対応する常識の関係を統合して質問に答えることを促進します。

図 1: KRVQA テスト ベンチマークのサンプル図。

具体的には、推論パスを生成することで、画像シーングラフまたは知識ベースから 1 つまたは 2 つのトリプレットを選択して多段階推論を行い、使用するトリプレットを制約することで、知識を他の逸脱から分離し、回答の分布のバランスをとって回答の曖昧さを回避します。主な制約は次の 2 つです。

1. 質問はナレッジ ベース内の複数のトリプレットに関連している必要がありますが、画像に関連するトリプレットは 1 つだけです。

2. すべての質問は異なる知識ベース トリプルに基づいていますが、トレーニング セットとテスト セットには同じ候補回答セットがあります。

制約 1 は、与えられた質問に基づいて知識を推測するのではなく、視覚的な質問回答モデルが画像を正しく認識することを強制します。制約 2 は、既存の方法がトレーニング セット内のサンプルを通じて知識ベースを適合するのを防ぎ、モデルが外部知識を通じて目に見えない問題を処理するように強制し、モデルの一般化に関する研究を促進する可能性があります。

研究者らは、さまざまな知識ベース エンコーディング方法と最新の視覚的質問応答モデルに関する多数の実験を実施しました。その結果、知識ベースが与えられた場合、トリプルが特定の質問に関連しているかどうかという 2 つの状況の間には依然として大きなギャップがあることが示されました。これは、提案された KRVQA データセットが、知識推論問題における既存の深層モデルの欠点をうまく反映できることを示しています。

KRVQA データセット

このデータセットは、自然画像シーングラフと外部知識ベースから抽出された 1 つまたは 2 つのトリプレットに基づいて推論構造を形成し、この構造を使用してテンプレートを通じて質問と回答のペアを構築します。

研究者は、画像が与えられると、まずそのシーン グラフと外部の知識ベースを統合して、画像に関連付けられた知識グラフを形成します。このデータセットは、既存の公開注釈付きデータを使用してデータセットを構築します。これには、Visual Genome データセットの画像シーン図注釈を使用して画像内のすべてのオブジェクト/関係トリプレットを取得することや、WebChild、ConceptNet、DBpedia などの一般的な常識知識ベースを使用して画像情報以外の常識トリプレットを取得することが含まれます。シーン グラフとナレッジ ベースのトリプルには、主語、関係、目的語の 3 つの項目が含まれています。イメージ シーン グラフ内のオブジェクトの名前がナレッジ ベース内のトリプレット内の項目と同じである場合、2 つの項目は結合されます。同じ名前のすべての用語を結合すると、画像に関連するナレッジグラフを取得できます。研究者たちは、そこに含まれる三つ組を使って複雑な質問と回答のペアを生成した。

次に、グラフからパスを抽出し、そのパスに基づいて一次または二次の質問をします。推論パスの抽出は、階層的な基本クエリ セットの構築で構成されます。基本的なクエリは、主題 A、オブジェクト B、関係 R のうち 2 つがわかっている場合に、3 番目の情報を取得するためにどの情報ソースにアクセスするかをモデルに指示します。たとえば、モデルは知識ベースから主語 A と目的語 B を含む 3 つの要素を見つけ、3 つの要素の関係 R を出力として取り出す必要があることを意味します。基本的なクエリは次の 6 つあります。

: 主題 A とオブジェクト B が与えられた場合、画像からそれらの関係 R を取得します。

: 主題 A と関係 R が与えられた場合、画像からオブジェクト B を取得します。

: オブジェクト B と関係 R が与えられた場合、画像から主題 A を取得します。

: 主題 A とオブジェクト B が与えられた場合、知識ベースからそれらの関係 R を取得します。

: 主題 A と関係 R が与えられた場合、知識ベースからオブジェクト B を取得します。

: オブジェクト B と関係 R が与えられた場合、知識ベースから主題 A を取得します。

各基本クエリの出力を次の基本クエリの入力として使用することで、問題の階層的な推論構造を形成し、注釈情報として使用することができます。たとえば、「机の上にある物体は何に使われますか?」という質問では、画像から机の上に何があるのか​​を照会し、物体 A と前の照会手順で取得した関係「UsedFor」に基づいて知識ベースから机の上にある物体の目的を取得する必要があります。

最後に、抽出されたトリプルとテンプレート(「(男性、傘を持っている)」など)とテンプレート「<A> <R> とは何ですか? <B>」など)に基づいて、質問と回答のペア「男性が持っているものは何ですか? 傘」が生成されます。

表2 さまざまな質問タイプと対応するテンプレートの例

データセットの統計特性

データセットには、合計 32,910 枚の画像、193,449 個の知識トリプレット、および 157,201 個の質問と回答のペアが含まれています。これらには、1 ステップ推論問題 68,448 件、2 ステップ推論問題 88,753 件、外部知識関連問題 87,193 件、外部知識無関係問題 70,008 件が含まれます。

ナレッジベースに関連しない質問の場合、候補回答の数は 2378 です。候補回答の頻度は、データセット内でロングテール分布を示しています。これにより、モデルは画像を正確に解析し、オブジェクトとその関係を見つけて、画像内であまり目立たないオブジェクトを正しく処理するようになります。知識ベースに関連する質問では、候補となる回答の数は 6536 です。研究者は、知識ベースに関連する質問に対する回答が均等に分散されるようにし、知識ベースへのモデル適合を回避するために、各回答の最大出現回数を制限しています。検証セットとテスト セットの回答の 97% がトレーニング セットに存在するため、以前の分類ベースの視覚的な質問回答方法をこのデータセットに適用できます。

図2 知識関連の質問に対する回答の分布

図3 知識に関係のない質問に対する回答の分布

実験

研究者らは、複数の最先端の視覚的質問応答モデルのパフォーマンスと、知識グラフ埋め込みや質問エンコーダの事前トレーニングを含むさまざまな知識埋め込み方法を評価することにより、提案された KRVQA データセットの特性を調査しました。視覚的な質問応答モデルには以下が含まれます。

  • Qタイプ。各質問に対して、その質問タイプで最も頻繁に使用されるトレーニング回答を出力回答として使用します。
  • LSTM。双方向 LSTM を使用して質問をエンコードします。質問のエンコーディングのみを使用して最終的な回答を予測します。
  • 推論パス予測。双方向 LSTM を使用して質問をエンコードし、完全に教師あり方式で推論パスと質問タイプをトレーニングおよび予測し、シーン グラフと知識ベースから正しい回答を取得します。
  • ボトムアップの注目。この方法は、2017 年の Visual Question Answering Challenge で 1 位を獲得しました。視覚的な質問応答モデルを備えた古典的なアーキテクチャ。
  • MCAN。モジュラー共注意ネットワーク (MCAN) は、さまざまな視覚言語タスクで事前トレーニングされた最新のモデルに類似したネットワーク アーキテクチャを備えながら、追加データを使用せずに VQAv2 データセットで現在最高のパフォーマンスを実現する方法です。

表2 KRVQAにおけるさまざまな視覚的質問回答方法の精度

表2に示すように、ベースライン手法「Q型」と「LSTM」は質問に基づいて回答を予測するだけであり、その精度は他の手法に比べて大幅に低いです。すべての方法は、1 ステップの問題よりも 2 ステップの問題ではパフォーマンスが大幅に低下し、知識関連の問題では精度が低くなります。これらの結果は、KRVQA データセットの質問には画像のコンテキストと知識を組み合わせた推論回答が必要であり、マルチホップ推論は既存の方法では依然として難しいことを示しています。

知識のエンコーディングと事前トレーニング

知識ベース全体をトレーニングすることで、RotatE は知識ベース内のすべてのエンティティと関係をエンコードできるため、トリプルが存在することになります。研究者らは RotatE を使用して知識ベース トリプルをエンコードし、それを MCAN ベースライン モデルと融合しました。これは、図 4 に示すように、VQAv2 データセットで最も優れたパフォーマンスを発揮するモデルの 1 つです。

図4 知識ベースエンコーディングに埋め込まれたMCANモデル

最近の研究では、言語モデルは大量のテキストをトレーニングすることで、ある程度の知識をエンコードできることが示されています。これに触発されて、研究者たちは知識テキスト上で質問エンコーダーを事前トレーニングし、知識を暗黙的にエンコードしました。具体的には、MCAN の自己注意質問エンコーダーは、知識トリプルの対応するテキストを入力として受け取り、図 5 に示すように、マスクされたテキスト文字または対応する知識トリプルを予測します。

図5: 知識ベースを暗黙的にエンコードするための事前トレーニングタスクの概略図

表 III に示す KRVQA の結果は、ラベル付きトリプルまたはクエリ エンティティが与えられた場合に、モデルが知識関連の質問の結果を大幅に改善できることを示しています。ただし、クエリ エンティティに加えてラベル付きトリプレット「+ 知識推論」が与えられた場合、画像は複数の知識トリプレットに対応する可能性があるため、モデルは画像回答の推論においてわずかな改善しか達成しません。 2 つの事前トレーニング タスクでは、ベースライン メソッドに比べてわずかな改善しか見られません。これは、KRVQA における知識ベースの重要性を示しており、画像コンテンツを正しく認識して知識ベースをエンコードする際の現在のモデルの欠点を示しています。

表3 異なる知識ベースエンコーディング法とMCANベースライン法の精度

<<:  チップレベルのエッジAIが次世代のIoTを推進

>>:  人工知能は建物の管理方法を変えている

ブログ    
ブログ    

推薦する

OpenAIはGPT-4を使用したコンテンツモデレーションへの新しいアプローチを提案

最近、OpenAI は、最新の生成人工知能モデル GPT-4 を使用してコンテンツレビューを行い、手...

マスク氏の最新インタビュー:自動運転、AI、テスラのヒューマノイドロボットについて

最近、世界一の富豪イーロン・マスク氏がTEDディレクターのクリス・アンダーソン氏が主催する独占インタ...

...

NetEase MediaのLiu Yandong氏:AIは読者にパーソナライズされたコンテンツをタイムリーに提供します

【51CTO.comオリジナル記事】 2017年12月1日から2日まで、51CTO主催のWOTDグロ...

産業分野におけるAIの重要な役割

人工知能 (AI) は、多くの保守および制御エンジニアにとって新しい概念ではありません。デジタル変革...

新しいインテリジェント顔認識温度測定システムソリューション

春節休暇の到来とともに、全国の主要都市の鉄道駅、空港、地下鉄などの公共の場所が、防疫・抑制の重点エリ...

公共の場での顔認識は全面的に禁止される可能性があります。ちょうど今、欧州議会はAI規制を強化することを決定した

[[427521]]昨日、欧州議会はAI生体認証技術に基づく大規模な監視の全面禁止を求める決議を可決...

...

新型コロナウイルスが猛威を振るう中、AI技術は流れを変えることができるのか?

最近、謎の新型コロナウイルスが驚くべき速さで猛威を振るっています。先週木曜日、世界保健機関(WHO)...

知識とスキルの限界を押し広げる 24 の機械学習プロジェクト

導入データサイエンス (機械学習) プログラムは、この分野でのキャリアをスタートさせる有望な方法を提...

...

AIはCOVID-19検査の欠陥を明らかにし、647のAIツールが臨床使用に適していないことが研究で判明

COVID-19パンデミックの発生以来、世界中の研究チームがコロナウイルスの検出や感染の予測に役立つ...

...

オリンピックのコーチたちが、人工知能によって職を奪われる危険に直面する番なのだろうか?

中国の飛び込みドリームチームは、「消える水しぶき」の技術に長けており、オリンピックのあらゆる大会で金...