清華大学、ケンブリッジ大学、UICが共同で中国初のファクトチェックデータセットを公開。医学や社会学を含む複数の分野を網羅した証拠に基づくデータセット。

論文アドレス: https://arxiv.org/pdf/2206.11863.pdf
データセット CHEF データセットリンク: https://github.com/THU-BPM/CHEF

1. はじめに

まず、比較的単純な例を使って、タスクの定義を見てみましょう。

例えば、上海のロックダウン中、ある自主メディアは「李立群は肉を買うために階下に忍び込んだところを捕まった」と主張した。この主張だけに基づくと、彼が肉を買うために密かに階下に行き、捕まったのかどうかは実際には判断できません。この声明の信憑性を検証するには、証拠を探すのが最も直感的な方法です。証拠とは、収集できる情報であり、声明の信憑性を検証するのに役立ちます。例えば、下の写真のように、自分の手で引き裂いて証拠として使うこともできます。

上記の記述は比較的単純であり、単純な証拠のみを必要とし、証拠に基づく推論は必要ありません。もっと複雑な例を見てみましょう。例えば、次のような記述があります。 2019年に成都の高校入試を受験した人は合計120,800人でしたが、入学予定者はわずか43,000人でした。この発言を検証するのは比較的困難です。2019年の成都高校入学試験に関する関連文書が見つかった場合:

......今年、高校入試を受験した人は合計12万800人。これは成都市の20の地区、ハイテク区、天府新区を含む全受験者数である。 1か月前、教育庁は2019年度の一般高校入学者数計画を発表しました。入学枠がさらに増え、一般高校に通える可能性が高まりました。 ......

2019年度の中心市街地（13地区）の入学予定者は43,015人です。

この文書には声明に関連する多くの情報が含まれていますが、声明を検証するのに役立つ最も直接的な関連情報は、上記の 2 番目の段落の後半と、多くの段落の後の最初の文です。これらの証拠に基づいて、成都市の20地区で高校入試を受ける人は実に12万800人であり、中心市街地（13地区のみ）の入学計画は実に4万3000人だけであることがわかります。数字は合っているのですが、概念が逆転しています。高校入試の受験者数を議論するときには20地区の人数を使います。しかし、入学者計画を議論するときには20地区の範囲を13地区に絞り込んでしまい、読者に誤解を与えてしまいます。このような記述を検証するには、多くの場合、1 つまたは複数の文書から直接関連する証拠を抽出し、抽出した証拠に基づいて推論を行う必要があります。中国語のファクトチェック機械学習システムを促進するために、私たちはこのような証拠に基づいた中国語データセットを提案します。

2. 関連研究

ファクトチェックのレビュー[1]によると、現在のファクトチェックデータセットは、大まかに人工的なものと自然なものの2つのカテゴリーに分けられます。

人工的: 注釈者は Wikipedia の文章を声明として書き直すよう求められ、文書内の関連する段落は声明を検証するための証拠として使用できます。同義語変換であれば、その文は証拠によって支持されます（支持）。文中の実体が置き換えられたり、否定などの一連の修飾が追加されたりした場合は、その文は証拠によって反証されます（反駁）。

このアノテーションパラダイムはFEVER[2]で初めて使用され、TabFact[3]などの多くの有名なデータセットでもこのパラダイムが採用されました。このタイプの人工データセットの利点は、スケールアップできることです。アノテーターに 100,000 のステートメントにアノテーションを付けるように依頼します。これはニューラルネットワークのトレーニングに非常に適しています。一方、関連する証拠も簡単に入手できます。欠点は、これらの発言は私たちが日常生活で遭遇するものではなく、一般の人々が聞きたい、見たい発言ではないということです。たとえば、李立群の Wikipedia に基づいて「彼はこっそり階下に肉を買いに行くところを捕まった」という発言を書き直すことはないでしょう。一方、このタイプのデータセットは、Wikipedia に主張を検証するために必要なすべての知識が含まれていると想定しており、これは比較的強い想定です。この仮定は実際のシナリオでは満たされないことがよくあります。最も単純な問題は、Wikipedia にタイムラグがあることです。

当然のことながら、これはファクトチェックプラットフォームから直接クロールされた発言です。よく知られている海外の組織はPolitiFactで、トランプ氏の発言を頻繁に検証しています。このタイプのデータセットの利点は、一般の人々が日常的に遭遇し、真実を知りたいと思う声明であることです。これらも、人間のファクトチェッカーが精査する必要がある発言です。

最終的に、人間の検証者をある程度置き換えることができるシステムを構築したい場合は、システムへの入力はこの種のステートメントである必要があります。このタイプのデータセットの欠点も明らかです。つまり、人間によって検証されたステートメントの数は非常に限られているということです。表に示されているように、ほとんどのデータセットは実際には手動で構築されたものよりも 1 桁小さくなっています。

一方、証拠を見つけることは非常に難しい問題です。既存のデータセットでは、一般的にファクトチェック記事を証拠として直接使用したり[4]、その文言をGoogle検索に入力したり[5][6]して、返された検索サマリー（赤枠で示す）を証拠として使用したりします。

証拠を見つけるためのこれらのアプローチには 2 つの問題があります。

ファクトチェック記事自体を証拠として使用する: 実際のシナリオでは、このアプローチは非現実的です。ファクトチェックシステムを立ち上げたい場合、システムが新しいステートメントを検証する必要があるときに、ファクトチェック記事がまだ存在しないことがよくあります。こうすることで、システムは証拠を収集する方法を学習できなくなります。
Google の要約を証拠として使用する: このアプローチは上記の問題を克服し、現実のシナリオに近づきます。ファクトチェッカーは、関連情報を見つけるために検索エンジンに頼る必要があることがよくあります。しかし、この方法にも欠点があり、それは情報量が著しく不足していることです。上の図に示すように、Google のルールベースの要約では、基本的に、発言の信憑性を判断するのに役立つ十分な情報を提供できません。

上記の問題に対処するために、次の機能を備えた CHEF を構築しました。

現実世界の主張（これも中国語）を使用することで、中国語のファクトチェックデータセットのギャップが埋められます。
検索エンジンによって返された文書を元の証拠として使用すると、実際のシナリオに近くなります。
人間が注釈を付けて返されたドキュメント内の関連する文をきめ細かい証拠として使用することで、検証システムが証拠を収集する方法を学習できるようにトレーニングできます。

3. データセットの構築

データセットの構築は、データ収集、主張の注釈付け、証拠の取得、およびデータ検証の4 つの部分で構成されます。

3.1 データ収集

元の声明は主に中国のファクトチェックウェブサイト4つ（デュークニュースプラットフォームによると）から収集されたもので、そのうち2つは簡体字中国語で書かれている：中国噂反駁センターと騰訊九珍。繁体字中国語は、台湾の 2 つのプラットフォーム、MyGoPen と Taiwan Fact-Checking Center から提供されています。ファクトチェック Web サイトからクロールされた主張の大部分 (90% 以上) は誤りであるため、ほとんどの一般的な噂や主張が誤りであることは直感的に明らかであり、それがファクトチェックプラットフォームによって誤りが暴かれ検証される理由です。以前の方法（PublicHealth[7]）を参考に、China News Networkの見出しを実際の発言としてクロールし、比較的バランスの取れたラベルを持つデータセットを構築しました。

3.2 宣言注釈

海外の比較的成熟したファクトチェック組織と比較すると、中国のファクトチェックプラットフォームで公開される記事は比較的標準化されていない。たとえば、PolitiFact では、主張が何であるか、ファクトチェックの概要は何か、証拠と推論の詳細は何か (上の画像を参照) が正確にわかります。しかし、中国語の記事では一般的にこの点が明確に述べられていないため、注釈者に記事を読んでもらい、記事で検証された記述を抽出してもらっています。同時に、発言に含まれる偏見を減らすために発言も整理されます。

これまでの研究では、ファクトチェックデータセット内の発言には強いバイアスが含まれていることが示されています（たとえば、誤った発言には否定的な言葉が含まれていることが多い）。BERTなどのPLMは、これらのバイアスを直接捕捉し、証拠を必要とせずに発言を検証することができます。クリーニング方法には、疑問文を平叙文に変更し、「重い」「衝撃的な」など、偏見を含む可能性のある単語を削除することが含まれます。主張を抽出した後、著者にファクトチェック記事に基づいて主張にラベルを付けることも依頼しました。私たちは、FEVER や他の研究と同様の分類を採用し、支持、反論、情報不足 (NEI) の 3 つのカテゴリを使用します。その中で、Refuted が最大で、NEI が最小です。

3.3 証拠検索

私たちは、この声明をクエリとして Google 検索を行い、声明が発表された後に公開された文書や、偽ニュース配信プラットフォームからの文書など、一部の文書を除外し、最終的に上位 5 つの文書を保持します。次に、注釈者は各主張の証拠として最大 5 つの文を選択するように求められました。

データセット内の主張と証拠の統計は次のとおりです。各主張に対して返されるドキュメントの平均長は 3691 語で、そのうち注釈者が最終的なきめ細かい証拠を抽出する文には 126 語が含まれ、Google のルールベースの要約が使用される場合は平均 68 語が含まれます。返されたドキュメントと注釈付きの文章を使用して単純に数字を比較すると、要約を直接使用するよりも多くのコンテキスト情報が得られます。

3.4 データの検証

注釈の一貫性を確保するために、データ検証を追加し、注釈付きの文の 3%、合計 310 文をランダムに選択し、5 人の注釈者に再ラベル付けを依頼しました。 Fleiss Kスコアは0.74に達し、これはFEVERの0.68やSnopes[5]の0.70よりもわずかに高く、データアノテーションの品質が以前の研究者によって構築されたデータセットに劣っていないことを示しています。 CHEF の声明は、主に社会、公衆衛生、政治、科学、文化の 5 つのテーマに分かれています。政治分野に焦点を当てた欧米のファクトチェックプラットフォームとは異なり、中国のプラットフォームは、新型コロナウイルス、健康、医療などの公衆衛生問題に重点を置いています。もう一つの大きなトピックは、詐欺、継続教育、社会行事など社会に関するものです。

主張を検証する際には、主に 4 つの課題があります。

証拠収集: 請求の約 70% は、検証する前に関連する証拠を見つける必要があります。
専門家への相談: 声明の約 40% では、関連情報を入手するために専門家に相談する必要があります。
数値的推論: 主張の 18% は結論に達するために数値的推論を必要としました。
マルチモーダル: 請求の約 8% には、写真やビデオなどのテキスト以外の証拠が必要です。

4. ベースラインシステム

これまでの典型的なファクトチェックデータセット（FEVER など）と同様に、機械学習システムは、まず特定の文書内の関連する文を証拠として選択し（証拠検索）、次にその証拠に基づいて主張を検証する（主張検証）必要があります。

この論文では、何千人もの人々の作業に基づいて、パイプラインシステムとジョイントシステムという 2 つのカテゴリのベースラインシステムを提案しています。パイプライン: 証拠の取得とクレームの検証は 2 つの別々のモジュールです。証拠は最初に証拠取得機能を使用して抽出され、次に証拠はクレームと結合され、分類のためにクレーム検証モジュールに送信されます。

証拠検索部分: 返された文書から文章を細分化された証拠として抽出するために、4 つの異なる抽出器を使用しました。 1 つ目は文字特徴マッチング (TF-IDF) に基づいています。2 つ目は意味特徴マッチングに基づいています。中国語 BERT を使用して、コサイン類似度を計算します。 3 番目のタイプは混合特徴です。上記の 2 つの特徴を取得し、rankSVM を使用して並べ替えます。最後のベースラインシステムは、Google によって返される従来の概要です。
クレーム検証セクション: 3 つの異なるモデルを使用します。最初のものは中国の BERT に基づいており、上記で取得したステートメントと証拠を連結し、それを BERT に送って 3 段階の分類を行います。 2 つ目は、証拠に異なる重みを割り当てることでステートメントを分類する注意ベースのモデルです。 3番目のタイプはグラフベースのモデルです。FEVERではSOTAグラフモデルKGAT[9]を使用しました。これは、さまざまな証拠を統合することでより優れた推論を行うことができます。

共同: 証拠検索モジュールとクレーム検証モジュールが共同で最適化されます。 3つの異なるモデルが使用された。最初のものはFEVER[10]のSOTAジョイントモデルであり、マルチタスク学習フレームワークを使用して証拠と主張にラベルを付ける方法を同時に学習した。 2つ目の方法は、証拠抽出を潜在変数[11]として扱い、返された文書内の各文に0または1のラベルを付ける方法です。1のラベルが付けられた文は証拠として保持され、主張と一緒に分類され、REINFORCEを使用してトレーニングされます。 3番目の方法は2番目の方法と似ていますが、ポリシー勾配を使用する代わりに、HardKumaと再パラメータ化を共同トレーニングに使用する点が異なります[12]。

5. 実験結果

5.1 主な結果

実験の主な結果を次の図に示します。

証拠検索の観点から見ると、全体的にジョイントモデルの方がパイプラインモデルよりもパフォーマンスが優れています。主な理由は、証拠検索モジュールを最適化して、主張の検証に役立つ証拠をさらに見つけることができるためです。一方、返されたドキュメントを使用する方が、Google サマリーを使用するよりも常に優れています。主な理由は、ドキュメントに豊富な情報が含まれているためです。最後に、人間が注釈を付けた証拠を直接使用することによる効果は、現在の 2 つの主要なベースラインモデルをはるかに上回ります。他のファクトチェックデータセット (FEVEROUS) と同様に、証拠の取得は主張を検証する上で難しい側面です。人間が注釈を付けた証拠に基づいて証拠検索モジュールを最適化する方法は、将来研究する価値のある方向性です。
クレーム検証の観点から見ると、グラフベースモデル (KGAT) は、単純な BERT ベースおよびアテンションベースのモデルよりもパフォーマンスが優れています。グラフを構築することで、証拠の推論の連鎖を捉える効果的な方法です。一方、グラフモデルの改善は特に明らかではなく、データセット自体に何らかの最適化が必要になる可能性があります。

5.2 詳細な証拠の量

きめの細かい証拠が多いほど、より良い結果が得られます。下の図に示すように、きめの細かい証拠として 5 つの文を選択した場合、パイプラインシステムの証拠抽出器は最良の結果を達成しました。証拠として 10 文と 15 文が抽出されると、結果はどんどん悪くなっていきました。抽出された文によってノイズが増え、クレーム検証モデルの判断に影響を与えたと推測されます。

5.3 宣言の長さの影響

ほとんどの文は 10 語以上で、文が長いほどモデルの効果は高くなります。主な理由は、文がより詳細になり、モデルの判断に役立つ詳細な証拠を収集しやすくなるためだと推測されます。文の長さが比較的短い場合、集中型ベースラインモデルとのギャップはそれほど大きくありません。文の長さが比較的長い場合、得られる証拠が優れているほど、文の検証の効果も高くなり、証拠検索の重要性も示しています。

5.4 宣言フィールドの影響

科学分野からの主張は検証が最も難しく、モデル効果は通常 55 を超えません。一方で、関連する証拠を収集することは困難であり、他方では、科学的問題に関する記述は比較的複雑であり、結果に到達するには暗黙の推論が必要になることがよくあります。

5.5 申告カテゴリーの影響

図に示すように、サポートされているステートメントをいくつか導入したにもかかわらず、データセット全体には依然としてクラスの不均衡の問題が残っています。 NEI カテゴリに対するモデルの影響は、支持カテゴリおよび反証カテゴリに対する影響よりもはるかに弱いです。今後の研究では、不均衡なカテゴリを持つファクトチェックデータセットの主張検証モデルを調整する方法や、トレーニング中にランダムにNEIの数を増やすためのデータ拡張手法を使用する方法を研究することができます。たとえば、FEVEROUS[13]は、トレーニング中にいくつかの主張に対応する証拠をランダムに破棄し、これらの主張のカテゴリをNEIに変更します。

<<: AIがワールドカップの初代審判員になるチャンスはあるでしょうか？

>>: ICRA 2022 優秀論文: 自動運転用 2D 画像を鳥瞰図に変換し、モデル認識精度を 15% 向上