1. はじめにまず、比較的単純な例を使って、タスクの定義を見てみましょう。 例えば、上海のロックダウン中、ある自主メディアは「李立群は肉を買うために階下に忍び込んだところを捕まった」と主張した。この主張だけに基づくと、彼が肉を買うために密かに階下に行き、捕まったのかどうかは実際には判断できません。この声明の信憑性を検証するには、証拠を探すのが最も直感的な方法です。証拠とは、収集できる情報であり、声明の信憑性を検証するのに役立ちます。例えば、下の写真のように、自分の手で引き裂いて証拠として使うこともできます。 上記の記述は比較的単純であり、単純な証拠のみを必要とし、証拠に基づく推論は必要ありません。もっと複雑な例を見てみましょう。例えば、次のような記述があります。 2019年に成都の高校入試を受験した人は合計120,800人でしたが、入学予定者はわずか43,000人でした。この発言を検証するのは比較的困難です。2019年の成都高校入学試験に関する関連文書が見つかった場合:
この文書には声明に関連する多くの情報が含まれていますが、声明を検証するのに役立つ最も直接的な関連情報は、上記の 2 番目の段落の後半と、多くの段落の後の最初の文です。これらの証拠に基づいて、成都市の20地区で高校入試を受ける人は実に12万800人であり、中心市街地(13地区のみ)の入学計画は実に4万3000人だけであることがわかります。数字は合っているのですが、概念が逆転しています。高校入試の受験者数を議論するときには20地区の人数を使います。しかし、入学者計画を議論するときには20地区の範囲を13地区に絞り込んでしまい、読者に誤解を与えてしまいます。このような記述を検証するには、多くの場合、1 つまたは複数の文書から直接関連する証拠を抽出し、抽出した証拠に基づいて推論を行う必要があります。中国語のファクトチェック機械学習システムを促進するために、私たちはこのような証拠に基づいた中国語データセットを提案します。 2. 関連研究ファクトチェックのレビュー[1]によると、現在のファクトチェックデータセットは、大まかに人工的なものと自然なものの2つのカテゴリーに分けられます。 人工的: 注釈者は Wikipedia の文章を声明として書き直すよう求められ、文書内の関連する段落は声明を検証するための証拠として使用できます。同義語変換であれば、その文は証拠によって支持されます(支持)。文中の実体が置き換えられたり、否定などの一連の修飾が追加されたりした場合は、その文は証拠によって反証されます(反駁)。 このアノテーションパラダイムはFEVER[2]で初めて使用され、TabFact[3]などの多くの有名なデータセットでもこのパラダイムが採用されました。このタイプの人工データセットの利点は、スケールアップできることです。アノテーターに 100,000 のステートメントにアノテーションを付けるように依頼します。これはニューラル ネットワークのトレーニングに非常に適しています。一方、関連する証拠も簡単に入手できます。欠点は、これらの発言は私たちが日常生活で遭遇するものではなく、一般の人々が聞きたい、見たい発言ではないということです。たとえば、李立群の Wikipedia に基づいて「彼はこっそり階下に肉を買いに行くところを捕まった」という発言を書き直すことはないでしょう。一方、このタイプのデータセットは、Wikipedia に主張を検証するために必要なすべての知識が含まれていると想定しており、これは比較的強い想定です。この仮定は実際のシナリオでは満たされないことがよくあります。最も単純な問題は、Wikipedia にタイムラグがあることです。 当然のことながら、これはファクトチェックプラットフォームから直接クロールされた発言です。よく知られている海外の組織はPolitiFactで、トランプ氏の発言を頻繁に検証しています。このタイプのデータ セットの利点は、一般の人々が日常的に遭遇し、真実を知りたいと思う声明であることです。これらも、人間のファクトチェッカーが精査する必要がある発言です。 最終的に、人間の検証者をある程度置き換えることができるシステムを構築したい場合は、システムへの入力はこの種のステートメントである必要があります。このタイプのデータセットの欠点も明らかです。つまり、人間によって検証されたステートメントの数は非常に限られているということです。表に示されているように、ほとんどのデータセットは実際には手動で構築されたものよりも 1 桁小さくなっています。 一方、証拠を見つけることは非常に難しい問題です。既存のデータセットでは、一般的にファクトチェック記事を証拠として直接使用したり[4]、その文言をGoogle検索に入力したり[5][6]して、返された検索サマリー(赤枠で示す)を証拠として使用したりします。 証拠を見つけるためのこれらのアプローチには 2 つの問題があります。
上記の問題に対処するために、次の機能を備えた CHEF を構築しました。
3. データセットの構築データセットの構築は、データ収集、主張の注釈付け、証拠の取得、およびデータ検証の4 つの部分で構成されます。 3.1 データ収集元の声明は主に中国のファクトチェックウェブサイト4つ(デュークニュースプラットフォームによると)から収集されたもので、そのうち2つは簡体字中国語で書かれている:中国噂反駁センターと騰訊九珍。繁体字中国語は、台湾の 2 つのプラットフォーム、MyGoPen と Taiwan Fact-Checking Center から提供されています。ファクトチェック Web サイトからクロールされた主張の大部分 (90% 以上) は誤りであるため、ほとんどの一般的な噂や主張が誤りであることは直感的に明らかであり、それがファクトチェック プラットフォームによって誤りが暴かれ検証される理由です。以前の方法(PublicHealth[7])を参考に、China News Networkの見出しを実際の発言としてクロールし、比較的バランスの取れたラベルを持つデータセットを構築しました。 3.2 宣言注釈 海外の比較的成熟したファクトチェック組織と比較すると、中国のファクトチェックプラットフォームで公開される記事は比較的標準化されていない。たとえば、PolitiFact では、主張が何であるか、ファクトチェックの概要は何か、証拠と推論の詳細は何か (上の画像を参照) が正確にわかります。しかし、中国語の記事では一般的にこの点が明確に述べられていないため、注釈者に記事を読んでもらい、記事で検証された記述を抽出してもらっています。同時に、発言に含まれる偏見を減らすために発言も整理されます。 これまでの研究では、ファクトチェックデータセット内の発言には強いバイアスが含まれていることが示されています(たとえば、誤った発言には否定的な言葉が含まれていることが多い)。BERTなどのPLMは、これらのバイアスを直接捕捉し、証拠を必要とせずに発言を検証することができます。クリーニング方法には、疑問文を平叙文に変更し、「重い」「衝撃的な」など、偏見を含む可能性のある単語を削除することが含まれます。主張を抽出した後、著者にファクトチェック記事に基づいて主張にラベルを付けることも依頼しました。私たちは、FEVER や他の研究と同様の分類を採用し、支持、反論、情報不足 (NEI) の 3 つのカテゴリを使用します。その中で、Refuted が最大で、NEI が最小です。 3.3 証拠検索私たちは、この声明をクエリとして Google 検索を行い、声明が発表された後に公開された文書や、偽ニュース配信プラットフォームからの文書など、一部の文書を除外し、最終的に上位 5 つの文書を保持します。次に、注釈者は各主張の証拠として最大 5 つの文を選択するように求められました。 データセット内の主張と証拠の統計は次のとおりです。各主張に対して返されるドキュメントの平均長は 3691 語で、そのうち注釈者が最終的なきめ細かい証拠を抽出する文には 126 語が含まれ、Google のルールベースの要約が使用される場合は平均 68 語が含まれます。返されたドキュメントと注釈付きの文章を使用して単純に数字を比較すると、要約を直接使用するよりも多くのコンテキスト情報が得られます。 3.4 データの検証注釈の一貫性を確保するために、データ検証を追加し、注釈付きの文の 3%、合計 310 文をランダムに選択し、5 人の注釈者に再ラベル付けを依頼しました。 Fleiss Kスコアは0.74に達し、これはFEVERの0.68やSnopes[5]の0.70よりもわずかに高く、データアノテーションの品質が以前の研究者によって構築されたデータセットに劣っていないことを示しています。 CHEF の声明は、主に社会、公衆衛生、政治、科学、文化の 5 つのテーマに分かれています。政治分野に焦点を当てた欧米のファクトチェックプラットフォームとは異なり、中国のプラットフォームは、新型コロナウイルス、健康、医療などの公衆衛生問題に重点を置いています。もう一つの大きなトピックは、詐欺、継続教育、社会行事など社会に関するものです。 主張を検証する際には、主に 4 つの課題があります。
4. ベースラインシステムこれまでの典型的なファクトチェックデータセット(FEVER など)と同様に、機械学習システムは、まず特定の文書内の関連する文を証拠として選択し(証拠検索)、次にその証拠に基づいて主張を検証する(主張検証)必要があります。 この論文では、何千人もの人々の作業に基づいて、パイプライン システムとジョイント システムという 2 つのカテゴリのベースライン システムを提案しています。パイプライン: 証拠の取得とクレームの検証は 2 つの別々のモジュールです。証拠は最初に証拠取得機能を使用して抽出され、次に証拠はクレームと結合され、分類のためにクレーム検証モジュールに送信されます。
共同: 証拠検索モジュールとクレーム検証モジュールが共同で最適化されます。 3つの異なるモデルが使用された。最初のものはFEVER[10]のSOTAジョイントモデルであり、マルチタスク学習フレームワークを使用して証拠と主張にラベルを付ける方法を同時に学習した。 2つ目の方法は、証拠抽出を潜在変数[11]として扱い、返された文書内の各文に0または1のラベルを付ける方法です。1のラベルが付けられた文は証拠として保持され、主張と一緒に分類され、REINFORCEを使用してトレーニングされます。 3番目の方法は2番目の方法と似ていますが、ポリシー勾配を使用する代わりに、HardKumaと再パラメータ化を共同トレーニングに使用する点が異なります[12]。 5. 実験結果5.1 主な結果実験の主な結果を次の図に示します。
5.2 詳細な証拠の量きめの細かい証拠が多いほど、より良い結果が得られます。下の図に示すように、きめの細かい証拠として 5 つの文を選択した場合、パイプライン システムの証拠抽出器は最良の結果を達成しました。証拠として 10 文と 15 文が抽出されると、結果はどんどん悪くなっていきました。抽出された文によってノイズが増え、クレーム検証モデルの判断に影響を与えたと推測されます。 5.3 宣言の長さの影響ほとんどの文は 10 語以上で、文が長いほどモデルの効果は高くなります。主な理由は、文がより詳細になり、モデルの判断に役立つ詳細な証拠を収集しやすくなるためだと推測されます。文の長さが比較的短い場合、集中型ベースラインモデルとのギャップはそれほど大きくありません。文の長さが比較的長い場合、得られる証拠が優れているほど、文の検証の効果も高くなり、証拠検索の重要性も示しています。 5.4 宣言フィールドの影響科学分野からの主張は検証が最も難しく、モデル効果は通常 55 を超えません。一方で、関連する証拠を収集することは困難であり、他方では、科学的問題に関する記述は比較的複雑であり、結果に到達するには暗黙の推論が必要になることがよくあります。 5.5 申告カテゴリーの影響図に示すように、サポートされているステートメントをいくつか導入したにもかかわらず、データセット全体には依然としてクラスの不均衡の問題が残っています。 NEI カテゴリに対するモデルの影響は、支持カテゴリおよび反証カテゴリに対する影響よりもはるかに弱いです。今後の研究では、不均衡なカテゴリを持つファクトチェックデータセットの主張検証モデルを調整する方法や、トレーニング中にランダムにNEIの数を増やすためのデータ拡張手法を使用する方法を研究することができます。たとえば、FEVEROUS[13]は、トレーニング中にいくつかの主張に対応する証拠をランダムに破棄し、これらの主張のカテゴリをNEIに変更します。 |
<<: AIがワールドカップの初代審判員になるチャンスはあるでしょうか?
>>: ICRA 2022 優秀論文: 自動運転用 2D 画像を鳥瞰図に変換し、モデル認識精度を 15% 向上
加齢黄斑変性症のリスクが高い個人を特定することは、専門家の不足と網膜画像の評価における臨床専門知識へ...
2024 年までに、AI は企業で主流となり、クラウド サービス、セキュリティ、持続可能性も影響力を...
[[427797]]画像ソース: https://pixabay.com/images/id-567...
ドイツ特派員 青木「昨年、北米のロボット受注の大半は初めて自動車工場で受注されなかった」ロイター通信...
[[121950]]多くは語りません。次に、この記事の主題であるソートアルゴリズムについて説明しまし...
近年、テキスト生成画像、特に詳細レベルでリアルな効果を示す拡散ベースの画像生成モデルの分野で大きな進...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
人工知能が高校の教室に導入されつつあります。最近、我が国初の中学生向けAI教科書『人工知能の基礎(高...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
より多くの中級・低級モデルでハイコンピューティングAIタスクを普及させるために、快手が自社開発した「...
[楊静卓のブログより引用]序文白黒写真の時代は過ぎ去りましたが、今、昔の写真を見ると、昔に戻ったよう...