GPT-4でさえテストに失敗し、17の大規模モデルすべてが失敗しました。因果推論は難しすぎる

GPT-4でさえテストに失敗し、17の大規模モデルすべてが失敗しました。因果推論は難しすぎる

ChatGPT のリリース以来、強力な言語理解、生成、論理的推論機能など、大規模モデルの出現能力が高く評価されてきました。しかし、最近の研究では、大規模なモデルは一般的に因果推論のパフォーマンスが低く、GPT-4 でさえ失敗することがわかりました。

この研究は、マックス・プランク研究所、チューリッヒ工科大学、ミシガン大学、香港大学、Meta AIの研究者によって実施されました。この研究の目的は、大規模言語モデル (LLM) が相関関係に基づいて因果推論を実行できるかどうかを調査することです。

論文アドレス: https://arxiv.org/abs/2306.05836

因果推論は重要な推論タスクです。因果関係を得るには、経験的知識を介した 2 つの基本的な方法があります。たとえば、友人の誕生日プレゼントを用意すると、友人が喜ぶことは常識からわかります。もう 1 つは、いくつかの手順とルールを介した純粋な因果推論です (Spirtes 他、2000 年、Pearl、2009 年、Peters 他、2017 年)。

下の図 1 に示すように、A が B と相関関係にある場合、A が B の原因であることを意味するわけではありません。A と B が元々独立しているが、C によって相関関係になった場合、この閉じたシステムでは C が A と B の共通効果であると推測できます。

この研究では、新しい NLP タスクである相関因果推論 (CORR2CAUSE) を提案します。 LLM の成功が項目間の大量の統計的相関関係を捕捉することから生まれるのであれば、重要なステップが欠落している場合、相関関係をどのように処理し、因果関係を推測するのでしょうか?したがって、本研究では、CORR2CAUSE 推論が大規模言語モデル (LLM) に不可欠なスキルであると主張しています。

データセットの構築

まず、この研究では、大規模言語モデルの純粋な因果推論機能をテストするために、CORR2CAUSE データセットを収集して整理しました。このデータセットのすべての質問は、LLM が相関関係から因果関係を推測するタイミングを中心に展開されます。 CORR2CAUSE データセットを体系的に形成するために、一般化プロセスを因果発見の正式なフレームワーク (Spirtes et al., 1993, 2000; Glymour et al., 2016; Spirtes and Zhang, 2016; Glymour et al., 2019) に組み込みます。このフレームワークは、観測データ内の統計的相関に基づいて変数間の因果関係を推測するルールをカバーしています。

CORR2CAUSE データセットには 400K のサンプルが含まれており、有効なサンプルは 18.57% を占めています。相関関係と因果関係のステートメント ペアは、統計的相関関係と潜在的な因果関係の間に一対一のマッピングがある場合にのみ有効としてマークされます。

この研究では、CORR2CAUSE データセットに基づいて、主に次の 2 つの問題を分析します。

  • 既存の LLM はこのタスクをどのように実行しますか?
  • 既存の LLM をこのタスクのために再訓練または再​​利用し、強力な因果推論スキルを習得することは可能でしょうか?

この研究では、既存の 17 個の LLM がすべて、この純粋な因果推論タスクでパフォーマンスが低いことが実験を通じて示されました。また、LLM はデータを微調整するとパフォーマンスが向上しますが、因果推論スキルは堅牢ではありません。

実験結果

既存のLLMのCORR2CAUSE機能

下の表 4 に示すように、純粋な因果推論は、実験におけるすべての LLM にとって非常に困難なタスクです。その中で、BART MNLI は F1 値が 33.38% と最も高く、GPT-4 (29.08%) よりも高くなっています。特に、多くのモデルはランダムな推測よりもパフォーマンスが低く、純粋な因果推論タスクでは完全に失敗します。

微調整されたパフォーマンス

次に取り組むべき質問は、LLM にこのタスクを再学習させることができるかどうかです。

以下の表5(a)の実験結果から、CORR2CAUSEで微調整された12のモデルは比較的良好なパフォーマンスを示し、ほとんどのモデルで大幅なパフォーマンス向上が達成されたことがわかります。その中でも、BERT ベースの NLI モデルは微調整後に最高のパフォーマンスを発揮し、RoBERTa-Large MNLI はこのタスクで F1 スコア 94.74% を達成し、精度、再現率、正確性スコアも非常に高くなりました。

一方、図5(b)は、各モデルが外乱を受けたときの実験結果を示しています。すべてのモデルのパフォーマンスが急激に低下し、最もパフォーマンスが優れているRoBERTa-Large MNLIモデルは、パフォーマンスの低下が最も大きいモデルです。ただし、RoBERTa-Large MNLIは変数再構築に対して最も堅牢であり、67.87という高いF1スコアを維持しています。一般的に、既存の LLM の堅牢性は比較的低いです。

上記の全体的な結果に加えて、本研究では、6 つの因果関係タイプにおける最強モデル RoBERTa-Large MNLI のパフォーマンスを調査するために、きめ細かい分析も実施しました。

下の表6(a)に示すように、RoBERTa-Large MNLIモデルは、「Is-Parent」、「Is-Descendant」、「Has-Confounder」などの関係を判断する際に非常に優れたパフォーマンスを発揮し、F1スコアは96%を超えています。ただし、「Has-Collider」関係ではパフォーマンスが若干低下します。これは、コライダー関係が最も特殊なタイプであり、2 つの変数のみの無条件独立性と、共通の子孫を持つことを条件とする相関関係に基づく V 構造の識別を必要とするためであると考えられます。

興味のある読者は、研究の詳細について原著論文を読むことができます。

<<:  テクノロジーはどのようにして人々を怠惰にするのでしょうか?

>>:  社内抗争、顧客獲得競争…マイクロソフトとOpenAIの協力の裏側を海外メディアが暴露

ブログ    
ブログ    
ブログ    

推薦する

...

私の国はAIや5Gを含む多くの技術で米国を上回っており、米国が私たちを絞め殺すことはますます困難になっています。

世界大国として、中国と米国は多くの分野、特に科学技術分野で競争している。中国は科学技術分野で比較的目...

...

ガートナー: 高等教育における人工知能

人工知能 (AI) は高等教育に大きな進歩を遂げており、何らかの形で AI を導入した教育機関は、学...

ディープラーニングを専門家以外の人に説明するにはどうすればよいでしょうか?

[[190380]]昨年から、AIの普及に関わる仕事がたくさん必要になりました。私は長い間、ディー...

Python で機械学習を簡単に

ナイーブ ベイズ分類器を使用して、現実世界の機械学習の問題を解決します。ナイーブベイズナイーブベイズ...

顔認識技術が「無人小売」時代の到来を牽引

序文:顔認識は現在最も人気のある人工知能技術として、生産と生活のあらゆる側面で広く使用されています。...

Matplotlib の使用が難しいと感じるのはなぜですか?このマインドマップをまだ見ていないので

序文Matplotlib は、データの視覚化を簡単に作成できる人気の Python ライブラリです。...

...

Pythonを使用して機械学習モデルを作成する方法

導入新しいモデルをトレーニングしたときに、Flask コード (Python Web フレームワーク...

人工知能の時代に教育はどのように変化するのでしょうか?

「教育は人材を育成する長期的な取り組みなので、将来を見据えたものであるべきだ。」先日開催された人工...

...

ポストエピデミック時代:医療業界で成功するには?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

...