GPT-4でさえテストに失敗し、17の大規模モデルすべてが失敗しました。因果推論は難しすぎる

GPT-4でさえテストに失敗し、17の大規模モデルすべてが失敗しました。因果推論は難しすぎる

ChatGPT のリリース以来、強力な言語理解、生成、論理的推論機能など、大規模モデルの出現能力が高く評価されてきました。しかし、最近の研究では、大規模なモデルは一般的に因果推論のパフォーマンスが低く、GPT-4 でさえ失敗することがわかりました。

この研究は、マックス・プランク研究所、チューリッヒ工科大学、ミシガン大学、香港大学、Meta AIの研究者によって実施されました。この研究の目的は、大規模言語モデル (LLM) が相関関係に基づいて因果推論を実行できるかどうかを調査することです。

論文アドレス: https://arxiv.org/abs/2306.05836

因果推論は重要な推論タスクです。因果関係を得るには、経験的知識を介した 2 つの基本的な方法があります。たとえば、友人の誕生日プレゼントを用意すると、友人が喜ぶことは常識からわかります。もう 1 つは、いくつかの手順とルールを介した純粋な因果推論です (Spirtes 他、2000 年、Pearl、2009 年、Peters 他、2017 年)。

下の図 1 に示すように、A が B と相関関係にある場合、A が B の原因であることを意味するわけではありません。A と B が元々独立しているが、C によって相関関係になった場合、この閉じたシステムでは C が A と B の共通効果であると推測できます。

この研究では、新しい NLP タスクである相関因果推論 (CORR2CAUSE) を提案します。 LLM の成功が項目間の大量の統計的相関関係を捕捉することから生まれるのであれば、重要なステップが欠落している場合、相関関係をどのように処理し、因果関係を推測するのでしょうか?したがって、本研究では、CORR2CAUSE 推論が大規模言語モデル (LLM) に不可欠なスキルであると主張しています。

データセットの構築

まず、この研究では、大規模言語モデルの純粋な因果推論機能をテストするために、CORR2CAUSE データセットを収集して整理しました。このデータセットのすべての質問は、LLM が相関関係から因果関係を推測するタイミングを中心に展開されます。 CORR2CAUSE データセットを体系的に形成するために、一般化プロセスを因果発見の正式なフレームワーク (Spirtes et al., 1993, 2000; Glymour et al., 2016; Spirtes and Zhang, 2016; Glymour et al., 2019) に組み込みます。このフレームワークは、観測データ内の統計的相関に基づいて変数間の因果関係を推測するルールをカバーしています。

CORR2CAUSE データセットには 400K のサンプルが含まれており、有効なサンプルは 18.57% を占めています。相関関係と因果関係のステートメント ペアは、統計的相関関係と潜在的な因果関係の間に一対一のマッピングがある場合にのみ有効としてマークされます。

この研究では、CORR2CAUSE データセットに基づいて、主に次の 2 つの問題を分析します。

  • 既存の LLM はこのタスクをどのように実行しますか?
  • 既存の LLM をこのタスクのために再訓練または再​​利用し、強力な因果推論スキルを習得することは可能でしょうか?

この研究では、既存の 17 個の LLM がすべて、この純粋な因果推論タスクでパフォーマンスが低いことが実験を通じて示されました。また、LLM はデータを微調整するとパフォーマンスが向上しますが、因果推論スキルは堅牢ではありません。

実験結果

既存のLLMのCORR2CAUSE機能

下の表 4 に示すように、純粋な因果推論は、実験におけるすべての LLM にとって非常に困難なタスクです。その中で、BART MNLI は F1 値が 33.38% と最も高く、GPT-4 (29.08%) よりも高くなっています。特に、多くのモデルはランダムな推測よりもパフォーマンスが低く、純粋な因果推論タスクでは完全に失敗します。

微調整されたパフォーマンス

次に取り組むべき質問は、LLM にこのタスクを再学習させることができるかどうかです。

以下の表5(a)の実験結果から、CORR2CAUSEで微調整された12のモデルは比較的良好なパフォーマンスを示し、ほとんどのモデルで大幅なパフォーマンス向上が達成されたことがわかります。その中でも、BERT ベースの NLI モデルは微調整後に最高のパフォーマンスを発揮し、RoBERTa-Large MNLI はこのタスクで F1 スコア 94.74% を達成し、精度、再現率、正確性スコアも非常に高くなりました。

一方、図5(b)は、各モデルが外乱を受けたときの実験結果を示しています。すべてのモデルのパフォーマンスが急激に低下し、最もパフォーマンスが優れているRoBERTa-Large MNLIモデルは、パフォーマンスの低下が最も大きいモデルです。ただし、RoBERTa-Large MNLIは変数再構築に対して最も堅牢であり、67.87という高いF1スコアを維持しています。一般的に、既存の LLM の堅牢性は比較的低いです。

上記の全体的な結果に加えて、本研究では、6 つの因果関係タイプにおける最強モデル RoBERTa-Large MNLI のパフォーマンスを調査するために、きめ細かい分析も実施しました。

下の表6(a)に示すように、RoBERTa-Large MNLIモデルは、「Is-Parent」、「Is-Descendant」、「Has-Confounder」などの関係を判断する際に非常に優れたパフォーマンスを発揮し、F1スコアは96%を超えています。ただし、「Has-Collider」関係ではパフォーマンスが若干低下します。これは、コライダー関係が最も特殊なタイプであり、2 つの変数のみの無条件独立性と、共通の子孫を持つことを条件とする相関関係に基づく V 構造の識別を必要とするためであると考えられます。

興味のある読者は、研究の詳細について原著論文を読むことができます。

<<:  テクノロジーはどのようにして人々を怠惰にするのでしょうか?

>>:  社内抗争、顧客獲得競争…マイクロソフトとOpenAIの協力の裏側を海外メディアが暴露

ブログ    
ブログ    

推薦する

Baidu は、「同様のデータセットの 10 倍」のデータ量を持つ自動運転データセットをリリースしました。注目すべき点は何ですか?

[[222004]]常にオープンで、常に新しいメンバーを引き付けてきた百度のアポロ自動運転プラット...

アルゴリズムが力を発揮します!なぜ人間と人工知能はますます似てきているのでしょうか?

[[256247]]アルゴリズムは私たちにどう考えるべきかを教え、それが私たちを変えています。コン...

機械学習入門: HelloWorld (Tensorflow)

ソースコードのダウンロードアドレス: https://share.weiyun.com/a0c166...

...

2019 年に登場する 10 の機械学習アプリケーション

[[257674]]まだ始まったばかりの 2019 年には、どのような新しいアプリケーションが登場す...

アニメーション + 原理 + コード、トップ 10 の古典的なソート アルゴリズムを解釈する

ソートアルゴリズムは、「データ構造とアルゴリズム」における最も基本的なアルゴリズムの 1 つです。ソ...

「AI+教育」が人気を集めているが、次の巨人は誰になるのか?

人工知能という学問分野が1956年に正式に提唱されて以来、会議やフォーラムでの華やかな「ホットワード...

次世代のインターネット技術 - ディープラーニング

[[384617]]過去 20 年間がインターネットの急速な発展の 20 年間であったとすれば、次の...

物流でGenAIを効果的に活用するための鍵は、ユースケースを理解することです。

GenAI を商品輸送という主要機能にどのように適用できるかは最初は明確ではないかもしれませんが、...

AIoTは公共交通機関をよりスマートかつ安全にします

さまざまな公共交通機関を頻繁に利用する人にとって、安全性と質の高い体験は最も重要です。人工知能やモノ...

NYU の具現化知能における新たな進歩: 視覚的なフィードバックで缶を開ける方法を学習し、タスクの成功率が 135% 向上、LeCun 氏はそれを好意的に評価

ロボットがペンチで簡単にワイヤーを切る様子をご覧ください。あっという間に鉄の箱の蓋が開きました。さら...

「アルゴリズム経済」はどのような新しいモデルやトレンドを生み出すのでしょうか?

2000年から10年間の発展を経て、中国のPC時代のインターネットは「交通経済」を生み出しました。...