GPT-4 と Gemini は同時に重大な欠陥にさらされ、論理的推論が間違ってしまいました。ディープマインド上海交通大学の卒業生チームは、法学修士課程の知能が著しく低下していることを発見した

GPT-4 と Gemini は同時に重大な欠陥にさらされ、論理的推論が間違ってしまいました。ディープマインド上海交通大学の卒業生チームは、法学修士課程の知能が著しく低下していることを発見した

最近、Google DeepMind とスタンフォード大学の研究者らは、大規模なモデルを使用して論理的推論タスクを処理する場合、問題内で情報が提示される順序がモデルのパフォーマンスに決定的な影響を与えることを発見しました。

論文アドレス: https://arxiv.org/abs/2402.08939

具体的には、情報が論理的かつ自然な順序で配置されている場合、モデルのパフォーマンスが向上します。この発見は、一般的な論理的推論の問題だけでなく、数学の問題にも当てはまります。

たとえば、証明タスクの条件が次の場合:

1. AならばB

2. B ならば C

3. Aは真です。

C が真であることを証明するには、大規模モデルが必要です。条件が 1、2、3 の順序で提示された場合、大規模モデルの成功率は、条件が 2、1、3 の順序で提示された場合よりもはるかに高くなります。

したがって、将来的には、大規模なモデルを使用し、簡潔にし、論理的に質問することで、パフォーマンスを向上させることができます。

上の図は、関連するルールの順序を変更した後、GPT-4、Gemini Pro、GPT-3.5 のいずれも証明を正常に生成できなかった失敗したケースを示しています。

上の図からわかるように、現在主流となっているいくつかのモデルでは、前提の物語の順序を変更すると、パフォーマンスが大幅に低下します。

興味深いことに、Google の新モデル Gemini Pro と OpenAI の GPT-3.5-Turbo はほぼ同じ下降傾向を示しています。

そして研究者たちは、上記の論理的推論課題にさらに注意散漫のルールを加えると、前提が崩れて正確性がさらに低下することを発見した。

実験では、研究者らは、GSM8K テスト セット内の質問文の順序を入れ替えることで、GSM8K のバリエーションである R-GSM テスト セットを構築しました。

下の図はその一例です。もともと解ける問題に対して、前提の順序が崩れた後(R-GSM)、LLM は無力になってしまいました。

R-GSM テスト セットでは、ほぼすべての主流の LLM のパフォーマンスが低下しました。

人間も論理問題を解くときに前提の順序を好みますが、LLM はこの順序効果の影響を受けやすいです。

研究者たちは、これは自己回帰モデルのトレーニング目標やトレーニング データの偏りによるものである可能性があると考えています。

しかし、この問題にどう対処するかは、さらなる研究が必要な課題として残っています。

AがBなら、BもAである

論理的推論では前提の順序を変えても結論は変わらないことはよく知られています。

人間も、このような問題に取り組む際には、よりよい推論を容易にするために前提を特定の順序で並べる傾向があります。しかし、この好みは問題解決能力にはほとんど影響しません。特に、単純な論理的推論 (P ならば Q、P、したがって Q) に関しては影響が顕著です。

しかし、大規模な言語モデルの場合、前提の順序が推論パフォーマンスに大きく影響します。

特に、LLM は、前提が正しい証明に現れるのと同じ順序で並べられている場合に最もよく機能します。

先ほど述べた簡単なタスクを例にとると、研究者たちは次の 2 つの現象に気づきました。

1. 最初に「A ならば B」とプロンプトし、その後に「B ならば C」とプロンプトすると、通常は逆の順序よりも精度が高くなります。

2. 施設数が増えると、パフォーマンスのギャップがより顕著になります。

この種の「順序不同」の論理的推論は人間にとっては単純ですが、言語モデルにとっては大きな課題です。

研究では、前提の順序を変更するとモデルの精度が 30% 以上低下する可能性があることが判明しました。

興味深いのは、さまざまな「障害」がさまざまなモデルにまったく異なる影響を及ぼすことです。

OpenAI の GPT モデルは、前提の順序が実際の状況と正反対である場合にパフォーマンスが向上します。このアプローチにより、モデルを後ろから前へ推論できるようになります。 PaLM 2-L は、一般的にこの逆順序ではパフォーマンスが最も悪くなります。

「逆」ベンチマーク R-GSM

この問題を体系的にさらに研究するために、研究者らは数学的推論テストセット GSM8K に基づいて「ランダム」テストセット R-GSM を開発しました。

具体的には、まず、問題の説明に少なくとも 5 つの文が含まれる GSM8K テスト問題を選択し、次に、因果関係の順序に従った一連の問題文など、問題の順序を置き換えることができない問題を除外しました。

残りの各問題については、最後の文をそのままにして、他の文の順序を変えて問題の説明を書き直してください。問題の説明の正確性を確保するために、単語の軽微な編集は許可されます。

GSM8K にこのような変更を加える理由は、問題における前提の順序に関する研究者の見解と理解に基づいています。

具体的には、研究者は、基本事実の順方向の連鎖に準拠する証明の順序を順方向順序と呼び、各導出ステップで適用される規則が問題の説明の中で順番に提示されます。

直感的に、前提を前向きに提示すると、前提を読みながらその場で証明を書くことができるため、人間にとって問題が簡素化されます。

対照的に、前提の順序がより恣意的である場合、人間は推論を行う際に各推論ステップで前提を繰り返し調べる必要があるため、タスクはより困難になります。

この直感に触発されて、彼らは、範囲[-1, 1]に正規化された前方順序からのケンドールタウ距離𝜏に応じて、さまざまな前提順序を分類しました。

具体的には、𝜏 = 1 は順方向順序であり、𝜏 = -1 の順序は逆方向順序として表されます。これは順方向順序の逆であり、逆方向連鎖による証明と一致しています。

𝜏 ≈ 0 は、問題文の前提の順序と証明の間に強い相関関係がないことを示します。

異なる先行順序に対するLLMの好みをさらに調査するために、研究者らは、順方向(𝜏 = 1)および逆方向(𝜏 = -1)順序に加えて、𝜏 = 0.5、0、および-0.5でモデルのパフォーマンスを評価しました。

次の図は、𝜏 = 1 と 0 の例を示しています。

彼らは、2 つの要因を変化させることによって先行順序効果を測定しました。

- 証明するために必要なルールの数

ルールの数が増えるほど、先行順序の影響は顕著になります。彼らのベンチマークでは、問題のルールの数は 4 から 12 の範囲でした。

- 問題に現れる厄介なルール(つまり、証明に役立たないルール)の数

前提の選択は本質的に困難であり、LLM は無関係なコンテキストによって簡単に気を散らされる可能性があるため、気を散らすルールの存在も問題を複雑にする可能性があります。

彼らは、0、5、10 の気晴らしルールを問題のバリエーションに組み込みました。

必要なルールの数ごとに 200 個の質問が生成されました。各質問には、前提の順序や誤答ルールの数が異なる 15 種類のバリエーションが含まれており、研究者のベンチマークでは合計 27,000 の質問が作成されました。

実験結果

研究者らは、GPT-4-turbo、GPT-3.5-turbo、PaLM 2-L、およびGemini Proの前提ランキング効果を評価しました。

彼らは温度 0 で貪欲なデコードを実行し、すべての実験でゼロショットヒントを適用します。

R-GSM では、モデル入力には追加の指示なしの問題の説明のみが含まれます。論理的推論については、各ステップで使用される前提を推測するための指示をプロンプトに追加しました。

論理的推論

上の図は、基本的な真理証明に異なる数の関連ルールが含まれている場合の結果を示しています。

この場合、問題には干渉ルールは含まれておらず、シャッフル後の精度は 0.5、0、-0.5 の結果になります。

さまざまな LLM の中で、フォワード ソートは常に最高のパフォーマンスを実現し、これは人間の好みと一致しています。

ルールの数が増えると、他のソートによるパフォーマンスの低下がより顕著になります。

同時に、推論能力が弱いモデルは、前提の順序の違いに対してより敏感になります。

具体的には、GPT-4-turbo と PaLM 2-L の精度は最大 20% ~ 30% 低下しますが、Gemini-Pro と GPT-3.5-turbo の場合、事前順序を変更すると精度が 65% 以上から 25% 未満に低下し、40% 以上低下します。

異なる前提条件ランキングのセグメンテーション

上の図は、前提条件のランキングを細かく分類した結果を示しており、ランキングはケンドールのタウ距離 𝜏 に従って分類されています。

興味深いことに、すべての LLM は順方向の順序付けを最も好みますが、他の順序付けの好みはさまざまです。

具体的には、GPT-4-turboは一般的に逆順序を優先し、𝜏の絶対値が小さくなるにつれて全体的なパフォーマンスが低下します。

この観察結果は、後方連鎖が確立された推論方法の 1 つであるため、人間の推論パターンとも一致しています。

一方、PaLM 2-L は一般に、逆順を使用するとパフォーマンスが最悪になります。

𝜏 が減少するにつれて(つまり、前提順序と順方向順序の間の偏差が増加するにつれて)、精度も低下します。 Gemini Pro と GPT-3.5-turbo の優先順位はそれほど一貫していませんが、それでも他の非前方前提注文よりも後方注文を使用することを優先します。

干渉ルールの影響

研究者らは、注意散漫ルールがGPT-4-turboとPaLM 2-Lに与える影響を評価した。

上の図は、干渉ルールを追加すると推論パフォーマンスがさらに低下し、異なる前提順序の影響が増幅されることを示しています。

それにもかかわらず、2 つの LLM の全体的な好みは、干渉ルールがない場合と同じままです。

具体的には、両方のLLMは順方向順序を使用すると最高のパフォーマンスを達成し、GPT-4-turboは他の非順方向順序よりも逆方向順序の使用を優先し、PaLM 2-Lのパフォーマンスは𝜏が小さくなるにつれて低下します。

上の表では、研究者はさまざまな前提の順序ごとに予測誤差を分類しています。研究者は、次のエラー カテゴリを考慮しました。

1. 虚偽の反論: LLM は結論を証明できないと誤って主張します。

2. ルール錯覚: LLM によって生成されたルールは問題には存在しません。

3. 事実の錯覚: LLM によって生成された事実は問題には存在せず、証明できません。

研究者らは、事実の幻覚が一般にすべての LLM で最も一般的なエラーパターンであり、このエラータイプは 𝜏 が減少するにつれて劇的に増加することを発見しました。

主な理由は、LLM は問題に現れる順序でルールを使用する傾向があるため、問題内の次のルールがまだ適用されていない場合でも、LLM は証明ステップを完了するために事実を幻覚する可能性があるためです。

同時に、研究者らは、𝜏 = -1の場合、誤った反論の割合は一般に|𝜏| < 1よりも低いことを観察しました。

R-GSMの数学的推論への応用

上記の表は、R-GSM の全体的な結果を示しています。 R-GSM 上のすべての LLM のパフォーマンスが比較的低いことがわかります。

元の GSM8K の問題は必ずしも最も理想的な方法で記述されているわけではないことに注意することが重要です。そのため、手動で書き直すことで推論が容易になり、元の問題では解決できなかった問題の再順序付けされたバージョンをモデルで正しく解決できるようになる場合があります。

したがって、b では、各 LLM について、元の説明と比較してこれらの問題を解決するモデルの精度もリストされます。研究者らは、すべての LLM が並べ替え問題の少なくとも 10% で失敗し、GPT-3.5-turbo ではこのパフォーマンスの低下が 35% を超えたことを発見しました。

問題の複雑さの分解

上の 2 つの図は、それぞれ異なる推論ステップ数と異なる質問文数の内訳結果を示しています。

すべての LLM において、より多くの推論ステップを必要とし、より多くの文を含む問題の証明精度が低下することは容易にわかります。

全体的に、GPT-4-turbo と Gemini Pro では推論ステップが増え、質問が長くなるにつれて、元の質問と書き直された質問の間の精度のギャップが拡大しますが、推論ステップと質問の長さが異なる PaLM 2-L と GPT-3.5 turbo ではギャップは同様のままです。

失敗モードをさらに理解するために、研究者らは、元の問題は正しく解決できたが、並べ替えた問題は解決できなかったエラーケースを各 LLM ごとに分析し、一般的なエラーの種類を以下の表に分類しました。

研究者が論理的推論実験で観察したものと同様に、R-GSM における予測エラーは主に、LLM が問題に出現した順序で数字を盲目的に使用することによって引き起こされました。

具体的には、すべての LLM で最も一般的なエラーは、時間順序を無視する傾向にあります。

予測が失敗した理由は、質問の後半で以前の出来事がいくつか説明されているためです。別の種類のエラーは、特定の量を指定せずに問題に順番にアプローチし、計算に未知の変数を導入するときに発生します。

上の図の問題を例に挙げてみましょう。元の問題では、前の文に基づいて各動物の数を直接計算できます。

しかし、並べ替え問題では、この時点では魚の数はまだ不明であるため、前の文に基づいてスナネズミの数を直接計算することはできず、LLM はまず残りの文を読み取って魚の数を計算する必要があります。

しかし、GPT-3.5-turbo の予測では、前のステップで計算された数 (つまり、ウサギの数) を使用してスナネズミの数を計算するため、エラーが発生します。

この障害モードは PaLM 2-L ではあまり一般的ではありませんが、それでも他の LLM の予測エラーの無視できない割合を占めています。

話し合う

記事で示された結論に関して、一部のネットユーザーは、前提が時間の方向によって影響を受け、異なる結果につながる可能性があると考えました。

論文の著者らは辛抱強くこう答えた。「ここで検討しているのは、様相のみに関わる単純な論理的推論問題であり、命題は変化しません。したがって、定義上、前提の順序は重要ではありませんが、LLM 推論では重要であり、これが現在の LLM の弱点です。」

一言でまとめると、前提条件の順序は問題の本質を変えませんが、推論タスクにおける大規模言語モデルのパフォーマンスに大きな影響を与えます。

包括的な評価を行った結果、研究者らは、大規模言語モデルが質問を処理する際に前提順序を優先する点で人間と同様に動作することを発見しました。

- モデルは、前提の順序が問題解決プロセスの論理的推論ステップと一致する場合に最もよく機能します。

問題の推論プロセスでモデルが問題の説明を繰り返し読み取る必要がある場合、パフォーマンスが 30% 以上低下する可能性があります。

人間も推論問題を解決するときに特定の前提順序を好みますが、大規模な言語モデルはこの順序付け効果に対してより敏感です。この効果は、モデルの自己回帰設計、トレーニング目標とトレーニング データの組み合わせなど、いくつかの理由で発生する可能性があります。

さらに、研究者らは研究を数学的推論の分野にまで広げ、ランキング効果の存在をさらに実験的に確認するR-GSMベンチマークテストを提案しました。

著者について

陳欣雲

Xinyun Chen は現在、Google DeepMind の上級研究科学者であり、大規模言語モデル、自動コード生成、人工知能セキュリティの研究に重点を置いています。

彼女は2022年にカリフォルニア大学バークレー校でコンピュータサイエンスの博士号を取得し、2017年には上海交通大学のACMクラスでコンピュータサイエンスの理学士号を取得し、30人中1位でした。

さらに、彼女はMeta AIと日本の国立情報学研究所で科学研究も行っています。

ライアン・A・チー

Ryan A. Chi は現在、スタンフォード大学でコンピューターサイエンスの修士号を取得し、音楽を副専攻しています。

彼は、医療分野における自然言語処理と人工知能の応用において豊富な経験を有しており、スタンフォード大学のNLPチーム「Chirpy Cardinal」を率いてAlexa Prize Social Robot Challenge 5で優勝し、賞金25万ドルを獲得しました。

さらに、彼は Google Deepmind や Nvidia で勤務し、スタンフォード ACM およびスタンフォード交響楽団の会長を務め、スタンフォード ポーカー チャンピオンシップの共同創設者でもあります。

<<:  「人と車のインタラクション」に新たなブレークスルー!パーデュー大学が Talk2Drive フレームワークをリリース: 学習可能/カスタマイズ可能な「コマンド認識」システム

>>:  ソラの素晴らしい映像は驚異的で、ハリウッドの監督は8億ドルのスタジオを急遽撤去しました。ソラの「社内ベータ」が予定より早く開始、映画・テレビ業界に失業の波が押し寄せる

ブログ    
ブログ    

推薦する

...

移動ロボットとは何ですか?また、どのように分類されますか?

移動ロボットは、作業を自動的に行う機械装置です。センサー、遠隔操作者、自動制御移動搬送機などから構成...

...

...

アンドリュー・ン氏が AI 変革ガイドをリリース: CEO に 5 つのステップで AI 変革を呼びかける

人工知能は間違いなくエンジニアや研究者を変えたが、自社の将来を左右するCEOたちは何をより重視してい...

業界の証人、Pudu Roboticsが北京ケータリング調達展示会に初登場

4月21日から23日まで、北京市易創国際会議展示センターでもう一つのケータリング会議、すなわち202...

...

保険会社、パンデミックによりAI自動化を導入

Star Health と ICICI Lombard は、医療保険契約者に対する請求の事前承認プロ...

...

...

人工知能は世界をどう変えるのか:BBCがAIのAからZまでをまとめる

今日、人工知能はもはや漠然とした研究室の技術ではなく、私たちの生活のあらゆる側面に組み込まれています...

スタンフォード大学は、GPT-4 が愚かになったことを確認しました。 OpenAIの最新の回答: 確かに「知能の低下」は起きている

写真大型模型天井GPT-4、だんだんと鈍くなってきているのでしょうか?これまでにも多くのユーザーが疑...

農業における人工知能の応用

農業は人類の生存の基盤であり、第三次産業の中核的位置を占め、経済社会の安定と発展に極めて重要な産業で...

0パラメータ+0トレーニング、3D点群解析手法Point-NNは複数のSOTAを更新します

論文リンク: https://arxiv.org/pdf/2303.08134.pdfコードアドレス...

ベンジオ、ヒントン、張亜琴らAI界の巨人たちが新たな共同書簡を発表! AIは危険すぎるので、再配置する必要がある

AI リスク管理は、AI 大手企業によって再び議題に挙げられています。ちょうど今、ベンジオ、ヒントン...