Google: LLM は推論エラーを見つけることはできないが、修正することはできる

今年、AI分野では大規模言語モデル（LLM）が注目を浴びています。 LLM はさまざまな自然言語処理 (NLP) タスクで大きな進歩を遂げており、推論におけるブレークスルーは特に印象的です。しかし、LLM は複雑な推論タスクでは依然としてパフォーマンスが低いです。

それで、LLM は彼自身の推論が間違っているとわかるのでしょうか?ケンブリッジ大学と Google Research が共同で実施した最近の研究では、LLM は推論エラーを見つけることはできないが、研究で提案されたバックトラッキング法を使用してエラーを修正できることが判明しました。

論文アドレス: https://arxiv.org/pdf/2311.08516.pdf
データセットアドレス: https://github.com/WHGTyen/BIG-Bench-Mistake

この論文は論争を巻き起こし、異議を唱える人もいます。例えば、Hacker News では、この論文のタイトルは誇張されており、少しクリックベイト的だとコメントする人もいました。また、論理エラーを修正するために提案された方法は、実際には失敗しやすい論理的方法ではなくパターンマッチングに基づいていると批判する人もいました。

Huang らは論文「大規模言語モデルはまだ推論を自己修正できない」の中で、自己修正はモデル出力のスタイルと品質を改善するのに効果的かもしれないが、LLM が外部からのフィードバックなしに自身の推論と論理エラーを識別して修正できるという証拠はほとんどないと指摘しています。たとえば、Reflexion と RCI はどちらも、グラウンドトゥルースの修正結果を自己修正サイクルを停止する信号として使用します。

ケンブリッジ大学と Google Research の研究チームは、自己修正を単一のプロセスとして見るのではなく、エラー検出と出力修正という 2 つのプロセスに分割するという新しいアイデアを提案しました。

エラー検出は、哲学、心理学、数学で広く研究され、応用されてきた基本的な推論スキルであり、批判的思考や論理的および数学的誤謬などの概念を生み出しました。エラーを検出する能力も LLM の重要な要件であるはずだと合理的に推測できます。しかし、私たちの結果は、現在の最良の LLM ではエラーを確実に見つけることができていないことを示しています。
出力修正では、以前に生成された出力を部分的または完全に変更します。自己修正とは、出力を生成した同じモデルによって修正が行われることを意味します。 LLM にはエラーを検出する機能はありませんが、この論文では、エラーに関する情報が提供される場合 (たとえば、小規模な教師あり報酬モデルを通じて)、LLM はバックトラッキングを使用して出力を修正できることを示しています。

この論文の主な貢献は次のとおりです。

思考連鎖プロンプト設計法を使用すると、あらゆるタスクをエラー検出タスクに変えることができます。この目的のために、研究者らは、PaLM によって生成され、最初の論理エラーの位置をマークした CoT タイプの軌道情報データセット BIG-Bench Mistake を収集して公開しました。研究者らによると、BIG-Bench Mistake は数学の問題に限定されない初めてのデータセットだという。
現在最も優れた LLM の推論能力をテストするために、研究者らは新しいデータセットでベンチマークを実施しました。現在の SOTA LLM では、客観的に明らかなエラーであっても、エラーを見つけるのが難しいことがわかりました。 LLM がエラーを検出できないことが、LLM が推論エラーを自己修正できない主な理由であると彼らは推測していますが、この分野ではさらなる研究が必要です。
この論文では、バックトラッキング法を使用して出力を修正し、誤った位置情報を利用して元のタスクのパフォーマンスを向上させることを提案しています。研究により、この方法は元々正しい出力への影響を最小限に抑えながら、元々誤った出力を修正できることがわかっています。
この論文では、重みの更新なしで CoT 出力を反復的に改善できる「言語強化学習」の一形態としてのバックトラッキング法について説明します。研究者らは、訓練された分類器を通じてバックトラッキングを報酬モデルとして使用できると提案し、さまざまな報酬モデルの精度におけるバックトラッキングの有効性を実験的に実証しました。

BIG-Benchミスデータセット

BIG-Bench は 2186 個の CoT スタイルの軌道情報セットで構成されています。各軌跡は PaLM 2-L-Unicorn によって生成され、最初の論理エラーの場所が注釈付けされています。表 1 は、ステップ 4 でエラーが発生したトレースの例を示しています。

軌跡は、BIG-Bench データセットの 5 つのタスク (単語のソート、シャッフルされたオブジェクトの追跡、論理的推論、多段階の算術、Dyck 言語) から取得されます。

彼らは、CoT プロンプト設計を使用して PaLM 2 を呼び出し、各タスクの質問に答えました。 CoT トレースを明確なステップに分割するために、論文「React: Synergizing reasoning and act in language models」で提案された方法を使用し、各ステップを個別に生成し、改行をストップトークンとして使用しました。

このデータセットでは、すべての軌跡は温度 = 0 で生成されました。回答の正確さは完全一致によって決まります。

ベンチマーク結果

表 4 は、新しいエラー検出データセットにおける GPT-4-Turbo、GPT-4、および GPT-3.5-Turbo の精度を報告しています。

各質問には、エラーがない、またはエラーがあるという 2 つの回答が可能です。エラーがある場合、値 N は最初のエラーが発生したステップを示します。

すべてのモデルに同じ 3 つのプロンプトが与えられました。彼らは 3 つの異なるプロンプト設計アプローチを使用しました。

直接軌道レベルのプロンプト設計
直接的なステップレベルのプロンプト設計
CoTステップレベルでのプロンプト設計

関連ディスカッション

結果は、3 つのモデルすべてがこの新しい誤検出データセットに苦労していることを示しています。 GPT は最高のパフォーマンスを発揮しましたが、直接ステップレベルのプロンプト設計では全体的な精度が 52.87% にしか達しませんでした。

これは、現在の最高の LLM では、最も単純で明確なケースであっても、エラーを見つけるのが難しいことを示唆しています。対照的に、人間は特別な専門知識がなくても、高い一貫性でエラーを検出できます。

研究者たちは、LLM がエラーを検出できないことが、LLM が推論エラーを自己修正できない主な理由であると推測しています。

プロンプト設計方法の比較

研究者らは、直接的な軌道レベルのアプローチからステップレベルのアプローチ、そして CoT アプローチに移行すると、エラーのない軌道の精度が大幅に低下することを発見しました。図 1 はこのトレードオフを示しています。

研究者たちは、その理由はモデルによって生成される出力の数にあると推測している。これら 3 つのアプローチでは、ますます複雑な出力が生成されます。直接的な軌跡レベルのプロンプト設計アプローチでは 1 つのトークンが必要であり、直接的なステップレベルのプロンプト設計アプローチではステップごとに 1 つのトークンが必要であり、CoT ステップレベルのプロンプト設計ではステップごとに複数の文が必要です。各生成呼び出しにエラーを識別する一定の確率がある場合、各軌跡の呼び出しが増えるほど、モデルが少なくとも 1 つのエラーを識別する可能性が高くなります。

正確さの代理としてエラー位置を使用する少数ショットプロンプト設計

研究者らは、これらのプロンプト設計方法が、エラー位置ではなく、軌道の正確さを確実に判断できるかどうかを調査しました。

彼らは、モデルが軌道にエラーがあるかどうかを予測できるかどうかに基づいて平均 F1 スコアを計算しました。エラーがある場合は、モデルが軌道が正しくないと予測しているものと想定されます。それ以外の場合、モデルは軌道が正しいと予測しているものとみなされます。

研究者らは、correct_ans と incorrect_ans を正例ラベルとして使用し、各ラベルの出現回数に応じて重み付けして平均 F1 スコアを計算しました。その結果は表 5 に示されています。

この加重 F1 スコアは、プロンプト内のエラーを探すことは、最終的な回答の正確さを判断するための戦略としては適切ではないことを示しています。

バックトラッキング

Huangらは、LLMは外部からのフィードバックなしでは論理エラーを自己修正できないと指摘した。しかし、実際の多くのアプリケーションでは、外部からのフィードバックが利用できないことがよくあります。

この研究では、研究者らは、外部フィードバックを少量のデータでトレーニングされた軽量の分類器に置き換えるという別のアプローチを採用しました。従来の強化学習の報酬モデルと同様に、この分類器は CoT 軌道の論理エラーを検出し、それをジェネレーターモデルにフィードバックして出力を改善できます。改善を最大限にしたい場合は、複数回の反復を実行できます。

研究者らは、論理エラーの場所に基づいてモデルの出力を改善できる単純なバックトラッキング手法を提案した。

モデルは最初に初期の CoT 軌道を生成します。実験では、温度を 0 に設定します。
次に、報酬モデルを使用して、軌道上のエラーの位置を決定します。
エラーがなければ、次のトラックに進みます。エラーが発生した場合、モデルは再度同じ手順を実行するように求められますが、今回は温度 = 1 で 8 つの出力が生成されます。ここでは、同じプロンプトが使用され、エラーステップまでのすべてのステップを含む部分的なトレースも使用されます。
8 つの出力のうち、前のエラーと同じオプションを除外します。残りの出力から、対数確率が最も高いものを選択します。
最後に、前のステップを新しく再生成されたステップに置き換え、温度を 0 にリセットして、軌道の残りのステップの生成を続けます。

このバックトラッキングアプローチには、従来の自己修正方法に比べて多くの利点があります。

新しいバックトラッキング法では、答えを事前に知る必要はありません。代わりに、論理エラーに関する情報（トレーニングされた報酬モデルなどから得られる情報）に依存しており、これは報酬モデルを使用して段階的に判断できます。論理エラーは、correct_ans トラックに表示される場合と表示されない場合があります。
バックトラッキング法は、特定のプロンプトテキストや文言に依存しないため、関連するバイアスが軽減されます。
軌跡全体を再生成する必要がある方法と比較して、バックトラッキング方法では、論理的に正しいことがわかっているステップを再利用することで計算コストを削減できます。
バックトラッキング法は中間ステップの品質を直接向上させることができるため、正しいステップが必要なシナリオ（数学の問題に対する解の生成など）で役立つと同時に、解釈可能性も向上します。

研究者らは、BIG-Bench Mistake データセットに基づいて、バックトラッキング法が LLM による論理エラーの修正に役立つかどうかを実験しました。結果を表6に示す。

∆accuracy✓ は、元の答えが correct_ans である場合の軌跡セット上のaccuracy_ans の差です。

∆accuracy✗は、incorrect_ans軌道の結果です。

これらのスコアは、incorrect_ans 軌道を修正することによる利益が正解の変更による損失を上回ることを示しています。さらに、ランダムベースラインでも改善は得られますが、その改善は実際のエラー位置を使用した場合よりも大幅に小さくなります。ランダムベンチマークでは、ステップ数が少ないタスクの方が実際のエラーの場所が見つかる可能性が高くなるため、パフォーマンスが向上する可能性が高くなることに注意してください。

適切なラベルが利用できない場合に報酬モデルに必要な精度のレベルを調べるために、さまざまな精度レベルのラベルを生成するように設計されたシミュレートされた報酬モデルを介してバックトラッキングを使用する実験を行いました。特定のエラー位置におけるシミュレートされた報酬モデルの精度を表すために、accuracy_RM を使用します。

特定の報酬モデルのaccuracy_RMがX%の場合、BIG-Bench Mistakeからのエラー位置がX%の割合で使用されます。残りの(100 − X)%については、エラー位置がランダムにサンプリングされます。一般的な分類器の動作をシミュレートするために、データセットの分布と一致する方法でエラー位置がサンプリングされます。研究者らは、サンプル採取した誤った場所が正しい場所と一致しないようにするための措置も講じた。結果を図2に示します。

∆accuracy✓の損失は65%で安定し始めていることがわかります。実際、ほとんどのタスクでは、accuracy_RM が約 60～70% の場合、∆accuracy✓ はすでに ∆accuracy✗ よりも大きくなっています。これは、精度が高いほど結果が良くなるものの、誤った場所のゴールドスタンダードラベルがなくてもバックトラッキングが依然として有効であることを示しています。

<<: 人間の脳に似た新しい注意メカニズムである Meta により、大規模なモデルはタスクに関係のない情報を自動的にブロックできるようになり、精度が 27% 向上します。

>>: クラシック絵文字パッケージにこの「続編」があることが判明しました。ステーブルビデオのクリエイティブなゲームプレイが人気