今年、AI分野では大規模言語モデル(LLM)が注目を浴びています。 LLM はさまざまな自然言語処理 (NLP) タスクで大きな進歩を遂げており、推論におけるブレークスルーは特に印象的です。しかし、LLM は複雑な推論タスクでは依然としてパフォーマンスが低いです。 それで、LLM は彼自身の推論が間違っているとわかるのでしょうか?ケンブリッジ大学と Google Research が共同で実施した最近の研究では、LLM は推論エラーを見つけることはできないが、研究で提案されたバックトラッキング法を使用してエラーを修正できることが判明しました。
この論文は論争を巻き起こし、異議を唱える人もいます。例えば、Hacker News では、この論文のタイトルは誇張されており、少しクリックベイト的だとコメントする人もいました。また、論理エラーを修正するために提案された方法は、実際には失敗しやすい論理的方法ではなくパターンマッチングに基づいていると批判する人もいました。 Huang らは論文「大規模言語モデルはまだ推論を自己修正できない」の中で、自己修正はモデル出力のスタイルと品質を改善するのに効果的かもしれないが、LLM が外部からのフィードバックなしに自身の推論と論理エラーを識別して修正できるという証拠はほとんどないと指摘しています。たとえば、Reflexion と RCI はどちらも、グラウンド トゥルースの修正結果を自己修正サイクルを停止する信号として使用します。 ケンブリッジ大学と Google Research の研究チームは、自己修正を単一のプロセスとして見るのではなく、エラー検出と出力修正という 2 つのプロセスに分割するという新しいアイデアを提案しました。
この論文の主な貢献は次のとおりです。
BIG-BenchミスデータセットBIG-Bench は 2186 個の CoT スタイルの軌道情報セットで構成されています。各軌跡は PaLM 2-L-Unicorn によって生成され、最初の論理エラーの場所が注釈付けされています。表 1 は、ステップ 4 でエラーが発生したトレースの例を示しています。 軌跡は、BIG-Bench データセットの 5 つのタスク (単語のソート、シャッフルされたオブジェクトの追跡、論理的推論、多段階の算術、Dyck 言語) から取得されます。 彼らは、CoT プロンプト設計を使用して PaLM 2 を呼び出し、各タスクの質問に答えました。 CoT トレースを明確なステップに分割するために、論文「React: Synergizing reasoning and act in language models」で提案された方法を使用し、各ステップを個別に生成し、改行をストップ トークンとして使用しました。 このデータセットでは、すべての軌跡は温度 = 0 で生成されました。回答の正確さは完全一致によって決まります。 ベンチマーク結果表 4 は、新しいエラー検出データセットにおける GPT-4-Turbo、GPT-4、および GPT-3.5-Turbo の精度を報告しています。 各質問には、エラーがない、またはエラーがあるという 2 つの回答が可能です。エラーがある場合、値 N は最初のエラーが発生したステップを示します。 すべてのモデルに同じ 3 つのプロンプトが与えられました。彼らは 3 つの異なるプロンプト設計アプローチを使用しました。
関連ディスカッション 結果は、3 つのモデルすべてがこの新しい誤検出データセットに苦労していることを示しています。 GPT は最高のパフォーマンスを発揮しましたが、直接ステップレベルのプロンプト設計では全体的な精度が 52.87% にしか達しませんでした。 これは、現在の最高の LLM では、最も単純で明確なケースであっても、エラーを見つけるのが難しいことを示唆しています。対照的に、人間は特別な専門知識がなくても、高い一貫性でエラーを検出できます。 研究者たちは、LLM がエラーを検出できないことが、LLM が推論エラーを自己修正できない主な理由であると推測しています。 プロンプト設計方法の比較 研究者らは、直接的な軌道レベルのアプローチからステップレベルのアプローチ、そして CoT アプローチに移行すると、エラーのない軌道の精度が大幅に低下することを発見しました。図 1 はこのトレードオフを示しています。 研究者たちは、その理由はモデルによって生成される出力の数にあると推測している。これら 3 つのアプローチでは、ますます複雑な出力が生成されます。直接的な軌跡レベルのプロンプト設計アプローチでは 1 つのトークンが必要であり、直接的なステップレベルのプロンプト設計アプローチではステップごとに 1 つのトークンが必要であり、CoT ステップレベルのプロンプト設計ではステップごとに複数の文が必要です。各生成呼び出しにエラーを識別する一定の確率がある場合、各軌跡の呼び出しが増えるほど、モデルが少なくとも 1 つのエラーを識別する可能性が高くなります。 正確さの代理としてエラー位置を使用する少数ショットプロンプト設計 研究者らは、これらのプロンプト設計方法が、エラー位置ではなく、軌道の正確さを確実に判断できるかどうかを調査しました。 彼らは、モデルが軌道にエラーがあるかどうかを予測できるかどうかに基づいて平均 F1 スコアを計算しました。エラーがある場合は、モデルが軌道が正しくないと予測しているものと想定されます。それ以外の場合、モデルは軌道が正しいと予測しているものとみなされます。 研究者らは、correct_ans と incorrect_ans を正例ラベルとして使用し、各ラベルの出現回数に応じて重み付けして平均 F1 スコアを計算しました。その結果は表 5 に示されています。 この加重 F1 スコアは、プロンプト内のエラーを探すことは、最終的な回答の正確さを判断するための戦略としては適切ではないことを示しています。 バックトラッキングHuangらは、LLMは外部からのフィードバックなしでは論理エラーを自己修正できないと指摘した。しかし、実際の多くのアプリケーションでは、外部からのフィードバックが利用できないことがよくあります。 この研究では、研究者らは、外部フィードバックを少量のデータでトレーニングされた軽量の分類器に置き換えるという別のアプローチを採用しました。従来の強化学習の報酬モデルと同様に、この分類器は CoT 軌道の論理エラーを検出し、それをジェネレーター モデルにフィードバックして出力を改善できます。改善を最大限にしたい場合は、複数回の反復を実行できます。 研究者らは、論理エラーの場所に基づいてモデルの出力を改善できる単純なバックトラッキング手法を提案した。
このバックトラッキング アプローチには、従来の自己修正方法に比べて多くの利点があります。
研究者らは、BIG-Bench Mistake データセットに基づいて、バックトラッキング法が LLM による論理エラーの修正に役立つかどうかを実験しました。結果を表6に示す。 ∆accuracy✓ は、元の答えが correct_ans である場合の軌跡セット上のaccuracy_ans の差です。 ∆accuracy✗は、incorrect_ans軌道の結果です。 これらのスコアは、incorrect_ans 軌道を修正することによる利益が正解の変更による損失を上回ることを示しています。さらに、ランダム ベースラインでも改善は得られますが、その改善は実際のエラー位置を使用した場合よりも大幅に小さくなります。ランダム ベンチマークでは、ステップ数が少ないタスクの方が実際のエラーの場所が見つかる可能性が高くなるため、パフォーマンスが向上する可能性が高くなることに注意してください。 適切なラベルが利用できない場合に報酬モデルに必要な精度のレベルを調べるために、さまざまな精度レベルのラベルを生成するように設計されたシミュレートされた報酬モデルを介してバックトラッキングを使用する実験を行いました。特定のエラー位置におけるシミュレートされた報酬モデルの精度を表すために、accuracy_RM を使用します。 特定の報酬モデルのaccuracy_RMがX%の場合、BIG-Bench Mistakeからのエラー位置がX%の割合で使用されます。残りの(100 − X)%については、エラー位置がランダムにサンプリングされます。一般的な分類器の動作をシミュレートするために、データセットの分布と一致する方法でエラー位置がサンプリングされます。研究者らは、サンプル採取した誤った場所が正しい場所と一致しないようにするための措置も講じた。結果を図2に示します。 ∆accuracy✓の損失は65%で安定し始めていることがわかります。実際、ほとんどのタスクでは、accuracy_RM が約 60~70% の場合、∆accuracy✓ はすでに ∆accuracy✗ よりも大きくなっています。これは、精度が高いほど結果が良くなるものの、誤った場所のゴールド スタンダード ラベルがなくてもバックトラッキングが依然として有効であることを示しています。 |
<<: 人間の脳に似た新しい注意メカニズムである Meta により、大規模なモデルはタスクに関係のない情報を自動的にブロックできるようになり、精度が 27% 向上します。
>>: クラシック絵文字パッケージにこの「続編」があることが判明しました。ステーブルビデオのクリエイティブなゲームプレイが人気
[[427712]] 2021年9月28日にarXivにアップロードされた論文「SafetyNet:...
導入機械学習プロジェクトに取り組むとき、すべてのデータ サイエンティストが直面しなければならない質問...
人間の動作生成タスクは、エンターテインメント、仮想現実、ロボット工学などの分野のニーズを満たす、リア...
編集者注:最近、清華大学自動化学部システム工学研究所の李立准教授を筆頭著者として、林一倫、鄭南寧、王...
心理測定分析における AI とビッグデータの活用人工知能 (AI) とビッグデータは、採用担当者が個...
1 知覚ソリューション: 純粋な視覚とマルチセンサー融合自動車が自動運転を実現するには、まず周囲を...
[[233888]] AIの未来は私たち自身のニューラルネットワークを複製することにある私たちは、チ...
[[348678]] 5G、人工知能、ブロックチェーンなどの新技術の継続的な進歩は、あらゆる企業の変...
[[429745]]人間のような AI を作るということは、単に人間の行動を模倣するということだけで...
[[442909]] [51CTO.com クイック翻訳]テスラは2019年4月に「Autonomy...