「段階的に考える」だけでは不十分です。モデルを「より多くのステップで考える」ようにすれば、より有用になります。

今日では、大規模言語モデル (LLM) とその高度なヒント戦略の出現により、特に古典的な NLP タスクにおける言語モデルの研究が大きく進歩しました。重要な革新の 1 つは、複数ステップの問題解決におけるその威力でよく知られている Chain of Thought (CoT) プロンプト手法です。このテクノロジーは人間の順次的な推論に従っており、クロスドメイン、長い一般化、クロスリンガルタスクなど、さまざまな課題で優れたパフォーマンスを発揮します。 CoT は、論理的かつ段階的な推論アプローチを採用しており、複雑な問題解決シナリオにおいて重要な説明可能性を提供します。

CoT では大きな進歩が遂げられているにもかかわらず、研究コミュニティは CoT とその変異体の具体的なメカニズムと有効な原因についてまだ合意に達していません。この知識のギャップは、CoT パフォーマンスの向上がまだ探求の領域であることを意味します。この探究は主に試行錯誤に依存しています。現在、CoT の有効性を改善するための体系的な方法論が欠如しており、研究者は推測と実験に頼ることしかできないためです。しかし、このことは、この分野に、CoT の内部の仕組みについて、より深く、より構造化された理解を深めるという重要な研究機会があることも示唆しています。この目標が達成されれば、現在の CoT プロセスの謎が解かれるだけでなく、さまざまな複雑な NLP タスクでこのテクノロジーをより信頼性が高く効率的に適用する道が開かれます。

ノースウェスタン大学、リバプール大学、ニュージャージー工科大学など米国の研究機関の研究者らは、推論ステップの長さと結論の正確さの関係をさらに調査し、NLP問題を効果的に解決する方法についての理解を深めるのに役立てた。次の記事では、推論ステップが CoT を機能させるプロンプトの最も重要な部分であるかどうかを検討します (図 1 を参照)。この実験の変数は厳密に制御されており、特に新しい推論手順を追加する場合、研究者は追加の知識が導入されないようにします。ゼロショット実験では、研究者は最初のプロンプトを「ステップごとに考えてください」から「ステップごとに考え、できるだけ多くのステップを考えてください」に変更しました。小規模サンプルの問題に対して、研究者は他のすべての要素を変更せずに基本的な推論手順を拡張する実験を設計しました。

論文タイトル: 推論ステップ長が大規模言語モデルに与える影響
論文リンク: https://arxiv.org/pdf/2401.04925.pdf

この論文の最初の一連の実験では、上記の戦略に基づいて Auto-CoT 技術を使用して、ゼロショットタスクと少数ショットタスクにおける推論パフォーマンスの向上を評価します。次に、推論ステップの数を変えて、さまざまな方法の精度を評価します。次に、研究者らは研究対象を拡大し、本論文で提案された戦略の有効性をさまざまなLLM（GPT-3.5やGPT-4など）で比較しました。研究の結果、ある一定の範囲内で、推論連鎖の長さとLLMの能力の間には明確な相関関係があることが示されました。しかし興味深いことに、研究者が推論の連鎖に誤解を招く情報を導入しても、パフォーマンスは向上した。このことから、重要な結論が導き出されます。パフォーマンスに影響を与える主な要因は、思考の連鎖の長さであり、その正確さではないようです。

この論文の主な調査結果は次のとおりです。

少数ショットの CoT の場合、推論ステップ数と精度の間には直接的な線形関係があります。これにより、複雑な推論における CoT キューを最適化するための定量化可能な方法が提供されます。具体的には、プロンプトの推論ステップを増やすと、複数のデータセットに対する LLM の推論能力が大幅に向上します。逆に、推論ステップを短縮すると、重要な情報が保持されている場合でも、モデルの推論能力が大幅に弱まる可能性があります。
必要な推論の長さが維持されれば、誤った推論であっても有益な結果を生み出すことができます。たとえば、数学の問題などのタスクでは、プロセス中に生成される中間数値のエラーが最終結果に影響を与える可能性は低くなります。
推論ステップ数を増やすことで得られるメリットの大きさは、タスク自体によって制限されます。つまり、タスクが単純であれば必要なステップ数が少なくなり、タスクが複雑であれば推論シーケンスが長くなると大きなメリットが得られます。
ゼロショット CoT の推論ステップを増やすと、LLM の精度も大幅に向上します。

研究方法

推論ステップと CoT キューのパフォーマンスの関係を調べるために分析を実行しました。私たちのアプローチの中心的な前提は、推論プロセスにおけるシリアル化ステップが CoT プロンプトの最も重要なコンポーネントであり、これにより言語モデルが応答コンテンツを生成するときに推論にさらに多くのロジックを適用できるようになるというものです。この見解を検証するために、他のすべての要素を変更せずに、CoT の推論プロセスにおける基本的な推論ステップを順次拡張および圧縮する実験を設計しました。具体的には、研究者は、新しい推論内容を導入したり、既存の推論内容を削除したりすることなく、推論ステップの数のみを体系的に変更しました。以下では、ゼロショットおよび少数ショットの CoT キューを評価します。実験プロセス全体を図 2 に示します。この制御変数分析アプローチを通じて、研究者らは CoT が LLM の論理的に健全な応答を生成する能力にどのように影響するかを解明しました。

ゼロサンプルCoT分析

ゼロショットのシナリオでは、研究者は元のプロンプトを「ステップごとに考えてください」から「ステップごとに考え、できるだけ多くのステップを考えてください」に変更しました。この変更は、少数ショットの CoT 環境とは異なり、ユーザーが使用中に追加の推論手順を導入できないために行われました。研究者たちは、最初のプロンプトを変更することで、LLM がより幅広く考えるように導きました。このアプローチの重要性は、少数ショットのシナリオでは一般的なアプローチである増分トレーニングや追加の例主導の最適化手法を必要とせずに、モデルの精度を向上できることにあります。この改良戦略により、より包括的かつ詳細な推論プロセスが保証され、ゼロショット条件下でのモデルのパフォーマンスが大幅に向上します。

小規模サンプルのCoT分析

このセクションでは、推論ステップを追加または圧縮して、CoT の推論チェーンを変更します。目的は、推論構造の変化が LLM の決定にどのように影響するかを調査することです。推論ステップを拡張する場合、研究者はタスクに関連する新しい情報を導入しないようにする必要があります。したがって、推論ステップが唯一の研究変数になります。

この目的のために、研究者はさまざまな LLM アプリケーションの推論手順を拡張するための次の研究戦略を設計しました。問題を何度も繰り返し解いて理解を深める、数式を作成して記憶の負担を減らす、問題文中の単語の意味を分析してトピックの理解を助ける、現状を要約してトピックの説明を簡素化するなど、人々が問題を考える方法には固定されたパターンがあることが多いです。研究者たちは、ゼロサンプル CoT と Auto-CoT にヒントを得て、CoT プロセスが標準化されたモデルとなり、プロンプト部分での CoT 思考の方向を制限することで正しい結果が得られることを期待しています。この方法の核心は、人間の思考プロセスをシミュレートし、思考の連鎖を再構築することです。表 6 に、5 つの一般的なプロンプト戦略を示します。

単語思考: この戦略では、モデルが単語を解釈し、知識ベースを再構築する必要があります。多くの場合、単語には複数の異なる意味があり、これを行うと、モデルに既成概念にとらわれずに考えさせ、生成された解釈に基づいて質問内の単語を再解釈させることになります。このプロセスでは新しい情報は導入されません。プロンプトでは、研究者がモデルが考えている単語の例を示し、モデルは新しい質問に基づいてこのプロセスを実行するために自動的に単語を選択しました。
質問の過負荷: 質問を繰り返し読んで、思考の連鎖における他のテキストの干渉を減らします。つまり、モデルに問題を記憶させるのです。
繰り返し状態: 繰り返し読み取りと同様に、長い一連の推論の後に現在の状態の要約が追加されます。その目的は、モデルがメモリを簡素化し、CoT 上の他のテキストの干渉を減らすことです。
自己検証: 人間が質問に答えるとき、その答えが正しいかどうかを確認します。そのため、モデルが答えを出す前に、研究者らはいくつかの基本情報に基づいて答えが妥当かどうかを判断するための自己検証プロセスを追加しました。
方程式の作成: 数学の問題の場合、数式を作成することで、人間は記憶を要約し、簡素化することができます。未知の変数 x についての仮定を必要とするいくつかの問題では、方程式を確立することが重要なプロセスです。研究者たちはこのプロセスをシミュレートし、モデルを使って数学の問題の方程式を構築してみました。

一般的に、この記事のリアルタイム戦略はモデルに反映されます。表 1 は 1 つの例を示しており、他の 4 つの戦略の例は元の論文に記載されています。

実験と結果

推論ステップと正確さの関係

表2は、3つのカテゴリの推論タスクについて、8つのデータセットにおけるGPT-3.5-turbo-1106の精度を比較したものです。

研究者は思考連鎖プロセスを標準化できたため、基本的な CoT プロセスにステップを追加することで精度がどの程度向上するかを定量化できました。この実験の結果は、以前に提起された「推論ステップと CoT パフォーマンスの関係は何か」という質問に答えることができます。この実験は、GPT-3.5-turbo-1106 モデルに基づいています。研究者らは、CoT プロセスに最大 6 つの思考ステップを追加するなどの効果的な CoT プロセスによって、大規模言語モデルの推論能力が向上することを発見し、これがすべてのデータセットに反映されました。言い換えれば、研究者たちは、精度と CoT の複雑さの間には一定の線形関係があることを発見しました。

間違った答えの影響

推論ステップは LLM のパフォーマンスに影響を与える唯一の要因ですか?研究者たちは以下の試みを行った。プロンプト内のステップの 1 つを誤った説明に変更し、それが思考の連鎖に影響するかどうかを確認します。この実験では、すべてのプロンプトにエラーを追加しました。具体的な例については表3を参照してください。

算数の問題の場合、プロンプト結果の 1 つに偏りがあったとしても、推論プロセスにおける思考の連鎖への影響は最小限です。そのため、研究者は、算数の問題を解く際に、大規模言語モデルは単一の計算よりもプロンプト内の思考パターンの連鎖についてより多くを学習すると考えています。コインデータのような論理的な問題の場合、プロンプト結果の逸脱は、思考の連鎖全体の断片化につながることがよくあります。研究者らは、この実験を完了するために GPT-3.5-turbo-1106 も使用し、以前の実験から得られた各データセットの最適なステップ数に基づいてパフォーマンスを保証しました。結果は図4に示されています。

圧縮推論ステップ

これまでの実験では、推論ステップの数を増やすと LLM 推論の精度が向上することが実証されています。では、基本的な推論手順を圧縮すると、小規模サンプルの問題における LLM のパフォーマンスが低下するのでしょうか?この目的のために、研究者らは推論ステップの圧縮に関する実験を実施し、実験設定で概説した手法を使用して推論プロセスを Auto CoT と Few-Shot-CoT に凝縮し、推論ステップの数を削減しました。結果を図5に示します。

結果は、モデルのパフォーマンスが大幅に低下し、ゼロショット法とほぼ同等のレベルに後退したことを示しています。この結果はさらに、CoT 推論ステップを増やすと CoT パフォーマンスが向上する可能性があり、その逆もまた同様であることを示しています。

異なる仕様のモデルのパフォーマンス比較

研究者らはまた、スケーリング現象、つまり必要な推論ステップの数が LLM のサイズに関係していることを観察できるかどうかについても質問しました。研究者らは、text-davinci-002、GPT-3.5-turbo-1106、GPT-4などさまざまなモデルで使用される推論ステップの平均数を研究しました。各モデルが最高のパフォーマンスに到達するために必要な平均推論ステップは、GSM8K での実験を通じて計算されました。 8 つのデータセットの中で、このデータセットは text-davinci-002、GPT-3.5-turbo-1106、GPT-4 とのパフォーマンス差が最も大きくなっています。初期パフォーマンスが最も悪かったtext-davinci-002モデルでは、本論文で提案された戦略が最も高い改善効果を示していることがわかります。結果は図6に示されています。

共同作業における問題の影響例

これらの質問は LLM の推論能力にどのような影響を与えますか?研究者たちは、CoT の推論を変更すると CoT のパフォーマンスに影響するかどうかを調査したかったのです。この論文は主に推論ステップがパフォーマンスに与える影響を研究しているため、研究者は問題自体がパフォーマンスに影響を与えないことを確認する必要があります。そのため、研究者らは、GPT-3.5-turbo-1106 での実験に、MultiArith と GSM8K のデータセットと 2 つの CoT 手法 (自動 CoT と少数ショット CoT) を選択しました。私たちの実験的アプローチでは、表 4 の問題の内容を変更するなど、これらの数学データセットのサンプル問題を意図的に変更します。

表 5 に示すように、予備的な観察では、問題自体に対するこれらの変更が、いくつかの要因の中でパフォーマンスに与える影響が最も小さいことが示されていることは注目に値します。

この予備的な調査結果は、推論プロセスのステップの長さが大規模モデルの推論能力に影響を与える最も重要な要因であり、問題自体が最大の影響を与えるわけではないことを示唆しています。

詳細については、原著論文をお読みください。

<<: Google は Gen-2 を殴り、ピカを蹴り、大規模な AI ビデオモデルを開発するために 7 か月間懸命に取り組みました。時空構造の最初の言及、持続時間は壮大なレベルにまで延長される

>>: 2023 ACM フェローがチューリングビッグスリーに授与されました。清華大学の馬衛英氏、マイクロソフトの高建鋒氏、上海交通大学の陳海波氏、その他14名の中国人が選出された。