思考連鎖CoTは思考マップGoTへと進化し、思考ツリーよりも優れたヒントエンジニアリング技術が誕生した

大規模言語モデル (LLM) の機能を最大限に活用するには、効果的なプロンプト設計ソリューションが不可欠であり、この目的のためにプロンプトエンジニアリングと呼ばれる新しい分野も登場しています。

さまざまなプロンプト設計スキームの中でも、Chain of Thought (CoT) はその強力な推論能力により、多くの研究者やユーザーの注目を集めています。その改良版である CoT-SC と、さらに発展した Tree of Thought (ToT) も、多くの注目を集めています。

最近、ETH チューリッヒ、クレダー、ワルシャワ工科大学の研究チームが、新たなアイデア「Map of the Mind (GoT)」を提案しました。思考をチェーンからツリー、そしてグラフへと移行することで、LLM の推論プロセスを構築する能力は継続的に向上しており、研究者も実験を通じてこれを証明しています。彼らはまた、GoT フレームワークの独自の実装もリリースしました。

研究論文: https://arxiv.org/pdf/2308.09687v2.pdf

公式実装: https://github.com/spcl/graph-of-thoughts

論文概要

大規模言語モデルは、人工知能の世界で主流の技術になりつつあります。近年急速に発展したモデルは、主に GPT、PaLM、LLaMA などのデコーダーのみのトランスフォーマーのバリエーションに基づいています。

プロンプトエンジニアリングは、さまざまな LLM タスクを解決するためのリソース効率の高いアプローチです。簡単に言えば、LLM に送信される入力にはタスクの説明が含まれます。タスクを適切な形式で記述できる場合、LLM はテキストを生成するための自己回帰トークンベースのメカニズムを使用してそのタスクを解決できます。このようなプロンプトには、解答付きのサンプルタスクが含まれている場合（少数のプロンプト設計、コンテキスト内学習（ICL）とも呼ばれる）、またはサンプルタスクがまったく含まれていない場合もあります（ゼロショットのプロンプト設計）。近年の研究と応用により、このメカニズムは数学、常識、記号推論を含むさまざまな種類のタスクを解決するために使用できることが示されています。

Chain of Thought (CoT) はプロンプトを設計する方法であり、タスクの入力と出力に加えて、プロンプトには推論の中間ステップ (中間思考) も含まれます。研究によると、CoT は LLM の能力を大幅に向上させ、モデルを更新せずにいくつかの難しい問題を解決できるようになります。

一部の研究者は CoT を改良し、CoT を使用して自己一貫性を実現する方法 (CoT-SC) を提案しました。この解決策は、複数の CoT を生成し、その中から最良の結果を選択するというものです。

最近、一部の研究者はさらに一歩進んで、ツリーを通じて LLM 推論プロセスをモデル化する Tree of Thought (ToT) を提案しました。これにより、モデルは異なる思考パスを使用できるようになり、悪い結果に基づいて推論プロセスを後戻りするなど、まったく新しい機能を提供できるようになります。残念ながら、ToT アプローチは思考プロセスに厳密なツリー構造を課すため、プロンプトの推論機能が大幅に制限されます。詳細は、Syncedの記事「考え、考え、止まらずに考える、Thinking Tree ToT「軍事訓練」LLM」をご覧ください。

ETH チューリッヒ、クレダー、ワルシャワ工科大学の研究チームは、LLM の思考を任意のグラフ構造として構築できれば、プロンプトの機能が大幅に向上すると考えています。このアイデアは、人間の推論方法、脳の構造、アルゴリズムの実行方法など、さまざまな現象からヒントを得たものだと彼らは言う。

人間は思考する際に、CoT のように 1 つの思考の連鎖に従うのではなく、ToT のように複数の異なる経路を試すこともなく、より複雑な思考のネットワークを形成します。たとえば、ある人が 1 つの思考の連鎖を探索し、その後戻って別の思考の連鎖を探索し、前の連鎖のアイデアを現在の連鎖と組み合わせて新しい解決策に到達できることに気付く場合があります。同様に、脳は周期的なパターンなどのグラフのようなパターンを示す複雑なネットワークを形成します。アルゴリズムを実行すると、ネットワーク内のパターンも明らかになり、多くの場合、有向非巡回グラフとして表すことができます。

研究者らは、この対応するグラフ対応の変換を LLM 思考に適用すると、プロンプトを設計するための強力な方法を生み出すことが期待されるが、この変換は CoT や ToT を通じて自然に表現することはできないと述べています。

そして、彼らは、LLM の推論プロセスをグラフとしてモデル化すると、これらや他の多くの精神的変換が自然に実装できることを観察しました。この観察に基づいて、彼らはネットワークベースの推論を通じて LLM の機能を強化できるアプローチである「思考のグラフ (GoT)」を提案しました。

GoT では、LLM の思考は頂点としてモデル化され、頂点間の依存関係はエッジとしてモデル化されます。 GoT を使用すると、複数の入力エッジを持つ頂点を構築することで、任意の思考を集約できます。全体として、GoT で使用されるグラフ抽象化アプローチは、モデルを更新することなく、CoT と ToT をより複雑なメンタルモデルにシームレスに一般化できます。

ただし、実際に GoT を実装するには、解決する必要がある設計上の課題がいくつかあります。たとえば、さまざまなタスクに最適なグラフ構造は何でしょうか?精度を最大化し、コストを最小化するために、収束について考える最善の方法は何でしょうか?

これらの疑問やその他の疑問に答えるために、研究者たちは GoT を実装するためのモジュール式アーキテクチャを設計しました。このデザインには2つのハイライトがあります。

まず、それぞれの思考を細かく制御することができます。これにより、ユーザーは LLM との会話を完全に制御し、進行中の推論で最も有望な 2 つの考えを組み合わせて新しい考えを得るなどの高度な思考変換を使用できるようになります。

第二に、このアーキテクチャはスケーラビリティを考慮して設計されており、新しい思考変換、推論パターン (マインドマップなど)、LLM モデルにシームレスに拡張できます。これにより、ユーザーは GoT を使用して、GPT-3.5、GPT-4、Llama-2 などのさまざまなモデルを試しながら、プロンプトの新しいデザインアイデアをすばやくプロトタイプ化できます。

研究者らは、GoT のいくつかの使用例 (ランキング、要約内のキーワードカウント、集合演算、ドキュメントの結合) も紹介し、グラフベースのパラダイムを使用してそれらを実装する方法を詳しく説明しました。彼らは GoT を実験的に評価し、他の最先端の方法よりも優れていることを実証しました。

研究者らによると、全体的に見て、GoT は、自然に小さなサブタスクに分割でき、それを個別に解決してから最終的な解決策に組み合わせることができるタスクで特に効果を発揮します。この点では、GoT は他のソリューションよりも優れています。たとえば、ソートタスクでは、GoT は CoT および ToT よりもそれぞれ約 70% と 62% 優れていますが、コストは ToT よりも 31% 以上低くなります。

表 1 は、GoT と他のプロンプト設計の定性的な比較を示しています。 GoT は、グラフベースのマインド変換 (集約など) を単一のプロンプトで実装できる唯一のソリューションであり、これまでのすべてのソリューションを網羅しています。

彼らが行ったもう一つの貢献は、プロンプト設計戦略を評価するために使用できる新しい評価指標である「思考の量」を提案したことです。研究者らによると、この指標を使用する目的はプロンプト設計間の違いをよりよく理解することだった。

特定の思考 v の場合、v の容量は、ユーザーが有向エッジを使用して v にアクセスできる LLM 思考の数を指します。直感的に、これらはすべて、v に貢献すると予想される LLM の考えです。

著者の研究によると、集約などの思考変換技術を統合することで、GoT は他のソリューションよりも思考能力を大幅に高めることができることが示されています。

GoTフレームワーク

以下は GoT フレームワークの詳細な紹介です。概略図は図 1 に示されています。この図には、他のプロンプト設計戦略の概略図も示されています。

数学的には、GoT はタプル (G、T、E、R) としてモデル化できます。ここで、G は LLM 推論プロセス (つまり、すべての LLM 思考とコンテキスト内のそれらの関係)、T は可能な思考変換、E は思考スコアを取得するために使用される評価関数、R は最も関連性の高い思考を選択するために使用されるランキング関数です。

推論プロセス

ここで、推論プロセスは有向グラフ G = (V, E) としてモデル化されます。ここで、V は頂点の集合であり、E ⊆ V × V は辺の集合です。 G は有向なので、辺は順序付けられた頂点ペア E ⊆ V × V のサブセットです。頂点には、初期問題、中間問題、最終問題など、現在の問題に対する解決策が含まれます。この思考の正確な形式はユースケースによって異なります。テキストの一部（書き込みタスクの場合）または値のシーケンス（並べ替えタスクの場合）である可能性があります。有向エッジ (t_1、t_2) は、思考 t_2 が t_1 を「直接入力」として使用して構築されたことを示します。つまり、t_1 を使用して t_2 を生成するように LLM に明示的に指示することによって構築されたことを示します。

使用例によっては、グラフノードが異なるカテゴリに属します。たとえば、ライティングタスクでは、一部の頂点がテキストの段落を書くための計画をモデル化し、他のノードが実際のテキストの段落をモデル化します。この場合、GoT は異種グラフ G = (V, E, c) を採用して LLM 推論をモデル化します。ここで、c は頂点 V をそれぞれのクラス C (上記のケースでは、C = {plan, par}) にマッピングします。このようにして、任意の頂点 v は推論のさまざまな側面をモデル化できます。

G は LLM 推論プロセスに関連付けられます。このプロセスを容易にするために、ユーザーは G で Mind Shift を使用できます。この変換の例を次に示します。これまでの最高得点の考えを新しい考えに統合します。もう 1 つの例は、思考をループさせて強化することです。これらの変換は、CoT、CoT-SC、または ToT で使用可能な変換セットを厳密に拡張することに注意してください。

考え方の変化

推論にグラフベースのモデルを使用することで、GoT はまったく新しい考え方を可能にします。研究者はこれをグラフ対応変換と呼んでいます。たとえば、ライティングタスクでは、複数の入力記事を組み合わせて、一貫した要約を作成できます。ソートする場合、複数のソートされた値のサブ配列を最終的なソートされた配列にマージできます。図 2 に集約と生成の例を示します。

数学的には、このような変換はそれぞれ T (G, p_θ) としてモデル化できます。ここで、G = (V, E) は推論の現在の状態を反映するグラフであり、p_θ は使用される LLM です。 T は通常、新しい頂点とその入ってくるエッジを追加することによって G を変更します。したがって、G′ = T (G, p_θ) = (V′, E′) となり、ここで V′ = (V ∪ {V^+}) \ {V^−}、E′ = (E ∪ {E^+}) \ {E^−} となります。 V^+ と E^+ は G に注入される新しい頂点と辺であり、それぞれ新しい思考とその依存関係をモデル化します。

GoTの表現力を最大限に高めるために、ユーザーは削除する頂点と辺（それぞれV^−とE^−）を指定してアイデアを削除することもできます。ここで、集合 V^+、E^+、V^−、および E^− が一貫した変換を持つようにするのはユーザーの責任です (たとえば、ユーザーは存在しない頂点を削除しようとしません)。これにより、プロンプトスキームをシームレスに統合することができ、ユーザーはコンテキスト内のスペースを節約するために、改善をもたらさない推論の部分を削除できます。

T の正確な形式とそれが G に与える影響は、特定の変換によって異なります。以下では、まずグラフ対応の主要な考え方の変化について詳しく説明し、次に GoT が以前のアプローチの変化をどのように取り入れているかについて説明します。特に明記しない限り、V^− = E^− = ∅ です。

集約変換: ユーザーは GoT を使用してあらゆる考えを新しい考えに集約し、お互いの長所と短所を補完することができます。新しい頂点が 1 つだけ作成される基本形式は次のとおりです: V^+ = {v^+} および E^+ = {(v_1, v^+), ...,(v_k, v^+)}。ここで、v_1、...、v_k は融合される k 個の思考です。より一般的には、これにより、単一の思考ではなく、推論パス、つまりより長い思考の連鎖の集約が可能になります。グラフモデルを使用すると、複数のチェーンの最後の思考をモデル化する頂点 v_1、...、v_k から出力エッジを追加して、これらのチェーンを結合する単一の思考 v^+ を指すことで、集約変換を簡単に実装できます。

洗練変換: 別の種類の思考変換は、現在の思考 v をその内容を変更して洗練することです: V^+ = {} および E^+ = {(v, v)}。図のループは、元の思考と同じつながりを持つ思考の反復バージョンを表します。

変換を生成する: 最後に、ユーザーは既存の単一の考えに基づいて 1 つ以上の新しい考えを生成することもできます。このカテゴリには、ToT や CoT-SC などの以前のスキームにおける同様の推論手順が含まれます。数学的に言うと、

アイデアにスコアを付けてランク付けする

考えにスコアを付ける目的は、現在の解決策が十分に優れているかどうかを理解することです。スコアは一般関数 E(v, G, p_θ) としてモデル化されます。ここで、v は評価対象の思考です。 E をできるだけ一般化するために、一部の評価シナリオではスコアが他の考えに関連している可能性があるため、推論のプロセス全体 (G) も E で使用されます。

GoTもランキングできます。研究者はこれをモデル化するために関数 R(G, p_θ, h) を使用しました。ここで、h は R によって返される G 内の上位ランクの思考の数を指定します。 R の正確な形式はユースケースによって異なりますが、最もよく使用されるシンプルで効果的なアプローチは、スコアが最も高い h 個の考えを返すことです。つまり、v_1、...、v_h = R (G、p_θ、h) です。

E と R の正確な形式は使用ケースによって異なります。

システムアーキテクチャと拡張機能

GoT は一連のインタラクティブモジュールで構成されています (図 3 (青い部分) を参照)。これらのモジュールは、プロンプター (LLM のメッセージを準備する)、パーサー (LLM 応答から情報を抽出)、スコアリングモジュール (LLM 応答を検証してスコアリングする)、およびコントローラー (推論プロセス全体を調整し、続行方法を決定する) です。コントローラーには、Graph of Operations (GoO) と Graph Reasoning State (GRS) という 2 つの重要なコンポーネントが含まれています。 GoO は、特定のタスクのグラフ分解を指定する静的構造です。つまり、LLM 思考で適用される変換とその順序および依存関係を規定します。 GRS は、進行中の LLM 推論プロセスの状態 (思考と状態の履歴) を維持する動的構造です。

使用例

研究者らは、ソート、集合演算、キーワードカウント、ドキュメントのマージなど、GoT のいくつかの使用例について説明しています。下の図 4 は、GoT のソート使用例におけるグラフ分解の例です。ここではユースケースを詳しく紹介しませんので、詳細については元の論文を参照してください。

レイテンシと容量のトレードオフ

レイテンシ（特定の最終思考に到達するまでの思考グラフ内のホップ数）と容量のトレードオフも非常に重要であり、研究者らは、このトレードオフにおいても GoT が従来のプロンプト設計よりも優れていることを示しています。この論文では、新しい指標である「思考容量」を定義します。これは、特定の思考 t に影響を与える可能性のある以前の LLM 思考の数です。数学的に言えば、思考 t の容量は、思考マップ内で t を含むパスを持つ思考の数です。単一の思考を出力するコストはO(1)であると仮定し、各プロンプトスキームの合計コストをΘ(n)に固定します。

各種スキームの構造は次のとおりです。 CoT-SC は、単一の開始思考から発生する k 個の独立したチェーンで構成されます。 ToT は完全な k 分木です。 GoT では、完全な k-ary ツリーがリーフノードに追加され、同じサイズでエッジが反転した「ミラー」 k-ary ツリーが作成されます。

詳細な分析については表2を参照してください。 CoT の容量は最大 N と大きいですが、レイテンシコストも N と高くなります。 CoT-SC はレイテンシを k 倍（分岐係数に対応）削減しますが、同時に容量も k 倍削減します。 ToT のレイテンシは log_k N ですが、容量も低くなります。 GoT は、低レイテンシ log_k N と高容量 N を実現できる唯一のソリューションです。 GoT がこれを実現できるのは、思考の集約を活用しているためです。思考の集約により、グラフ分解における他の中間思考から最終的な思考を導き出すことができます。