ToTを超えて、ETHチューリッヒは新世代のマインドマップGoTをリリース：推論品質は62％向上し、コストは31％削減

大規模言語モデルは推論能力がまだ弱く、推論プロセスの改善を支援するためにさまざまな思考ツールに頼る必要があります。

最近、ETH チューリッヒとワルシャワ工科大学の研究者が共同で、新しい LLM 思考フレームワーク GoT (Graph of Thoughts、GoT) を提案しました。これは、Chain of Thoughts (CoT) や Tree of Thoughts (ToT) などの既存の手法を推論の質と速度の両方で上回ります。

論文リンク: https://arxiv.org/pdf/2308.09687.pdf

GoT の重要なアイデアと主な利点は、LLM によって生成された情報をグラフ (任意のグラフ) としてモデル化することです。情報単位 (思考、LLM の思考) はグラフの頂点であり、頂点間の依存関係はグラフのエッジです。

GoT アプローチでは、任意の LLM 思考を組み合わせて相乗効果を生み出したり、思考ネットワーク全体のエッセンスを抽出したり、フィードバックループを使用して思考を強化したりすることができます。

実験により、GoT はさまざまなタスクにおいて既存のテクノロジーよりも優れていることが示されています。たとえば、ソートタスクの品質は ToT と比較して 62% 向上し、コストは 31% 削減されます。

研究者たちは、GoT 方式によって LLM 推論を人間の思考や脳の推論メカニズムに近づけることができると考えています。たとえば、どちらも内部的に複雑なネットワーク構造を形成します。

LLM思想の進化

LLM を使用したユーザーダイアログのプロセスには、主にユーザーメッセージ (プロンプト) とモデル応答 (考え) が含まれ、応答はテキスト (要約タスク)、ドキュメント (生成タスク)、コードブロックなどになります。

言語モデルの機能を完全に有効にするために、通常はさまざまなプロンプト方法が使用されます。

1. 入出力（IO）のヒント

シーケンスを入力した後、中間の思考プロセスを追加せずに、言語モデルを直接使用して出力を取得します。

2. 思考の連鎖（CoT）

入力と出力の間に複数の中間思考状態を導入すると、IO 方式と比較して、難しい数学の問題や一般的な推論タスクにおける言語モデルのパフォーマンスが大幅に向上します。

3. 複数の思考の連鎖

複数の思考チェーンを個別に生成し、事前に指定されたスコアリング指標に基づいて、最良の出力結果を持つ思考チェーンを返します。

自己矛盾のない思考の連鎖 (CoT-SC) メソッドは、CoT を複数の推論パスに拡張できますが、バックトラッキングなどの単一パス内での「ローカル探索」は実行しません。

4. 思考の木 (ToT)

ToT は、プロセスまたは推論を思考ツリーとしてモデル化することで CoT-SC メソッドを強化します。思考ツリーでは、単一のツリーノードが部分的なソリューションを表します。特定のノードに基づいて、思考ジェネレーターは一定数の新しいノードを構築し、状態評価器は新しいノードごとに対応するスコアを生成できます。

ユースケースに応じて、出力結果を LLM 自体を使用して評価することも、手動スコアリングを使用することもできます。

ツリーを拡張する場合、ノードのスケジュールは、深さ優先や幅優先などの使用される検索アルゴリズムによって異なります。

思考分解などの他の方法では、多かれ少なかれ暗黙的にツリーの考え方が使用されます。

思考グラフ（GoT）フレームワーク

一般的に、GoT は次の 4 つの部分で構成されています。

1. 言語モデルの推論プロセス、つまり特定の文脈におけるすべての言語モデルの思考と、思考と言語モデルの関係

2. 潜在的な考え方の転換

3. 思考スコアを得るための評価関数

4. 最も関連性の高い考えを選択するためのランキング機能

推論プロセス

研究者らは、推論プロセスを有向グラフとしてモデル化しました。有向グラフでは、頂点が問題 (初期問題、中間問題、最終問題) の解決策を表し、有向エッジが「出力ノード」を直接入力として使用して構築された思考 (入力ノード) を表します。思考の具体的な形式は、使用ケースによって異なります。

グラフノードのカテゴリは必ずしも同じではありません。たとえば、生成タスクでは、一部のノードは「テキストの段落を書くための計画」を表し、他のノードは「実際のテキストセグメント」をモデル化するために使用されます。推論プロセスは異種グラフです。

思考の変革

GoT はグラフ構造に基づいて、推論におけるさまざまな思考変換を実現できます。これはグラフ対応変換とも呼ばれます。

たとえば、ライティングタスクでは、複数の入力記事を 1 つの一貫した要約にマージできます。ソートタスクでは、複数のソートされた数値サブ配列を 1 つの最終的なソートされた配列にマージできます。

各変換操作は、1) 現在の推論状態を反映するグラフと、2) 使用される言語モデルの 2 つの部分で構成されます。

変換操作は現在のグラフを変更し、新しいノードと入力エッジを追加します。

GoT の表現力を最大限に高めるために、ユーザーは削除する頂点と辺を指定して思考を明示的に削除できます。また、コンテキスト空間を節約するために、ユーザーは将来改善されない推論の部分を削除できます。

1) 集約変換

GoT は、任意の数の心を新しい心に集約し、さまざまな心の強みを組み合わせることができます。

最も基本的な形式では、新しいノードのみが作成され、思考チェーン内の残りのノードは出力ノードとして新しいノードに接続されます。

より一般的には、この操作は推論パスを集約し、より長い推論パスを形成することもできる。

2) 変換の改良

現在の思考ノード v は、元の思考と同じ反復思考を表すループエッジ (v, v) に変更できます。

3) 世代交代

ToT や CoT-SC などの以前の推論モードと同様に、既存の単一の思考ノードに基づいて 1 つ以上の新しい思考を生成できます。

スコアリングとランキングのアイデア

機能を評価するのに必要なデータには、評価対象の思考、推論プロセス全体の状態、言語モデルが含まれます。機能の汎用性を最大限に高めるには、推論プロセス全体が必要です。

思考をランク付けする場合、入力には推論プロセス、言語モデル、最高スコアの k 個の思考を返す仕様が含まれます。

システムアーキテクチャとスケーラビリティ

GoT アーキテクチャは、相互作用するモジュールのセットで構成されています。

1. プロンプター: LLMのための情報を準備する

GoT アーキテクチャは主にグラフ構造をプロンプトワードにエンコードする役割を担っており、ユーザーはさまざまなユースケースに応じてさまざまなグラフエンコードを実装し、グラフ構造への完全なアクセスを実現できます。

2. パーサー: LLMの応答から情報を抽出する

パーサーは、各思考に対して思考状態を構築します。思考状態には抽出された情報が含まれ、後続の状態更新に使用されます。

3. 採点: LLMの回答を検証し採点する

与えられた LLM アイデアが潜在的な正確性条件を満たしているかどうかを確認し、アイデアにスコアを付けます。

特定のスコアでは、言語モデルが評価を行うためのプロンプトを作成する必要がある場合があります。一部のユースケースでは、人間によるフィードバックスコアリングも可能です。並べ替えなどのユースケースの場合は、ローカルスコアリング関数を導入する必要がある場合もあります。

4. コントローラー: 推論プロセス全体を調整し、推論を継続する方法を決定します。

コントローラーには、Graph of Operations (GoO) と Graph Reasoning State (GRS) という 2 つの重要なコンポーネントが含まれています。

その中で、GoO は、特定のタスクにおけるグラフ分解プロセスを指定する静的構造です。つまり、LLM 思考変換に使用できる操作と、思考間の順序および依存関係を指定します。各操作オブジェクトは、その先行操作と後続操作を認識します。

GRS は、すべての思考の履歴と状態を含む、LLM 推論プロセスの進行中の状態を維持するために使用される動的構造です。

使用例

1. ソート

たとえば、0 ～ 9 の数字の繰り返しシーケンスをソートするタスクの場合、入力をそのまま使用すると、言語モデルは特定の長さを超えるシーケンスを正しくソートできません。

GoT フレームワークでは、研究者はマージベースのソートアプローチを採用しています。

まず、入力デジタルシーケンスが複数のサブマトリックスに分解され、次にサブマトリックスが個別にソートされ、次にサブマトリックスが再度ソートされ、最後にすべてのサブマトリックスが結合されて最終結果が得られます。

このユースケースでは、LLM の思考は順序付けられた数字のシーケンスです。

LLM の出力をスコアリングするには、入力シーケンス a の長さが n、出力シーケンス b の長さが m であると仮定すると、誤差マージンを次のように定義できます。

X は、間違った順序で並んでいる連続する数字のペアの数を表します。隣接する 2 つの数字の順序が間違っている場合、つまり左側の数字が右側の数字よりも大きい場合、X は 1 つ増加します。

Y は、出力シーケンスのデジタル周波数と入力シーケンスの周波数間の一貫性の度合いを表します。

2. キーワードカウントタスク

GoT フレームワークは、入力テキストを段落に分割し、各段落のキーワードをカウントし、サブ結果を集約します。

段落の数は事前に定義することも、LLM セグメンテーションに任せることも、各文を個別の段落として扱うこともできます。

思考のスコアを取得するには、まず各キーワードのカウントと正解カウントの絶対差を算出し、次にすべての差を合計して最終スコアを取得します。

3. ドキュメントの結合

このタスクの目的は、部分的に重複する内容を持つ複数の入力文書に基づいて、重複を最小限に抑えながら情報の保持を最大限にし、法的手続きなどの分野で広く使用できる新しい秘密保持契約 (NDA) 文書を生成することです。

解決策にスコアを付けるために、研究者らは言語モデルに2つの値（それぞれ3回ずつ平均）を問い合わせるように依頼しました。最初の値は解決策の冗長性（10は冗長性なし、0は情報の少なくとも半分が冗長であることを意味する）に対応し、2番目の値は情報の保持（10はすべての情報が保持されていることを意味する、0は情報が保持されていないことを意味する）を表し、その後調和平均を計算しました。

レイテンシーと思考量のトレードオフ

GoT では、レイテンシ (特定の最終思考に到達するまでのマインドマップ内のホップ数) とボリューム (マインドマップ内の思考につながるパスの数) の間のトレードオフも、以前のヒントスキームよりも優れています。

思考を出力する時間コストがO(1)であると仮定すると、各プロンプトスキームの合計コストはΘ(n)に固定されます。

1. CoT-SC は、単一の開始アイデアから発生する k 個の独立したチェーンで構成されます。

2. ToTは完全なk分木である。

3. GoT では、完全な k-ary ツリーのリーフは、同じサイズだがエッジが反転したミラー k-ary ツリーに接続されます。

CoT-SC は N スループットを提供しますが、レイテンシ (N) が高くなるという代償を伴います。CoT-SC はレイテンシを k 倍 (分岐係数に対応) 削減しますが、容量も k 倍削減します。

ToT は logk N のレイテンシを提供しますが、容量も減少します。

GoT は、logk N の低レイテンシと高容量 N の両方を備えた唯一のソリューションです。これは、GoT が集約のアイデアを活用し、分解グラフ内の他の中間アイデアから最終アイデアを取得できるためと考えられます。

実験結果

全体的に、GoT は、ソート、集合交差の検出、キーワードのカウント、ドキュメントのマージのタスクにおいて、ベースラインモデルよりも推論コストが低く、優れた結果を達成しています。

ゲーム・オブ・スローンズ vs. トニー・スターク

すべてのタスクにおいて、GoT は ToT (枝が多く深さが浅いツリー) や ToT2 (枝が少なく深さが深いツリー) よりも優れたパフォーマンスを発揮します。 ToT は一般的に ToT2 よりも高品質ですが、価格も高くなります。

ToT と比較して、GoT 方式では中央値誤差が約 62% 削減され、ソート品質が向上し、実行コストが 31% 以上削減されます。主な利点は、GoT が複雑なタスクをより単純なサブタスクに分解し、これらのサブタスクを個別に解決し、その結果を徐々に最終結果にマージできるためです。

GoT 対 IO / CoT

GoT の方が品質が高いです。ソート (P=64) の場合、GoT の平均誤差は CoT と IO よりそれぞれ約 65% と 83% 低くなります。ただし、GoT と ToT の実行コストは IO と CoT よりはるかに高くなります。

問題のサイズ P が大きくなるにつれて、GoT は他のベースラインよりも大きな品質向上を実現します。

全体として、この分析は、問題のサイズが大きくなるにつれて、スケジュールに関する推論が一般的に複雑になるため、GoT が複雑な問題のケースに実際に適していることを示しています。

<<: 人工知能はサーバーを冷却するために大量の水を必要とする

>>: 人工知能、液体冷却、そして未来のデータセンター

ToTを超えて、ETHチューリッヒは新世代のマインドマップGoTをリリース：推論品質は62％向上し、コストは31％削減

LLM思想の進化

思考グラフ（GoT）フレームワーク

システムアーキテクチャとスケーラビリティ

使用例

レイテンシーと思考量のトレードオフ

実験結果

砂漠植林ロボットとフィットネス洗濯機：00年代以降の「あの同級生」が心を開いた

人工知能の歴史 - チューリングテストからビッグデータまで

4分！ OpenAIのロボットハンドは、プログラミングなしで完全に独学で、片手でルービックキューブを解くことを学習しました。

ジェスチャーをすると、AIが絵文字を認識し、ブラウザ上で動作する：オープンソース

AIを使用するための実践的な方法論：次の5つのステップに従ってください

人工知能を使用して自動化されたデータセンターを構築する方法

AIによる地震予測はテストで有望性を示す

ロボットが2000万の仕事に取って代わる：最大の懸念は30代なのに何も知らないこと

2017 年に注目すべき人工知能の 7 つのホットなトレンド

チャットボットにおける2つの技術的火種: AIと機械学習

推薦する

ドローンは思考によって制御される新しい方法を経験しており、その商業的展望は非常に刺激的です。

人工知能の時代に、人間の知能は不可欠なのでしょうか?

魔法の顔認識: たとえマスクやサングラスをかけていても、身近な人を認識できるのはなぜでしょうか?

感じてください：XiaoIce、XiaoAi、Xiaodu、LingyuanがAIサミットのテーマソングを共同で歌いました

Wu Sinan の機械学習への旅: Numpy で多次元配列を作成する

人工知能は永遠の神です：それを崇拝する準備はできていますか？

顔認識の乱用は顔だけでなく他の部分にも害を及ぼす

量子コンピューティングは今後10年間で物流業界を変えるだろう

人工知能は創意工夫を駆使して古い映画を修復し、色あせた記憶を蘇らせる

ChatGPT App Store は深夜でもオンラインです! 300万GPTがネットワーク上で爆発的に増加し、開発者とOpenAIがその収益を分け合った