ToTを超えて、ETHチューリッヒは新世代のマインドマップGoTをリリース:推論品質は62%向上し、コストは31%削減

ToTを超えて、ETHチューリッヒは新世代のマインドマップGoTをリリース:推論品質は62%向上し、コストは31%削減

大規模言語モデルは推論能力がまだ弱く、推論プロセスの改善を支援するためにさまざまな思考ツールに頼る必要があります。

最近、ETH チューリッヒとワルシャワ工科大学の研究者が共同で、新しい LLM 思考フレームワーク GoT (Graph of Thoughts、GoT) を提案しました。これは、Chain of Thoughts (CoT) や Tree of Thoughts (ToT) などの既存の手法を推論の質と速度の両方で上回ります。

論文リンク: https://arxiv.org/pdf/2308.09687.pdf

GoT の重要なアイデアと主な利点は、LLM によって生成された情報をグラフ (任意のグラフ) としてモデル化することです。情報単位 (思考、LLM の思考) はグラフの頂点であり、頂点間の依存関係はグラフのエッジです。

GoT アプローチでは、任意の LLM 思考を組み合わせて相乗効果を生み出したり、思考ネットワーク全体のエッセンスを抽出したり、フィードバック ループを使用して思考を強化したりすることができます。

実験により、GoT はさまざまなタスクにおいて既存のテクノロジーよりも優れていることが示されています。たとえば、ソートタスクの品質は ToT と比較して 62% 向上し、コストは 31% 削減されます。

研究者たちは、GoT 方式によって LLM 推論を人間の思考や脳の推論メカニズムに近づけることができると考えています。たとえば、どちらも内部的に複雑なネットワーク構造を形成します。

LLM思想の進化

LLM を使用したユーザー ダイアログのプロセスには、主にユーザー メッセージ (プロンプト) とモデル応答 (考え) が含まれ、応答はテキスト (要約タスク)、ドキュメント (生成タスク)、コード ブロックなどになります。

言語モデルの機能を完全に有効にするために、通常はさまざまなプロンプト方法が使用されます。

1. 入出力(IO)のヒント

シーケンスを入力した後、中間の思考プロセスを追加せずに、言語モデルを直接使用して出力を取得します。

2. 思考の連鎖(CoT)

入力と出力の間に複数の中間思考状態を導入すると、IO 方式と比較して、難しい数学の問題や一般的な推論タスクにおける言語モデルのパフォーマンスが大幅に向上します。

3. 複数の思考の連鎖

複数の思考チェーンを個別に生成し、事前に指定されたスコアリング指標に基づいて、最良の出力結果を持つ思考チェーンを返します。

自己矛盾のない思考の連鎖 (CoT-SC) メソッドは、CoT を複数の推論パスに拡張できますが、バックトラッキングなどの単一パス内での「ローカル探索」は実行しません。

4. 思考の木 (ToT)

ToT は、プロセスまたは推論を思考ツリーとしてモデル化することで CoT-SC メソッドを強化します。思考ツリーでは、単一のツリー ノードが部分的なソリューションを表します。特定のノードに基づいて、思考ジェネレーターは一定数の新しいノードを構築し、状態評価器は新しいノードごとに対応するスコアを生成できます。

ユースケースに応じて、出力結果を LLM 自体を使用して評価することも、手動スコアリングを使用することもできます。

ツリーを拡張する場合、ノードのスケジュールは、深さ優先や幅優先などの使用される検索アルゴリズムによって異なります。

思考分解などの他の方法では、多かれ少なかれ暗黙的にツリーの考え方が使用されます。

思考グラフ(GoT)フレームワーク

一般的に、GoT は次の 4 つの部分で構成されています。

1. 言語モデルの推論プロセス、つまり特定の文脈におけるすべての言語モデルの思考と、思考と言語モデルの関係

2. 潜在的な考え方の転換

3. 思考スコアを得るための評価関数

4. 最も関連性の高い考えを選択するためのランキング機能

推論プロセス

研究者らは、推論プロセスを有向グラフとしてモデル化しました。有向グラフでは、頂点が問題 (初期問題、中間問題、最終問題) の解決策を表し、有向エッジが「出力ノード」を直接入力として使用して構築された思考 (入力ノード) を表します。思考の具体的な形式は、使用ケースによって異なります。

グラフ ノードのカテゴリは必ずしも同じではありません。たとえば、生成タスクでは、一部のノードは「テキストの段落を書くための計画」を表し、他のノードは「実際のテキスト セグメント」をモデル化するために使用されます。推論プロセスは異種グラフです。

思考の変革

GoT はグラフ構造に基づいて、推論におけるさまざまな思考変換を実現できます。これはグラフ対応変換とも呼ばれます。

たとえば、ライティング タスクでは、複数の入力記事を 1 つの一貫した要約にマージできます。ソート タスクでは、複数のソートされた数値サブ配列を 1 つの最終的なソートされた配列にマージできます。

各変換操作は、1) 現在の推論状態を反映するグラフと、2) 使用される言語モデルの 2 つの部分で構成されます。

変換操作は現在のグラフを変更し、新しいノードと入力エッジを追加します。

GoT の表現力を最大限に高めるために、ユーザーは削除する頂点と辺を指定して思考を明示的に削除できます。また、コンテキスト空間を節約するために、ユーザーは将来改善されない推論の部分を削除できます。

1) 集約変換

GoT は、任意の数の心を新しい心に集約し、さまざまな心の強みを組み合わせることができます。

最も基本的な形式では、新しいノードのみが作成され、思考チェーン内の残りのノードは出力ノードとして新しいノードに接続されます。

より一般的には、この操作は推論パスを集約し、より長い推論パスを形成することもできる。

2) 変換の改良

現在の思考ノード v は、元の思考と同じ反復思考を表すループ エッジ (v, v) に変更できます。

3) 世代交代

ToT や CoT-SC などの以前の推論モードと同様に、既存の単一の思考ノードに基づいて 1 つ以上の新しい思考を生成できます。

スコアリングとランキングのアイデア

機能を評価するのに必要なデータには、評価対象の思考、推論プロセス全体の状態、言語モデルが含まれます。機能の汎用性を最大限に高めるには、推論プロセス全体が必要です。

思考をランク付けする場合、入力には推論プロセス、言語モデル、最高スコアの k 個の思考を返す仕様が含まれます。

システムアーキテクチャとスケーラビリティ

GoT アーキテクチャは、相互作用するモジュールのセットで構成されています。

1. プロンプター: LLMのための情報を準備する

GoT アーキテクチャは主にグラフ構造をプロンプトワードにエンコードする役割を担っており、ユーザーはさまざまなユースケースに応じてさまざまなグラフエンコードを実装し、グラフ構造への完全なアクセスを実現できます。

2. パーサー: LLMの応答から情報を抽出する

パーサーは、各思考に対して思考状態を構築します。思考状態には抽出された情報が含まれ、後続の状態更新に使用されます。

3. 採点: LLMの回答を検証し採点する

与えられた LLM アイデアが潜在的な正確性条件を満たしているかどうかを確認し、アイデアにスコアを付けます。

特定のスコアでは、言語モデルが評価を行うためのプロンプトを作成する必要がある場合があります。一部のユースケースでは、人間によるフィードバック スコアリングも可能です。並べ替えなどのユースケースの場合は、ローカル スコアリング関数を導入する必要がある場合もあります。

4. コントローラー: 推論プロセス全体を調整し、推論を継続する方法を決定します。

コントローラーには、Graph of Operations (GoO) と Graph Reasoning State (GRS) という 2 つの重要なコンポーネントが含まれています。

その中で、GoO は、特定のタスクにおけるグラフ分解プロセスを指定する静的構造です。つまり、LLM 思考変換に使用できる操作と、思考間の順序および依存関係を指定します。各操作オブジェクトは、その先行操作と後続操作を認識します。

GRS は、すべての思考の履歴と状態を含む、LLM 推論プロセスの進行中の状態を維持するために使用される動的構造です。

使用例

1. ソート

たとえば、0 ~ 9 の数字の繰り返しシーケンスをソートするタスクの場合、入力をそのまま使用すると、言語モデルは特定の長さを超えるシーケンスを正しくソートできません。

GoT フレームワークでは、研究者はマージベースのソートアプローチを採用しています。

まず、入力デジタルシーケンスが複数のサブマトリックスに分解され、次にサブマトリックスが個別にソートされ、次にサブマトリックスが再度ソートされ、最後にすべてのサブマトリックスが結合されて最終結果が得られます。

このユースケースでは、LLM の思考は順序付けられた数字のシーケンスです。

LLM の出力をスコアリングするには、入力シーケンス a の長さが n、出力シーケンス b の長さが m であると仮定すると、誤差マージンを次のように定義できます。

X は、間違った順序で並んでいる連続する数字のペアの数を表します。隣接する 2 つの数字の順序が間違っている場合、つまり左側の数字が右側の数字よりも大きい場合、X は 1 つ増加します。

Y は、出力シーケンスのデジタル周波数と入力シーケンスの周波数間の一貫性の度合いを表します。

2. キーワードカウントタスク

GoT フレームワークは、入力テキストを段落に分割し、各段落のキーワードをカウントし、サブ結果を集約します。

段落の数は事前に定義することも、LLM セグメンテーションに任せることも、各文を個別の段落として扱うこともできます。

思考のスコアを取得するには、まず各キーワードのカウントと正解カウントの絶対差を算出し、次にすべての差を合計して最終スコアを取得します。

3. ドキュメントの結合

このタスクの目的は、部分的に重複する内容を持つ複数の入力文書に基づいて、重複を最小限に抑えながら情報の保持を最大限にし、法的手続きなどの分野で広く使用できる新しい秘密保持契約 (NDA) 文書を生成することです。

解決策にスコアを付けるために、研究者らは言語モデルに2つの値(それぞれ3回ずつ平均)を問い合わせるように依頼しました。最初の値は解決策の冗長性(10は冗長性なし、0は情報の少なくとも半分が冗長であることを意味する)に対応し、2番目の値は情報の保持(10はすべての情報が保持されていることを意味する、0は情報が保持されていないことを意味する)を表し、その後調和平均を計算しました。

レイテンシーと思考量のトレードオフ

GoT では、レイテンシ (特定の最終思考に到達するまでのマインド マップ内のホップ数) とボリューム (マインド マップ内の思考につながるパスの数) の間のトレードオフも、以前のヒント スキームよりも優れています。

思考を出力する時間コストがO(1)であると仮定すると、各プロンプトスキームの合計コストはΘ(n)に固定されます。

1. CoT-SC は、単一の開始アイデアから発生する k 個の独立したチェーンで構成されます。

2. ToTは完全なk分木である。

3. GoT では、完全な k-ary ツリーのリーフは、同じサイズだがエッジが反転したミラー k-ary ツリーに接続されます。

CoT-SC は N スループットを提供しますが、レイテンシ (N) が高くなるという代償を伴います。CoT-SC はレイテンシを k 倍 (分岐係数に対応) 削減しますが、容量も k 倍削減します。

ToT は logk N のレイテンシを提供しますが、容量も減少します。

GoT は、logk N の低レイテンシと高容量 N の両方を備えた唯一のソリューションです。これは、GoT が集約のアイデアを活用し、分解グラフ内の他の中間アイデアから最終アイデアを取得できるためと考えられます。

実験結果

全体的に、GoT は、ソート、集合交差の検出、キーワードのカウント、ドキュメントのマージのタスクにおいて、ベースライン モデルよりも推論コストが低く、優れた結果を達成しています。

ゲーム・オブ・スローンズ vs. トニー・スターク

すべてのタスクにおいて、GoT は ToT (枝が多く深さが浅いツリー) や ToT2 (枝が少なく深さが深いツリー) よりも優れたパフォーマンスを発揮します。 ToT は一般的に ToT2 よりも高品質ですが、価格も高くなります。

ToT と比較して、GoT 方式では中央値誤差が約 62% 削減され、ソート品質が向上し、実行コストが 31% 以上削減されます。主な利点は、GoT が複雑なタスクをより単純なサブタスクに分解し、これらのサブタスクを個別に解決し、その結果を徐々に最終結果にマージできるためです。

GoT 対 IO / CoT

GoT の方が品質が高いです。ソート (P=64) の場合、GoT の平均誤差は CoT と IO よりそれぞれ約 65% と 83% 低くなります。ただし、GoT と ToT の実行コストは IO と CoT よりはるかに高くなります。

問題のサイズ P が大きくなるにつれて、GoT は他のベースラインよりも大きな品質向上を実現します。

全体として、この分析は、問題のサイズが大きくなるにつれて、スケジュールに関する推論が一般的に複雑になるため、GoT が複雑な問題のケースに実際に適していることを示しています。

<<:  人工知能はサーバーを冷却するために大量の水を必要とする

>>:  人工知能、液体冷却、そして未来のデータセンター

ブログ    

推薦する

プログラマーという職業は10年以内にAIによって消滅するのでしょうか?

これは非常に興味深い質問です。プログラマーという職業はAIによって消滅することはないと思いますが、プ...

データサイエンスと機械学習の違いは何ですか?

機械学習は人工知能 (AI) の分野であり、データサイエンスはデータのクリーニング、準備、分析の分野...

AIが仕事や生活を奪ったら、人類の未来はどうなるのでしょうか?

AIの発展は、人間の仕事の効率を向上させ、人間の働き方を変え、さらには人類の発展の方向を導く上で大...

AIの冷却:ディープラーニングは万能薬ではない

[[202706]]近年、ディープラーニングはある程度の流行状態に入り、人々はこの技術を使ってあらゆ...

天津市が顔認証訴訟で勝利、コミュニティが顔認証を唯一のアクセス手段として使用することは違法と判断

天津の不動産管理会社は、コミュニティへの出入りの唯一の方法として顔認証を使用していたとして住民から訴...

2020年職場のAIスキルランキング:TensorFlowが人気上昇、Pythonが最も人気、マーケティング部門も学習中

2020年まで残り1ヶ月となりました。最近、オンライン教育ウェブサイトのUdemyは、受講生のコース...

...

心臓血管画像診断における人工知能の応用の進歩

人工知能(AI)は、人間の知能特性を備えたタスクを実行できるコンピューティングプログラムを指します。...

ディープラーニング研究: コードと実験を効率的に管理するには?

回答1著者: イェ・シャオフェイリンク: https://www.zhihu.com/questio...

ブロックチェーン技術を活用してディープフェイク動画の脅威に対抗する方法

デジタル革新が主流の時代において、ディープフェイク動画の増加は広く懸念されるようになっている。ディー...

いくつかの最短経路アルゴリズムの比較

最短経路問題は、グラフ理論研究における古典的なアルゴリズム問題であり、グラフ(ノードとパスで構成され...

AI技術がピカソの隠された絵画の発見を助ける

[[429170]]最近、外国メディアの報道によると、有名になる前のパブロ・ピカソは、必ずしも画材を...

サイバーセキュリティにおける生体認証:データ保護の強化

今日のデジタル時代では、広大なインターネット上での絶え間ない情報交換により、前例のないサイバーセキュ...

xAI Twitterライブ放送:GoogleやOpenAIと直接競合する

人工知能の波に直面して、マスク氏はついに再び行動を起こした! 7月15日、マスク氏とxAI創設チーム...