ReConフレームワークは、AIビッグモデルが嘘を検出するのに役立ちます。Avalonゲームでインテリジェントエージェントが欺瞞に対処する方法を見てみましょう。

大規模言語モデル (LLM) の進歩により、AI エージェント (特に LLM エージェント) の活発な開発が促進されました。汎用人工知能の実現に向けて、AI エージェントは人間の監督なしに自律的に考え、意思決定できるようになります。しかし、将来的に人間の監督なしに AI エージェントが騙されたり誤解されたりすることを防ぐ方法に焦点を当てた研究者は少ない。人間社会には誤解を招くような欺瞞的な情報がたくさんあるため、AI エージェントがこれらの情報を効果的に識別して対応できない場合、将来的に計り知れない結果を引き起こす可能性があります。

最近、清華大学と汎用人工知能研究所の研究チームは、アバロンボードゲームを例に、欺瞞に満ちた環境における現在の大規模言語モデルの問題をテストし、これらの問題に対処するためのReCon（再帰的熟考）フレームワークを提案しました。「行動する前によく考える」「相手の立場に立って考える」といった人間の思考特性を活用することで、大規模言語モデルの欺瞞を識別して対応する能力が大幅に向上し、AIエージェントを使用する人間のユーザーの安全性と信頼性が向上します。さらに、本研究では、セキュリティ、推論、話し方、形式の観点から既存の大規模言語モデルの限界についてさらに議論し、その後の研究の方向性を指摘しました。

Arxivリンク: https://arxiv.org/abs/2310.01320

この研究の貢献は主に次の 4 つの側面に反映されています。

著者らは、欺瞞的な環境に適用した場合の現在の LLM エージェントの限界を発見し、Avalon ボードゲームを使用して LLM エージェントが欺瞞を識別して対応する能力をテストすることを提案しました。
「行動する前によく考える」という人間の習慣と共感に着想を得て、ReCon フレームワークが提案されました。これは主に 2 段階の思考プロセス（「概念的思考」と「改善的思考」）で構成されます。2 段階のプロセスには、それぞれ「一次視点変換」と「二次視点変換」という共感手法が含まれます。
Avalon ボードゲーム環境では、提案された ReCon フレームワークがさまざまな LLM に適用され、広範な実験が行われます。勝率と多次元評価の点では、ReCon は微調整や追加データなしで LLM の欺瞞を識別して対応する能力を大幅に向上させることができます。
さらに、ReCon の有効性に関する考えられる説明を提案し、セキュリティ、推論、話し方、形式の観点から現在の LLM の欠点について議論し、その後の研究の方向性を指摘します。

次に、研究の詳細を見てみましょう。

欺瞞的な環境におけるLLMが直面する課題

図1. 欺瞞的な環境においてLLMが直面する課題と、提案されたReConフレームワークがこれらの課題をどのように解決するか

大規模言語モデルは現在多くの分野で大きな可能性を示していますが、欺瞞的な環境でのアプリケーションパフォーマンスはまだ改善する必要があります。 LLM エージェントを欺瞞環境に適用する予備的な試みとして、研究者は実験環境として Avalon ゲーム (推論と欺瞞を伴うボードゲーム) を選択し、これに基づいて、LLM エージェントが現在直面している 3 つの主要な課題 (図 1 に示す)、つまり、誤解を招く悪意のある情報、個人情報の漏洩、内部思考の不透明性を調査しました。

課題1: 誤解を招く悪意のある情報

まず、LLM エージェントは、不純な動機を持つ悪意のある欺瞞的な情報に直面すると、簡単に誤解を招きます。図 1(a) に示すように、Chain-of-Thoughts (CoT) アプローチを採用すると、モデルは欺瞞を識別できないだけでなく、悪意のある行為者の役割が有益であるという誤った信念をさらに強化します。

課題2: 個人情報の漏洩

第二に、LLM エージェントはプライバシー情報の保護において欠陥があります。図 1(b) に示すように、個人情報を明かさないように指示された場合でも、LLM エージェントはキャラクターの個人情報を会話で漏らす可能性があり (例: マーリンが自分の身元を明かす)、その結果、敵に狙われたり、陥れられたりするリスクが高まります。

課題3: 不透明な内部思考

最後に、CoT アプローチを使用する場合でも、LLM エージェントの思考プロセスは人間のユーザーにとってやや不明瞭なままです。図1(c)に示すように、LLMエージェントが善人の役割を欺くために悪人の役割を演じている場合、人間のユーザーがその真意を知ることは困難です。 LLM エージェントの内部思考の不透明性により、人間のユーザーは LLM エージェントの真の思考プロセスを知ることができず、取り返しのつかない結果が発生する前に事前に介入することが困難になります。

こうした課題に直面すると、既存の思考方法では複雑な環境に対処することが困難になる可能性があります。そのため、研究者らは、LLM エージェントが欺瞞に対処し、プライバシーを保護し、意思決定の透明性を向上させるために、欺瞞環境における LLM エージェントの戦略を再考する必要があると考えています。

方法の概要

上記の課題に対処するために、研究チームは、複雑で欺瞞の可能性がある環境における LLM エージェントの意思決定能力を強化することを目的とした ReCon (Recursive Contemplation) フレームワークを提案しました。図 2 に示すように、ReCon は、構想思考と改善思考という2 つの主要な発想段階を提案し、そこに1 次視点シフトと2 次視点シフトという 2 つの独自の思考プロセスを統合しています。

図2 再帰的熟考（ReCon）法の概略図。 ReCon には、定式化熟考と洗練熟考の 2 つの段階があります。これら 2 つの段階の思考プロセスには、それぞれ第 1 次および第 2 次視点の遷移が含まれます。

1. アイデアと思考でデザインする

概念的思考は、ReCon フレームワークの最初の段階であり、LLM エージェントの最初の考えや発言を生成することを目的としています。このフェーズでは、モデルはまず、一次視点シフトと呼ばれる認知プロセスを適用します。

一次視点シフトにより、LLM エージェントは他のゲームプレイヤーが持つ役割や意図を独自の視点から推測できるようになります。具体的には、LLM エージェントは、既存のゲーム記録と役割情報に基づいて、一次視点シフトを使用して他のプレイヤーの役割と意図に関する予備的な仮説を形成します。これらの予備的な役割の想定は、LLM エージェントに認知フレームワークを提供するだけでなく、全体的な思考プロセスにも組み込まれており、この情報は他のゲーム参加者には知られません。その目的は、個人情報をより適切に保護するとともに、その後の意思決定や行動の基盤を提供することです。

概念的思考段階では、モデルは一次視点変換の原則に基づいて、現在のゲーム環境と他の参加者の役割の予備分析を実行します。次に、モデルは初期の内部思考と発話を形成し、その後のコミュニケーションの基礎を築きます。この設計を通じて、研究者はモデル出力の論理的一貫性と一貫性を確保しました。

2. 思考のデザインを改善する

改善思考は、ReCon フレームワークの 2 番目の段階であり、アイデア創出思考の直後に行われます。この段階の主な目的は、最初の考えやスピーチの内容に対して、より詳細な最適化と調整を行うことです。

思考力を向上させる段階では、「第二次視点シフト」という概念が導入されました。二次的な視点のシフトでは、 LLM エージェントが、他のゲーム参加者の視点から、考え出した思考と話した内容を再評価する必要があります。具体的には、Avalon ゲームでは、LLM エージェントは「私が今のスピーチの内容に従って話した場合、他のキャラクターは私のスピーチをどのように見るだろうか?」と考えます。このような二次的な視点の変換は、その後の改善プロセスの基礎となります。

LLM エージェントは、第 2 次視点シフトの概念に基づいて、改善された思考内容と観念化の発話内容を生成します。このプロセスでは、LLM エージェント自体の初期思考を考慮するだけでなく、二次的な視点のシフトにおける他の参加者の考えられる精神状態と反応の分析も組み込まれています。最後に、LLM エージェントはこの改善されたスピーチを公開し、ゲームの公開ディスカッション記録に追加します。

実験と結果

さまざまな大規模言語モデルへの ReCon フレームワークの適用可能性をテストするために、この研究では ChatGPT と Claude という 2 つのモデルで実験を実施しました。図 3 は ReCon の評価結果を示しています。図 3 (a) と (b) は、ReCon (それぞれ ChatGPT と Claude で実装) が善良な当事者である場合に ReCon とそのさまざまなバリエーションを使用した結果を示しており、図 3 (c) は、ReCon を悪質な当事者方法として使用した結果を示しています。 ReCon の 4 つの設計 (つまり、観念的思考/改善的思考と一次/二次の視点のシフト) により、さまざまな状況で成功率が大幅に向上したことが分かります。注目すべきは、善人が ReCon を使用する場合、一次/二次の視点のシフトの効果がより顕著であるのに対し、悪人が ReCon を使用する場合、思考の改善の影響がより大きくなるということです。

図3 ゲームテスト全体の成功率の比較

研究者らは、ReConとその変種のパフォーマンスを詳細に分析した後、主流のベンチマークの評価方法に従い、さらにGPT-4を使用して6次元指標で評価しました。これは、ReCon とその変種の有効性を総合的に測定することを目的としています。具体的には、 6 次元の評価指標には、情報隠蔽 (CCL)、論理的一貫性 (LG)、チーム貢献 (CTR)、説得力 (PRS)、情報内容 (INF)、創造性 (CRT) が含まれます。

実際のシナリオでこれらの評価指標を正確に定量化するために、研究者は ChatGPT を使用して 20 個の完全な Avalon ゲームをプレイし、多次元分析評価のためのテストデータを収集しました。図 4 に示すように、良い側に割り当てられた各プロンプトに対して、研究チームは 4 つの異なる方法を使用して 4 つの異なる応答を生成し、合計 2,300 件を超える応答が生成されました。次に、上記の 6 つの指標に基づいて、GPT-4 を使用して、同じプロンプトの下での異なる方法の応答のバイナリプリファレンス比較を実行しました。

図4 多次元指標評価結果。数値（0～1の範囲）は、2つの方法の比較においてGPT-4が優先される割合を示します。

図 4 は、ReCon が 6 つのメトリックすべてにおいてベースライン CoT を大幅に上回っていることを示しています。同時に、アイデア創出思考と改善思考の両方が、ほとんどの指標で大幅な改善をもたらしました。しかし、改善思考のない ReCon と ReCon は、概念思考のない CoT と ReCon と比較して、説得力 (PRS) の点で期待を下回る結果となりました。研究者たちは詳細なゲームログを分析し、この最適ではない PRS パフォーマンスの原因を概念的思考に帰した。概念的思考により、LLM エージェントは話す前に考えることができるため、より簡潔で的を絞ったスピーチが可能になり、「私たちは必ず悪者を倒せると信じています。団結しましょう!」など、煽動的でありながら詳細な情報や分析に欠けるスピーチが減ります。

研究者らは、さまざまな ReCon バリアントのパフォーマンスを詳細に分析した後、第一次および第二次の視点の変化、概念的思考、改善思考がさまざまな評価基準に与える影響をさらに研究しました。図5(a)と(b)は、ReConから1次と2次の視点変換を削除すると、すべてのメトリックのパフォーマンスが低下することを示しています。これら 2 つの視点のシフトを、改善思考と概念思考のない ReCon バージョンからさらに取り除くと、図 5 (c) と (d) に示すように、ほぼすべての指標 (情報隠蔽 CCL を除く) のパフォーマンスが低下します。これらの結果は、一次および二次の透視変換の有効性を検証します。しかし、図5(c)と(d)の情報隠蔽CCLスコアの低下は、個人情報をより適切に隠蔽するためには、第1次(または第2次)の視点シフトと思考(または概念的思考)の向上を組み合わせる必要があることを示しています。この一連の分析とグラフは、特に虚偽の情報を含む環境において、多次元評価における ReCon フレームワークの優位性をさらに実証しています。

図 5: 多次元指標のさらなる評価。数値 (0 から 1 の範囲) は、2 つの方法の比較において優先される GPT-4 の割合を示します。

話し合う

研究者らはさらに Avalon のゲームログを分析し、欺瞞的な環境における ReCon フレームワークの有効性について定性的な説明を行い、現在の LLM のいくつかの限界について議論しました。

1. ReConが個人情報を隠す仕組み

実験により、ReCon は LLM エージェントが欺瞞的な環境で個人情報を隠す能力を向上させるのに非常に役立ち、それによって LLM エージェントが欺かれて標的にされる状況の数を減らすことが示されています。研究チームはゲームログを分析し、ReCon が LLM エージェントに個人情報を隠すのにどのように役立つかを調べました。図6(a)に示すように、概念的思考で提案された「考える前に話す」メカニズムは、プライベートな情報に関する議論を思考部分に限定することができ、それによって話す部分の漏洩をある程度回避することができる。さらに、思考力の向上中に最初のスピーチをさらに修正することで、個人情報の漏洩を大幅に回避することもできます。上記の観察は、間違ったことを言わないように「話す前によく考える」という人間の傾向と一致しています。

図6 (a) ReConが個人情報の隠蔽にどのように役立つかの定性的な説明。(b) 既存のLLMの限界

2. 脱獄を合わせる

LLM を複雑な人間の価値観とどのように整合させることができるかを調査したところ、既存の整合方法 (RLHF など) ではモデルが悪意のあるコンテンツを生成する可能性がある程度低減されるものの、この整合は主にコンテンツレベルに焦点を当てており、論理レベルに拡張することが難しいことが研究者によって発見されました。図6(b)に示すように、研究チームは、GPT-4は欺瞞的なコンテンツを生成するように直接要求するリクエストを拒否しますが、同じ欺瞞的なロジックの下で、Avalonゲームのコンテキストに変更された場合、GPT-4はそれを拒否しないことを観察しました。このモデルアライメントの「脱獄」により、悪意のある人が LLM を使用して有害なコンテンツを生成することが容易になる可能性があるため、コンテンツではなくロジックを対象とするアライメントを研究することが急務となっています。

3. 推論能力が不十分

図7. 推論能力における法学修士の限界

研究チームは、アバロンのゲームログを研究することで、LLM には依然として複雑な論理的推論が欠けていることを発見しました。たとえば、図 7 に示すように、LLM エージェントがパーシバルの役割を演じ、モルガナが提案したマーリンとモルガナ自身を含むチームに直面した場合、LLM エージェントはモルガナのアイデンティティを推測できません。対照的に、より上級の人間プレイヤーであれば、チーム提案者はモルガナであり、もう一方のプレイヤーはマーリンであることがすぐにわかるでしょう。マーリンの能力は誰が悪者かを知ることなので、彼がそのようなチームの組み合わせを思いつくことは絶対にないでしょう。上記の事例は、LLM が複雑な論理的推論を完了することが依然として困難であることを示しています。

4. 過度に形式的な返答

研究者たちは、ゲームのログから、大規模言語モデルの応答スタイルが形式的かつ詳細すぎる場合があり、言語スタイルがゲーム内の人間のものと大きく異なっていることを発見しました。表 1 に示すように、LLM は適切なプロンプトの下では人間の言語スタイルを模倣する能力を持っていますが、Avalon ゲームでは、話したり考えたりする過程で人間の言語スタイルを模倣すると、パフォーマンスに悪影響を与える可能性があります。

表1 人間の言語スタイルの模倣は、アバロンゲームにおけるLLMエージェントのパフォーマンスに悪影響を及ぼす

5. LLMエージェント形式の応答の比較分析

LLM エージェントの応答から重要な情報を抽出するには、モデルが特定の形式で応答するように要求する必要がある場合があります。たとえば、チーム提案の投票フェーズでは、モデルは決定を分析と区別するために、[承認] や [不承認] などの角括弧を使用して決定を強調する必要があります。結果は、ChatGPT と Claude は適切なプロンプトの下でこれらの形式要件に十分に従うことができるが、LLaMA2-70b-chat はゲーム全体を通して形式要件に従うことが困難であることを示しています。

要約すると、欺瞞的な環境で LLM エージェントが直面する課題に対応するために、研究チームは、欺瞞を識別して対応する LLM エージェントの能力を強化する ReCon アーキテクチャを提案しました。定量的および定性的な実験により、ReCon フレームワークが虚偽の情報や誤解を招く情報に対処する上で有効であることが実証されています。研究チームは、ReCon の有効性について定性的な説明を行い、さらに現在の LLM エージェントの欠点について議論し、その後の研究の方向性を示しました。

研究の詳細については原著論文を参照してください。

<<: Microsoft AutoGenフレームワークは1万個のスターを獲得するほど人気があります。インテリジェントエージェントはチャットで問題を解決できます。

>>: 再びH800を去勢しますか?米国商務省の新しい政策はGPU輸出に対する規制を強化し、今週発表される予定である。