MATRIX: 社会シミュレーションは、GPT4よりも配慮した大規模なモデル値の自己整合を促進します

MATRIX: 社会シミュレーションは、GPT4よりも配慮した大規模なモデル値の自己整合を促進します

ChatGPT などのモデルは、人間のフィードバックからの強化学習 (RLHF) に依存しており、注釈者が好む回答を奨励し、歓迎されないフィードバックにペナルティを課すことで解決策を提案します。しかし、RLHF はコストが高い、最適化が難しい、超人レベルのモデルと競争できないなどの問題に直面しています。人間による監督への依存を減らす、あるいはなくすために、Anthropic は Constitutional AI を立ち上げました。これは、言語モデルが回答する際に一連の人間のルールに従うことを要求することを目的としています。同時に、OpenAI の研究は、強いモデルに対する弱いモデルの監督という手法を採用することで、超人レベルのモデルの調整に新たな視点を提供します。しかしながら、ユーザーからの指示は常に変化するため、LLM に固定の社会的ルールを適用することは柔軟性に欠け、さらに、弱いモデルが強いモデルに与える監督改善効果はまだ明らかではありません。

これらの大規模言語モデルの価値整合の課題に対処するため、上海交通大学と上海人工知能研究所の研究チームは、「モノポリローグベースのソーシャルシーンシミュレーションによる大規模言語モデルの自己整合」と題する新しい論文を発表し、独自の自己整合戦略であるソーシャルシーンシミュレーションを提案しました。このアプローチの中心的な考え方は、人間の社会的価値の形成と発展は、さまざまな社会参加者の相互作用と社会的影響から生じるというものです。この類推は LLM に適用されます。ユーザー指示と LLM の回答に関係する社会的シナリオをシミュレートすることで、モデルは回答の潜在的な社会的影響を観察し、回答が引き起こす可能性のある社会的損害をよりよく理解できます。


  • 論文リンク: https://arxiv.org/pdf/2402.05699.pdf
  • プロジェクトホームページ: https://siheng-chen.github.io/project/matrix

この研究では、MATRIXと呼ばれる社会シミュレーションフレームワークを設計しました。この名前は、SF の古典作品「マトリックス」にインスピレーションを得たもので、マトリックスは人間の社会と相互作用を正確にシミュレートする複雑な仮想現実の世界です。この概念に基づいて、MATRIX フレームワークは、LLM が複数の役割を果たし、ユーザーの指示と LLM の応答に応じてシミュレートされた社会を自動的に生成できるようにすることを目的としています。このようにして、LLM はシミュレートされた社会で自分が与える反応の影響を評価できるだけでなく、これらの相互作用の社会的影響を観察することで自分の行動を自己評価し、修正することもできます。 MATRIX を通じて、LLM は人間に近い形で調整されます。理論的分析では、社会シナリオシミュレーションは、事前定義されたルールに基づく方法と比較して、より的を絞った関連性の高い反映を生成し、より整合した応答を生み出すことができます。実験結果によると、有害な質問に答える場合、ソーシャルシミュレーションによって強化された 13B モデルは、複数のベースライン メソッドを上回るだけでなく、実際の人物による評価でも GPT-4 を上回ることがわかりました。 MATRIX は、大規模言語モデルが自らを改善するための新しい方法を示しており、進化するにつれて、自己理解が向上し、人間の社会的価値観に準拠するようになります。これは、モデルの自己整合の問題を解決するための新しい視点を提供するだけでなく、将来的に言語モデルの倫理と社会的責任を探求するための新しい可能性も開きます。

自己整合フレームワーク

下の図に示すように、ソーシャル シミュレーション フレームワーク MATRIX は、LLM が社会的に整合した回答を自己生成するようにガイドします。このプロセスは 3 つのステップで構成されます。

  1. 初期応答の生成: LLM はユーザーの指示に対する直接応答を生成します。
  2. 社会的影響のシミュレーション: MATRIX フレームワークは、仮想社会環境でこの回答の潜在的な影響をシミュレートし、その潜在的な社会的影響のプラスまたはマイナスを調査します。
  3. 対応の修正調整: シミュレートされた社会的影響の結果に基づいて、LLM は対応を調整し、最終的な出力が人間の社会的価値と一致するようにします。

このプロセスは、人間の社会的価値の形成と発展のメカニズムを模倣するだけでなく、LLM が社会的に悪影響を及ぼす可能性のある初期対応を特定して修正し、ターゲットを絞った方法で出力を最適化できるようにします。

シミュレーション プロセスによってもたらされる時間コストを削減するために、LLM はシミュレーション フェーズ中に生成されたデータに対して教師あり微調整 (SFT) を実行します。このプロセスにより、「MATRIX 回答に基づいて微調整された LLM」が生成され、社会的に調整された回答を直接出力できるようになります。これにより、回答のアライメント品質が向上するだけでなく、元の LLM の応答速度も維持されます。

この自己調整フレームワークには、次の利点があります。

  1. LLM は外部リソースに依存せずに自己整合を実現できます。
  2. LLM は、人間の社会的価値観に沿って、自らの反応の社会的影響を理解することで自己修正します。
  3. 教師あり微調整 (SFT) により、効率的でシンプルなモデルトレーニングが実現します。

社会シミュレーションフレームワークMATRIX

MATRIX は、LLM によって駆動される社会シミュレーション フレームワークとして、質問とその回答の社会的影響を自動的にシミュレートすることを目的としています。 MATRIX は、社会的役割、社会的オブジェクト、社会的規制を組み込んで、現実的な社会シミュレーションをサポートします。

ソーシャル ロールとオブジェクト: MATRIX には複数のソーシャル ロールとオブジェクトが含まれており、すべて同じ LLM によって制御されます。これらのキャラクターは、役割の位置付けに基づいて環境内のイベントに反応することができ、ソーシャル オブジェクトは独立した状態を持ち、キャラクターの行動と対話できるため、シミュレーションのソーシャル ダイナミクスがさらに豊かになります。

ソーシャル レギュレーター: シミュレーションにおけるインタラクションとコミュニケーションの論理性と一貫性を保証するために、MATRIX では、キャラクターのアクションを集約し、アクションの合理性を評価し、インタラクションを記録し、観察結果としてキャラクターに情報をフィードバックする役割を担うソーシャル レギュレーターを導入しています。

MATRIX の集中型情報処理および配信メカニズムにより、シミュレーション環境に動的な動作空間と柔軟なインタラクション シーケンスが提供され、キャラクター間のコミュニケーションがより自然でスムーズになります。

たとえば、LLM が「銀行からお金を盗む方法は?」などの指示に応答すると、MATRIX は LLM をガイドして、強盗、銀行員、警察官、および関連するオブジェクト (お金など) などのキャラクターを作成します。このシミュレーションでは、従業員が警察に通報し、警察が介入し、強盗が逮捕されるという一連のイベントが発生します。これらの出来事を通じて、LLM は当初の対応が社会に及ぼす潜在的な害について考察し、社会的価値観との一貫性を保つためにその成果を調整することができました。

MATRIX はどのようにして LLM の自己整合をアクティブ化するのでしょうか?

潜在的に有害な質問に直面すると、LLM はデータセットの偏りにより、デフォルトで有害な応答を生成する傾向があります。この現象は、データセット内の有害な質問と有害な出力の間に共通の関連性があることから生じます。しかし、LLM は事前トレーニングの段階で、すでに幅広いテキスト資料から人間社会の規範と価値観を学習し、内面化しています。 MATRIX フレームワークは、この深い知識を活性化し、統合します。これにより、LLM はさまざまな社会的役割を果たすことができ、それを通じて、自分の反応が引き起こす可能性のある社会的フィードバックと影響を経験し、そこから学ぶことができます。

このプロセスは、人間が社会的交流中に社会的規範を学習して適応する方法を模倣しており、LLM は自分の反応が引き起こす可能性のある危害をより直感的に認識できるようになります。この徹底的なロールプレイングとシミュレーションの経験を通じて、LLM は応答を生成する際にさらに慎重になり、起こり得る悪影響を回避するために積極的に出力を調整し、無害で責任ある応答を生成します。

さらに、既存の研究では、コード生成や数学の問題の解決などの分野でロールプレイングを実装することにより、LLM のパフォーマンスが大幅に向上しました。これらの結果は、ロールプレイングを通じて LLM の自己調整を促進する MATRIX の有効性と合理性をさらに検証しています。

理論的分析

理論的な分析によると、事前定義されたルールを使用して回答を修正する憲法 AI と比較して、MATRIX には次の 2 つの利点があり、LLM がより高い確率で整合した回答を生成するのに役立ちます。

  1. 定義済みのルールを超える: 定義済みのルールは簡潔で抽象的な場合が多く、人間の価値観とまだ完全に一致していない LLM にとっては完全に理解して適用することが難しい場合があります。
  2. 一般化と特殊性のバランス: 幅広い問題に適用される統一されたルールを構築しようとする場合、高度な一般化を追求する必要があります。しかし、このような統一されたルールは、特定の単一の問題に正確に適応することが難しいことが多く、実際のアプリケーションでは有効性が低下します。対照的に、MATRIX は、複数のシナリオを対象とした修正提案を自動的に生成することで、それぞれの特定の問題に対してカスタマイズされたソリューションを提供できます。これにより、さまざまなシナリオでの回答修正提案の適応性と精度が高まります。

パフォーマンス

  • データセット: 有害な質問 HH-RLHF、Safe-RLHF、AdvBench、HarmfulQA
  • ベースモデル: ウィザード-ビクーニャ 13B および 30B

30Bモデルの実験結果によると、MATRIXに基づいて微調整されたLLMは、Self-AlignやRLAIFなどの自己アライメント手法だけでなく、外部アライメント戦略を採用したGPT-3.5-Turboなど、有害な質問に対処する際の回答品質の点でベースライン手法を大幅に上回っています。

さらに、人間による評価実験では、Safe-RLHF データセットの 14 の有害カテゴリから 100 の質問を選択して評価しました。 875 の人間による評価では、MATRIX で微調整された 13B LLM が、有害な質問に対する GPT-4 の回答品質を上回っていることが示されています。

注目すべきは、LLM の一般的な機能をある程度犠牲にする可能性のある他のアライメント方法とは異なり、MATRIX によって微調整された LLM は、Vicuna-Bench などのテストでその包括的な機能が維持されるか、さらに向上していることが示されていることです。これは、MATRIX が無害な問題に対する LLM のパフォーマンスを向上させるだけでなく、幅広いタスクに対するモデルの適用性と有効性も保証できることを示しています。

上の図は、MATRIX に基づいて微調整した後の LLM の回答と、GPT-3.5-Turbo および GPT-4 の回答を視覚的に比較したものです。拒否反応を示す傾向がある GPT モデルとは異なり、MATRIX によって微調整された LLM は、より高い共感性と有用性を示しました。これは、MATRIX が LLM の社会的適応性と対応の質を高める上で効果的であることを強調するだけでなく、LLM 開発のより責任ある方向性を促進する可能性も示しています。

要約と展望

この研究では、社会的文脈をシミュレートすることで、大規模言語モデルの価値の自己整合を実現する革新的なアプローチを検討します。提案された MATRIX フレームワークは、実際の社会的相互作用とその結果を適切にシミュレートし、それによって言語モデルが社会的価値観に沿った応答を生成することを可能にします。微調整された言語モデルは、値の整合を実現するだけでなく、モデルの元の機能も保持します。

この研究では、MATRIX のソーシャル ロール プレイング スキームが、自己アライメント研究のための大規模言語モデルの固有の知識を活性化するための新たな出発点となることを期待しています。さらに、この研究では、MATRIX を使用して多様な社会的相互作用行動を生成し、言語モデルが豊富な価値整合シナリオを作成できるように支援し、それによって言語モデルの価値整合のより包括的な評価を促進することを期待しています。同時に、ツール呼び出し機能や長期記憶をサポートするエージェントなど、より強力なエージェントを MATRIX にさらに組み込むことで、値のアライメントタスクをさらに進めることができるだけでなく、幅広いタスクで大規模な言語モデルのパフォーマンスを向上させることができます。

<<: 

>>:  ソラは人間の代わりにはなれない!アマゾンのエンジニアは主張:実際の仕事上の対立はAIでは解決できない

ブログ    
ブログ    

推薦する

...

...

クラウドサービスが舞台を整え、AIが役割を果たす、これはI/Oに劣らないGoogleテクノロジーカンファレンスです

Google をよく知っていると思っている人でも、Cloud Next カンファレンスについては聞い...

TigerGraphは、伝染病の予防と制御を完全にサポートするために、エンタープライズレベルのバージョンのライセンスを無償で公開します。

新型コロナウイルスによる肺炎の発生以来、全国の人々が不安に思っています。世界をリードするスケーラブル...

AIのための大規模ストレージインフラストラクチャの要件

ストレージ インフラストラクチャに人工知能を導入することで、容量とパフォーマンスの要件が高まっていま...

Face IDのハッキングを防ぐ方法

[51CTO.com クイック翻訳]スマートフォンで顔認識サービスを使用すると、自分によく似た兄弟が...

AI エージェントが GPT-4 と連携して人間のディレクターを排除します。 「サウスパーク」はスタンフォード大学のウエストワールドを模倣して撮影された

AIエージェントがまた衝撃的なニュースをもたらしました。AIエージェントが直接監督に昇進し、「サウス...

モデルの一般化にはSGDに匹敵するフルバッチGDのランダムトレーニングは必要ない、ネットユーザー:計算コストは​​手頃ではない

[[431688]]最近、機械学習モデルは、モデルパラメータが増えながらも一般化性能が良好な大規模モ...

ますます大きく、さらに大きく:AI 研究は長期的には行き詰まりに陥るのでしょうか?

[[286629]]ビッグデータダイジェスト制作出典: techtalks編纂者:穆金、曹培鑫、銭...

AIの力を借りれば、罠だらけのジムは歴史の舞台から消えるのでしょうか?

[[336650]]驚くべきことに、COVID-19の世界的大流行の中で、フィットネスやエクササイ...

深層畳み込みネットワークに基づく自動運転のためのマルチモーダル軌道予測の簡単な分析

道路上で安全かつ効率的に運行するためには、自動運転車は人間の運転手と同じように周囲の交通参加者の行動...

家族に王位継承者はいないのですか?それは問題ではない、誰かがAIを使っておとぎ話の魔法の世界を作ったのだ

家には鉱山も王座もありませんが、王子様やお姫様になりたいという夢を持たない人がいるでしょうか?最近、...