Agent4Recが登場!大規模なモデルエージェントは、実際のユーザーインタラクション動作をシミュレートする推奨システムシミュレーターを構成します。

Agent4Recが登場!大規模なモデルエージェントは、実際のユーザーインタラクション動作をシミュレートする推奨システムシミュレーターを構成します。

推奨システムの分野では、モデルのオンラインとオフラインのパフォーマンスに大きなギャップがあるという問題が常に発生しています。オンライン A/B テストのコストが高いため、多くの研究者が意欲を失い、学術界における推奨システムの研究と実際の産業界への応用の間に大きなギャップが生じています。大規模言語モデルは人間のような論理的推論と理解能力を発揮するため、大規模言語モデルに基づくエージェントが実際のユーザーの対話型動作をシミュレートし、推奨研究の応用に役立つ信頼性の高い仮想推奨 A/B テスト シナリオを構築できるかどうかは、緊急かつ重要で、経済性の高い問題です。

この疑問に答えるために、シンガポール国立大学の NExT++ ラボのチームは、1,000 のエージェントで構成される映画推奨システム シミュレーター Agent4Rec を構築しました。これらのエージェントは実際のユーザーによって初期化され、ChatGPT-3.5 によって駆動され、ユーザーの好みや特性に基づいてパーソナライズされた方法で、さまざまなカプセル化された推奨アルゴリズムと推奨映画に応答します。これらのパーソナライズされた応答は、映画の視聴または視聴拒否、映画の評価、映画推奨リストの次のページへの移動、疲労の推定、不満または疲労による推奨システムからの終了、推奨アルゴリズムの評価など、推奨システムにおける実際のユーザーの行動をシミュレートします。広範囲にわたる実験的評価により、Agent4Rec のエージェントは現実世界のユーザー行動を高い確率で反映できることが示されています。

  • 論文リンク: https://arxiv.org/abs/2310.10108
  • コードリンク: https://github.com/LehengTHU/Agent4Rec

1.Agent4Recプラットフォーム構築

Agent4Rec の各ユーザー、つまりエージェントは、プロファイル モジュール、メモリ モジュール、およびアクション モジュールで構成されます。著者らは、MovieLens-1m からの実際のユーザー データを使用してエージェント プロファイルを初期化しました。エージェントの映画の好みは、ユーザーの過去のインタラクションに基づいて生成され、エージェントのインタラクション機能は、ユーザーの過去のアクティビティ、適合性、および映画鑑賞の多様性に基づいて生成されます。

推奨システムは、ページごとの推奨アプローチを採用し、特定の推奨アルゴリズムに基づいて映画のリストをユーザーに推奨します。実際のモバイル アプリの推奨シナリオをシミュレートし、各ページに 4 つのムービーが表示されます。各映画の情報には、映画名、過去の評価、映画の紹介などが含まれます。各エージェントは、自身の映画の好み、疲労度、個人の記憶に基づいて、映画の視聴や評価など、推奨された映画に応答します。同時に、過去の推奨コンテンツとエージェントの行動がメモリに保存され、エージェントは反省を通じて推奨システムに対する満足度と自身の疲労を要約します。推奨事項の各ページが終了すると、エージェントは満足度と疲労度に基づいて、次のページに進むか、推奨システムを終了するかを選択します。ユーザーがシステムを終了した後、推奨システムを終了した理由と推奨された映画に対する評価についてユーザーにインタビューが行われます。

2.エージェント行動シミュレーションの真正性テスト

大規模な言語モデルエージェントを使用して人間の行動をシミュレートする際の最も重要な問題は、エージェントがユーザーの実際の好みをどの程度シミュレートできるかを評価することです。 Agent4Rec は、推奨シナリオで初めて実験レベルの回答を提供します。

ユーザーの映画の好みがエージェントによって正しく捉えられるかどうかを測定するために、著者はまず、ユーザーが操作したテスト セット内の映画とランダムにサンプリングされたネガティブ サンプル映画をユーザーが気に入っているかどうかをエージェントに判断するように依頼しました。結果は、エージェントがユーザーの好みの約 70% をキャプチャできることを示しています。

エージェントの映画嗜好の合理性を検証した後、1,000 のエージェントをページごとの推奨シナリオに投入しました。エージェントは、推奨システムを早期に終了するか、5 ページに到達した後に強制的に終了するかを選択できます。同時に、エージェントは視聴することを選択した映画を 1 から 5 のポイントで評価します。下の図の実験結果は、エージェントの評価が実際のデータ内のユーザー評価と一貫して分布していることを示しています。

Agent4Rec が A/B テスト プラットフォームとして実現可能であることを確認するために、著者らは 5 つの一般的な推奨戦略を Agent4Rec プラットフォームに導入し、エージェントのフィードバック (平均閲覧率、平均いいね数、平均いいね率、平均終了ページ数、平均ユーザー満足度) を収集しました。以下の表の結果は、アルゴリズムベースの推奨システム (MF、MultVAE、LightGCN) が戦略ベースの推奨システム (Random、Pop) よりも大幅に優れたパフォーマンスを発揮することを示しています。そして全体的に、LightGCN は他のアルゴリズムよりも優れたパフォーマンスを発揮します。この結果は、エージェントが異なる推奨システムの推奨結果を区別できることを証明しています。将来的には、大規模な言語モデルに基づいて適切に設計された推奨システムシミュレーターが、理想的なオフライン A/B テストプラットフォームとして機能し、企業のニーズを満たすユーザー評価指標を提供できる可能性があります。

ユーザーのフィードバックに基づいて推奨システムが更新される現実のシナリオに従い、推奨ラウンドを完了した後、著者はエージェントによって選択された高得点の映画または未視聴の映画をポジティブサンプルとしてトレーニングセットに追加し、推奨システムを再トレーニングし、再トレーニングされた推奨アルゴリズムを Agent4Rec プラットフォームに再度デプロイします。結果は、エージェントによって選択された高得点の映画を使用して推奨システムを再トレーニングすると、オフラインとシミュレートされた「オンライン」の両方のメトリックが向上することを示しています。しかし、エージェントが嫌いな映画をデータ拡張として使用すると、ほとんどの場合、マイナスの効果が生じます。これは、エージェントの動作が実際のユーザーの動作と一致していることを間接的に示しています。

同時に、推奨システム内の実際のユーザーは、アクティビティ、適合性、映画視聴の多様性など、さまざまな特性を持っていることがよくあります。データセット内のユーザーのさまざまな統計情報に基づいて、著者はエージェントを各特性ごとに 3 つのグループに分け、異なるユーザー ポートレートを提供します。シミュレーションが完了すると、エージェントのアクティビティ、適合性、映画鑑賞の多様性の尺度として、エージェントとのやり取りの数、エージェントの評価とユーザーの過去の評価の間の平均二乗誤差、エージェントがやり取りする映画の種類の数という 3 つの指標が収集されます。実験結果によると、3 つのグループ間のエージェントの平均パフォーマンスは予想どおりであり、大きな違いがあることがわかりました。

個々のレベルでも、エージェントのパフォーマンスは実際のユーザーのパフォーマンスと一致しています。下の図のユーザーの映画視聴の多様性を例にとると、各ユーザーが実際に視聴する映画タイプの数は、Agent4Rec のエージェントが視聴する映画タイプの数と一致しています。

著者らはまた、アブレーション実験を通じて、さまざまな特性の初期化がエージェントの行動に及ぼす役割を研究しました。次の実験結果は、パーソナライズされた特性の初期化を行わないと、エージェントの動作が類似する傾向があり、実際のユーザー動作のロングテール分布とは異なることを示しています。

3. レコメンデーションシステムの未解決の問題を探る

現実的なレコメンデーション システム シミュレーターを入手することは、レコメンデーション研究の進歩に大きく役立ちます。 Agent4Rec はユーザーの現実的な行動をかなりシミュレートすることから、著者らは 2 つの興味深い未解決の問題を調査しました。

まず、著者らは Agent4Rec プラットフォームを使用して多次元の推奨データを収集し、推奨システムにおける潜在的な因果関係を調査しました。著者は、映画の品質、映画の人気、映画の露出、映画の視聴回数、映画の評価という、推奨システムにおける 5 つの一般的な変数を選択し、DirectLiNGAM を使用して重み付けされた有向非巡回因果グラフをモデル化し、これら 5 つの変数間の因果関係を分析しました。下の因果関係図の左半分は、映画の評価が映画の品質と映画の人気によってのみプラスの影響を受けることを示しています。因果関係図の右半分は、映画の品質と人気が映画の露出に共同で影響し、それが映画のクリック数に影響を及ぼすことを示しています。これは、推奨システムにおける人気バイアス効果を反映しています。つまり、より人気のあるアイテムはより多く公開され、アイテムの人気ループ増幅効果がさらに高まります。

著者は、推奨システムにおける情報繭の問題についてもさらに調査しました。著者は、エージェントが選択したアイテムをポジティブサンプルとしてトレーニング セットに継続的に追加し、新しい推奨アルゴリズムをトレーニングし、エージェントのフィードバックを収集します。シミュレーションと再トレーニングのラウンド数が増えるにつれて、推奨システムによって個々のユーザーに推奨される映画の最初のカテゴリの割合が徐々に増加し、推奨システムによって個々のユーザーに推奨される映画カテゴリの平均数は減少します。この現象は、推奨アルゴリズムの介入により、ユーザーが受け取る情報の種類がますます単調になることを示しています。

4. まとめと展望

この研究では、大規模な言語モデルに基づくエージェントを使用して、実際の推奨シナリオにおけるユーザー行動をシミュレートする可能性を探ります。大規模言語モデルには幻覚などのさまざまな問題が残っていますが、Agent4Rec 上のマルチエージェントは、多くの点で実際のユーザー グループと一致する動作を示しています。将来的には、大規模な言語モデルに基づいて慎重に設計されたエージェント プラットフォームによって、推奨シナリオのあらゆる側面を十分現実的にシミュレートできるようになり、学術界や産業界の研究にさらなる利便性がもたらされることを期待しています。

<<:  GPT-4 がビッグモデル幻覚ランキングで優勝、NVIDIA の科学者が偽物と激しく戦う! ChatGPTのメタ版作者が抗議のため長文の記事を投稿

>>: 

推薦する

...

自動運転のベテラン、UberのためにGoogleの機密文書14,000件を盗んだとして訴えられる

[[275279]]アンソニー・レヴァンドウスキーはシリコンバレーのスターエンジニアです。自動運転技...

AIの分野を深く探究しよう!新しい機能が次々と登場し、携帯電話で包括的なスマート体験を提供します

AIは人工知能の略称で、応用分野は多岐にわたります。特に急速な発展の時代において、多くの産業が新しい...

機械学習モデルの再トレーニングの究極ガイド

機械学習モデルのトレーニングは通常、一連の入力機能と出力ターゲット間のマッピングを学習することによっ...

...

...

...

...

AI による自動ラベル付けの普及により、データラベル作成者の職は失われるのでしょうか?

データ注釈業界では、「知能と同じくらい人工知能も存在する」という有名な格言があります。ラベル付けが必...

Facebook、動画から学習する新たなAIプロジェクトを開始

3月30日、海外メディアの報道によると、Facebookの開発者らは、公開動画から学習できる「Lea...

人工知能のルーツを解読する

[[384631]] ◇コンピューティングパワーアルゴリズムの重要な基盤として、人工知能チップと人...

快手が手の姿勢推定機能を発表、電光手の秘密を公式に公開

アイアンマンは指と手のひらを回すだけで、あっという間に鎧の製作を完了した。この魔法のような技に、スク...

チューリングテストは死んだ! ChatGPTは人間テストに合格してもカウントされない、スーパーAIが新参者「ロジックパズル」を評価

世界で最も強力な AI - ChatGPT は、さまざまなテストに合格し、真偽を区別するのが難しい回...