強化学習とマルチタスク推奨

1. 短編動画推薦のための2段階制約強化学習アルゴリズム

最初に紹介する研究は、Kuaishou が開発した WWW 2023 Research Track の研究で、主に短編ビデオ推奨シナリオにおける制約付き多目的最適化問題を解決します。

短い動画の推奨の 1 列のシナリオでは、ユーザーは上下にスワイプして複数の動画を視聴することでシステムを操作します。ユーザーは、各動画に対して、再生時間とインタラクション（フォロー、いいね、コメント、お気に入り、共有など）という 2 種類のフィードバック信号を提供します。再生時間密度はリテンションやDAUと高い相関関係にあるため、短編動画推薦システムの主な最適化目標は、動画の総視聴時間を増やすことです。この問題は、強化学習法によって効果的に解決できます。一方、インタラクション指数はユーザー満足度をある程度反映し、リテンションと相関関係にあるため、アルゴリズムがインタラクション指数の制約も満たせることを期待しています。

したがって、本論文では、インタラクション指標の制約を満たしながらビデオの再生時間を最大化することを目標に、短いビデオの推奨を制約付き強化学習問題 (CMDP) としてモデル化します。しかし、既存の制約付き強化学習アルゴリズムは、次の理由で適用できません。第 1 に、継続時間を共同で推定する単一の批評モデルがインタラクションを支配すること、第 2 に、短編ビデオ推奨システムには複数の制約付き目的があり、制約付き強化学習の二重問題を直接最適化するには、ラグランジュハイパーパラメータを検索する必要があり、膨大な検索コストがかかることです。

我々は、2 段階制約アクタークリティック (TSCAC) アルゴリズムを提案します。

フェーズ 1: インタラクティブな補助信号ごとに、対応する信号を最適化するためのさまざまなポリシーを学習します。
第 2 段階では、第 1 段階で学習したポリシーを使用して、距離制約を満たしながら再生期間ターゲットを最適化するポリシーが学習されます。第2段階の問題に対する最適解を理論的に求め、新たな最適化損失を提案しました。 KuaiRand データセットでのオフライン評価と Kuaishou アプリでのオンライン A/B テストを通じて、TSCAC がパレート最適化や最先端の制約付き強化学習アルゴリズムよりも大幅に優れていることを実証しました。 TSCAC アルゴリズムが Kuaishou アプリで利用できるようになりました。

1. 問題のモデリング

ショートビデオ推薦システムをエージェント、ユーザーを環境と見なします。ユーザーがアプリを開くたびにセッションが開始され、セッションには複数のリクエストが含まれます。各リクエストはステップであり、推奨システム (エージェント) は現在のユーザー状態に基づいてアクション (ビデオ) をユーザーに返します。ユーザーは、動画を視聴した後、複数の報酬シグナル（視聴時間、いいね、フォロー、コメント、リポスト、その他のインタラクティブなシグナル）を提供します。ユーザーがアプリを離れるとセッションは終了します。推奨システムの目標は、インタラクション制約を満たしながら、セッションの累積視聴時間を最大化することです。推奨システムの最適化の目標は、推奨戦略を学習し、次のプログラムを解くことです。

2. 2段階制約アクタークリティックアルゴリズム

上記の課題に対処するために、2 段階の制約付きアクタークリティック (TSCAC) アルゴリズムを提案します。さまざまなクリティックモデルを使用して、さまざまなフィードバック信号の推定を行います。戦略最適化に関しては、第 1 段階では、戦略最適化の対応する補助目的を学習します。第 2 段階では、主目的の期間を最大化し、第 1 段階で事前トレーニングによって得られた戦略の距離制約を追加します。

ステージ1: 補助応答のためのポリシー学習

ターゲットごとに異なる戦略を使用し、Temporal Difference (TD) 損失を使用して Critic をトレーニングします。

アクターをトレーニングするために、Actor-Critic アルゴリズムで一般的に使用される利点ベースの損失を使用します。

ステージ2: 主応答のソフト制約最適化

第 2 段階では、主な目標の持続期間のメリットを最大化する必要がありますが、補助的な目標も考慮する必要があります。最初の段階で学習した補助戦略に補助ターゲット情報が含まれているという仮定に基づいて、主戦略と他の補助戦略が離れすぎないように制約しながら主ターゲットを最大化する戦略を学習します。

しかし、この問題は多くのKL制約を必要とし、直接最適化するのは容易ではない。(5)の双対問題には次の最適解があることを証明できる。

したがって、最適解と最適解の間の KL 距離を最小化するポリシーを学習します。

この損失の理由は、補助戦略 \pi_{\theta_i} がアクションの重要性を提供するからです。補助戦略がアクションが非常に悪いと判断した場合、このアクションのサンプルの重要性は非常に低くなります。 \lambda_iは制約の強さを表す。値が大きいほど制約が強くなる。極端な場合、0は制約が課されないことを意味する。式(7)は主目的を直接最適化することと同等である。実際のアプリケーションでは、すべての補助目的で使用されるハイパーパラメータ値を設定し、検索空間を効果的に削減します。

3. オフライン実験

KuaiRand 公開データセットで TSCAC アルゴリズムを検証し、BC (Behavior Cloning) Wide&Deep、DeepFM 教師あり学習アルゴリズム、最先端の制約付き強化学習法 RCPO、パレート最適化推奨アルゴリズムと比較しました。

表 2 の結果は、TSCAC メソッドが主なターゲットである WatchTime に関して他のアルゴリズムを大幅に上回るだけでなく、クリック、いいね、コメントなどの指標でも最高の結果を達成していることを示しています。パレート最適化法には主目的と副目的の区別がなく、ヘイトを減らすパレート最適点が学習されますが、主目的は BC アルゴリズムと比較してマイナスになることに注意してください。

4. オンライン実験

私たちは、Kuaishou 短編動画推薦システムでオンライン A/B 実験を実施しました。ベースラインは Learning to Rank アルゴリズム、実験グループは TSCAC、RCPO、およびインタラクションのみを学習する Actor-Critic アルゴリズム (Interaction-AC) です。

表 3 は、アルゴリズムが収束した後のさまざまな指標の改善率の比較を示しています。 TSCAC アルゴリズムは、メインターゲットの点では RCPO よりも優れているだけでなく (0.1% の視聴時間は統計的に有意であると見なされます)、完全に肯定的な補助ターゲットも備えていることがわかります。Interaction-AC アルゴリズムと比較すると、インタラクション指標も非常に近いです。下の図は、TSCAC アルゴリズムのトレーニングから収束までの日々のパフォーマンスの変化を示しています。

2. 強化学習に基づくマルチタスク推奨フレームワーク

2 番目の研究は、マルチタスク最適化における強化学習の応用についても以下に紹介します。この研究は、Kuaishou と香港城市大学の共同プロジェクトであり、典型的なマルチタスク最適化問題です。

1.要約

近年、マルチタスク学習 (MTL) は、レコメンデーションシステム (RS) アプリケーションで大きな成功を収めています。しかし、現在の MTL ベースの推奨モデルのほとんどは、主に単一アイテムベースのデータセットに基づいて構築されているため、推奨システムとユーザーのインタラクションのセッションモードを無視することがよくあります。複数の出力目標のバランスを取ることは、この分野では常に課題となってきました。この問題に対処するために、強化学習 (RL) ベースの MTL フレームワーク、つまり RMTL を提案します。このフレームワークは、動的な重みを使用して、さまざまな推奨タスクの損失関数のバランスをとります。具体的には、RMTL 構造は、次の方法で上記の 2 つの問題を解決できます。

セッションスケールから MTL 環境を構築します。
マルチタスクアクタークリティックネットワーク構造はトレーニングされており、既存の MTL ベースの推奨モデルと互換性があります。
批評ネットワークによって生成された重みを使用して、MTL 損失関数を最適化および微調整します。

KuaiRand などの複数の公開データセットに基づく実験により、RMTL の有効性が実証されており、その AUC は SOTA MTL ベースの推奨モデルよりも大幅に高くなっています。また、さまざまな MTL モデルで RMTL のパフォーマンスを検証し、その優れた互換性と移植性を実証しました。

2.問題のモデリング

MTL モデルのパフォーマンスを向上させるために、RL トレーニング用のセッションベースの MDP を構築します。従来の MTL 手法では、ユーザー動作のタイムスタンプの相関性が高いため、連続したユーザー動作をモデリングに導入することが困難になることがよくありますが、MDP シーケンスに基づく強化学習ではこの問題を解決できます。各セッションでは、状態転送レコードは元のデータセットに保存されているタイムスタンプによって区切られます。この構造により、連続的に編成されたセッション MDP のシーケンスを生成でき、全体的な損失の重みを更新できるという利点があります。マルコフ過程は、状態、アクション、報酬関数、遷移関数で構成されます。状態空間 S は、ユーザーとアイテムの組み合わせ機能を含む状態の集合です。アクション空間 A は連続したアクションのセットであり、A 内の各要素は CTR と CTCVR の予測値を表します。 BCE 損失の定義と一貫性を保つために、負の BCE 値を使用して各ステップで報酬関数を定義します。

3.アルゴリズム

私たちは、状態表現ネットワークを使用してデータの特徴を状態情報に変換する RMTL フレームワークを提案します。アクターネットワークは、特定のアクションベクトルを出力する任意の基本的な MTL モデルになります。 Critic ネットワークは、Actor ネットワークのパフォーマンスを向上させ、特定のタスクに対して適応的に調整された損失重みを生成するために使用されます。

状態表現ネットワークは、ユーザーアイテムの特徴を抽出するための埋め込み層と多層パーセプトロンで構成されています。カテゴリ特徴はまずバイナリベクトルに変換され、次に埋め込み層に入力されます。さらに、数値特徴は線形変換によって同じ次元に変換されます。上記のプロセスによって変換された特徴はマージされ、別の MLP ネットワークの入力としてさらに使用されます。

強化学習のフレームワークでは、アクターネットワークはポリシーエージェントと呼ぶことができます。 ESMM を例に挙げると、共有されている最下層が削除され、2 つのタスクのタワー層をそれぞれ表す 𝜃1 と 𝜃2 でパラメータ化された 2 つの並列ニューラルネットワークが使用されます。各タワーレイヤーの出力は、特定のタスクの予測値を表す決定論的なアクション値です。 MDP シーケンスのトレーニングプロセスが完了した後、この論文では、加重 BCE 損失に基づいて全体的な損失関数を計算し、収束問題を解決します。

この論文では、2 つの並列 MLP ネットワークが最下層ネットワークを共有するマルチクリティック構造を提案します。 Critic ネットワークの最初の部分は、ユーザーアイテム機能とアクション情報の両方を変換する共有基盤ネットワークです。次に、ユーザーアイテムの特徴とアクション情報は、𝜙𝑘によってパラメータ化され、推定Q値を出力した2つの微分可能なアクション値ネットワークの入力として結合され、平均時間差（TD）誤差𝛿を計算して批評家ネットワークを更新します。目的損失関数の重みは、アクターネットワークの最適化プロセスを改善するために、Q 値と反対方向に調整されます。

全体的なアルゴリズムのプロセスは次のとおりです。ユーザーとアイテムの組み合わせ機能が与えられると、状態表現ネットワークは入力機能に基づいて状態を生成します。次に、Actor ネットワークから状態情報を抽出してアクションを取得します。アクション値とユーザーとアイテムの組み合わせ特徴は、MLP層と埋め込み層によってCriticネットワークの入力としてさらに処理され、各タスク 𝑘 のCriticネットワーク 𝑄 値が計算されます。最後に、各タスクの BCE 損失と適応重みに基づいて、複数のタスクの全体的な損失関数 L を推定できます。

4.実験

この論文では、主に RetailRocket と Kuairand という 2 つのベンチマークデータセットで実験を行います。評価指標は、AUC スコア、logloss、および s-logloss (すべてのセッションの平均 Logloss として定義) です。この論文の RMTL 構造は MTL の目的損失関数を変更するため、デフォルトの損失関数を持つモデルと RL ベースのモデルがベースラインとして選択されます。この論文では、この方法の有効性を示すために、全体的な効果、移転可能性の研究、アブレーション実験の合計 3 つの実験を実施します。

全体的なパフォーマンスと比較の観点から、この論文では、2 つの異なるデータセットでの CTR/CTCVR 予測タスクにおける 5 つのベンチマークマルチタスク学習モデルと RMTL モデルのパフォーマンスを比較します。ほとんどの場合、PLE モデルはすべてのマルチタスク学習ベースラインモデルの中で最も優れたパフォーマンスを発揮します。これは、PLE ベースラインモデルがタスク間の情報共有の効率を向上させて、より優れた予測パフォーマンスを実現できることを証明しています。提案された RMTL モデルの各バージョンは、両方のデータセットで対応する非 RL ベースラインモデルよりも優れています。特に、RetialRocket データセットでは、RMTL モデルの AUC ゲインは約 0.003 ～ 0.005 であり、対応するベースラインモデルよりも高くなっています。 RMTL は、強化学習フレームワークの順次的な性質を活用することで、セッションベースの推奨データを処理し、損失関数の重みを適応的に調整することで CTR/CTCVR 予測タスクを大幅に改善することができます。

RetialRocket データセットにおける RMTL メソッドの移転可能性の研究では、異なる戦略から学習した批評ネットワークを同じ MTL ベースラインモデルに適用して予測パフォーマンスを向上できるかどうかを調べます。たとえば、「mmoe-ESMM」は、MMoE アーキテクチャからトレーニングされた批評ネットワークを適用する ESMM モデルを意味します。次のことがわかります。

3 つの MTL モデルの事前トレーニング済み批評ネットワークは、各ベースラインモデルの AUC を大幅に改善できます。
3 つの MTL モデルの事前トレーニング済み批評ネットワークは、各ベースラインモデルの Logloss を大幅に削減できます。

一般に、事前トレーニング済みの ciritc ネットワークは、ほとんどの MTL モデルの予測パフォーマンスを向上させることができます。

実験の最後の部分は、RetailRocket データセットでの PLE モデルの分析です。この論文では、元の設定の一部を変更し、次の 3 つのバリエーションを定義しています。

CW: 全体的な損失関数に一定の重みを適用し、アクターネットワークで勾配ポリシーの更新を実行しないことで、批評家ネットワークの寄与を排除することを意味します。
WL: 損失重みがセッション動作ラベルによって制御されることを示します。
NLC: 損失重みに対して線形変換を実行する代わりに、負の Q 値が損失重みに直接割り当てられます。

次のことがわかります。

CW は、両方の予測タスクにおいて、AUC と logloss メトリックの点で最悪のパフォーマンスを示します。
この研究では、WL と NLC はほぼ同等の性能を示し、AUC が 0.002～0.003 改善され、CW バリアントよりも優れた性能を示しました。

提案された総損失設定を使用する RMTL-PLE は、両方のタスクで最高のパフォーマンスを達成し、線形結合重み設計の有効性を実証します。

最後に、RMTL と MTL の経験をまとめてみましょう。

推奨システムを長期的に最適化する場合、特に複雑な指標を長期的に最適化する場合は、非常に典型的な強化学習とマルチタスク最適化のシナリオになります。主目的と副目的が共同で最適化される場合、ソフト正則化を使用して目的学習を制限できます。多目的共同最適化を実行する場合、異なる目的の動的な変化を考慮すると、最適化の効果も向上します。さらに、いくつかの課題もあります。たとえば、異なる強化学習モジュールを組み合わせると、システムの安定性に多くの課題が生じます。このとき、データ品質の管理、ラベル精度の管理、モデル推定の精度の監視は非常に重要なアプローチです。さらに、推奨システムとユーザーは直接やり取りするため、異なる目標はユーザーエクスペリエンスを反映する際に一方的な応答しか提供せず、得られる推奨戦略も大きく異なります。常に変化するユーザーの状況下で、全体的なユーザーエクスペリエンスを共同で最適化し、強化する必要があります。これは間違いなく、将来的に非常に重要なトピックになります。

3. 質疑応答

Q1: 快手の持続信号と相互作用信号には、一般的にどのような損失が使用されますか?それは分類ですか、それとも回帰ですか?インタラクション目標と視聴目標のオフライン評価では、一般的にどのような指標が考慮されますか?

A1: 期間インジケーターは最も一般的な回帰タスクです。しかし、推定時間はビデオ自体の長さと強く相関していることにも気付きました。たとえば、短い動画と長い動画の配信は大きく異なります。そのため、推定する際には、まず分類してから回帰を行う必要があります。

最近、KDD にはツリー法を使用して持続時間信号の推定を分割する記事もあります。再生時間を長い動画と短い動画に分け、それぞれに推定範囲を設定し、ツリー方式でさらに細かく分割することができます。長い動画は中くらいの長さの動画と長い動画に分けられ、短い動画は超短い動画と短い動画に分けられます。全体的な効果の観点から見ると、まだ分類の枠組み内にあり、その後回帰を実行すると、効果はわずかに良くなります。その他の相互作用指標の推定は、既存の推定方法と同様です。

オフライン評価では通常、AUC と GAUC の両方に重点が置かれます。期間については、主にオンライン指標を確認します。オフライン評価とオンライン評価にも違いがあります。オフライン評価で大きな改善が見られない場合、オンラインでは対応する改善が見られない可能性があります。

Q2: データが特にまばらであったり、調整対象が特にまばらであったりする状況に遭遇したことがありますか?オンラインデータに基づいてパラメータを調整する場合、フィードバックサイクルが長くなる可能性があります。パラメータ調整の効率は低下しますか?この場合の解決策は何でしょうか?

A2: 私たちは最近、フィードバック信号が数日後にしか受信されない可能性があるという、この非常にまばらな状況について議論するための作業を行いました。最も典型的なのはユーザー維持です。ユーザーが離脱して数日後に戻ってくる可能性があるからです。私たちが信号を受け取ったとき、モデルは数日間更新されていました。この種の問題を解決するための妥協策がいくつかあります。リアルタイムインジケーターまたはリアルタイムフィードバック信号を分析して、この非常にスパースな信号と相関関係にある信号を確認できます。そして、これらのリアルタイム信号を最適化することで、長期的な信号を間接的に最適化することができます。

保持を例に挙げてみましょう。ユーザーのリアルタイム視聴時間と強い正の相関関係があることがわかりました。一般的に、ユーザーの視聴時間の増加は、システムに対するユーザーの執着の増加を表します。これにより、基本的にユーザー維持の下限を保証できます。保持率を最適化する場合、通常は保持率を最適化するために他の関連指標も使用します。

Q3: Kuaishou が強化学習を使用して多目的融合を実現する場合、一般的にどのような最適化機能が使用されますか?ユーザーの ID など、非常に詳細な機能はありますか?モデルの収束が非常に困難になるでしょうか?

A3: ユーザー ID は実際には大した問題ではありません。当社のユーザー機能には、ID 機能に加えて、統計機能もいくつかあります。さらに、推奨リンクでは、RL は、改良や再ランク付けの段階など、アプリケーションモジュールの比較的後期の段階にあります。以前のいくつかの段階では、いくつかの推定値とモデルランキング信号も提供されます。これらにはすべて何らかのユーザーシグナルが含まれています。そのため、現在推奨されている強化学習では、推奨シナリオでは依然として多くのユーザー側の信号を取得し、ユーザーIDのみが使用される状況は基本的に発生しません。

ユーザー ID を使用しない場合、パーソナライゼーションに大きな影響を与えることがわかりました。ユーザーの統計的特徴のみを使用すると、改善効果がユーザー ID ほど大きくならない場合があります。ユーザーIDの影響が大きすぎると、ボラティリティの問題が発生します。

<<: OpenAI CEO: GPT-4 は週当たり 1 億人のアクティブユーザーを抱え、依然として世界で最も強力な AI モデルです

>>: 2023年の7つの主要なAI技術トレンド