快手の生活行動モデリングソリューションTWINは、数年分の過去のビデオをレビューし、ユーザーの隠れた興味を探ることで、KDD 2023に選ばれました。

この号では、Kuaishouがコミュニティサイエンスラインで独自開発した論文「TWIN：KuaishouのCTR予測における生涯ユーザー行動モデリングのための2段階関心ネットワーク」を紹介します。この論文は、2023 KDD応用データサイエンストラック（採択率25.4％）で発表され、従来の超長期行動モデリングにおける「2段階の類似性測定基準の不一致」という長年の問題を解決し、超長期行動モデリングの精度を向上させることを目的としています。

著者: Chang Jianxin、Zhang Chenbin、Fu Zhiyi、Zang Xiaoxue、Guan Lin、Lü Jing、Hui Yiqun、Leng Dewei、Niu Yanan、Song Yang
論文アドレス: https://arxiv.org/abs/2302.02352

1. 背景と動機

快手は中国の国民的ショートビデオアプリとして、常に顧客へのこだわりをアルゴリズム設計の基準と方向性としてきました。当社の推奨システムは毎日、各ユーザーにお気に入りの動画コンテンツを提供し、各クリエイターに最も似た考えを持つ視聴者を見つけます。高度にパーソナライズされた推奨という目標を達成するには、推奨システムはユーザー側の貴重な機能をすべて最大限に活用する必要があります。

このような背景から、生涯行動モデリング（生涯ユーザー行動モデリングとも呼ばれる）が誕生しました。名前が示すように、生涯行動モデリングは、ディープラーニングモジュールを使用して、ユーザーが数か月から数年にわたって視聴した数万本の過去の動画からユーザーの隠れた興味を正確に抽出し、CTR 推定などの推奨システムの高レベルタスクを支援します。

1.1 行動シーケンスモデリング手法

初期の研究では、短期行動モデリングアルゴリズム (DIN、DIEN など) は、さまざまな注意メカニズムを使用して、短期的な履歴行動の加重平均を実行することがよくあります。その中で、対象ビデオに類似する動作には高い重みが割り当てられ、対象ビデオに類似しない動作は重み付けが圧縮されます。

たとえば、図 1 では、ターゲットビデオはスキー指導ビデオです。スキーやアウトドア活動に関連する履歴動作には高い重みが与えられ、音楽レコードなどの関連性の低い履歴動作には非常に低い重みが与えられます。

図1: 短期行動モデリングのための従来の1段階注意法

ただし、Attention メカニズムの計算コストが高いため、これらの短期的な動作モデリングアルゴリズムでは、100 を超える動作シーケンスしか処理できないことがよくあります。それどころか、Kuaishouのアクティブユーザーの大多数は毎日100本以上の動画を視聴しており、数か月の間に1万～10万件の履歴行動を蓄積することができます。したがって、これらの効果的な短期動作モデリングアルゴリズムは、非常に長い動作シーケンスのモデリングに直接拡張することはできません。近年、長期行動モデリングでは 2 段階のモデリングアプローチが採用されることが多くなっています。この分野の SOTA である SIM アルゴリズムを例に、2 段階生涯学習アルゴリズムの共通フレームワークを簡単に紹介します。

1.2 非常に長い動作シーケンスをモデリングするための SOTA

2 段階の超長時間行動モデリングのパラダイムは、まずシンプルで高速な GSU モジュールを使用して、対象ビデオに最も関連性の高い上位 100 個の行動を選択し、次に複雑で正確な ESU モジュールを使用して、これらの 100 個の勝者に対してターゲットアテンション (TA) を実行し、超長時間シーケンス内の暗黙的なユーザー関心表現を抽出します。図2に示すように。

図2: 2段階モデリングの一般的なパラダイム。対象ビデオはスキー指導ビデオであり、GSUはスキーやアウトドアスポーツに関連するビデオを大まかに選択し、ESUがTAを行う。

近年、2 段階モデリング手法が数多く登場していますが、それらの主な違いは、GSU が対象ビデオに類似した動作を大まかに選別するために使用する基準にあります。たとえば、SIM Hard の GSU は、ターゲットビデオと同じカテゴリの動作を履歴動作から単純に除外しますが、SIM Soft は、いくつかの事前トレーニングタスクを通じて埋め込みを取得し、ターゲット動作と履歴動作の内積を類似度尺度として計算し、最も類似度の高い動作を除外します。 ETA は、Locality Sensitive Hashing (LSH) とハミング距離を使用して関連性スコアを概算します。 SDIM は、複数ラウンドのハッシュ衝突などの方法を通じて、ターゲット動作と同じハッシュ署名を持つ動作をサンプリングします。

1.3 2段階モデリングアプローチの欠点

広範囲にわたる研究にもかかわらず、既存の 2 段階生涯行動モデリングアルゴリズムには、GSU と ESU 間の類似性メトリックの不一致という重大な欠陥が依然として残っています。たとえば、SIM の GSU によってカテゴリフィルタリングを通じて計算された距離メトリックや、事前トレーニングタスクでの埋め込みの内積距離は、ESU の end2end トレーニングに基づくターゲットアテンションとはまったく異なります。このように、GSU は ESU が承認しない動作を除外し、ESU の貴重な計算能力を無駄にする可能性がありますが、ターゲットとあまり関連のない一部の動作間の注意の分布を重み付けすることしかできません。この不一致により、超長シーケンスモデリングモジュールの表現力が大幅に低下し、CTR 推定の精度が損なわれます。

図3: SIMにおけるGSUとESUの不一致

たとえば、図 3 では、この不一致の重大さを視覚的に示すために具体的な数値を使用しています。一部の小規模なデータセットでは、コストをかけずに Oracle を作成できます。つまり、ESU を使用して、グラウンドトゥルースとして 10,000 件の履歴動作から ESU の実際のトップ 100 を直接見つけ、それを SIM ハード GSU によってスクリーニングされたトップ K と比較します。この図では、x 軸は GSU によって返された K 動作を表し、y 軸は SIM ハード GSU によるグラウンドトゥルースヒットの数を表します。

SIM の GSU によって返された上位 100 のうち、実際の上位 100 は 40 のみであり、SIM によって返された上位 200 のうち、実際の上位 100 は 57 のみであることがわかります。図の灰色の領域は、2 つのステージ間の不一致の問題を解決するために使用できる改善の余地です。

したがって、GSU の計算方法をどのようにアップグレードして、ESU と一致する距離測定を使用し、ESU でより高い Attention 重みを持つ動作を見つけられるようにするかが、既存の 2 段階アルゴリズムの欠陥を補うための重要なポイントです。

2. TWINアルゴリズム

この論文で提案されたアルゴリズムを TWIN と名付けました。これは、GSU と ESU が双子のように目標と動作の間に同じ距離メトリックを適用することを強調しています。図4に示すように。

図4: TWIN、2段階の一貫したネットワーク構造

ただし、この一貫性を実現するのは簡単なことではありません。 ESU の距離メトリックは、計算に非常に時間がかかるマルチヘッドターゲットアテンションネットワーク (MHTA) に依存しているため、通常は 100 の動作にのみ使用されます。つまり、通常 100 の動作に適用される MHTA のパフォーマンスを、GSU が処理する必要がある 10,000 ～ 100,000 の動作に拡張できるようにするには、どうすればよいか、というのが解決すべき課題です。

2.1 特徴分割と線形マッピング

実際には、MHTA モジュールの計算上のボトルネックは動作シーケンスの線形マッピングにあることがわかりました。これは、非常に長いシーケンスに MHTA を適用する場合に最も高速化する必要があるモジュールでもあります。この記事では、動作シーケンスの埋め込みを巧みに 2 つの部分に分割します。

（シーケンスの長さを示し、埋め込み次元を示します）

動作の固有の特徴とは、作成者、期間、カテゴリ、ビデオ ID など、ユーザーの動作とは関係のないビデオのプロパティです。
ユーザー- アイテムクロスフィーチャーは、ユーザーの閲覧時間、ユーザーのいいね! フィードバック、閲覧タイムスタンプなど、特定のユーザーとアイテム間のインタラクションによって生成される属性です。

その中で、固有の特性はユーザー行動シリーズ全体で共有されています。つまり、同じビデオ ID の場合、異なるユーザーシーケンスでも対応する行は完全に等しくなります。したがって、必要な事前計算キャッシュ戦略を使用すると、固有の機能の線形マッピングを効率的なテーブル検索統合ステップに変換できます。

クロスフィーチャの場合、クロスユーザー行動シーケンスは共有されず、各ユーザーは各ビデオと最大 1 回しか対話しないため、上記の戦略は機能しません。そのため、次元圧縮を使用して計算量を削減します。

つまり、図 5 に示すように、各クロス特徴に対して、線形変換によって埋め込みを 1 次元に圧縮します。

図5: 特徴分割と線形マッピング

2.2 TWINにおける注意メカニズム

上記の線形変換に基づいて、従来の MHTA アプローチに触発され、TWIN のアテンションメカニズムを確立しました。各動作の重みは次のとおりです。

知らせ：

GSU モジュールには、10,000 ～ 100,000 の動作シーケンスの線形変換が含まれます。計算量は膨大ですが、事前計算とテーブル参照によって高速化できます。
次元圧縮後は計算量が少なくなり、リアルタイムで計算できます。クエリにはクロス属性がないため、この項目はバイアス項目の形式で追加されます。バイアス項目は、各バイアス項目の相対的な重要性を示す学習可能な重みです。
これはクエリの線形変換、つまりターゲットビデオの埋め込みであり、最小限の計算で実行され、シーケンスの長さに依存しません。

したがって、GSU では、上記の重みは、その長さがシーケンスの長さ (10,000 ～ 100,000) に比例しているにもかかわらず、効率的に計算できます。上位 100 個の重みを取得した後、対応する動作を選別し、TA のために ESU に提供しました。

ESU では、計算の精度を確保するために、アイテムには 100 次元しかないため、リアルタイム計算を使用して取得します。そして、Vの加重平均を計算します。

幸いなことに、リアルタイムで計算できる動作はまだ 100 個だけです。

実際の実装では、MHTA 構造を採用し、4heads を使用してユーザーの隠れた興味を多角的に学習します。

2.3 システム設計

図 6 は、システム設計の詳細を示しています。システム設計は次の 3 つの部分に分かれています。

図6: システム設計図

トレーニングシステム: 毎日 460 億件のユーザービデオインタラクションログがリアルタイムでトレーニングされ、最新のデータでトレーニングされた最新のモデルパラメーターと埋め込みが 5 分ごとに他のモジュールに同期されます。すべてのモジュールがトレーニングデータ内の最新の知識を取得できるようにします。
オフライン事前計算:オンライン GSU サービス中のクエリ用に事前に計算し、辞書形式で保存します。ある程度のロングテールフィルタリングを行った後、ビデオ ID を 80 億レベルに制限し、オンラインリクエストの 97% をカバーすることに成功しました。このようにして、線形マッピング計算モジュールは最新の埋め込みと線形マッピング重みマトリックスを使用して、15 分以内に辞書を完全に更新できます。
オンラインサービング: 事前計算クエリ戦略により、計算ボトルネック (つまり、) での計算が 99.3% 削減されます。このサービスは現在、ピーク時に毎秒 3,000 万件のビデオリクエストを処理できます。

3. 実験結果

SOTA 2 段階アルゴリズムとの比較では、アルゴリズムの有効性を検証しました。

図7: SOTAとの比較

トップ100のヒット率を分析することで、2つのステージの一貫性を検証しました。理論上は、当社のアルゴリズム GSU と ESU はまったく同じであり、パフォーマンスは Oracle に近いはずですが、15 分のキャッシュ遅延のため、実際のパフォーマンスはやや不十分です (青色の網掛け部分)。

図8: 2段階の一貫性

私たちは広範囲にわたるアブレーション実験を設計し、2 つのステージの構造的一貫性が重要であるだけでなく、GSU と ESU 間の埋め込み同期もパフォーマンスの向上に貢献することを実証しました。クロスフィーチャ計算におけるバイアス項は単純ですが、効果にとって非常に重要です。同時に、当社の事前計算モジュールは計算時間を大幅に節約しますが、結果への悪影響は非常に小さいです。

3つのビジネスモジュールでのオンラインAB比較実験を通じてアルゴリズムの有効性を検証しました。

著者：Lv Jing、Kuaishou Model and Application 部門

<<: AlphaFold 2 の最強のライバルが自らを弱体化させます!メタ、12人チームを即刻解散

>>: