この号では、Kuaishouがコミュニティサイエンスラインで独自開発した論文「TWIN:KuaishouのCTR予測における生涯ユーザー行動モデリングのための2段階関心ネットワーク」を紹介します。この論文は、2023 KDD応用データサイエンストラック(採択率25.4%)で発表され、従来の超長期行動モデリングにおける「2段階の類似性測定基準の不一致」という長年の問題を解決し、超長期行動モデリングの精度を向上させることを目的としています。
1. 背景と動機快手は中国の国民的ショートビデオアプリとして、常に顧客へのこだわりをアルゴリズム設計の基準と方向性としてきました。当社の推奨システムは毎日、各ユーザーにお気に入りの動画コンテンツを提供し、各クリエイターに最も似た考えを持つ視聴者を見つけます。高度にパーソナライズされた推奨という目標を達成するには、推奨システムはユーザー側の貴重な機能をすべて最大限に活用する必要があります。 このような背景から、生涯行動モデリング(生涯ユーザー行動モデリングとも呼ばれる)が誕生しました。名前が示すように、生涯行動モデリングは、ディープラーニング モジュールを使用して、ユーザーが数か月から数年にわたって視聴した数万本の過去の動画からユーザーの隠れた興味を正確に抽出し、CTR 推定などの推奨システムの高レベル タスクを支援します。 1.1 行動シーケンスモデリング手法初期の研究では、短期行動モデリング アルゴリズム (DIN、DIEN など) は、さまざまな注意メカニズムを使用して、短期的な履歴行動の加重平均を実行することがよくあります。その中で、対象ビデオに類似する動作には高い重みが割り当てられ、対象ビデオに類似しない動作は重み付けが圧縮されます。 たとえば、図 1 では、ターゲット ビデオはスキー指導ビデオです。スキーやアウトドア活動に関連する履歴動作には高い重みが与えられ、音楽レコードなどの関連性の低い履歴動作には非常に低い重みが与えられます。 図1: 短期行動モデリングのための従来の1段階注意法 ただし、Attention メカニズムの計算コストが高いため、これらの短期的な動作モデリング アルゴリズムでは、100 を超える動作シーケンスしか処理できないことがよくあります。それどころか、Kuaishouのアクティブユーザーの大多数は毎日100本以上の動画を視聴しており、数か月の間に1万~10万件の履歴行動を蓄積することができます。したがって、これらの効果的な短期動作モデリング アルゴリズムは、非常に長い動作シーケンスのモデリングに直接拡張することはできません。近年、長期行動モデリングでは 2 段階のモデリング アプローチが採用されることが多くなっています。この分野の SOTA である SIM アルゴリズムを例に、2 段階生涯学習アルゴリズムの共通フレームワークを簡単に紹介します。 1.2 非常に長い動作シーケンスをモデリングするための SOTA2 段階の超長時間行動モデリングのパラダイムは、まずシンプルで高速な GSU モジュールを使用して、対象ビデオに最も関連性の高い上位 100 個の行動を選択し、次に複雑で正確な ESU モジュールを使用して、これらの 100 個の勝者に対してターゲット アテンション (TA) を実行し、超長時間シーケンス内の暗黙的なユーザー関心表現を抽出します。図2に示すように。 図2: 2段階モデリングの一般的なパラダイム。対象ビデオはスキー指導ビデオであり、GSUはスキーやアウトドアスポーツに関連するビデオを大まかに選択し、ESUがTAを行う。 近年、2 段階モデリング手法が数多く登場していますが、それらの主な違いは、GSU が対象ビデオに類似した動作を大まかに選別するために使用する基準にあります。たとえば、SIM Hard の GSU は、ターゲット ビデオと同じカテゴリの動作を履歴動作から単純に除外しますが、SIM Soft は、いくつかの事前トレーニング タスクを通じて埋め込みを取得し、ターゲット動作と履歴動作の内積を類似度尺度として計算し、最も類似度の高い動作を除外します。 ETA は、Locality Sensitive Hashing (LSH) とハミング距離を使用して関連性スコアを概算します。 SDIM は、複数ラウンドのハッシュ衝突などの方法を通じて、ターゲット動作と同じハッシュ署名を持つ動作をサンプリングします。 1.3 2段階モデリングアプローチの欠点広範囲にわたる研究にもかかわらず、既存の 2 段階生涯行動モデリング アルゴリズムには、GSU と ESU 間の類似性メトリックの不一致という重大な欠陥が依然として残っています。たとえば、SIM の GSU によってカテゴリ フィルタリングを通じて計算された距離メトリックや、事前トレーニング タスクでの埋め込みの内積距離は、ESU の end2end トレーニングに基づくターゲット アテンションとはまったく異なります。このように、GSU は ESU が承認しない動作を除外し、ESU の貴重な計算能力を無駄にする可能性がありますが、ターゲットとあまり関連のない一部の動作間の注意の分布を重み付けすることしかできません。この不一致により、超長シーケンス モデリング モジュールの表現力が大幅に低下し、CTR 推定の精度が損なわれます。 図3: SIMにおけるGSUとESUの不一致 たとえば、図 3 では、この不一致の重大さを視覚的に示すために具体的な数値を使用しています。一部の小規模なデータ セットでは、コストをかけずに Oracle を作成できます。つまり、ESU を使用して、グラウンド トゥルースとして 10,000 件の履歴動作から ESU の実際のトップ 100 を直接見つけ、それを SIM ハード GSU によってスクリーニングされたトップ K と比較します。この図では、x 軸は GSU によって返された K 動作を表し、y 軸は SIM ハード GSU によるグラウンド トゥルース ヒットの数を表します。 SIM の GSU によって返された上位 100 のうち、実際の上位 100 は 40 のみであり、SIM によって返された上位 200 のうち、実際の上位 100 は 57 のみであることがわかります。図の灰色の領域は、2 つのステージ間の不一致の問題を解決するために使用できる改善の余地です。 したがって、GSU の計算方法をどのようにアップグレードして、ESU と一致する距離測定を使用し、ESU でより高い Attention 重みを持つ動作を見つけられるようにするかが、既存の 2 段階アルゴリズムの欠陥を補うための重要なポイントです。 2. TWINアルゴリズムこの論文で提案されたアルゴリズムを TWIN と名付けました。これは、GSU と ESU が双子のように目標と動作の間に同じ距離メトリックを適用することを強調しています。図4に示すように。 図4: TWIN、2段階の一貫したネットワーク構造 ただし、この一貫性を実現するのは簡単なことではありません。 ESU の距離メトリックは、計算に非常に時間がかかるマルチヘッド ターゲット アテンション ネットワーク (MHTA) に依存しているため、通常は 100 の動作にのみ使用されます。つまり、通常 100 の動作に適用される MHTA のパフォーマンスを、GSU が処理する必要がある 10,000 ~ 100,000 の動作に拡張できるようにするには、どうすればよいか、というのが解決すべき課題です。 2.1 特徴分割と線形マッピング実際には、MHTA モジュールの計算上のボトルネックは動作シーケンスの線形マッピングにあることがわかりました。これは、非常に長いシーケンスに MHTA を適用する場合に最も高速化する必要があるモジュールでもあります。この記事では、動作シーケンスの埋め込みを巧みに 2 つの部分に分割します。 (シーケンスの長さを示し、埋め込み次元を示します)
その中で、固有の特性はユーザー行動シリーズ全体で共有されています。つまり、同じビデオ ID の場合、異なるユーザー シーケンスでも対応する行は完全に等しくなります。したがって、必要な事前計算キャッシュ戦略を使用すると、固有の機能の線形マッピングを効率的なテーブル検索統合ステップに変換できます。 クロスフィーチャの場合、クロスユーザー行動シーケンスは共有されず、各ユーザーは各ビデオと最大 1 回しか対話しないため、上記の戦略は機能しません。そのため、次元圧縮を使用して計算量を削減します。 つまり、図 5 に示すように、各クロス特徴に対して、線形変換によって埋め込みを 1 次元に圧縮します。 図5: 特徴分割と線形マッピング 2.2 TWINにおける注意メカニズム上記の線形変換に基づいて、従来の MHTA アプローチに触発され、TWIN のアテンション メカニズムを確立しました。各動作の重みは次のとおりです。 知らせ:
したがって、GSU では、上記の重みは、その長さがシーケンスの長さ (10,000 ~ 100,000) に比例しているにもかかわらず、効率的に計算できます。上位 100 個の重みを取得した後、対応する動作を選別し、TA のために ESU に提供しました。 ESU では、計算の精度を確保するために、アイテムには 100 次元しかないため、リアルタイム計算を使用して取得します。そして、Vの加重平均を計算します。 幸いなことに、リアルタイムで計算できる動作はまだ 100 個だけです。 実際の実装では、MHTA 構造を採用し、4heads を使用してユーザーの隠れた興味を多角的に学習します。 2.3 システム設計図 6 は、システム設計の詳細を示しています。システム設計は次の 3 つの部分に分かれています。 図6: システム設計図
3. 実験結果SOTA 2 段階アルゴリズムとの比較では、アルゴリズムの有効性を検証しました。 図7: SOTAとの比較 トップ100のヒット率を分析することで、2つのステージの一貫性を検証しました。理論上は、当社のアルゴリズム GSU と ESU はまったく同じであり、パフォーマンスは Oracle に近いはずですが、15 分のキャッシュ遅延のため、実際のパフォーマンスはやや不十分です (青色の網掛け部分)。 図8: 2段階の一貫性 私たちは広範囲にわたるアブレーション実験を設計し、2 つのステージの構造的一貫性が重要であるだけでなく、GSU と ESU 間の埋め込み同期もパフォーマンスの向上に貢献することを実証しました。クロスフィーチャ計算におけるバイアス項は単純ですが、効果にとって非常に重要です。同時に、当社の事前計算モジュールは計算時間を大幅に節約しますが、結果への悪影響は非常に小さいです。 3つのビジネスモジュールでのオンラインAB比較実験を通じてアルゴリズムの有効性を検証しました。 著者:Lv Jing、Kuaishou Model and Application 部門 |
<<: AlphaFold 2 の最強のライバルが自らを弱体化させます!メタ、12人チームを即刻解散
DA テクノロジーは、まず自己組織化特徴マッピングに基づくクラスタリング テクノロジーを適用します。...
近年、OpenAI、Microsoft、Google など多くの企業やスタートアップチームが独自のチ...
人類社会は「つながりがない」「弱いつながり」から「賢いつながり」へと徐々に移行しつつあります。グロー...
2020年は忘れられない年です。今年に入って、新型コロナウイルスの感染拡大に伴い、人工知能(AI)が...
サーセイ・ラニスターの策略やサー・ジョラー・モーモントの父親のような保護をもってしても、攻撃者が H...
本論文では、確率と統計に基づく類似度測定法であるブラウン距離共分散をディープラーニングに初めて導入し...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[415649]]最近、米国防総省は、大量の情報源を分析し、数日後の敵の行動を1分以内に予測し、事...
人工知能の活発な発展は大きな論争を引き起こしています。発展の一般的な傾向からすると、これはデメリット...
近年、AI テクノロジーに投資している企業の大多数は、一般的に、AI アプリケーションを業務改善やコ...
現在、金融サービス業界にとっての朗報は、フィンテックの戦いがまだ終わっておらず、始まったばかりだとい...
商業用不動産業界は進化を遂げており、人工知能 (AI) などのテクノロジーが、このダイナミックな市場...
[[347812]]現在の人工知能技術の発展は、主にコンピュータを媒体として活用し、自動化技術の発...
近年、先端技術の発展により、科学技術は日々変化しており、職業や仕事内容も変化しています。最近、人力資...