快手の生活行動モデリングソリューションTWINは、数年分の過去のビデオをレビューし、ユーザーの隠れた興味を探ることで、KDD 2023に選ばれました。

快手の生活行動モデリングソリューションTWINは、数年分の過去のビデオをレビューし、ユーザーの隠れた興味を探ることで、KDD 2023に選ばれました。

この号では、Kuaishouがコミュニティサイエンスラインで独自開発した論文「TWIN:KuaishouのCTR予測における生涯ユーザー行動モデリングのための2段階関心ネットワーク」を紹介します。この論文は、2023 KDD応用データサイエンストラック(採択率25.4%)で発表され、従来の超長期行動モデリングにおける「2段階の類似性測定基準の不一致」という長年の問題を解決し、超長期行動モデリングの精度を向上させることを目的としています。


  • 著者: Chang Jianxin、Zhang Chenbin、Fu Zhiyi、Zang Xiaoxue、Guan Lin、Lü Jing、Hui Yiqun、Leng Dewei、Niu Yanan、Song Yang
  • 論文アドレス: https://arxiv.org/abs/2302.02352

1. 背景と動機

快手は中国の国民的ショートビデオアプリとして、常に顧客へのこだわりをアルゴリズム設計の基準と方向性としてきました。当社の推奨システムは毎日、各ユーザーにお気に入りの動画コンテンツを提供し、各クリエイターに最も似た考えを持つ視聴者を見つけます。高度にパーソナライズされた推奨という目標を達成するには、推奨システムはユーザー側の貴重な機能をすべて最大限に活用する必要があります。

このような背景から、生涯行動モデリング(生涯ユーザー行動モデリングとも呼ばれる)が誕生しました。名前が示すように、生涯行動モデリングは、ディープラーニング モジュールを使用して、ユーザーが数か月から数年にわたって視聴した数万本の過去の動画からユーザーの隠れた興味を正確に抽出し、CTR 推定などの推奨システムの高レベル タスクを支援します。

1.1 行動シーケンスモデリング手法

初期の研究では、短期行動モデリング アルゴリズム (DIN、DIEN など) は、さまざまな注意メカニズムを使用して、短期的な履歴行動の加重平均を実行することがよくあります。その中で、対象ビデオに類似する動作には高い重みが割り当てられ、対象ビデオに類似しない動作は重み付けが圧縮されます。

たとえば、図 1 では、ターゲット ビデオはスキー指導ビデオです。スキーやアウトドア活動に関連する履歴動作には高い重みが与えられ、音楽レコードなどの関連性の低い履歴動作には非常に低い重みが与えられます。

図1: 短期行動モデリングのための従来の1段階注意法

ただし、Attention メカニズムの計算コストが高いため、これらの短期的な動作モデリング アルゴリズムでは、100 を超える動作シーケンスしか処理できないことがよくあります。それどころか、Kuaishouのアクティブユーザーの大多数は毎日100本以上の動画を視聴しており、数か月の間に1万~10万件の履歴行動を蓄積することができます。したがって、これらの効果的な短期動作モデリング アルゴリズムは、非常に長い動作シーケンスのモデリングに直接拡張することはできません。近年、長期行動モデリングでは 2 段階のモデリング アプローチが採用されることが多くなっています。この分野の SOTA である SIM アルゴリズムを例に、2 段階生涯学習アルゴリズムの共通フレームワークを簡単に紹介します。

1.2 非常に長い動作シーケンスをモデリングするための SOTA

2 段階の超長時間行動モデリングのパラダイムは、まずシンプルで高速な GSU モジュールを使用して、対象ビデオに最も関連性の高い上位 100 個の行動を選択し、次に複雑で正確な ESU モジュールを使用して、これらの 100 個の勝者に対してターゲット アテンション (TA) を実行し、超長時間シーケンス内の暗黙的なユーザー関心表現を抽出します。図2に示すように。

図2: 2段階モデリングの一般的なパラダイム。対象ビデオはスキー指導ビデオであり、GSUはスキーやアウトドアスポーツに関連するビデオを大まかに選択し、ESUがTAを行う。

近年、2 段階モデリング手法が数多く登場していますが、それらの主な違いは、GSU が対象ビデオに類似した動作を大まかに選別するために使用する基準にあります。たとえば、SIM Hard の GSU は、ターゲット ビデオと同じカテゴリの動作を履歴動作から単純に除外しますが、SIM Soft は、いくつかの事前トレーニング タスクを通じて埋め込みを取得し、ターゲット動作と履歴動作の内積を類似度尺度として計算し、最も類似度の高い動作を除外します。 ETA は、Locality Sensitive Hashing (LSH) とハミング距離を使用して関連性スコアを概算します。 SDIM は、複数ラウンドのハッシュ衝突などの方法を通じて、ターゲット動作と同じハッシュ署名を持つ動作をサンプリングします。

1.3 2段階モデリングアプローチの欠点

広範囲にわたる研究にもかかわらず、既存の 2 段階生涯行動モデリング アルゴリズムには、GSU と ESU 間の類似性メトリックの不一致という重大な欠陥が依然として残っています。たとえば、SIM の GSU によってカテゴリ フィルタリングを通じて計算された距離メトリックや、事前トレーニング タスクでの埋め込みの内積距離は、ESU の end2end トレーニングに基づくターゲット アテンションとはまったく異なります。このように、GSU は ESU が承認しない動作を除外し、ESU の貴重な計算能力を無駄にする可能性がありますが、ターゲットとあまり関連のない一部の動作間の注意の分布を重み付けすることしかできません。この不一致により、超長シーケンス モデリング モジュールの表現力が大幅に低下し、CTR 推定の精度が損なわれます。

図3: SIMにおけるGSUとESUの不一致

たとえば、図 3 では、この不一致の重大さを視覚的に示すために具体的な数値を使用しています。一部の小規模なデータ セットでは、コストをかけずに Oracle を作成できます。つまり、ESU を使用して、グラウンド トゥルースとして 10,000 件の履歴動作から ESU の実際のトップ 100 を直接見つけ、それを SIM ハード GSU によってスクリーニングされたトップ K と比較します。この図では、x 軸は GSU によって返された K 動作を表し、y 軸は SIM ハード GSU によるグラウンド トゥルース ヒットの数を表します。

SIM の GSU によって返された上位 100 のうち、実際の上位 100 は 40 のみであり、SIM によって返された上位 200 のうち、実際の上位 100 は 57 のみであることがわかります。図の灰色の領域は、2 つのステージ間の不一致の問題を解決するために使用できる改善の余地です。

したがって、GSU の計算方法をどのようにアップグレードして、ESU と一致する距離測定を使用し、ESU でより高い Attention 重みを持つ動作を見つけられるようにするかが、既存の 2 段階アルゴリズムの欠陥を補うための重要なポイントです。

2. TWINアルゴリズム

この論文で提案されたアルゴリズムを TWIN と名付けました。これは、GSU と ESU が双子のように目標と動作の間に同じ距離メトリックを適用することを強調しています。図4に示すように。

図4: TWIN、2段階の一貫したネットワーク構造

ただし、この一貫性を実現するのは簡単なことではありません。 ESU の距離メトリックは、計算に非常に時間がかかるマルチヘッド ターゲット アテンション ネットワーク (MHTA) に依存しているため、通常は 100 の動作にのみ使用されます。つまり、通常 100 の動作に適用される MHTA のパフォーマンスを、GSU が処理する必要がある 10,000 ~ 100,000 の動作に拡張できるようにするには、どうすればよいか、というのが解決すべき課題です。

2.1 特徴分割と線形マッピング

実際には、MHTA モジュールの計算上のボトルネックは動作シーケンスの線形マッピングにあることがわかりました。これは、非常に長いシーケンスに MHTA を適用する場合に最も高速化する必要があるモジュールでもあります。この記事では、動作シーケンスの埋め込みを巧みに 2 つの部分に分割します。

シーケンスの長さを示し、埋め込み次元を示します)

  • 動作の固有の特徴とは、作成者、期間、カテゴリ、ビデオ ID など、ユーザーの動作とは関係のないビデオのプロパティです。
  • ユーザー- アイテム クロス フィーチャーは、ユーザーの閲覧時間、ユーザーのいいね! フィードバック、閲覧タイムスタンプなど、特定のユーザーとアイテム間のインタラクションによって生成される属性です。

その中で、固有の特性はユーザー行動シリーズ全体で共有されています。つまり、同じビデオ ID の場合、異なるユーザー シーケンスでも対応する行は完全に等しくなりますしたがって、必要な事前計算キャッシュ戦略を使用すると、固有の機能の線形マッピングを効率的なテーブル検索統合ステップに変換できます。

クロスフィーチャの場合、クロスユーザー行動シーケンスは共有されず、各ユーザーは各ビデオと最大 1 回しか対話しないため、上記の戦略は機能しません。そのため、次元圧縮を使用して計算量を削減します。

つまり、図 5 に示すように、各クロス特徴に対して、線形変換によって埋め込みを 1 次元に圧縮します。

図5: 特徴分割と線形マッピング

2.2 TWINにおける注意メカニズム

上記の線形変換に基づいて、従来の MHTA アプローチに触発され、TWIN のアテンション メカニズムを確立しました。各動作の重みは次のとおりです。

知らせ:

  • GSU モジュールには、10,000 ~ 100,000 の動作シーケンスの線形変換が含まれます。計算量は膨大ですが、事前計算とテーブル参照によって高速化できます。
  • 次元圧縮後は計算量が少なくなり、リアルタイムで計算できます。クエリにはクロス属性がないため、この項目はバイアス項目の形式で追加されます。バイアス項目は、各バイアス項目の相対的な重要性を示す学習可能な重みです。
  • これはクエリの線形変換、つまりターゲット ビデオの埋め込みであり、最小限の計算で実行され、シーケンスの長さに依存しません。

したがって、GSU では、上記の重みは、その長さがシーケンスの長さ (10,000 ~ 100,000) に比例しているにもかかわらず、効率的に計算できます。上位 100 個の重みを取得した後、対応する動作を選別し、TA のために ESU に提供しました。

ESU では、計算の精度を確保するために、アイテムには 100 次元しかないため、リアルタイム計算を使用して取得します。そして、Vの加重平均を計算します。

幸いなことに、リアルタイムで計算できる動作はまだ 100 個だけです。

実際の実装では、MHTA 構造を採用し、4heads を使用してユーザーの隠れた興味を多角的に学習します。

2.3 システム設計

図 6 は、システム設計の詳細を示しています。システム設計は次の 3 つの部分に分かれています。

図6: システム設計図

  • トレーニング システム: 毎日 460 億件のユーザー ビデオ インタラクション ログがリアルタイムでトレーニングされ、最新のデータでトレーニングされた最新のモデル パラメーターと埋め込みが 5 分ごとに他のモジュールに同期されます。すべてのモジュールがトレーニング データ内の最新の知識を取得できるようにします。
  • オフライン事前計算:オンライン GSU サービス中のクエリ用に事前に計算し、辞書形式で保存します。ある程度のロングテールフィルタリングを行った後、ビデオ ID を 80 億レベルに制限し、オンラインリクエストの 97% をカバーすることに成功しました。このようにして、線形マッピング計算モジュールは最新の埋め込みと線形マッピング重みマトリックスを使用して、15 分以内に辞書を完全に更新できます。
  • オンライン サービング: 事前計算クエリ戦略により、計算ボトルネック (つまり、) での計算が 99.3% 削減されます。このサービスは現在、ピーク時に毎秒 3,000 万件のビデオ リクエストを処理できます。

3. 実験結果

SOTA 2 段階アルゴリズムとの比較では、アルゴリズムの有効性を検証しました。

図7: SOTAとの比較

トップ100のヒット率を分析することで、2つのステージの一貫性を検証しました。理論上は、当社のアルゴリズム GSU と ESU はまったく同じであり、パフォーマンスは Oracle に近いはずですが、15 分のキャッシュ遅延のため、実際のパフォーマンスはやや不十分です (青色の網掛け部分)。

図8: 2段階の一貫性

私たちは広範囲にわたるアブレーション実験を設計し、2 つのステージの構造的一貫性が重要であるだけでなく、GSU と ESU 間の埋め込み同期もパフォーマンスの向上に貢献することを実証しました。クロスフィーチャ計算におけるバイアス項は単純ですが、効果にとって非常に重要です。同時に、当社の事前計算モジュールは計算時間を大幅に節約しますが、結果への悪影響は非常に小さいです。

3つのビジネスモジュールでのオンラインAB比較実験を通じてアルゴリズムの有効性を検証しました。

著者:Lv Jing、Kuaishou Model and Application 部門

<<:  AlphaFold 2 の最強のライバルが自らを弱体化させます!メタ、12人チームを即刻解散

>>: 

ブログ    
ブログ    
ブログ    

推薦する

人工知能技術がハリウッドスターを「若返らせる」

現代の若者は、ベテランスターたちの若い頃の見事な姿を見る機会がもうないが、それは問題ではない。人工知...

ドキュメント内の単語が増えるほど、モデルは興奮します。 KOSMOS-2.5: テキストが密集した画像を読み取るためのマルチモーダル大規模言語モデル

注目すべき傾向は、印象的な言語出力を生成できる、数百億/数千億のパラメータを備えた、より大規模で複雑...

...

7Bモデルがまた手に入ると最高ですね! 700億のLLaMA2を突破、Appleのコンピュータは

「調整」に 500 ドルかかる 70 億パラメータのモデルは、700 億パラメータの Llama 2...

...

百度のAIが海淀区の「スマートスクリーン」を実現、1秒で全状況を把握

今年初め、海淀シティブレインのインテリジェントオペレーションコマンドセンター(IOCC)が正式に公開...

...

完全なルーティングアルゴリズムの設計目標の分析

ルーティング アルゴリズムには通常、次の 1 つ以上の設計目標があります。最適化最適化とは、メトリッ...

...

20 分で回路基板の組み立て方を学びましょう!オープンソースのSERLフレームワークは、精密制御において100%の成功率を誇り、人間の3倍の速さです。

近年、四足歩行、把持、器用な操作など、ロボットの強化学習技術の分野では大きな進歩が遂げられていますが...

AIoT = AI + IoT、舞台裏で誰が誰をもっと必要としているのでしょうか?

AIoTとは何でしょうか?多くの人にとって「AI+IoT」が答えになると信じています。昨年初めから...

...

体型の変化は千差万別! MIT が宇宙探査用人工物を開発 - モジュール式の自己再構成可能なマイクロロボット

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

脚付きロボットの新たなスキル:ANYmalは山登りを学んでいる

ロボット工学の研究者がここ数年で脚付きロボットで成し遂げたことは実に驚くべきことだ。昨年7月、オレゴ...