【他者から学ぶ】360 多面的関心の想起マインド実践的最適化

1. 事業背景

ショートビデオや情報ストリームなどのシナリオの増加に伴い、ユーザーはこれらのシナリオで露出、再生、クリック、いいね、フォローなど、多数の行動シーケンスを生成するようになりました。これらのシーケンス自体は非常に価値があります。その結果、YouTube DNN [1]、GRU4REC [2]、MIND [3]など、多くのシーケンスモデルが登場しました。これらのモデルは、ユーザーの行動シーケンスをモデル化することで、ユーザーの興味を抽出します。その中でも、MIND モデルは独特の特徴を持っています。

MIND モデルは、2019 年に Alibaba チームによって提案されました。そのユニークな点は、統一されたユーザー表現を取得するのではなく、ユーザーの複数の興味を直接モデル化することにあります。このモデルはカプセルネットワーク CapsuleNet にヒントを得たもので、カプセル間のルーティング計算を通じてユーザーの複数の興味を抽出します。 2020年には、アリババチームと清華大学チームが共同でMINDモデルを改良し、ComiRecモデルを提案した[4]。主な改善点は推論フェーズにあります。オリジナルのMINDは推論を通じて複数のユーザーの興味表現を取得した後、それぞれann検索を実行して想起結果を取得します。 ComiRec モデルは、複数の興味検索後の検索結果を融合し、それによってリコール結果の多様性をさらに確保します。

MIND モデルの論文に従って、モデルを再現し、イカボールのビデオシナリオに適用しました。評価プロセス中に、元の MIND モデルには、カプセルの数とユーザーシーケンスの長さの間に強い結合関係があることや、カプセル間の差異が弱いことなどの問題があることがわかりました。これらの問題に対処するため、初期化カプセルの位置と数を改善し、ルーティングアルゴリズムの計算方法を改善してカプセル間の多様性を高めました。

2. オリジナルのMINDモデルとその発展

上の図は、元の MIND モデルの構造を示しています。このモデルは、主に次のモジュールに分かれています: 埋め込み層、マルチ関心抽出層 (最も重要)、ラベル認識注意層、およびサービング。埋め込み層の部分に関しては、このモデルは他の現在のシーケンスモデルと同じであるため、ここでは詳しく説明しません。その他のモジュールについては、以下で順に紹介していきます。

1. カプセルネットワークとMIND変換

オリジナルのMINDモデルのマルチインタレスト抽出層は主にカプセルネットワーク[5]に基づいています。カプセルとは、完全なベクトルを出力するニューロンの小さなグループです。元の Dense 構造とは異なり、カプセルはルーティングによって取得され、バックプロパゲーション最適化が実行されます。ルーティングアルゴリズムは次のとおりです。

ここで注目すべきは、各下位層カプセル i と上位層カプセル j が双線形マッピング行列 W_ij に対応することです。ここで、カプセルネットワークは、下位層カプセル i と上位層カプセル j 間の Wij 行列を考慮します。これは、ニューラルネットワーク内の上位層ニューロン i と下位層ニューロン j 間の重み wij を模倣します。各カプセルは多次元であるため、カプセル間のルーティングではスカラーではなくマトリックスが使用されます。

この方法に基づいて、MIND モデルはカプセルのルーティングを改善します。

共有には、双線形マッピングマトリックスが使用されます。MIND の著者は、推奨シナリオではユーザーの行動シーケンスの長さが不定であることを考慮し、複数の興味を同じ空間にマッピングしたいと考えています。一方、MIND の著者は、推奨シナリオでは位置情報は重要ではなく、配列位置ごとに異なるマッピングマトリックスを設計する必要はないと想定していると考えられます。

共有双線形行列を使用しているため、ルーティング logit b_ij が依然としてゼロで初期化されている場合、最初のラウンドの上部のカプセルはすべて同じになります。これは将来も同じままで、基礎となるすべてのカプセルの平均を表します。したがって、ルーティング logit b_ij には通常のランダム初期化が使用されます。

この論文では、ユーザーにとって適切なカプセルの数はユーザーシーケンスの数とほぼ線形関係にあると仮定して、カプセルの数を動的に調整する方法も提案しています。実際、ユーザーにとって適切なカプセルの数は、ビジネスシナリオやデータの内部構造に関係しており、一般化することは困難です。

2. ラベルを意識して提供する

ラベル認識段階では、候補項目について、各関心の重要度が注目度を通じて決定されます。ソフトマックスを計算する前に、ロジットをpで指数的に乗算し、pを調整することで複数の関心の重み間の差の度合いを調整します。モデル損失関数は対数ソフトマックスを使用します。次の点を指摘しておく必要があります。

注意を使用して複数のユーザーの興味を集約する必要があります。これにより、更新中にユーザーシーケンス内のニッチな興味が主要な興味によって影響を受けて隠されることが防止され、より効果的な更新と興味の捕捉が実現します。ラベルを意識した注目が、多様な関心を集める鍵であると信じています。
p を指数とする演算は、実際のトレーニングでは制限があります。選択された p は、関数を通過した後もスコアが順序どおりに保たれるように、x^p が単調関数であることを満たす必要があります。ペアワイズスコアは、τ>0をコントロールに割ることで置き換えることができます。

提供フェーズでは、MIND モデルはベクトル検索の各関心 emb を個別に計算し、上位 N 個のリソースを取得します。 MIND のフォローアップ作業では、アリババチームは複数の興味関心インデックスのトップ N の結果をマージする方法の研究と改善を行いました。

3. 利点と既存の問題点

MIND モデルの利点は、複数のユーザーの興味を明示的にモデル化することです。論文の比較では、複数のユーザーベクトル表現をモデル化することが推奨に非常に役立つことが示されています。これは、多くの種類のリソースがあり、ユーザーの興味が幅広い、電子商取引などの推奨シナリオに特に当てはまります。

分析と実験を通じて、元の MIND モデルには次のような問題があることもわかりました。

カプセルの数に関する強力な仮定: MIND は、カプセルの数とユーザーシーケンスの長さの間に準線形関係があると仮定します。これは理にかなっています。ただし、ユーザーシーケンスの内部構造は考慮されていません。
カプセル初期化のランダム性: ルーティングロジットランダム性により、カプセル初期化のランダム性と不十分な安定性が生じます。
カプセル間の類似性: カプセル間の類似性が高すぎると、モデルが同じ興味関心を繰り返し捕捉し、興味関心の想起範囲が不十分になる可能性があります。
カプセル内のリソースコンテンツの一貫性が不十分: カプセル内のリソースコンテンツに一貫性が欠けており、説明が不十分な場合があります。

3. MIND改善プロセス

上記の欠点に基づいて、カプセルの初期化、ルーティング計算プロセス、データとトレーニング方法という 3 つの側面から改善が行われます。

1. カプセル初期化の改善

カプセルルーティングのプロセスは、クラスターコンピューティングのプロセスによく似ています。クラスタリングアルゴリズム Kmeans を例にとると、このアルゴリズムでは、カプセルの初期化位置がクラスタリング結果に大きな影響を与えます。カプセルネットワークと同様に、カプセルの初期化位置もカプセルルーティング計算に大きな影響を与えると考えられます。実際、オリジナルの Mind 論文ではカプセルを直接初期化するのではなく、ロジットルーティングマトリックスを初期化して、カプセルの最初のラウンドの結果を計算します。この方法自体は、初期カプセル間の位置関係を制約したり制限したりするものではありませんが、初期化されたカプセルが可能な限り離れた場所に保たれ、さまざまな関心を可能な限りカバーできるようになることを期待しています。そこで、まず kmeans++ の maxmin に似た初期化戦略を採用して、カプセルの位置を直接初期化しました。

（１）マックスミニ法

ユーザーのすべてのアイテムが S であると仮定すると、このセットはカプセルの候補セットになります。まず、最初のカプセルの初期化位置として S 内のアイテムをランダムに選択します。選択されたカプセルがすべて C であると仮定し、残りのすべてのアイテムの中で各アイテムと現在のカプセルセット C 間の距離を計算します。ここで、点xから集合Cまでの距離を次のように定義することに注意してください。

残りのアイテムから最も遠い距離にあるアイテムをこのラウンドで選択されたカプセルとして選択し、カプセルセットCに追加します。つまり、

このプロセスは、選択されたカプセルの数が必要なカプセルの数に達するまで繰り返されます。アルゴリズムの手順は次のとおりです。

ユーザーが必要とするカプセル数 K は、ユーザーシーケンスの長さに基づいて計算されます。
最初の初期化カプセルとしてランダムにアイテムを選択し、これまで選択されたカプセルをすべてCとして記録します。
残りのすべての項目と C 間の距離を計算します。
C から最も遠い点を次のカプセルとして取り、それを C に追加します。
C 内のカプセルの数が K に達するまで手順 3 ～ 4 を繰り返し、その後停止します。

また、この方法の初期化結果を直感的に説明するために、以下の例も示します。青い点は 2 つの分布によって生成されます。100 個のポイントが [-10,10]×[-10,10] で均一にサンプリングされ、次に、期待値が (±5, ±5)、分散が 1 である 4 つの正規分布のそれぞれから 20 個のポイントがサンプリングされ、合計 180 個のポイントになります。 4 つのカプセルが maxmin 初期化メソッドを使用してサンプリングされ、図のオレンジ色の点が取得され、最終的にルーティングされたカプセルの位置が図の赤い点になります。

生成した正規分布は 4 つの象限に配置されているため、この初期化方法ではカプセルもそれぞれ 4 つの象限で初期化されることに注意してください。カプセルのルーティング計算後、4 つのカプセルは、最も近いポイントクラスターの近傍まで反復されます。この初期化方法は、基本的に期待どおりです。

ただし、この方法にはまだ欠点があります。

カプセルの数 K は、ユーザーシーケンスの長さによって異なります。
初期の中心位置は端にあり、外れ値のリスクが高まり、シーケンスが短い場合は問題がさらに深刻になります。
ランダム性: 初期化はそれぞれ異なり、収束結果が一貫していることは保証されません。

（２）マルコフ法

問題を再検討すると、mm メソッドのグラフと同じ方法で次のグラフが生成されます。このグラフには 4 つのクラスターがあることは簡単にわかるので、このプロセスをモデル化したいと思います。

表現空間全体において、点の密度が高いほど、これらの点が同じ関心事に属し、同じカプセルでカバーされる可能性が高くなると考えています。カプセルの初期化位置を選択することは、実際には、密度が最大となる点を選択する「点選択問題」です。ある点の位置密度を特徴付けるには、その点と他の点との類似度を計算します。シーケンス内の 2 つのポイント間の距離は、シーケンス内の「ポイント選択問題」に必要なすべての構造情報を表します。具体的には、ある点に複数の隣接点があり、それらの隣接点が点に近いほど、その点の近くの密度が高くなるため、その点は候補カプセルとみなされます。この考えに基づいて、PageRank アルゴリズムで使用される方法と同様の方法を使用してノードの重要度 (つまり、周辺密度) を計算します。これは本質的には、マルコフ過程に基づくグラフラベル伝播問題です。

離散マルコフ過程について簡単に紹介します。まず、離散マルコフ過程はランダム過程です。「離散」とは、ランダム過程が時間的に連続しているのではなく、時間 t_0<t_1<…<t_𝑘 において多くの離散的な瞬間を持つことを意味します。時間𝑡の間、プロセスは対応する状態x(t)を持ちます。 Aは𝑛×𝑛状態転送行列で、その列の合計は1であり、𝐴_𝑖𝑗はn点のうちj番目の点が1回の転送後にi番目の点に到達する確率を表します。そして時刻𝑡において、時刻𝑡+1の状態を求める場合、計算式は𝑥_(𝑡+1)=𝐴*𝑥_𝑡となり、時刻𝑡+1の状態は時刻𝑡の状態と遷移確率のみに関係し、それ以前の時刻の状態とは関係がないことを意味します。

上記の転送プロセスは継続され、特定の条件が満たされた場合に停止できます。つまり、𝑥_(𝑡+1)≈𝑥_𝑡となる状態𝑚が存在し、このときの状態がマルコフ安定状態である。

私たちの問題では、時刻 t_0 における n 点の初期状態 x(𝑡_0) はすべて 1 のベクトルとして定義されます。つまり、各点の重要度は最初は等しいということです。ポイント間の類似性行列を構築し、その列を正規化して状態転送行列を取得します (収束状態の存在を保証するため)。転送計算を複数回実行した後、安定した状態、つまり状態転送行列の固有値が 1 の固有ベクトルを取得します。

以下に、上図のマルコフ安定状態における各点の重要度スコアを示します。密度の高い 4 つのクラスターのスコアが最も高く、遠いポイントのスコアが非常に低いことが簡単にわかります。

各ポイントの重要度に応じてカプセルを選択します。連続関数の最大点の定義を参照します。つまり、点 x に対して、非常に小さい ϵ>0 が存在し、点の値が x を中心、 ϵ を半径とする近傍で最大になる場合、x は最大点です。同様に、カプセルの選択方法は、点 x と与えられた半径 r>0 に対して、まず、x を中心とし、半径 r を持つ近傍に、少なくとも 2 つの点があり (x が孤立した点ではないことを保証するため)、x の重要度が最大であることです。このような x は候補カプセルとして記録されます。条件を満たす候補カプセルのうち、近傍数が多い候補カプセルが優先的にカプセル初期化ポイントとして選択され、選択されたカプセルの数は設定された最大カプセル数を超えません。

上記の方法で選択されたカプセルは、下の図に示されています。合計 4 つの候補カプセルが選択され、カプセルの位置はすべて、より重要度の高いポイントクラスター内にあります。この初期化スキームは、期待どおりです。

この方法で得られるカプセルの数は、ユーザーシーケンスの長さに応じて計算されたり、ハイパーパラメータとして直接設定されたりするのではなく、ユーザーシーケンス自体の内部構造に依存することに注意してください。また、プロセスにはランダムな部分が含まれず、複数の推論の初期化結果は一貫しています。

マルコフ過程を使用してカプセル法を初期化するプロセスを次のようにまとめます。

ポイント間の遷移確率を計算し、各ポイントに初期重要度 1 を指定して確率転送行列を構築します。
マルコフ定常過程を計算し、定常状態における各点の重要度を取得します。
各ポイントの近傍の数と近傍の重要度に基づいて、すべての候補カプセルを検索します。
最大カプセル値を超えずに、近隣の数が最も多い候補カプセルが初期化カプセルとして優先的に選択されます。

2. ルーティングプロセスの変換

ルーティングプロセスでは、まずいくつかの削除を行いました。要約すると次のようになります。

双線形写像行列 S を削除します。
スカッシュ関数がL2ノルムに変更されました。
Logitルーティングマトリックスはソフトマックスを使用せず、各列の最大値を保持し、他の値を0に設定します。

まず、双線形マッピング行列 S を削除します。マルチインタレストモデルでは、シーケンス内のリソースの位置は重要ではないと考えているため、上位層カプセルと下位層カプセルごとに異なるマッピング行列 S_ij を設定することは考慮しません。次に、MIND モデルでは、埋め込み層をカプセルの最初の層として使用し、複数の関心をカプセルの 2 番目の層として使用しますが、関心抽出モジュールにはこれらの 2 つのカプセル層しかありません。マッピング行列 S は常にカプセルの最初のレイヤーに作用します。これは、S を線形変換行列として使用してすべてのリソース埋め込みに対して線形変換を実行することと同じです。埋め込みと S の両方を学習する必要がありますが、これは不要です。したがって、行列 S を単に削除します。

オリジナルのスカッシュ関数については、私たちのモデルは L2 ノルムを使用して emb 係数を 1 に変換するため、オリジナルの論文のスカッシュ関数は使用せず、直接 L2 ノルム操作を使用します。

最大の変更点は、関心カプセルに対する各動作シーケンスの重みを直接決定するロジットルーティングマトリックスの処理です。元のロジットルーティングマトリックスは密です。つまり、シーケンス内の各アイテムが各カプセルに寄与するため、カプセル間の弱い違いが生じやすくなります。元のマインドペーパーがこのステップでソフトマックスを実行しても、アイテムからカプセルへのスコアの差が大きくなるだけです。各カプセルスコアの項目の最大値のみを保持し、その他をゼロに設定することで、マトリックスをスパースにします。この方法では、各ルーティングラウンドの各アイテムは 1 つのカプセルの更新にのみ貢献します。また、ロジットルーティングでは累積を使用せず、計算の各ラウンド後に直接上書きします。

上記の 2 つの処理方法も、kmeans アルゴリズムの更新方法を模倣しています。 kmeans では、各項目は 1 つのクラスターにのみ属することができ、他のクラスターに対するスコアは 0 になります。また、クラスターの現在の反復は、このラウンドの各クラスターの下の項目に基づいてのみ計算され、前のラウンドのクラスターの下の項目は考慮されません。

3.データとトレーニング

シーケンスモデルまたは言語モデルのトレーニングは、本質的にはシーケンス内のトークンの共起を学習することであり、この共線性は高次である可能性があります。今日議論するモデルは、中間の潜在的要因を通じてこの共線性を説明しながら、トークンの共起を解決することを目的としています。潜在的な要因を明示的にモデル化することで、ユーザー行動における潜在的な関心ポイントを捉え、推奨プロセス中にユーザーの関心を制御できるようになります。

（１）リソース表現学習：

完全なエンドツーエンドの学習では、リソースの表現は、リソースコンテンツの特性の一貫性を確保することなく、動作シーケンスにおけるリソースの共起を本質的に反映します。推奨結果の解釈可能性を確保するために、初期化にはリソースの事前トレーニング済みの埋め込みを使用し、リソースが入力として使用されたときに埋め込みに対して修正操作、つまり停止勾配を実行します。同時に、カプセルネットワーク内の双線形マッピングマトリックス S を削除して、関心ポイントをリソースの元の意味空間のクラスタリングにさらに制限します。実験では、この操作によってモデルは大きく制限されるものの、トレーニングの有効性と解釈可能性は十分に保証されることが示されています。これは、ユーザーの履歴行動の範囲が広く（数か月から半年に及ぶ）、プラットフォームのコンテンツ配信とユーザーの行動パターンが絶えず変化している場合に特に重要です。
同時に、リソースがラベル認識アテンション計算およびサンプリングされたソフトマックス損失関数計算の出力側ターゲットとして使用される場合、入力層と一致するリソース事前トレーニング式を使用して初期化され、通常の勾配更新が実行されます。これの利点は、初期表現が入力層と一致しているため、より効率的なラベル認識の注意計算が可能になり、通常の勾配更新により、モデルが一貫したフレーム化された意味空間を維持しながら、コーパス内のリソースの顕著性情報を取得することを学習できることです。

（２）ネガティブサンプリング戦略：

コーパスに出現するリソースの頻度のべき乗分布 (0-1) は、リソースが負のサンプルとしてサンプリングされる確率として使用され、コーパス内のスーパーヘッドリソースをより適切に制御します。一般的に言えば、べき乗則が大きいほど、人気のあるリソースに対する抑制効果が顕著になります。
非常に人気のないリソースの場合、当社のソリューションはコンテンツの一貫性と解釈可能性を保証し、ネガティブサンプルである確率が極めて低いため、推論フェーズでカプセルベクトル検索を実行すると、上位にランク付けされやすくなります。しかし、確率があるところには、事前確率がなければなりません。各リソースに基本的な事前頻度 L を与えます。具体的な値は、ビジネスニーズやコーパスの分布に応じて柔軟に調整することができ、この方法により、推奨結果の「テールアップ」現象を効果的に抑制できます。

次の図は、最終的に改良された MIND の構造を示しています。

4. 実際のモデリング効果

1. カプセル初期化実験結果

私たちが提案したマルコフカプセル初期化の効果を検証するために、ユーザーの実際の行動シーケンスを使用し、データに対してマルコフカプセル初期化を実行してカプセルを選択し、t-SNEアルゴリズムによる次元削減後に視覚化しました。これにより、実際のシナリオで私たちの方法の効果をより直感的に提示しました。視覚化では、リソースラベルを使用して散布図を描画し、太字の黒いラベルはマルコフ過程によって選択された初期化カプセルを表します。

以下に、長い動作シーケンスである 2 つのユーザーシーケンスを例として抽出します。前者の行動シーケンスにおけるリソースの種類は比較的集中しており、主に面白いビデオとアニメーションですが、後者の興味は比較的分散しており、アニメーション、ゲーム、親子、動物、プロットなどのタイプが含まれます。長いシーケンスと比較的集中した関心を持つ例 1 の場合、主な関心を捉えるには 2 ～ 4 個のカプセルのみが必要であることに注意してください。ただし、シーケンスの長さに基づいて必要なカプセル数を計算する従来の方法を使用すると、強制的に 7 ～ 8 個のカプセルが割り当てられます。シーケンスが長く、関心が散在している例 2 では、主な関心はカプセルによって捕捉され、エッジポイントや孤立したポイントの存在によってカプセルが逸脱することはありません。

次の 2 つの例は、ユーザーカプセルの数と初期化位置を適応的に決定するマルコフカプセル初期化方式の利点を十分に示しています。

2. 実際の事業効果の評価

過去 6 か月間のユーザーの肯定的なフィードバック行動に基づくマルチ関心モデリングのリコールでは、リコール率と肯定的なフィードバック率の明らかな改善に加えて、最も重要な利点は、リコールカテゴリの多様性と、単位露出でカバーされるさまざまなリソースと著者の量に反映されていることがわかりました。

V. 結論

本稿では、主にアリババが提案したマルチ関心抽出モデルの関心抽出プロセスを反復します。ビジネス最適化の需要と組み合わせ、カプセルのランダムマッピング初期化を基礎カプセルからの選択に変更する戦略を提案し、2つの初期カプセル選択スキームも提案します。

実用化の観点から見ると、maxmin ソリューションはシンプルで実用的です。ビジネスにおいて関心ポイントの差別化に対する要件は高くないが、エッジ関心 (検出と発見) に対する要求が高いシナリオに適しています。マルコフ法は、ユーザーの関心の対象範囲、識別、重要性に対する要件が高く、計算の複雑さが若干高いシナリオに適しています。

6. 参考文献

[1] Covington P、Adams J、Sargin E. YouTubeレコメンデーションのためのディープニューラルネットワーク[C]//Proceedings of the 10th ACM conference on recommendations systems. 2016: 191-198.

[2] Hidasi B、Karatzoglou A、Baltrunas L、et al. リカレントニューラルネットワークによるセッションベースの推奨[J]。arXivプレプリントarXiv：1511.06939、2015。

[3] Li C、Liu Z、Wu M、他「Tmallでの推奨のための動的ルーティングを備えたマルチインタレストネットワーク[C]//Proceedings of the 28th ACM international conference on information and knowledge management. 2019: 2615-2623」

[4] Cen Y、Zhang J、Zou X、他「制御可能なマルチインタレストフレームワークによる推薦[C]//Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2020: 2942-2951.

[5] Sabour S、Frosst N、Hinton G E. カプセル間の動的ルーティング[J]。神経情報処理システムの進歩、2017年、30。

<<: ChatGPT が処理できない 5 つのプログラミングタスク

>>: 世界初の電動ロボットが「宙返り」を練習し、ボストン・ダイナミクス・アトラスに挑戦！コーヒーアートも作れます。