1. 事業背景ショートビデオや情報ストリームなどのシナリオの増加に伴い、ユーザーはこれらのシナリオで露出、再生、クリック、いいね、フォローなど、多数の行動シーケンスを生成するようになりました。これらのシーケンス自体は非常に価値があります。その結果、YouTube DNN [1]、GRU4REC [2]、MIND [3]など、多くのシーケンスモデルが登場しました。これらのモデルは、ユーザーの行動シーケンスをモデル化することで、ユーザーの興味を抽出します。その中でも、MIND モデルは独特の特徴を持っています。 MIND モデルは、2019 年に Alibaba チームによって提案されました。そのユニークな点は、統一されたユーザー表現を取得するのではなく、ユーザーの複数の興味を直接モデル化することにあります。このモデルはカプセル ネットワーク CapsuleNet にヒントを得たもので、カプセル間のルーティング計算を通じてユーザーの複数の興味を抽出します。 2020年には、アリババチームと清華大学チームが共同でMINDモデルを改良し、ComiRecモデルを提案した[4]。主な改善点は推論フェーズにあります。オリジナルのMINDは推論を通じて複数のユーザーの興味表現を取得した後、それぞれann検索を実行して想起結果を取得します。 ComiRec モデルは、複数の興味検索後の検索結果を融合し、それによってリコール結果の多様性をさらに確保します。 MIND モデルの論文に従って、モデルを再現し、イカボールのビデオシナリオに適用しました。評価プロセス中に、元の MIND モデルには、カプセルの数とユーザー シーケンスの長さの間に強い結合関係があることや、カプセル間の差異が弱いことなどの問題があることがわかりました。これらの問題に対処するため、初期化カプセルの位置と数を改善し、ルーティングアルゴリズムの計算方法を改善してカプセル間の多様性を高めました。 2. オリジナルのMINDモデルとその発展上の図は、元の MIND モデルの構造を示しています。このモデルは、主に次のモジュールに分かれています: 埋め込み層、マルチ関心抽出層 (最も重要)、ラベル認識注意層、およびサービング。埋め込み層の部分に関しては、このモデルは他の現在のシーケンス モデルと同じであるため、ここでは詳しく説明しません。その他のモジュールについては、以下で順に紹介していきます。 1. カプセルネットワークとMIND変換オリジナルのMINDモデルのマルチインタレスト抽出層は主にカプセルネットワーク[5]に基づいています。カプセルとは、完全なベクトルを出力するニューロンの小さなグループです。元の Dense 構造とは異なり、カプセルはルーティングによって取得され、バックプロパゲーション最適化が実行されます。ルーティング アルゴリズムは次のとおりです。 ここで注目すべきは、各下位層カプセル i と上位層カプセル j が双線形マッピング行列 W_ij に対応することです。ここで、カプセル ネットワークは、下位層カプセル i と上位層カプセル j 間の Wij 行列を考慮します。これは、ニューラル ネットワーク内の上位層ニューロン i と下位層ニューロン j 間の重み wij を模倣します。各カプセルは多次元であるため、カプセル間のルーティングではスカラーではなくマトリックスが使用されます。 この方法に基づいて、MIND モデルはカプセルのルーティングを改善します。 共有には、双線形マッピング マトリックスが使用されます。MIND の著者は、推奨シナリオではユーザーの行動シーケンスの長さが不定であることを考慮し、複数の興味を同じ空間にマッピングしたいと考えています。一方、MIND の著者は、推奨シナリオでは位置情報は重要ではなく、配列位置ごとに異なるマッピング マトリックスを設計する必要はないと想定していると考えられます。 共有双線形行列を使用しているため、ルーティング logit b_ij が依然としてゼロで初期化されている場合、最初のラウンドの上部のカプセルはすべて同じになります。これは将来も同じままで、基礎となるすべてのカプセルの平均を表します。したがって、ルーティング logit b_ij には通常のランダム初期化が使用されます。 この論文では、ユーザーにとって適切なカプセルの数はユーザーシーケンスの数とほぼ線形関係にあると仮定して、カプセルの数を動的に調整する方法も提案しています。実際、ユーザーにとって適切なカプセルの数は、ビジネス シナリオやデータの内部構造に関係しており、一般化することは困難です。 2. ラベルを意識して提供するラベル認識段階では、候補項目について、各関心の重要度が注目度を通じて決定されます。ソフトマックスを計算する前に、ロジットをpで指数的に乗算し、pを調整することで複数の関心の重み間の差の度合いを調整します。モデル損失関数は対数ソフトマックスを使用します。次の点を指摘しておく必要があります。
提供フェーズでは、MIND モデルはベクトル検索の各関心 emb を個別に計算し、上位 N 個のリソースを取得します。 MIND のフォローアップ作業では、アリババチームは複数の興味関心インデックスのトップ N の結果をマージする方法の研究と改善を行いました。 3. 利点と既存の問題点MIND モデルの利点は、複数のユーザーの興味を明示的にモデル化することです。論文の比較では、複数のユーザー ベクトル表現をモデル化することが推奨に非常に役立つことが示されています。これは、多くの種類のリソースがあり、ユーザーの興味が幅広い、電子商取引などの推奨シナリオに特に当てはまります。 分析と実験を通じて、元の MIND モデルには次のような問題があることもわかりました。
3. MIND改善プロセス上記の欠点に基づいて、カプセルの初期化、ルーティング計算プロセス、データとトレーニング方法という 3 つの側面から改善が行われます。 1. カプセル初期化の改善カプセル ルーティングのプロセスは、クラスター コンピューティングのプロセスによく似ています。クラスタリング アルゴリズム Kmeans を例にとると、このアルゴリズムでは、カプセルの初期化位置がクラスタリング結果に大きな影響を与えます。カプセル ネットワークと同様に、カプセルの初期化位置もカプセル ルーティング計算に大きな影響を与えると考えられます。実際、オリジナルの Mind 論文ではカプセルを直接初期化するのではなく、ロジット ルーティング マトリックスを初期化して、カプセルの最初のラウンドの結果を計算します。この方法自体は、初期カプセル間の位置関係を制約したり制限したりするものではありませんが、初期化されたカプセルが可能な限り離れた場所に保たれ、さまざまな関心を可能な限りカバーできるようになることを期待しています。そこで、まず kmeans++ の maxmin に似た初期化戦略を採用して、カプセルの位置を直接初期化しました。 (1)マックスミニ法ユーザーのすべてのアイテムが S であると仮定すると、このセットはカプセルの候補セットになります。まず、最初のカプセルの初期化位置として S 内のアイテムをランダムに選択します。選択されたカプセルがすべて C であると仮定し、残りのすべてのアイテムの中で各アイテムと現在のカプセル セット C 間の距離を計算します。ここで、点xから集合Cまでの距離を次のように定義することに注意してください。 残りのアイテムから最も遠い距離にあるアイテムをこのラウンドで選択されたカプセルとして選択し、カプセルセットCに追加します。つまり、 このプロセスは、選択されたカプセルの数が必要なカプセルの数に達するまで繰り返されます。アルゴリズムの手順は次のとおりです。
また、この方法の初期化結果を直感的に説明するために、以下の例も示します。青い点は 2 つの分布によって生成されます。100 個のポイントが [-10,10]×[-10,10] で均一にサンプリングされ、次に、期待値が (±5, ±5)、分散が 1 である 4 つの正規分布のそれぞれから 20 個のポイントがサンプリングされ、合計 180 個のポイントになります。 4 つのカプセルが maxmin 初期化メソッドを使用してサンプリングされ、図のオレンジ色の点が取得され、最終的にルーティングされたカプセルの位置が図の赤い点になります。 生成した正規分布は 4 つの象限に配置されているため、この初期化方法ではカプセルもそれぞれ 4 つの象限で初期化されることに注意してください。カプセルのルーティング計算後、4 つのカプセルは、最も近いポイント クラスターの近傍まで反復されます。この初期化方法は、基本的に期待どおりです。 ただし、この方法にはまだ欠点があります。
(2)マルコフ法問題を再検討すると、mm メソッドのグラフと同じ方法で次のグラフが生成されます。このグラフには 4 つのクラスターがあることは簡単にわかるので、このプロセスをモデル化したいと思います。 表現空間全体において、点の密度が高いほど、これらの点が同じ関心事に属し、同じカプセルでカバーされる可能性が高くなると考えています。カプセルの初期化位置を選択することは、実際には、密度が最大となる点を選択する「点選択問題」です。ある点の位置密度を特徴付けるには、その点と他の点との類似度を計算します。シーケンス内の 2 つのポイント間の距離は、シーケンス内の「ポイント選択問題」に必要なすべての構造情報を表します。具体的には、ある点に複数の隣接点があり、それらの隣接点が点に近いほど、その点の近くの密度が高くなるため、その点は候補カプセルとみなされます。この考えに基づいて、PageRank アルゴリズムで使用される方法と同様の方法を使用してノードの重要度 (つまり、周辺密度) を計算します。これは本質的には、マルコフ過程に基づくグラフ ラベル伝播問題です。 離散マルコフ過程について簡単に紹介します。まず、離散マルコフ過程はランダム過程です。「離散」とは、ランダム過程が時間的に連続しているのではなく、時間 t_0<t_1<…<t_𝑘 において多くの離散的な瞬間を持つことを意味します。時間𝑡の間、プロセスは対応する状態x(t)を持ちます。 Aは𝑛×𝑛状態転送行列で、その列の合計は1であり、𝐴_𝑖𝑗はn点のうちj番目の点が1回の転送後にi番目の点に到達する確率を表します。そして時刻𝑡において、時刻𝑡+1の状態を求める場合、計算式は𝑥_(𝑡+1)=𝐴*𝑥_𝑡となり、時刻𝑡+1の状態は時刻𝑡の状態と遷移確率のみに関係し、それ以前の時刻の状態とは関係がないことを意味します。 上記の転送プロセスは継続され、特定の条件が満たされた場合に停止できます。つまり、𝑥_(𝑡+1)≈𝑥_𝑡となる状態𝑚が存在し、このときの状態がマルコフ安定状態である。 私たちの問題では、時刻 t_0 における n 点の初期状態 x(𝑡_0) はすべて 1 のベクトルとして定義されます。つまり、各点の重要度は最初は等しいということです。ポイント間の類似性行列を構築し、その列を正規化して状態転送行列を取得します (収束状態の存在を保証するため)。転送計算を複数回実行した後、安定した状態、つまり状態転送行列の固有値が 1 の固有ベクトルを取得します。 以下に、上図のマルコフ安定状態における各点の重要度スコアを示します。密度の高い 4 つのクラスターのスコアが最も高く、遠いポイントのスコアが非常に低いことが簡単にわかります。 各ポイントの重要度に応じてカプセルを選択します。連続関数の最大点の定義を参照します。つまり、点 x に対して、非常に小さい ϵ>0 が存在し、点の値が x を中心、 ϵ を半径とする近傍で最大になる場合、x は最大点です。同様に、カプセルの選択方法は、点 x と与えられた半径 r>0 に対して、まず、x を中心とし、半径 r を持つ近傍に、少なくとも 2 つの点があり (x が孤立した点ではないことを保証するため)、x の重要度が最大であることです。このような x は候補カプセルとして記録されます。条件を満たす候補カプセルのうち、近傍数が多い候補カプセルが優先的にカプセル初期化ポイントとして選択され、選択されたカプセルの数は設定された最大カプセル数を超えません。 上記の方法で選択されたカプセルは、下の図に示されています。合計 4 つの候補カプセルが選択され、カプセルの位置はすべて、より重要度の高いポイント クラスター内にあります。この初期化スキームは、期待どおりです。 この方法で得られるカプセルの数は、ユーザー シーケンスの長さに応じて計算されたり、ハイパーパラメータとして直接設定されたりするのではなく、ユーザー シーケンス自体の内部構造に依存することに注意してください。また、プロセスにはランダムな部分が含まれず、複数の推論の初期化結果は一貫しています。 マルコフ過程を使用してカプセル法を初期化するプロセスを次のようにまとめます。
2. ルーティングプロセスの変換ルーティングプロセスでは、まずいくつかの削除を行いました。要約すると次のようになります。
まず、双線形マッピング行列 S を削除します。マルチインタレストモデルでは、シーケンス内のリソースの位置は重要ではないと考えているため、上位層カプセルと下位層カプセルごとに異なるマッピング行列 S_ij を設定することは考慮しません。次に、MIND モデルでは、埋め込み層をカプセルの最初の層として使用し、複数の関心をカプセルの 2 番目の層として使用しますが、関心抽出モジュールにはこれらの 2 つのカプセル層しかありません。マッピング行列 S は常にカプセルの最初のレイヤーに作用します。これは、S を線形変換行列として使用してすべてのリソース埋め込みに対して線形変換を実行することと同じです。埋め込みと S の両方を学習する必要がありますが、これは不要です。したがって、行列 S を単に削除します。 オリジナルのスカッシュ関数については、私たちのモデルは L2 ノルムを使用して emb 係数を 1 に変換するため、オリジナルの論文のスカッシュ関数は使用せず、直接 L2 ノルム操作を使用します。 最大の変更点は、関心カプセルに対する各動作シーケンスの重みを直接決定するロジット ルーティング マトリックスの処理です。元のロジットルーティングマトリックスは密です。つまり、シーケンス内の各アイテムが各カプセルに寄与するため、カプセル間の弱い違いが生じやすくなります。元のマインドペーパーがこのステップでソフトマックスを実行しても、アイテムからカプセルへのスコアの差が大きくなるだけです。各カプセル スコアの項目の最大値のみを保持し、その他をゼロに設定することで、マトリックスをスパースにします。この方法では、各ルーティング ラウンドの各アイテムは 1 つのカプセルの更新にのみ貢献します。また、ロジット ルーティングでは累積を使用せず、計算の各ラウンド後に直接上書きします。 上記の 2 つの処理方法も、kmeans アルゴリズムの更新方法を模倣しています。 kmeans では、各項目は 1 つのクラスターにのみ属することができ、他のクラスターに対するスコアは 0 になります。また、クラスターの現在の反復は、このラウンドの各クラスターの下の項目に基づいてのみ計算され、前のラウンドのクラスターの下の項目は考慮されません。 3.データとトレーニング シーケンス モデルまたは言語モデルのトレーニングは、本質的にはシーケンス内のトークンの共起を学習することであり、この共線性は高次である可能性があります。今日議論するモデルは、中間の潜在的要因を通じてこの共線性を説明しながら、トークンの共起を解決することを目的としています。潜在的な要因を明示的にモデル化することで、ユーザー行動における潜在的な関心ポイントを捉え、推奨プロセス中にユーザーの関心を制御できるようになります。 (1)リソース表現学習:
(2)ネガティブサンプリング戦略:
次の図は、最終的に改良された MIND の構造を示しています。 4. 実際のモデリング効果1. カプセル初期化実験結果私たちが提案したマルコフカプセル初期化の効果を検証するために、ユーザーの実際の行動シーケンスを使用し、データに対してマルコフカプセル初期化を実行してカプセルを選択し、t-SNEアルゴリズムによる次元削減後に視覚化しました。これにより、実際のシナリオで私たちの方法の効果をより直感的に提示しました。視覚化では、リソース ラベルを使用して散布図を描画し、太字の黒いラベルはマルコフ過程によって選択された初期化カプセルを表します。 以下に、長い動作シーケンスである 2 つのユーザー シーケンスを例として抽出します。前者の行動シーケンスにおけるリソースの種類は比較的集中しており、主に面白いビデオとアニメーションですが、後者の興味は比較的分散しており、アニメーション、ゲーム、親子、動物、プロットなどのタイプが含まれます。長いシーケンスと比較的集中した関心を持つ例 1 の場合、主な関心を捉えるには 2 ~ 4 個のカプセルのみが必要であることに注意してください。ただし、シーケンスの長さに基づいて必要なカプセル数を計算する従来の方法を使用すると、強制的に 7 ~ 8 個のカプセルが割り当てられます。シーケンスが長く、関心が散在している例 2 では、主な関心はカプセルによって捕捉され、エッジ ポイントや孤立したポイントの存在によってカプセルが逸脱することはありません。 次の 2 つの例は、ユーザー カプセルの数と初期化位置を適応的に決定するマルコフ カプセル初期化方式の利点を十分に示しています。 2. 実際の事業効果の評価過去 6 か月間のユーザーの肯定的なフィードバック行動に基づくマルチ関心モデリングのリコールでは、リコール率と肯定的なフィードバック率の明らかな改善に加えて、最も重要な利点は、リコール カテゴリの多様性と、単位露出でカバーされるさまざまなリソースと著者の量に反映されていることがわかりました。 V. 結論本稿では、主にアリババが提案したマルチ関心抽出モデルの関心抽出プロセスを反復します。ビジネス最適化の需要と組み合わせ、カプセルのランダムマッピング初期化を基礎カプセルからの選択に変更する戦略を提案し、2つの初期カプセル選択スキームも提案します。 実用化の観点から見ると、maxmin ソリューションはシンプルで実用的です。ビジネスにおいて関心ポイントの差別化に対する要件は高くないが、エッジ関心 (検出と発見) に対する要求が高いシナリオに適しています。マルコフ法は、ユーザーの関心の対象範囲、識別、重要性に対する要件が高く、計算の複雑さが若干高いシナリオに適しています。 6. 参考文献[1] Covington P、Adams J、Sargin E. YouTubeレコメンデーションのためのディープニューラルネットワーク[C]//Proceedings of the 10th ACM conference on recommendations systems. 2016: 191-198. [2] Hidasi B、Karatzoglou A、Baltrunas L、et al. リカレントニューラルネットワークによるセッションベースの推奨[J]。arXivプレプリントarXiv:1511.06939、2015。 [3] Li C、Liu Z、Wu M、他「Tmallでの推奨のための動的ルーティングを備えたマルチインタレストネットワーク[C]//Proceedings of the 28th ACM international conference on information and knowledge management. 2019: 2615-2623」 [4] Cen Y、Zhang J、Zou X、他「制御可能なマルチインタレストフレームワークによる推薦[C]//Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2020: 2942-2951. [5] Sabour S、Frosst N、Hinton G E. カプセル間の動的ルーティング[J]。神経情報処理システムの進歩、2017年、30。 |
<<: ChatGPT が処理できない 5 つのプログラミング タスク
>>: 世界初の電動ロボットが「宙返り」を練習し、ボストン・ダイナミクス・アトラスに挑戦!コーヒーアートも作れます。
2020 年に私たちがどうなるかは誰も予測できませんでした。過去 6 か月だけでも、過去 10 年間...
[[428260]]屋内環境での自己教師付き深度推定は、屋外環境でのそれよりも常に困難でした。OPP...
人工知能と自動化は将来のトレンドではないでしょうか?機械に人体の複雑な筋肉や動作を認識させる方法を考...
AI は商業用不動産業界を変革し、あらゆるものをより効率的、アクセスしやすく、透明性の高いものにし...
世界有数の求人サイトおよび採用プラットフォームである Indeed は、Indeed AI 求人レポ...
IT Homeは11月17日、Microsoftが本日、Windows Insiderプロジェクトメ...
量子コンピュータは、従来のコンピュータでは解決に数十億年かかる問題を理論的に解決できますが、十分な量...
Byte & 復旦大学のマルチモーダル理解モデルはこちらです:ビデオ内の特定のイベントが発生...
パンデミックの発生により、世界中の労働システムが危険にさらされています。コンタクト センターの従業員...
自然言語処理がどのようにビジネス最適化の実現手段へと進化しているかを学びます。 AI ベースのツール...
[[209263]]ビッグデータは人類の歴史のどの時代にも存在していましたが、テクノロジーが一定の...