1. 推奨ステータスまず、レコメンデーションシステムの現状について簡単に紹介します。 推薦システムは、実は私たちの日常生活で非常に一般的です。インターネット上で利用できる情報が増えるにつれて、膨大な情報の中から最も適切な情報を見つけることが難しくなります。この情報過多の問題を解決するために、推奨システムが考案されました。ユーザーのニーズを予測し、ユーザーが好みそうなコンテンツを推奨することで、選択の煩わしさを軽減します。 初期の推奨アルゴリズムは比較的単純でした。古典的なアルゴリズムには、コンテンツベース、知識ベース、協調フィルタリング ベースなどがあります。 現在の研究の方向性は主にディープラーニングに焦点を当てており、ニューラルネットワークのトレーニングを使用して特徴を効果的に抽出し、より正確な表現機能を獲得し、マッチングレベルを向上させます。推奨システムの分野では良い成果が達成されました。 上記の方法にはすべて、コールド スタートの問題という問題があります。 コールド スタートの問題は、次の 2 つのカテゴリに分類されます。
この共有では、ユーザーのコールド スタートの問題について説明します。 2. ソーシャル・インタレスト・ネットワークユーザーのコールド スタートには 2 つの解決策があります。
通常、ID 情報に加えて、年齢、性別、その他の追加情報などのユーザー属性機能がモデルに追加されてトレーニングされます。これがサイド情報を使用する方法です。
サイド情報はこれ以上取得できないため、既存のサイド情報を効率的に使用して効果を高める必要があります。 次に、サイド情報を効率的に使用する方法に焦点を当てます。これが、今日お話しするソーシャル インタレスト ネットワークにつながります。 ソーシャル インタレスト ネットワークは主に 2 つの部分に分かれています。
ユーザーの社会的興味を抽出するための興味抽出ツール SocialNet を提案します。この抽出機能は、他の推奨アルゴリズムに統合できる非常に便利なコンポーネントです。これを基に、YouTube DNN をベースラインとして選択し、SocialNet によって取得されたユーザーの興味をそれに統合し、注意を通じて重み融合を実行して、Socail4Rec と呼ばれる最終ネットワークを取得しました。以下にこのアルゴリズムの詳細な紹介をします。 3. ソーシャル4レック1. アルゴリズムモデルの概要モデルの全体的な概要は上に示されており、次の 3 つの部分で構成されています。
2. Social4Rec - 粗粒度関心抽出器 - SoNN上の図に示すように、ユーザーを通じて、そのユーザーが好んで観る映画、フォローするスター、友人など、ユーザーの社会的関心に関する情報の一部を取得できます。この情報については、埋め込みレイヤーを通じて埋め込みを取得します。 私たちは、自己組織化ニューラル ネットワークと呼ばれる中間のネットワークを設計しました。このネットワークの目的は、取得した埋め込みを関心グループに分割し、ユーザーを関心グループに割り当てることです。 具体的な手順: (1)最初のステップは、自己組織化ニューラルネットワークを通じて、所属する利益集団を取得することである。自己組織化ニューラル ネットワークは、計算プロセス中に継続的に更新される重みマトリックスに相当します。 まず、ユーザーの興味の特徴をネットワークに埋め込み、ユーザーが属する興味グループを決定します。式中の Wj は自己組織化ニューラル ネットワークのトレーニング可能な重みであり、ユーザーの埋め込みに基づいてユーザーに最も近い関心グループを取得するために使用されます。 (2)2番目のステップは、ユーザーの埋め込みに基づいて、ユーザーの興味グループ全体を更新することである。更新方法は主に次の 2 つの式に基づいています。ユーザーの入力を使用してマトリックス グループ全体との差を計算し、学習率と減衰係数に基づいて更新された重みを取得します。減衰係数は式に従って計算できます。 Sj,i は、現在の関心と、それが属する範囲を取得するために計算する必要がある別の関心との間の距離を表します。
重みは、数回の反復後に、より適切な重みマトリックスに更新され、各ユーザーの関心グループも区別できるようになります。このプロセスでは、ユーザーを関心グループに分けることができます。 (3)第3段階は利益団体の集約である利益団体があまりにもまばらで、各グループに数人しかいない状況も考えられます。これらの比較的まばらな関心グループを集約するには、KMeans メソッドを使用する必要があります。たとえば、サッカーのサブカテゴリ内には多くのサブカテゴリが存在する場合があります。これらの小さな関心グループには多くのユーザーがいないため、それらを 1 つの大きなカテゴリに集約し、ユーザーを大きな関心グループに再度割り当てる必要があります。 このステップでは、ユーザーをより大きな興味グループに大まかに分類します。 3. Social4Rec - きめ細かな関心抽出 - メタパス近隣集約2つ目は、詳細な分類を行うことです。大まかな分類では、ユーザーグループを大きなグループに分類しましたが、このグループは比較的大きくなります。この大規模なグループ内でユーザーの興味ベクトルをより細かく抽出するために、メタパス法を採用しました。 一般的なメタパス UMU は次のように定義されます。たとえば、ユーザーが映画を購読し、ユーザー 1 が映画 1 を購読し、ユーザー 2 も映画 1 を購読します。メタパスを通じて、これら 2 つを関連付けることができます。このようにして、同じ大きな関心グループ内で、user1 に関連する多くの user2 ユーザーを見つけることができます。埋め込み集計のために、上位 N 人の user2 ユーザーを抽出します。 上位 N 人のユーザーを選択するにはどうすればよいでしょうか?初期の埋め込みと現在のユーザーの埋め込みに最も近い上位 10 個を直接計算し、この上位 10 個をユーザーの埋め込みに集計します。 具体的な計算式は、次のとおりです。関心グループでは、メタパス方式を使用して上位 k 人のユーザーを見つけ、これらのユーザーの埋め込みを集計し、ユーザー自身の埋め込みを追加して、最終的なきめ細かいユーザー埋め込みを取得します。 当初は、複数の興味、映画、スター、Up マスター、友人を通じて 4 種類の関係があったため、4 つのメタパス メソッドがあり、それぞれ 4 つのメタパス エンベッディングを取得しました。各メソッドは、独自の埋め込みと上位 N 個の近傍の埋め込みベクトルを集約することにより、4 つのメタパス埋め込みを取得します。最後に、これら 4 つの興味ベクトル埋め込みを初期の YouTube DNN モデルに集約します。 4. 興味ベクトルの集約集計方法:
簡単に言うと、ユーザーの興味は注目度を表すユーザー表現に直接連結され、MLP レイヤーに渡されて埋め込みが取得され、その後アイテムとの内積が実行されて CTR が取得されます。 この方法は、以前のデータセットで効果的に検証されています。 以前は、主に 2 つのデータ セットがありました。1 つはソーシャル グラフで、星は星をフォローしているユーザーの UA ペアの数を表します。映画はユーザーが視聴した映画の数です。 以下は私たちが主に使用するデータセットです。 15 日間のオンライン トラフィック ログを抽出し、最初の 14 日間はトレーニングに、最後の 1 日はテストに使用しました。コールドスタートユーザーのデータを区別し、コールドスタートユーザーのみへの効果を検証するために使用されます。 5. 全体的な効果全体的な効果は、上図のアブレーション実験データで確認できます。 オフライン部分では、YouTube DNN モデルのみの AUC が全ユーザーに対して 0.765 から 0.770 に向上しました。コールドスタートユーザーの増加はさらに大きく、約2.33パーセントポイントでした。 これら 4 つのアブレーション実験における 3 つのコントロール実験は次のものを表しています。
オンライン部分については、全ユーザーをカウントしたところ、オンライン CTR が 3.6% 増加し、コールド スタート ユーザーの CTR が 2% 増加しました。クリック数と視聴時間も大幅に増加しました。その中で、コールドスタートユーザーの改善が大きくなっています。したがって、私たちのモデルは、コールド スタート ユーザーの問題を解決する上で、より重要な結果を示しています。 IV. 結論アイテムの推奨において、学界や産業界における典型的な作業は、実際のプラットフォーム上に存在するさまざまな種類の情報を無視しながら、ユーザーの直接的なインタラクション行動に関する情報をより適切に抽出することです。推薦アルゴリズムにおけるソーシャル興味情報の実用性は、推薦プラットフォームのアルゴリズムに取り組んでいる学生にとって特に良いインスピレーションとなるはずです。私たちのプラットフォームには大量のソーシャル情報が存在するため、この情報を効果的に活用することで、さまざまなビジネスが大きく改善されます。 5. 質疑応答Q1: メタパスの定義によって効果が大きく左右され、メタパスの組み合わせも多数あります。製品に応じてどのように選択すればよいでしょうか?Q2: クラスターの数を決定する方法はありますか?A2: クラスターの数は、実際には最初にパラメータを調整することによって決定されました。自己組織化ニューラル ネットワークは、いくつかの小さなカテゴリにクラスタ化されました。最初は、比較的大きく定義されていました。大きくなった後、KMeans を使用してその数を減らしました。その数は途中で調整して取得されました。実際には、デバッグされたのは主にハイパーパラメータでした。 Q3: コールドスタートユーザーがより効果的な理由を分析しましたか?A3: YouTube DNN モデルでは、コールド スタート ユーザーに対して取得できる行動シーケンス機能は非常に少ないです。これらの比較的少ない特徴により、私たちが抽出した社会的関心の埋め込みは比較的重要であり、より大きな役割を果たします。したがって、コールドスタートユーザーの場合は、このモジュールのみを追加する方が効果的です。 注:関連コードと論文リンク: https://github.com/xuanjixiao/onerec。 OneRecについて従来の推奨システム アルゴリズムとシステム二重最適化のパラダイムでは、一流企業は単一のタスクまたは単一のビジネスの効果を掘り起こすことにほぼ限界に達しています。 2019年から、私たちは複数の情報の抽出と統合に注力し始め、プラットフォーム内外のさまざまな情報を通じて知識を統合し、データサイロを打破し、推奨される「Extra World Knowledge」を大幅に拡大することを目指して、OneRecアルゴリズムを提案しました。実装されているアルゴリズムには、行動データ(複数のシグナル、長期および短期のシグナル)、コンテンツの説明、ソーシャル情報、ナレッジグラフなどが含まれます。 OneRecでは、各情報と全体のアルゴリズムの統合がプラグイン可能です。これにより、誰もが自分のプラットフォームデータの下でさまざまな情報を柔軟に組み合わせることができます。一方、オープンソースの共同構築が容易になり、誰もが独自のアルゴリズムを統合できます。 OneRec は、以前にオンラインで検証された作業を共有します。関連するコードと論文は、https://github.com/xuanjixiao/onerec でオープンソース化されています。 現在リリースされている OneRec シリーズのアルゴリズムは次のとおりです。 (1) OneRec1_NeighbourEnhancedDNN 行動信号とコンテンツ信号の両方の強化されたモデリング。ユーザー/アイテムの表現と相互作用を強化します。関連記事:後日OneRecホームページにて公開予定です。 関連論文: ビデオランクモデルにおけるロングテールランキング問題に対する近傍ベースの強化、DLP-KDD 2021。 (2)OneRec2_Social4Recは、行動やコンテンツに加えて、ソーシャル興味情報も利用します。ユーザーの表現を強化し、行動、コンテンツ、社会的関心という 3 つのシグナルを効果的に統合します。関連記事:後日OneRecホームページにて公開予定です。 関連論文: Social4Rec: Tencent のビデオ推奨のためにソーシャルグラフからユーザーの好みを抽出する。 論文リンク: https://arxiv.org/pdf/2302.09971.pdf. (3)OneRec3_SparseSharing クリックシグナルとコンバージョンシグナルをより有効に活用する方法。宝くじ理論を利用してニューロンレベルでのマルチタスク学習を実現し、CVR の効果をさらに最適化します。関連記事: 「OneRec4_LT4REC: 宝くじ仮説に基づくマルチタスク学習アルゴリズム」 。 関連論文: LT4REC: ビデオ推奨システムのための宝くじチケット仮説ベースのマルチタスク実践。 論文リンク: https://arxiv.org/abs/2008.09872. [フォローアップ] 2023 CVR マルチタスク作業: クリック後のコンバージョン率推定のためのサンプル重み割り当てによるクリック認識構造転送、2023、ECML-PKDD。 [序文] 2018 CVR マルチタスク作業: Calibration4CVR: 2018 - 2018 年の「ニューロンレベル共有によるマルチタスク CVR」に関する予備調査。 (4) OneRec4_SessionLTV セッション閲覧プロセスでは、短期報酬と長期報酬を組み合わせ、強化学習を使用してユーザー価値をモデル化し、ユーザーにとってLTV値が高い結果を見つけます。ビデオシナリオやGoogle RLシミュレーターでプラスの効果があります。関連論文: 確率的フィードバックからの長期的なユーザーエンゲージメントのモデリングについて。 論文リンク: https://arxiv.org/pdf/2302.06101.pdf、WWW 2023。 |
<<: 大学受験出願関連アプリは会員料金が高く、AIアプリは信頼できない
[[251351]]自動運転車の将来は、交通手段に革命を起こすと予測されていた電動スクーターの歴史と...
制作:51CTO テクノロジースタック(WeChat ID:blog)深夜、OpenAI の最大のラ...
[51CTO.com からのオリジナル記事] 人工知能は最近とても人気があります。人々の焦点は、A...
[[271243]]視覚に関して、AIと人間の間にはどれくらいのギャップがあるのでしょうか?カリフォ...
昨年上半期、メディアはかつてアンドリュー・ン氏が妻のために百度を去ったという話題を熱く議論していた。...
ディープラーニングの初期の成功は、畳み込みニューラル ネットワーク (ConvNet) の開発による...
海外メディアの報道によると、米国のジョージ・メイソン大学は、無人車両による食品配達サービスを開始し、...
[[409365]] Microsoft の初心者向け機械学習カリキュラムが登場し、1 日で 2,...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
[[426899]]ニューラル ネットワーク モデルとトレーニング データのサイズが大きくなるにつ...