斉燕傑:Sina Weibo のパーソナライズされたプッシュにおける機械学習の応用

斉燕傑:Sina Weibo のパーソナライズされたプッシュにおける機械学習の応用

[51CTO.comより引用] Sina Weiboは情報交換プラットフォームであるだけでなく、メディアとしての性格も持っています。統計によると、2013年12月、Sina WeiboのMAU(月間アクティブユーザー)は1億2,900万人に達し、DAU(1日あたりアクティブユーザー)は6,100万人を超えました。2018年3月までに、MAUは4億1,100万人を超え、DAUは1億8,400万人に達しました。 2017年の統計によると、Weiboの主なユーザーは23〜30歳の年齢層に集中しており、38.6%を占めています。性別では、男性が女性より多く、56.3%を占めており、ユーザーの興味は主に有名人、美女・美男、アニメなどの娯楽分野に集中しています。

これほど巨大なユーザーベースと幅広い関心タグがあるため、ユーザーが関心を持つトピック、ブロガー、イベントを最新のタイミングで正確にプッシュする方法は、Sina Weibo が常に解決しなければならない問題です。パーソナライズされたプッシュを適用することで、この正確なプッシュ サービスを効率的かつ短期間で実現できます。

図1 Sina WeiboのQi Yanjie

ブログ投稿の質、アルゴリズムモデル、配信効率が共同でプッシュ効果を決定します

パーソナライズされたプッシュを実装する前に、推奨システムを構築する必要があります。すべての推奨システムは基本的に、コンテンツのソースからユーザーが好むものを見つけます。Weibo のソースは、オリジナルのブログ投稿の完全なセットです。しかし、毎日数千万個の生産量と大量の不適切な原本品に直面して、正確なプッシュの需要をどのように実現できるでしょうか?手動スクリーニングと機械スクリーニングは良い組み合わせです。プッシュ プロセスに手動レビュー手順を追加すると、ポルノ、不健全、不適切なコンテンツの拡散を減らすことができ、ユーザーへの嫌がらせも減らすことができます。

マテリアル リコール モデルは、ソースでの元のブログ投稿のスクリーニングのみを制御します。関心のあるユーザーに高品質の記事を推奨するにはどうすればよいでしょうか。これには、ソート アルゴリズム モデルが必要です。まず、素材生成モデルを見直し、すべての高品質なコンテンツを選別して素材プールに入れます。素材プールは、現時点でのこのWeiboの再投稿数やコメント数など、インタラクティブ機能をリアルタイムで更新する必要があります。アップデート後は、現在利用可能な素材とユーザーが1分ごとに抽出され、計算およびソートされ、顧客が最も関心のあるブログ記事が選択され、ユーザーに一括送信されます。実際、私たちの推奨システムでは、モデル計算と並行して協調的な推奨サービスも行われています。一部の推薦システムでは、協調推薦を想起の方法として利用し、協調推薦によって生成されたコンテンツを推薦のための素材想起部分に配置します。ただし、このシナリオでは、協調的な推奨はソート モデルよりも効果的に機能するため、プロセスを再度実行する必要がなく、ユーザーに直接送信できます。基本的なフィルタリングと配信後、配信ログとクリックログがリアルタイムで収集されます。データ処理と加工後、マテリアルプールが更新され、マテリアル生成モデルと操作レビュー部分も更新されます。

図2 推薦システム

機械学習のための特徴次元の確立

ソート戦略、モデルサービス、特徴エンジニアリング、基本データの全体的なアーキテクチャには、ブログ情報、ユーザー情報、行動情報などが含まれます。これらの情報は上位層で特徴をマイニングするために使用され、特徴はモデルのトレーニングと評価に使用され、ソートモデルとマテリアルモデルが導出されます。モデルが利用可能になると、オンラインで使用して並べ替え戦略や CTR の見積もりを作成できます。 ***、オンライン データを返送して、次のモデル トレーニング反復の基本データ計算を実行します。

興味の次元

しかし、ブログ記事の場合、機能を構築する際には、ブログ記事の意味を具体化し、ブログ記事のユーザーの閲覧度合いを通じてユーザーの関心を示すために、3 レベルのタグ システムが必要です。このとき、3 レベルのタグ システムを確立します。まず、第 1 レベルのタグは比較的広範囲です。たとえば、スポーツの分野では、第 1 レベルのタグの下にサッカーなどの第 2 レベルのタグがあり、第 2 レベルのタグの下にメッシ、ロナウドなどの第 3 レベルのタグがあります。ユーザーがメッシのタグが付いた複数のブログ投稿を閲覧すると、そのユーザーがメッシに興味を持っていることがわかります。したがって、メッシ関連の資料が届くと、この部分の特徴が使用され、トレーニング用にモデルに追加され、関心のあるユーザーにプッシュされます。これが関心ディメンションです。

図3 興味の次元

関係性ディメンション

興味ディメンションは、ユーザーの興味領域の特徴的な説明ですが、ブロガーとユーザー間、つまり人々間の特徴的な説明をモデルに追加する場合は、関係ディメンションが必要です。ブロガーとユーザーの過去のやり取りが非常に多い場合、ブロガーはユーザーのニーズと一致しているはずなので、その関係もディメンション機能としてモデルに追加できます。

リアルタイムディメンション

モデルに関心ディメンションと関係ディメンションを追加する場合、以前のデータも送り返す必要があり、このときにリアルタイム ディメンションが必要になります。プッシュ シーンでは使用するマテリアルが比較的少なく、露出機会も非常に少ないため、クリックスルー レートを以前のデータとして送信し、モデルにインポートすることができます。

上記3つの次元に加え、環境次元、プッシュ時間、デバイスネットワーク情報、デバイス情報自体なども含まれます。

機能を紹介した後、モデルの進化プロセスについて説明します。アップグレードはLR(ロジスティック回帰)モデルから始まります。LRモデルは基本的にユーザーの複合的な特性を捉えるのが難しいため、FMモデルにさらにアップグレードされます。 FM (Factorization Machine) モデルは、LR モデルと Dense (高密度) 機能の組み合わせです。特徴の各ペアの組み合わせには、重み Wij が必要です。Wij を直接計算すると、特徴の組み合わせによってサンプル数が少なすぎて、Wij が不正確になります。したがって、Wij は係数 Vi と Vj を乗算して取得されます。しかし、FM モデルは機能をペアでのみ組み合わせるため、ワイド&ディープ モデルにアップグレードされました。ワイド モデルとディープ モデルを組み合わせることで、ワイド モデルのメモリ容量が保持されるだけでなく、高度な機能組み合わせモデル機能も備え、モデルの表現力が高まります。

図4 ワイド&ディープモデル

Pushを使うための実用的なヒント

ユーザー頻度(頻度+回数)を使用して、クリック数とクリック率を分割して増加させます。

Weibo のユーザーの使用頻度は大きく異なるため、ユーザーの使用頻度を分割し、高頻度、中頻度、低頻度のユーザーを個別にトレーニングする必要があり、ネガティブ サンプルの選択にいくつかの変更を加える必要があります。

サーバーがメッセージをプッシュする場合、ユーザーが新しいメッセージを通知しないように設定したり、ユーザーが新しいメッセージを読んでいない状況が発生することがあります。したがって、プッシュユーザーを選択するときは、過去に陽性サンプルを受け取ったユーザーを選択するようにしてください。このようにして、ユーザーが陽性サンプルの再発を取得したときに、陽性サンプルの上下に数回露出すると(2 つの陰性サンプルを含む)、クリック量とクリック率が向上します。

層ごとに材料の分布を制御する

十分な検証を行わずにすべての人を対象に素材を計算すると、特定の特徴が特に高い場合に分布が大きくなりすぎて、低品質の素材が多くのユーザーに表示される可能性があります。そのため、まずは非常に狭い範囲で試し、クリック率が想定レベルに達したら、段階的に拡大していき、最終的に全面公開する予定です。この方法により、十分に検証された高品質の素材に露出機会を与えながら、低品質の素材の流通範囲を制御することができます。

上記の内容は、WOT2018 グローバルソフトウェアおよび運用技術サミットでの Qi Yanjie 氏の講演を基に 51CTO 記者がまとめたものです。WOT の詳細については、.com をご覧ください。

<<:  企業における機械学習の導入を妨げる4つの障害

>>:  ロボットが任務中、「無人配達」の裏にある苦闘と暗闘

ブログ    
ブログ    

推薦する

農産物産業における人工知能の応用と影響

農産物における人工知能の応用人工知能は、次のような農産物のあらゆる段階と側面に適用できます。農業: ...

NLPの問題の90%を解決する方法を段階的に教えます

[[223595]]はじめに: この記事では、著者の Emmanuel Ameisen が、機械学習...

...

Alibaba iDSTのビジュアルコンピューティング責任者、Hua Xiansheng氏:アルゴリズムの利点は消えつつある

「テクノロジー研究と現実世界の問題を組み合わせ、現実の問題を解決して価値を生み出すことにますます興味...

...

...

月給5万ドルでこのホットなAI分野をマスターするには、これらの9冊の本を読むだけで十分です

はじめに:国内の求人検索サイトのデータによると、2019年現在、上海の自然言語処理(NLP)関連職種...

毎日のアルゴリズム: 二分木の最小共通祖先

この記事はWeChatの公開アカウント「3分でフロントエンドを学ぶ」から転載したもので、著者はsis...

996の非効率性にノーと言いましょう: ChatGPTはコードコメントとドキュメントを簡単に処理するのに役立ちます

適切なコメントは、Python プロジェクトを成功させる上で非常に重要です。実際には、コメントを書く...

AI | 機械知能が人間に代わって行う 5 つのこと

[[322374]]人間の認知能力のあらゆる特性を見てみましょう。まず、Fleishman の 21...

人工知能によって破壊される可能性のある7つの業界

[[417720]]人工知能は最先端の技術から人々の日常生活に組み込まれる技術へと急速に進化していま...

Keras TensorFlow チュートリアル: 複雑なディープラーニング モデルをゼロから開発する方法

[[193126]] Keras は、独自のディープラーニング モデルを迅速に構築およびトレーニング...

...