Weibo の背後にあるビッグデータの原理を探る: 推奨アルゴリズム

推薦システムは早くから誕生していたが、本格的に注目されるようになったのは、「Facebook」に代表されるソーシャルネットワークの台頭と、「Taobao」に代表される電子商取引の隆盛になってからである。「選択」の時代が到来し、情報と商品の過剰供給により、ユーザーは広大な宇宙の中の小さな点のように途方に暮れている。推奨システムは爆発的に成長し、ユーザーに近づくチャンスがあります。

急速に更新される情報では、ユーザーは現在のホットな話題を理解するために群衆の知恵に頼る必要があります。
情報の極端な拡大により、パーソナライズされた情報を取得するためのコストが高くなり、フィルタリングして有用な情報を取得する効率が低下しています。
「今夜はコストパフォーマンスが良く、自分の好みに合う近くのレストランを探す必要がある」など、ユーザーの個別のニーズを明確に表現することは難しい場合が多くあります。

推奨システムには多くの応用シナリオがあり、それらを一つ一つ列挙するわけではありません。推奨システムが解決する主な問題は、ユーザーにとって適切なアイテム（接続と並べ替え）を見つけ、推奨結果を説明する合理的な理由を見つけることです。問題の解決策は、接続を確立し、流れと普及を促進し、適者生存を加速するというシステムの価値です。

推奨アルゴリズムは、推奨システムの目標を達成するための方法と手段です。アルゴリズムは、製品と組み合わせられ、効率的で安定したアーキテクチャにインストールされた場合にのみ、最大限の効果を発揮できます。

次に、Weiboの推薦についてお話ししましょう。Weibo自体の製品設計は、推薦システムがなくても、大規模なユーザー関係ネットワークが形成され、迅速な情報伝達が実現されることを保証しています。何かの価値を測る簡単な方法は、それを保持することと削除することの違いを比較することです。 Weibo では、ユーザーフィードの品質を確保するために健全なユーザー関係ネットワークが必要であり、また、低品質の情報が普及を通じて排除されるように、高品質の情報が迅速に流通する必要もあります。 Weibo 推薦の役割は、このプロセスを加速し、特定の状況下で情報の流れを制御することであり、したがって Weibo 推薦の役割はアクセラレータとコントローラです。

最後に、Weibo の推奨アルゴリズムに戻りましょう。これまで、Weibo の推奨アルゴリズムについて皆さんにもっとよく理解していただくために、たくさんお話ししてきました。私たちの仕事は、Weibo の推奨事項の目的と解決する必要のある問題を一連の数学的問題としてサンプリングし、さまざまなデータツールを使用してそれらを解決することです。

次に、私たちが使用している方法とテクニックを図で整理し、1つずつ紹介していきます。

基本アルゴリズムと関連アルゴリズム

このアルゴリズム層の主な機能は、Weibo の推奨に必要な基本リソースをマイニングし、推奨における一般的な技術的問題を解決し、推奨サービスにガイダンスを提供するために必要なデータ分析を完了することです。

この部分で一般的に使用されるアルゴリズムとテクニックは次のとおりです。

単語分割技術とコア単語抽出

これは Weibo コンテンツ推奨の基礎であり、単語の分割、単語情報の注釈、コンテンツのコア単語/エンティティ単語の抽出、意味的依存性の分析など、Weibo コンテンツを構造化ベクトルに変換するために使用されます。

分類とスパム対策

Weibo コンテンツの分類、マーケティング広告/ポルノ Weibo の識別など、Weibo コンテンツの推奨候補を分析するために使用されます。

コンテンツ分類は、3 レベルの分類システムと 148 のカテゴリを備えた決定木分類モデルを使用して実装されます。マーケティング広告/ポルノマイクロブログは、ベイズと最大エントロピーのハイブリッドモデルを使用して識別されます。

クラスタリング技術

主に、ホットトピックのマイニングと、コンテンツ関連の推奨事項のための関連リソースの提供に使用されます。 WVTアルゴリズム（ワードベクトルトピック）は、Weiboが独自に開発したクラスタリング技術であり、Weiboのコンテンツ特性と普及パターンに基づいて設計されています。

伝播モデルとユーザー影響分析

Weibo コミュニケーションモデルとユーザーネットワークの影響分析 (影響の深さ、影響の広さ、分野内での影響を含む) に関する調査を実施します。

メイン推奨アルゴリズム

1. グラフベースの推奨アルゴリズム

Weiboの特徴は、ユーザーがコンテンツを投稿し、それがソーシャルチャネルを通じて拡散され、爆発的な情報拡散につながることです。業界で一般的に使用されているメモリベースのアルゴリズムではなく、グラフベースの推奨アルゴリズムと呼ばれる主な理由は次のとおりです。

当社の推奨アルゴリズム設計はソーシャルネットワーク上に構築されています。その核心は、ソーシャルネットワークから始めて、情報伝達モデルを統合し、さまざまなタイプのデータを総合的に活用して、ユーザーに最高の推奨結果を提供することです。たとえば、多くの場合、私たちは情報伝達の重要なリンクにすぎず、必要な推奨規制を追加し、情報伝達チャネルを変更し、その後の伝達は元のネットワークに沿って自然に広がります。
フィード推奨（トレンドと呼んでいます）は当社の最も重要な製品であり、その結果にはユーザー関係が含まれる必要があります。

グラフのマクロ的な観点から、私たちの目標は、より価値の高いユーザー関係ネットワークを確立し、高品質の情報の迅速な普及を促進し、フィードフローの品質を向上させることです。重要なタスクには、キーノードのマイニング、キーノードのコンテンツ推奨、およびユーザー推奨が含まれます。

この部分のアルゴリズムは、次の表に示すように、それに応じて分類されます。

ここでの難しさは、グラフの「エッジ」を定量化して選択し、複数の「エッジ」と「ノード」の総合スコアを計算し、それをネットワークマイニング分析の結果と統合する方法にあります。

アルゴリズムの開発中に、次のデータ製品が生成されました。

2. コンテンツベースの推奨アルゴリズム

コンテンツベースは、Weibo の推奨で最も一般的に使用されている基本的な推奨アルゴリズムです。その主な技術的リンクは、コンテンツの構造化分析と候補セットの相関計算です。

コンテンツベースの推奨は、コンテンツベースの推奨で最も広く使用されている領域です。これを例に挙げて簡単に説明しましょう。

コンテンツ分析の多くのポイントについては上で説明しましたが、ここでは次の 2 つのポイントに焦点を当てます。

コンテンツ品質分析では、主にWeibo露出利益+コンテンツ情報量/読みやすさの方式を用いて総合的に計算します。 Weibo露出のメリットは、ユーザーグループの行動によってコンテンツの質を測ることで測定されます。コンテンツ情報の計算は比較的簡単で、Weiboキーワードのidf情報を反復するだけです。コンテンツの読みやすさの測定には、読みやすいニュースコーパスと読みにくい口語コーパスをトレーニングサンプルとして使用して小さな分類モデルを作成し、さまざまな単語のコロケーション情報を抽出して、新しいWeiboが読みやすい確率を計算しました。
単語拡張とコンテンツベースの分析の有効性は、コンテンツ分析の深さに依存します。 Weibo のコンテンツは比較的短く、抽出できるキー情報も少なく、関連操作を行う際に、データの希薄性により、推奨再現率と精度のバランスを取ることが難しくなりがちです。word2vec 技術を導入して単語拡張効果を最適化し、これに基づいて単語クラスタリングを行うことで、推奨再現率と精度の同時向上を実現しました。

関連する計算の技術的なポイントは、ベクトルの量子化と距離測定にあります。通常、「tf*idf 重み量子化 + コサイン距離」または「トピック確率 + KLD 距離」の 2 つの方法を使用します。

3. モデルベースの推奨アルゴリズム

Weibo は中国最大のソーシャルメディア製品であり、膨大な数のユーザーと情報リソースを擁しています。これにより、推奨には 2 つの課題が生じます。

ソースの融合とソート

候補が豊富ということは選択肢が増えることを意味します。そのため、推奨結果の生成には、複数の推奨アルゴリズムによる予備選択とソース融合ソートによる選択の 2 つのレイヤーが含まれます。より客観的で正確なソート結果を得るためには、ユーザーグループの行動の背後に隠されたルールを学習する機械学習モデルを導入する必要があります。

コンテンツの動的な分類と意味的関連性

Weibo UGC のコンテンツ制作モデルと、情報の急速な普及と更新の特性により、サンプルを手動でラベル付けし、静的分類モデルをトレーニングするという従来の方法は時代遅れになっています。最新の情報をすべてカテゴリに集約し、意味的な相関関係を確立して推奨事項を完成させるには、優れたクラスタリングモデルが必要です。

モデルベースのアルゴリズムは、上記の問題を解決するために設計されています。次に、最も重要な 2 つの機械学習タスクを示します。

3.1 CTR/RPM（1000回あたりの推奨関係完了率）推定モデルでは、ロジスティック回帰を基本アルゴリズムとして使用します。以下は、CTR推定モデルの全体的なアーキテクチャ図です。

この作業には、サンプルの選択、データのクリーニング、特徴の抽出と選択、モデルのトレーニング、オンライン推定とソートが含まれます。モデルトレーニング前のデータクリーニングとノイズ除去が非常に重要であることは言及する価値があります。データ品質はアルゴリズムの有効性の上限であり、この点で私たちはこれまで損失を被ってきました。

ロジスティック回帰は2クラスの確率モデルである

最適化の目標は、「サンプルの正しい分類の確率の乗算値」を最大化することです。モデル固有値を解く最適化プロセスを完了するために、Yahoo が開発した vowpal_wabbit 機械学習プラットフォームを使用します。

3.2 LFM（潜在因子モデル）：LDA、行列分解（SVD++、SVD機能）

LDA は 2014 年初頭に開始された重要なプロジェクトです。現在では優れた成果を達成しており、オンライン製品の推奨にも使用されています。LDA 自体は非常に美しく厳密な数学モデルです。以下は参考用の LDA トピックの例です。

行列分解に関しては、2013 年に同様の試みを行いましたが、結果が特に理想的ではなかったため、投資を継続しませんでした。

潜在意味モデルは、最も高い推奨精度を持つ単一のモデルです。難しさは、データ規模が大きい場合、計算効率がボトルネックになることです。私たちはこの分野でいくつかの研究を行っており、後で何人かの学生がこの分野を具体的に紹介する予定です。

ハイブリッドテクノロジー

3 人の靴職人は 1 人の諸葛亮よりも優れています。すべての方法には限界があります。異なるアルゴリズムの長所を補完し、それぞれの価値を最大限に活用することは、非常に効果的な方法です。マイクロブログ推奨アルゴリズムは、主に次のハイブリッド技術を使用します。

タイミングミックス:

つまり、推奨プロセスの異なる期間では、異なる推奨アルゴリズムが使用されます。テキストページに関連する推奨を例にとると、テキストページ露出の初期段階では、コンテンツベース + CTR 推定方法を使用して推奨結果が生成されます。十分な数の信頼性の高いユーザークリック動作が生成された後、次の図に示すように、ユーザーベースの協調フィルタリング方法を使用して推奨結果を取得します。

このように、コンテンツベースのアプローチはコールドスタート問題を効果的に解決し、ユーザーベースの CF の役割を十分に発揮し、1+1>2 の効果を達成できます。

階層的モデルのブレンド:

多くの場合、単一のモデルでは目的の効果が得られませんが、階層的に組み合わせることでより良い結果が得られることが多いです。階層的なモデル混合とは、「前のモデルの出力を下位のモデルの特徴値として使用して、モデルを包括的にトレーニングし、推奨タスクを完了する」ことを意味します。例えば、Weiboホームページの右側のCTR推定ランキングを作成する際、異なる製品間の自然な欠落特徴、サンプルサイズの違い、露出位置による効果の偏差などの問題を解決するために、階層ロジスティック回帰モデルを使用しました。

ウォーターフォールミキシング:

このタイプのハイブリッド技術の背後にある考え方は非常に単純です。つまり、推奨候補が多数ある場合、レイヤーごとのフィルタリング方法を使用して推奨結果を取得します。通常、計算速度が速く、識別力が低いアルゴリズムを前部に配置して、多数の候補セットのスクリーニングを完了します。計算速度が遅く、識別力が高いアルゴリズムを後部に配置して、残りの小規模セットを慎重に計算します。このタイプの混合は、Weibo の推奨で広く使用されています。さまざまな軽量アルゴリズムを使用して候補セットの大まかな選択を完了し、CTR 推定を使用して洗練されたソートを実行します。

クロスミキシング:

さまざまな推奨アルゴリズムのサブテクニックは、他の推奨アルゴリズムで組み合わせて使用できます。たとえば、コンテンツベースの相関計算によって蓄積された距離計算方法は、協調フィルタリングの定量計算にうまく適用できます。実例として、LDAの研究で蓄積したベクトル計算手法をユーザー推薦に適用することに成功しました。

オンラインとオフライン

Weibo データの特性 (大量、多様、静的データと動的データの混合) により、推奨されるほとんどの製品の結果は、オンライン計算とオフライン計算の両方を利用して完成させる必要があります。システムとアルゴリズムの設計の観点から見ると、これは「重い」と「軽い」という問題です。計算の分解と組み合わせが鍵となります。時間に敏感でない重い計算をオフライン側に置き、時間に敏感な軽くて速い計算をオンライン側に置く必要があります。よく使用されるいくつかの方法を以下に示します。

オンラインでは、結果を素早く得るためにシンプルで信頼性の高いアルゴリズムが必要です。上記の図を簡単に説明すると、次のようになります。

半製品には以下の3つの形態がある

1) ユーザーベースの CF におけるユーザーの類似性など、計算プロセスのオフライン部分は、データベースからオンラインで読み取られ、オンラインで計算されて、ユーザーベースの推奨が完了します。

2) メインテキストページに関連する推奨コンテンツ候補セットなどのオフラインの高品質候補セットは、インデックス作成を通じてオンラインで取得され、関連性とCTR推定によってランク付けされ、推奨結果が生成されます。

3) 類似度の高い結果セットを推奨します。オフラインでフォロワーの類似度が高いユーザーを計算したり、オンラインでのユーザー行動に関するリアルタイムのフィードバックを提供したり、フォローしたユーザーと類似するユーザーに推奨事項を追加したりします。

静的な推奨結果とは、時間との相関がほとんどない推奨アイテムを指します。たとえば、ユーザー推奨結果の 95% はオフライン計算から得られます。
機械学習モデルは、コンピューティングプロセスを時間的に分解したものです。モデルのトレーニングはオフラインで行われ、アイテムの並べ替えはオンラインで行われます。もちろん、オンライン学習やリアルタイムの特徴値を通じて、モデルをリアルタイムで更新することもできます。同時に、モデルをオンラインで計算する場合、オフライン環境とオンライン環境間の一貫性を確保するために、欠落している特徴値の補完に注意する必要があります。

また、ホームページの右側にあるトピックの推奨など、オンラインで直接計算される推奨結果もあります。トピックに対するユーザーの需要の差は非常に小さいため、基本的にはランキングの要件ですが、人気のあるWeibo投稿には洗練されたデザインもあります。露出ダイナミック収益モデルを使用して、前期の（クリック収益-露出コスト）を通じて次の期のアイテム露出確率を制御し、CTRとトラフィックが3倍以上増加するなど、非常に良い結果を達成しました。

異なるタイプの推奨結果は、異なる推奨理由によってサポートされる必要があり、そのためにはフロントエンドでの複数回の表示試行とオフラインログ分析が必要です。

効果評価

アルゴリズムの有効性を測定する方法によって、全員の取り組みの方向性が決まります。さまざまな種類の推奨事項については、製品の位置付けと目標に基づいて作業結果を測定するために、さまざまな標準システムを使用するのが最適です。実際の効果評価は、ユーザー満足度、製品レベルの指標（CTRなど）、アルゴリズムレベルの指標の3つのレベルに分かれています。また、効果評価も手動評価、オンラインA/Bテスト、オフラインアルゴリズム効果評価の3種類に分かれています。

製品指標の策定は、製品が達成することが期待される目標から始まり、ユーザーの満足度を反映する必要があります。

オフラインアルゴリズム評価では、オフラインアルゴリズム評価は常にオンラインになる前に実行されるため、製品レベルの指標に適合する適切なアルゴリズム評価指標のセットを見つけることが重要です。この対応が適切であればあるほど、アルゴリズムの最適化結果をオンライン製品指標に変換しやすくなります。

次の図は、オフライン効果評価アルゴリズムのアーキテクチャ図です。

一般的に使用されるオフライン評価指標には、RMSE、リコール率、AUC、ユーザー内多様性、ユーザー間多様性、新規性などがあります。さまざまな製品を測定するためのさまざまな組み合わせ指標があります。たとえば、「ユーザー間の多様性」はユーザーの推奨において非常に重要ですが、ホットトピックではユーザー間で結果の重複が大きくなります。

<<: Google検索アルゴリズムの変更：暗号化されたウェブページの重み付けが向上

>>: Apple、Google Play ランキングアルゴリズム