あなたの「読書」は他の人に読まれている。清華大学の研究者はWeChatの「Look」からこれらのパターンを発見した。

WeChatの「Take a Look」アプリの最もアクティブなユーザーは実は私たちの両親であり、最も「静か」なのは若者たちです...清華大学のTang Jie氏らによる最近の研究では、WeChatの「Take a Look」アプリのデータを使用して、記事を読むためにクリックしたり、「読む」をクリックしたりするユーザーの行動パターンを分析し、人口統計、2元および3元の関連、自己中心的なネットワーク構造など、さまざまな側面から分析を行いました。

この研究では、他の方法と比較して予測精度が向上した予測モデルも提案されました。現在、この論文はIEEE Transactions on Knowledge and Data Engineering (TKDE)誌に掲載されています。

論文リンク: https://arxiv.org/pdf/2103.02930.pdf
GitHub リンク: https://github.com/zfjsail/wechat-wow-analysis

WeChatの記事にある「読む」ボタンは皆さんもよくご存知だと思います。 WeChat ユーザーは、ディスカバリーページで [見てみる] をクリックすると、友人が [読んでいる] をクリックした記事を見ることができます。また、これらの記事をクリックして読んだり、[読んでいる] をクリックしたりすることもできます。

WeChatの「Take a Look」ページの例。（「わぁボタン」は「視聴」ボタンです。）

では、これらの記事を読むためにクリックしたり、「読む」をクリックしたりするユーザーの行動に影響を与える要因は何でしょうか?

「Look」ユーザーの行動に影響を与える要因は何ですか?

この研究は3つのレベルで分析されました。

ユーザーの人口統計情報の観点から見ると、性別や年齢層の異なるユーザーの「視聴」やクリック行動は大きく異なり、クロス属性要因を考慮すると状況はさらに複雑になります。
バイナリアソシエーションの観点では、アクティブな友人が構造的ホールとオピニオンリーダーである場合、ユーザーの動作は非常に異なる可能性があります。
エゴセントリックネットワークの場合、記事を「読む」確率とクリックして読む確率は、ユーザーのアクティブな友人で構成される接続コンポーネントの数と強く相関しています。

具体的な分析結果は以下の通りです。

ユーザーの人口統計情報

表 1、図 2、図 3 は、さまざまな性別と年齢のユーザーが「読む」をクリックする確率と、「見てみる」機能で記事を読むためにクリックする確率を示しています。このことから、次のことがわかります。

男性がクリックする確率は女性よりも大幅に高く、女性が「読む」をクリックする確率は男性よりもわずかに高い（表1参照）。
20 代と 30 代以上の若者はオンラインソーシャルサークルの中心ですが、彼らが「読む」をクリックしたり、記事を読むためにクリックしたりする確率は、すべての年齢層の中で最も低いです (図 2 を参照)。
性別と年齢の属性を同時に考慮すると、状況は異なります。20 歳未満の人では、男性の方が女性よりもアクティブですが、40 歳以上の人では、女性の「読む」をクリックする割合が高く、60 歳以上の人では、女性の「記事を読む」をクリックする割合が高くなります (図 3 を参照)。

二項関係と三項関係

便宜上、この研究では、二項関係ではユーザーと 1 人のアクティブな友人とのやり取りのみを考慮し、三項関係ではユーザーと 2 人のアクティブな友人とのやり取りのみを考慮します。研究者らは、人口統計学的属性と社会的役割という2つの側面から分析を行った。

1. 二項関係と人口統計的属性

以下の表 2 は、ユーザーの性別と友人の性別がユーザーのアクティビティ率に与える影響を示しています。このことから、クリック行動に関しては、2 人が同じ性別の場合、ユーザーのクリック確率が高くなることがわかります。ただし、「視聴」行動に関しては、友人が女性の場合、ユーザーが「視聴」をクリックする確率は高くなります。

年齢の観点から見ると、下の図 4 は、ユーザーの年齢と友人の年齢がユーザーの「視聴」行動の確率に与える影響を示しています。このことから、ユーザーが若い場合 (40 歳未満)、同世代のユーザーよりも年上の友人の影響を受けやすく、年上のユーザーは同世代のユーザーから影響を受けやすいことがわかります。

2. 二元的関係と社会的役割

以下の表 4 は、ユーザーとその友人がオピニオンリーダー (OL) と一般人 (OU) という異なる社会的役割を持っている場合に、ユーザーのアクティビティレートに与える影響を示しています。このことから、アクティブな友人がオピニオンリーダーでない場合、ユーザーは「読んでいる」をクリックして記事を読む可能性が高くなることがわかります。

以下の表 5 は、構造的ホール (SH) と一般人 (OU) という 2 つの社会的役割がユーザーのアクティビティ率に与える影響を示しています。（「構造的穴」とは、ソーシャルネットワークのギャップを指します。つまり、ソーシャルネットワーク内の1人または数人の個人は、一部の個人とは直接接触していますが、他の個人とは直接接触していません。つまり、直接的な関係がないか、関係が不連続です。ネットワーク全体の観点から見ると、ネットワーク構造に穴があるように見えます。）

友達が構造上の穴になっている場合、一般ユーザーの活動率が高くなることがわかります。構造的ホールを持つユーザーの場合、友人に構造的ホールがない場合にクリック確率が高くなりますが、その差は有意ではありません。

3. 三元関係と人口統計的属性

下の図 5 は、ユーザーの性別と友人の性別がユーザーのアクティビティ率に与える影響を示しています。 2 人の友人の性別がユーザーの性別と同じ場合、ユーザーのアクティビティ率が最も高くなることがわかります。これは強い同質性を示しています。

下の図 6 は、ユーザー年齢と友人年齢がユーザーアクティビティ率に与える影響を示しています。このことから、友人の 1 人がユーザーと同じ年齢で、もう 1 人が若い場合、ユーザーのアクティビティ率が高く、年上のユーザーは年下のユーザーに多くの注意を払うことがわかります。

自己中心的ネットワークの特性

さらに、研究者らは、ユーザーの活動とエゴセントリックネットワークの属性との関係も調査し、ユーザーのオンライン行動 (クリックして読む、および「読む」) は友人の輪 (エゴセントリックネットワーク内の友人) に大きく影響されることを発見しました。エゴセントリックネットワークとは、ユーザーのアクティブな友人の誘導されたサブグラフを指します。

この研究では、エゴセントリックネットワーク内の友人の数、接続されたブランチの数（#CC）、およびクリーンなエゴセントリックネットワーク（kコアサブグラフ）内の#CCという3つの側面からエゴセントリックネットワークの特性を分析します。

下の図 8 は、アクティブな友達の数を増やすことがユーザーのアクティビティ率に与える影響を示しています。図からわかるように、クリックと「閲覧」の行動の傾向はまったく異なります。

これらの分析を通じて、研究者は次のことを発見しました。

男性は記事を読むためにクリックする傾向が高く、女性は「読む」をクリックする傾向が高い。若者は「読む」に最も積極的ではない。
二項関係または三項関係の観点では、ユーザーとその友人（性別など）の間には興味深い「類は友を呼ぶ」現象が見られますが、アクティブな友人が複数いる場合は、属性の多様性（地域など）がユーザーのアクティビティと正の相関関係にあります。
エゴセントリックネットワークトポロジーによれば、「見る」行動とクリック行動のパターンは大きく異なります。たとえば、アクティブな友達の数が固定されている場合、ユーザーが「視聴中」をクリックする確率は、アクティブな友達によって形成される接続ブランチと負の相関関係にありますが、クリック動作は逆になります。このパターンは、自己中心的なネットワークが浄化されたときにさらに顕著になりました。

予測モデル

いくつかのパターンや規則性を発見しましたが、それらを使用してユーザーのオンライン行動を予測することはできるでしょうか?この研究では、予測モデル DiffuseGNN が作成されました。

上図に示すように、DiffuseGNN モデルは、前処理エゴセントリックネットワーク、入力層、特徴スムージング層、階層グラフ表現学習、出力層の 5 つのステップで構成されています。

このモデルのコアコンポーネントと基本的な考え方は次のとおりです。

入力ユーザー機能については、研究者はユーザーの人口統計情報（性別、年齢など）や事前トレーニング済みのユーザー埋め込みなどのさまざまなユーザー機能を考慮し、機能の相互作用をモデル化しようとしました。
次に、学習可能な変調スペクトル領域で初期特徴を伝播することによってユーザー埋め込みを学習します。これにより、学習したユーザー埋め込みは、エゴセントリックネットワークで有用な情報をキャプチャし、ノイズを除去できるようになります。
次に、研究者らは学習した中間表現を階層グラフ表現モデルにさらに入力し、ノードを反復的にクラスタリングすることでサブグラフの埋め込みを学習します。
この研究では、ユーザー特性と友人特性間の相互作用をモデル化するために、新しい注意モデルも使用しています。

実験

研究者らは、収集したWeChatの「Look」データと公開されているWeiboデータセットでモデルのユーザー行動に対する予測効果をテストし、比較のために1)従来の分類器：LRとRF、2)機能の相互作用をモデル化するディープラーニング手法：xDeepFM、3)エゴセントリックネットワークに基づくSOTAユーザー行動予測手法：DeepInfとWangら、4)階層的グラフ表現学習手法：SAGPool、ASAP、StructPoolなど、複数の手法を選択しました。このうち、3番目と4番目のカテゴリはGNNベースの手法です。

以下の表 7 は実験結果を示しており、DiffuseGNN モデルのパフォーマンスがベースラインメソッドを一貫して上回っていることがわかります。

さらに、この研究では、さまざまなモデルコンポーネントがユーザー行動の予測に与える影響についても調査しました。表 7 の下部にあるデータを参照してください。このことから、事前トレーニング済みの埋め込みと特徴の平滑化のステップを削除すると、パフォーマンスが大幅に低下することがわかります。2 次特徴を追加すると、WeChat データに基づくユーザー行動予測にわずかに役立ち、Weibo データセットに基づくユーザー行動予測にはより良い効果があります。モデルは、人工的に作成されたユーザー特徴を使用せずに優れたパフォーマンスも達成します。

<<: AI イニシアチブを成功させるために必要な 10 のこと

>>: 人間の介入によってモデルのパフォーマンスをどのように向上できるでしょうか?この記事を読んでみてください