ブックマークにおける不正行為の特定におけるグラフィカル モデルの応用

ブックマークにおける不正行為の特定におけるグラフィカル モデルの応用

概要

グラフィカル モデルは通常、問題自体に複数の相互に関連する変数があるシナリオで使用され、これらの接続をモデル化し、潜在的な因果関係を調査できるグラフ ベースの表現を提供します。本論文では、Taobao プラットフォームのコレクションにおける不正行為を検出するタスクに確率的グラフィカル モデルを革新的に適用し、従来の分類モデルをはるかに上回る結果 (レコードの上位 1% で不正行為の 60% を再現) を達成しました。

本稿では、この取り組みを、不正行為分析、モデル構築、モデル解決の3つの部分から詳しく紹介します。この論文はWWW 2018に採択されました(採択率14.8%)。

背景

オンラインショッピングサイトの発展に伴い、オンラインショッピングが徐々に従来のショッピング方法に取って代わりつつあります。 2016年のPwCの調査によると、買い物客の54%が毎週または毎月オンラインで商品を購入しており、そのうち34%が携帯電話を主なショッピングツールと考えていることが分かりました。ショッピング ウェブサイトでは、検索エンジンはユーザーが特定の商品、スタイル、ブランドを見つけるための主要なエントリ ポイントです。

検索エンジンの助けを借りて、ユーザーはショッピング サイトでカートに追加、お気に入り、購入といった一連のアクションを簡単に完了できます。これらのユーザー行動データ自体にも大きな価値が含まれており、ショッピング サイトの推奨や検索を最適化する上で非常に重要な役割を果たします。 「お気に入りに追加」は Taobao の重要な機能であり、ユーザーはこれを使用してまだ購入していない商品を集めることができます。同時に、「お気に入りに追加」された商品の数(人気とも呼ばれます)も、Taobao の検索エンジンが提供するオプションの並べ替え戦略であり、デフォルトの包括的な並べ替えでは、人気の値がパラメータとして導入されることがよくあります。

商品や店舗のランキングや知名度を上げるために、悪質な販売業者の中には、主に偽のプロモーション行為(コレクション、カートに追加、転送)や偽のレビュー行為など、偽の不正行為を行って売上を伸ばす業者もいます。現在、タオバオの不正行為を狙った地下産業は、特にクラウドソーシングプラットフォームの発展により成熟しており、これらの商人は自分のニーズに応じて不正行為のタスクを簡単に公開し、不正行為を完了するために多数の参加者を引き付けることで、迅速かつ効率的に商品や店舗の宣伝を実現しています。

偽のコレクションを例にとると、悪意のある販売者はタスクを発行することで商品の人気を急速に高めることができ、それによってタオバオの推奨と検索ランキング戦略に影響を与え、商品の売上をさらに増加させることができます。クラウドソーシングプラットフォームを利用したこの種の不正行為は、短期間で大量の異常なデータを生成する可能性があり、検出が困難であるため、ユーザーとショッピングサイト自体に悪影響を及ぼします。したがって、これらの不正行為をいかに迅速かつ効果的に見つけるかが、Taobao にとって非常に重要です。

詐欺行為の仕組み

グレーマーケットプラットフォームが提供するコレクション不正サービスを調査した結果、不正のパターンを次の図にまとめました。

まず、マーチャントはプラットフォームを通じて不正タスクを公開し、商品、検索キーワード、タスク時間、手数料を指定します。この基本情報に加えて、マーチャントは、検索結果ページを x 分以上閲覧する、検索結果でランダムに y 個の商品をクリックする、指定された商品をクリックして受け取るなど、いくつかの特別な要件も提示します。一部のタスクでは、参加者が特定のレベルの要件を満たすことも求められます。プラットフォームのユーザーは、タスクを確認した後、タスクの要件に応じて、検索、閲覧、クリック、収集などの一連のアクションを実行してタスクを請求します。*** また、プラットフォームでコミッションを請求するには、スクリーンショットを撮る必要があります。

こうしたプラットフォームのユーザーのほとんどはパートタイムのブラッシャーであり、不正行為は Taobao プラットフォーム上での彼らの行動の一部にすぎません。さらに、収集はプライベートな行動であるため、一般の人には検出できず、「自分にとって役立つ」や「最適な回答」などの明確な指標がありません。したがって、このタイプの新たな不正行為タスクは、既存の方法を使用して検出することが困難です。

この種の不正行為を識別するために、私たちは不正行為プラットフォーム上で 1 か月間のタスクを収集し、ユーザーの行動にラベルを付けました。同時に、ユーザー属性、製品属性、行動属性の3つの観点からコレクション不正行為の詳細な分析を実施しました。私たちは、これらの属性とユーザーと製品の関係をファクターグラフモデルを使用して統合し、これに基づいて、コレクションの不正行為の可能性を検出するための分類モデルを設計しました。

ユーザー、製品、行動の属性の比較分析

行動属性分析

まず、不正な収集行動と通常の収集行動の属性の違いを詳細に比較しました。

カートにアイテムを追加するという観点から見ると、不正なコレクション行動のうち、カートにアイテムを追加するのはわずか 6% ですが、通常のコレクション行動では 8% に該当します。この違いは、主に、不正行為による収集タスクのごく一部では、ショッピングカートに商品を追加することが求められるためです。また、不正行為によって収集された商品はユーザーが望んでいるものではないため、当然、カートに商品を追加する意欲は低くなります。検索プロセス中に、ユーザーはいくつかのフィルタリング条件(配送先、価格帯など)を使用して、より効果的に製品を見つけることができます。ここで、フィルタリングを使用した不正なコレクションの割合は、通常のコレクションの割合よりも低くなります。

コレクションに追加される前に(現在の検索処理中に)他の商品のクリックがあるかどうかについては、不正なコレクション動作が通常のコレクション動作よりも大幅に高くなっています。これは主に、多くの不正行為タスクではより多くのアイテムをクリックする必要があるためです。時間の観点から見ると、不正行為は週末に多く発生する傾向があり、これは不正行為を行うユーザーがパートタイム労働者であるという事実と関係している可能性があります。

下の図では、検索キーワードの長さ、検索結果ページの深さ、検索結果ページでの滞在時間、クリック後の商品詳細ページでの滞在時間など、より多くの行動属性を比較しています。

上記の分析から、以前の商品クリックを除いて、他の属性では不正な収集行動と通常の収集行動に大きな違いがないことがわかります。これは、行動自体に基づいて不正行為と非不正行為を区別することが非常に難しいことをさらに裏付けています。

ユーザー属性分析

以下の分析では、収集した不正サンプルに関係するユーザーを不正ユーザー、それ以外のユーザーを正常ユーザーと定義します。不正サンプルに含まれる製品と類似する製品は不正製品となり、それ以外の製品は正常製品となります。

上記の表から、不正行為をするユーザーの行動(コレクション、カートに追加、購入、コメント)が通常のユーザーよりも明らかに少ないことがわかります。これらの行動は、ユーザーがプラットフォーム上で過ごす時間を反映する可能性があります。明らかに、不正行為をするユーザーは、通常のユーザーよりも活動性が低いです。

私たちは不正行為をしているユーザーの 1 人を選び、そのユーザーの収集行動の持続性を観察しました。結果は上の図の通りです。不正行為をするユーザーは、一定期間(月の前半)にわたって、不正行為をする商品を一定数収集します。このデータは、不正行為を行うユーザーが一定の連続した時間枠内で不正行為を行う製品を収集していることを示しています。

製品属性分析

ユーザー属性分析と同様に、不正商品と正常商品の違いも比較しました。データについては下の表をご覧ください。明らかに、不正行為製品の行動データは正常製品よりもはるかに低く、これは通常、パフォーマンスの良くない製品だけが不正行為を求めることを反映しており、同時に、これらの不正行為製品は正常ユーザーを引き付けることも困難です。

不正な製品と正常な製品を選択し、それらのコレクションの持続性を観察しました。結果は下の図に示されています。不正行為製品における不正行為は、対応するタスクによって指定された時間である可能性のある非常に短い時間枠に集中していることがわかります。

不正行為の収集検出

モデル定義

不正行為の分析に基づいて、特徴的な特徴を抽出し、抽出した特徴因子と相関因子を確率グラフモデルフレームワーク(Activity Factor Graph Model、AFGM)に統合して、偽の収集活動を識別しました。

AFGMモデルでは、行動特性、ユーザー特性、製品特性の合計3つの特性因子を導入しました。同時に、ユーザーと製品に基づく関連因子も導入しました。つまり、一定の時間枠内で同じユーザーまたは同じ製品によって生成された2つのコレクションレコードに対して、エッジ関係が確立されます。具体的なモデルを下図に示します。

モデルソリューション

実験結果

不正行為の検出の問題では、従来の方法は基本的に効果がないことがわかりますが、確率的グラフィカル モデルを使用すると、より良い結果が得られます。対照的に、製品属性要因とユーザー属性要因を考慮しなくても、モデルはすでに良好な結果を得ることができることがわかりました。これらの要因を追加しても、最終結果はわずかに改善されるだけです。

上の図は、topk% におけるさまざまな確率グラフ モデルの検出効率を示しています。top10% では、不正行為の約 80% を検出でき、AFGM モデルと AFGM-UP モデルのパフォーマンスが非常に近いことがわかります。これは、関連性要因に不正行為を検出するのに十分な情報がすでに含まれているためである可能性があります。 AFGM-CP は 4 つのモデルの中で最もパフォーマンスが悪く、これは不正行為の検出において製品の関連性の要因がより重要であることを示しています。

まとめ

本稿では、タオバオレビューにおけるコレクションの不正行為を多角的に詳細に分析し、不正行為と通常の行為の違いを明らかにしました。これらの分析を通じて、複数の特徴を抽出し、収集行動が不正行為であるかどうかを推測するための AFGM を提案しました。実験結果によると、AFGM は記録の上位 1% にある不正行為の 60% 以上を思い出すことができます。

さまざまなモデルを比較することで、不正行為の検出には製品の関連性の要素がより重要であることもわかりました。私たちが提案した検出モデルは非常に効率的ですが、現在のアルゴリズムでは、ある期間全体における不正行為しか識別できず、リアルタイムでの動作を識別することはまだできないことを指摘しておく必要があります。これは、今後の研究の方向性となります。

著者: Su Ning、Liu Yiqun、Li Chao、Liu Yuli

数式が多すぎるため、漏れを防ぐために PDF を添付しましたので、クリックしてご覧ください。

<<:  Google AI、眼球スキャンから心臓病リスクを予測可能

>>:  午後を費やしてラベルのない画像10万枚にラベルを付け、上司の費用を3万ドル節約しました

ブログ    
ブログ    
ブログ    

推薦する

...

「Split Everything」のビデオ版はこちらです。数回クリックするだけで、動いている人物や物体が丸で囲まれます。

写真ビデオセグメンテーションは多くのシナリオで広く使用されています。映画の視覚効果を高めたり、自動運...

米政府、AIの競争力と倫理について助言する委員会を設立

[[422878]]海外メディアCNETによると、米商務省は水曜日、人工知能の研究開発についてジョー...

2023年の人工知能の進歩を、大きなモデルだけでなく考察する記事

2023年には、ビッグモデル間の激しい競争が繰り広げられるでしょう。これ以外に、AI分野ではどのよう...

...

【ビッグガイがやってくるエピソード11】ITマネージャーの自己認識とコミュニケーション管理

[51CTO.com からのオリジナル記事] IT 部門のステータスが一向に向上しないのはなぜか、上...

...

...

人工知能が台頭しています。インテリジェントセキュリティの開発はどのように進んでいますか?

セキュリティ業界は、人工知能の市場を長く有する業界として、人工知能の発展に対する理解がより明確で、そ...

...

5 年以内に、8,000 万の仕事が機械に置き換えられるでしょう。インダストリアル インターネットは治療薬でしょうか、それとも毒でしょうか?

時代の発展は常に要求と矛盾の中で発展しています。あらゆる産業革命は発展の力をもたらすだけでなく、大き...

AI駆動型ソフトプラスチック選別ロボットがプラスチック廃棄物危機の解決に貢献

近年、プラスチックのリサイクルは改善されてきましたが、埋め立て地に廃棄されるプラスチック廃棄物は大き...

WebGPT について簡単に説明してください。学びましたか?

原作者: エベネザー・ドン元のアドレス: https://blog.logrocket.com/in...