異常分析のための技術的ソリューション - 異常帰属の指標分析

異常分析のための技術的ソリューション - 異常帰属の指標分析

著者 | イー・リアン

1. はじめに

唯一不変なのは変化です。変化を受け入れる前に、調査し、属性を特定し、事前に十分な準備をしてください。

比較的完全な指標システムを構築するという文脈では、指標と指標変動の解釈を通じてビジネスを説明、追跡、促進する必要があります。指標が変動した場合、まずその変動がビジネスの観点から異常であるかどうかを判断すること(異常検知)、次にその異常の原因を特定すること(異常帰属)が必要です。

帰属方法は数多くあります。この記事では、ビジネス分析を行う際に最も一般的に使用される方法でもある指標分解に焦点を当てます。私たちの目標は、人的資源を解放し、指標を自動化に分解することです。これにより、一方ではビジネスの反復をスピードアップし、問題を迅速に特定できます。他方では、変化を引き起こす可能性のある側面をグローバルに定量化し、比較可能性を高め、次のビジネスアクションポイントの優先順位を明確にすることができます。自動化された差異帰属の目的は、できるだけ早く機会を特定して捉え、データ駆動型テクノロジーをビジネスの方向性を導く指標として使用することです。

2. 目的

対象指標は と定義され、変動は で、 は今月のデータ、 は前月のデータ(前年比/前月比)です。

この記事の目的は、合成セットが以下の点にどのように貢献するかを研究することです。

その中で、それは

貢献。

さらに、寄与分解アルゴリズムはさまざまな組み合わせに応じて決定されます。セットの組み合わせには次のものが含まれます。

加算(たとえば、各チャネルの UV の合計)。

乗算 (たとえば、rpm = cpc * ctr の場合、cpc と ctr の rpm への寄与をそれぞれ計算します)。

比率指標(例えば、各広告プランの cpf や各チャネルの cpuv など)。

3. 寄与率の分解方法

1. 添加分解

目標ボラティリティ寄与は、

証明は付録にあります。

たとえば、絶対値指標の次元分解は加法分解です。絶対量指標の前年比/前月比の変化は、各サブ指標の変化の加重合計です。たとえば、訪問 UV の総数は、各チャネルの UV の合計に等しくなります。したがって、合計 UV の変化の寄与率は、各チャネルの変化を前月の UV の総数で割った値に等しくなります。

2. 乗算分解

目標ボラティリティ寄与は、

証拠については付録を参照してください。

このうち、今月のデータは先月のデータ(前年比・前月比)であり、

平均対数重みは:

ファネル モデルを例にとり、ユーザー フローを使用して指標を分解します。

サイト全体の商品詳細ページのページビュー(IPV)を例にとると、その変化にはトラフィック、受信ページから商品詳細ページへのコンバージョン(UV-Dコンバージョン)、商品詳細ページのユーザーあたりの平均ページビュー(ユーザーあたり平均PV)があり、これらはユーザーの増加、検索やプッシュシナリオの受け入れ、プライベートドメインのユーザーアクティビティなどのビジネスドメインやユーザー行動指標に相当します。これにより、サイト全体の IPv 構成リンクの静的乗算分解が可能になります。

同時に、各乗数の目標指標の変化への寄与率を計算し、3 つの指標の重要性を測定することができます。

平均ログ重量は

3. 比率ベースの指標の内訳

比率指標を分析して次元を掘り下げていくと、サブ項目の全体への貢献は 2 つの要因によって影響を受けることが知られています。

サブ項目の相対数指標の変動寄与度、すなわち、当期のサブ項目規模が基準期のサブ項目規模と一致している場合にサブ項目指標によってもたらされる変化:サブ項目指標の変動寄与度=指標の前年比変化値×前期の基準に対する割合。

サブ項目の構造的変化、すなわち、現在の期間と基準期間の間のサブ項目の規模変化の指標の変化:サブ項目の構造的変化

= 前年比パーセンテージの変化*(サブ項目の現在の期間の指標 - 全体の前期間の指標)。

ここで、 は今月のデータ、 は前月のデータ(前年比/前月比)です。証明は付録にあります。

たとえば、リンクページから商品詳細ページへのコンバージョン率(uv-dコンバージョン率)を例に挙げます。トラフィックチャネルは、有料、無料、ナチュラル、その他に分けられます。各チャネルのuv-dコンバージョン率は、各チャネルの商品詳細ページへの訪問者数(duv)の割合はで表され、各チャネルの人数(uv)の割合はで表されます。uv-dコンバージョン率が前年比で低下した場合、どのチャネルに問題があるのか​​​​を特定する必要があります。各チャネルの貢献度はどのように計算されますか?

4. アプリケーション例

前述のさまざまな指標の計算方法に従って、すべてのタイプの指標をドリルダウンして貢献を見つけるシナリオをサポートします。以前のビジネス入力に基づいて多層アトリビューションロジックモデルを構築し、レイヤーごとにドリルダウンすることで指標の変動を最終的に特定できます。

図2: 寄与率を計算した後のデータ結果

2011 年のある日の IPv4 の前年比減少の異常分析を例に挙げます。

最初のレベルの分解では、ユーザー トラフィック ラインを使用して、次のように異常な変更があるインジケーター IPv4 リンクを複数回分解します。

これにより、指標の変化を引き起こす可能性のある主要なノードを特定することができ、UV の問題、変換の問題、1 人あたりの IPv4 の問題など、特定のビジネス ドメインにおける問題を特定しやすくなります。

分解の 2 番目のレベルでは、複数の次元で主要なノードをドリルダウンし、特定の次元の特定のレベルで問題を特定し、シンプソンのパラドックスなどの罠に陥らないようにします。これにより、特定のビジネス領域でアクションを起こすことができます。たとえば、コンバージョンの問題であれば、どのチャネルでコンバージョンが減少したのでしょうか。

以下の「異常分析・分解フローチャート」は、これまでの業務入力を基に構築したアトリビューションモデルです。このフレームワークに基づいて、寄与率の分解と問題箇所の特定を行うことができます。

図3: 指標の内訳とレイヤーごとの帰属

赤で示されたリンクインジケーターまたはディメンションは、合計値の減少に大きく貢献していることを示しています。レイヤーごとに分析した結果、アプリ側の自然トラフィックでのコンバージョンの減少が、合計コンバージョンの減少につながることがわかりました。

エンド間トラフィック規制とトラフィック予算削減のビジネス背景を踏まえ、IPv4に最も寄与するUV/DUVの寄与率を、エンドタイプ、トラフィックチャネルタイプ、トラフィックチャネル、国の4つの側面から分析します。

この例では、本稿の寄与率分解法によって得られた問題箇所と業務の手動データ分析は基本的に一致しており、この方法は異常変化の寄与率を定量化し、効率を向上させるという目的を達成できます。具体的な核心的な結論は次のとおりです。

結論 1 (第 1 層の分解) IPV の低下の主な影響要因は、UV-D 変換率の変動です。

結論 2 (第 2 層の分解) UV-D 比の変動は主に APP 末端と WAP 末端によって引き起こされ、2 種類の末端の寄与は等しい。

結論 3 (第 3 層/第 4 層の分解) APP 側の自然トラフィックと WAP 側の有料トラフィックは、総 UV-D 比率の変動に主に寄与する側面です。

結論4(第5層分解)APP側自己訪問におけるUV-D比の変動には米国が大きく寄与している。

多層アトリビューションドリルダウンディメンションモデルを確立し、レイヤーごとに自動的に分析することで、特定のディメンションに完全かつ正確にアトリビュートすることを目指し、人手を節約し、正確性と科学性を向上させることができます。

4. 多層ドリルダウンアトリビューションソリューション - 決定木

このセクションでは、寄与率を細分化した後の変化を検出する方法に焦点を当てます。すでに、異なるディメンションにおける各ディメンション値の寄与率を見つけました。次のステップは、寄与(変化)が最も大きいディメンション値の組み合わせを見つけることです。レイヤーごとのドリルダウン(上記 3.4 と同じドリルダウン方法)、マルチレイヤー同期ドリルダウン、および決定木モデルの 3 つの分解スキームをテストしました。決定木モデルが最も効果的であることがわかりました。ここで、決定木の入力はさまざまな次元値の組み合わせであり、出力は寄与率、つまり回帰予測です。

主なアプローチは、寄与率のエントロピーを計算し、情報ゲインが最も高い切断方法を見つけることです。ここで自然に思い浮かぶのは、決定木モデルです。貪欲アルゴリズムによって、データ空間が切り取られ、寄与率の絶対値が最大となる次元の組み合わせ空間が見つかります。図4の四角形はデータ空間全体を表しており、2つの次元を示しています。また、その下付き文字は次元の下の次元値を表しています。下の図は、異なる色で表される異なる次元値の組み合わせによってデータ空間が異なるブロックに分割されていることを示しています。

図4: データ空間における決定木のカットの視覚化

1. 剪定

決定木には過剰適合の問題があります。この問題を解決するために、枝刈り方法として事後枝刈りを使用することにしました。ポストプルーニングとは、まず決定木全体を構築し、次に下から上に向かって非リーフノードを調べることです。ノードに対応するサブツリーをリーフノードに置き換えることで一般化のパフォーマンスが向上する場合は、サブツリーをリーフノードに置き換えます。

ポストプルーニング方法には、REP エラー率削減プルーニング、PEP 悲観的プルーニング、CCP コスト複雑性プルーニング、および MEP 最小エラー プルーニングが含まれます。

CCP コスト複雑度法を借用しました。ノード表面エラー率ゲイン値が最大であるレベルの非リーフ ノードを選択し、非リーフ ノードの左右の子ノードを削除します。同じ小さな表面エラー率ゲイン値を持つ非リーフ ノードが複数ある場合は、子ノードの数が最も多い非リーフ ノードを選択してプルーニングします。このアルゴリズムのパラメータは

はアルゴリズムの複雑さを表します。

このうち、 はノードの分散(近似重み付きエントロピーの概念:不均一性、以下、エントロピーと略す、計算式)を表し、 はノードのサブツリーのエントロピーの合計であり、 は決定木ノードの数です。

高い。ノードの情報ゲインが高いことを示します。図5は、異常次元の数と決定木層ノードの平均エントロピーの関係を示しています。黄色の線を例にとると、異常次元が2の場合、決定木のエントロピーは第2層で最も高くなります。第2層以降は、エントロピーが減少し、情報ゲインが小さく、過剰適合が明らかです。破線から、エントロピーの変曲点は第 2 層にあり、決定木の最大深度は 2 に等しいことがわかります。

図5: 異常次元数とノード分散(エントロピー)の関係

図5の例を参考に、CPP法を使用して、最大のジャンプゲインを持つ「変曲点」を見つけ、適切な

剪定を実施します。

5. モデルのパフォーマンス

1. データをシミュレートする

私たちがシミュレートした次元と次元値は次のとおりです。合計 4 つの次元(それぞれ 2 つが独立)があり、合計 40 の次元値があり、4 つの次元値の組み合わせは 744 通りあります(直積 31*2*3*4=744)。シミュレートされた時間の比較は前月比であり、シミュレートされた指標は広告消費です。

ディメンションフィールド

国名

無料

端末タイプcd

インプ数ビン

寸法

国家

チャネル

終了タイプ

露出範囲

寸法値

31

2

3

4

マレーシア

無料

ワップ

(-1.0, 0.0]

異常な変化のないデータ: ホワイト ノイズを使用して、異常な変化のない次元の組み合わせの時系列をシミュレートします (図 6 を参照)。

図6: 変化のない時系列

異常なデータの場合: ランダム ウォークの累積合計を使用して異常なデータをシミュレートします。式は次のとおりです (図 7 を参照)。

図7(a): 異常値のある時系列1

2. モデル評価

上図の4つのディメンション(国、チャネル、端末タイプ、露出ギア)では、3月に変化がある特定のディメンションとディメンション値が指定されています。決定木モデルを通じて、正しい変化点が見つかるかどうかをテストします。シミュレーションケースでは、主に変化が起こる可能性のある実際の状況を考慮します。

  • 特定の PID の異常なデータ入力は、単一の次元 (その PID のデータのみ) の変更に影響します。
  • 特定のチャネルと特定の端末タイプへの投資の削減は、複数の次元の組み合わせの変化に影響を与えます。指標の変更には複雑なビジネスが関係するため、異なるチームによる異なる方向の最適化は、異なるディメンション値の組み合わせに影響します。

例1: 異常な寸法は2箇所にある

ディメンション値の組み合わせを変更します:

a. 国 = イラク、チャネル = 無料、端末タイプ = 'WAP'、露出時間 = [5:100]

b. 国 = フランス、チャンネル = 無料、端末タイプ = 'PC'、露出範囲 = [0:5]

寄与度を計算し、データを決定木モデルに入力します。結果を図 8 に示します。決定木は変更されたデータを正確に見つけており (合計 7 つの次元値を正確に見つけ、合計 8 つ)、赤でマークされた 2 つのデータ グループが変更に対する絶対的な寄与が最も大きいことがわかります。ツリー構造内の親ノードを見つける方法をカスタマイズし、冗長なブランチを自動的に切り取り、プレゼンテーション用の重要なブランチのみをキャプチャします。

図8: 決定木の結果のプレゼンテーション

機能の重要度も予想どおりです。

例2: 寸法は1か所で変更され、支払いでは1つの寸法のみが変更されます

異常なディメンション値の組み合わせ: a. チャネル = 支払い

プルーニングにより、モデルは 1 次元の情報を見つけ出すことができ、ユーザーを混乱させるほどのノイズを多く提供することを回避できます。

もっと

表 1 には、次元の組み合わせのさらなる例と、F1 スコア、モデル出力結果、特徴の重要性などのモデルのパフォーマンスが示されています。 11 件のケースが調査され、平均 F1 スコアは 91.9% でした。

次の数字は変更されたディメンション値の数です。

| 陽性予測 | 陰性予測陽性クラス | 真陽性 (TP) 34 | 偽陰性 (FN) 6陰性クラス | 偽陽性 (FP) 0 | 真陰性 (TN) 0

最終結果:

精度 = 34 / (34 + 0) = 100%再現率 = 34 / (34 + 6) = 85% F-1 スコア全体 = 91.9%


ディメンション値の組み合わせの変更(label/y_true)


F1スコア

モデル結果 1: モデル出力 (結果の視覚化、冗長なブランチの自動剪定、貢献度の高いブランチのみの表示)

モデル結果 2: 特徴の重要度

1

アプリ

100%

APP -> 貢献率は0.58

APP: 0.790

2

フランス

100%

フランス -> 寄与率 0.84

フランス: 0.542;

3

支払い

100%

支払済み->貢献率は0.43です

支払済み: 0.570;

4

フランス&有料

100%

フランス -> 支払済み -> 拠出率は0.81

フランス: 1.988;支払い: 1.019;

5

フランス & APP

100%

フランス -> APP -> 拠出率は0.84

フランス: 1.895; APP: 1.360

6

アプリと支払い

100%

APP -> 支払い -> 貢献率は0.41です

APP: 1.591支払い: 1.203;

7

アプリ&支払い&フランス

100%

フランス -> APP -> 支払い -> 拠出率は0.88

フランス: 1.944; APP: 1.374;有料: 1.047;

8

APP&支払い&フランス&(5.0, 100.0]

100%

フランス -> (5.0, 100.0] -> APP -> 有料 -> 貢献率は0.90

フランス: 1.836; APP: 1.469; (5.0, 100.0]: 1.369;支払済み: 1.302;

9

APP&有料&フランス&(5.0, 100.0]またはPC&無料&イラク

83%

イラク以外 -> フランス -> (5.0, 100.0] -> 拠出率は0.14イラク -> PC -> 未払い -> 拠出率は0.87

イラク: 1.610; PC: 1.027;有料: 0.772;フランス: 0.062; (5.0, 100.0]: 0.052;

10

APP&有料&フランスまたはPC &無料&イラク&(5.0, 100.0]

83%

フランス以外 -> イラク -> (5.0, 100.0] -> 拠出率は0.14フランス -> APP -> 非フリー -> 拠出率は0.87

フランス: 1.559; APP: 1.101;自由: 0.839;イラク: 0.064; (5.0, 100.0]: 0.058; PC: 0.000

11

APP&有料&フランスまたはPC &無料&イラク&(5.0, 100.0]または米国&無料&APP

88%

米国以外 -> フランス以外 -> イラク -> (5.0, 100.0] -> 拠出率は 0.14米国以外 -> フランス -> APP -> 支払済み -> 拠出率は 0.84米国 -> APP -> 支払なし -> 拠出率は 0.84

APP: 1.218 米国: 0.936 有料: 0.907 フランス: 0.863 イラク: 0.035 (5.0, 100.0]: 0.033 トルコ: 0.000


VI. 制限事項

ただし、この方法論には依然として限界があります。主な理由は、帰属変数 (ドリルダウン ディメンション) が限られており、ほとんどの場合、判断はビジネス理解と過去の経験に基づいて行われるためです。この方法では、ビジネスで認識されている分解ディメンションとリンクの位置付けのみを識別できます。分解された指標またはディメンションはすべて、既知のビジネス システム内の指標です。エンジニアリングの問題やマクロ ポリシーなどの要因は識別が難しく、定性分析によって補完する必要があります。具体的には、PV が減少していることがわかると、無意識のうちにチャネルからドリルダウンしたくなります。主な理由は、チャネルが変数として PV 数と正の (または因果関係のある) 関係にあると考えるからです。極端な例を挙げると、サーバー障害によりすべてのプラットフォームで PV が減少する可能性があります。このような潜在変数は、一般的に使用されるドリルダウン変数から独立している場合、この方法では検出できません。私たちの今後の研究は、独立した指標と関連イベントの観点から因果推論アルゴリズムに関するさらなる包括的な研究に焦点を当てます。

7. 技術の製品化

弊社の月次レポートや週次レポートで通常使用される分析方法はこれに似ています。違いは、人手が限られており、データが複雑なため、ドリルダウンの次元やレベルが制限されることが多く、比率型指標などをどのようにドリルダウンすればよいかがわからず、科学性や厳密さを維持するのが難しいことです。この方法により、自動化が実現され、計算の精度が確保され、工数が節約されます。この技術を弊社の社内データ製品「Xiangshu」に適用しました。イメージおよびデータ センターは、ICBU のデータ駆動型の基盤製品です。データ資産の定義と管理、A/B 実験、インサイト分析を統合したデータ プラットフォームです。それが提供する中核的な価値は、見つけやすく、使いやすく、継続的に最新のデータ資産、大規模で信頼性の高いエンドツーエンドの実験機能、および原因と結果や異常などのインテリジェントな分析ツールにあります。

8. 付録

加法寄与アルゴリズムを証明する

既知の寄与は、

乗算寄与アルゴリズムを証明する

知られている、

貢献度は目標変動と等しい

証明比率貢献アルゴリズム

知られている

ここで、 は今月のデータ、 は前月のデータ(前年比/前月比)です。寄付額は

アルゴリズムによって得られた寄与率は、MECE原則に沿って互いに独立しており、観察して

それはシンプソンのパラドックスの罠を避けるのに役立ちます。

注: MECE 原則への準拠の証明: 相互独立性: 合計の計算式は、他のサブ項目の完全な網羅性を必要としません。

参照する

Ang、Beng W.、FQ Zhang、Ki-Hong Choi。「分解によるエネルギーおよび環境指標の変化の因数分解」Energy 23.6 (1998): 489-495。

Ang BW. 分解分析へのLMDIアプローチ:実践ガイド[J]. エネルギー政策、2005年、33(7):867-871。

「ボラティリティの解釈 - 指標分解の加算、減算、乗算、除算」https://zhuanlan.zhihu.com/p/412117828

<<:  人工知能は学習を通じて人類を自然災害から救うことができます。

>>:  人工知能はモノのインターネットにおける次のブレークスルーとなるでしょうか?

ブログ    
ブログ    
ブログ    

推薦する

SantaGPTが来ました! GPT-4は完璧なクリスマスの実現をお手伝いします

気がつけば、もう2024年も最後の月になってしまいました。今年のテクノロジー業界の申し子として、Op...

...

研究:ChatGPTが提供するがん治療オプションには誤った情報が満載

8月27日、OpenAIのチャットボットChatGPTは世界中で人気となっているものの、重要な分野...

ブラックボックスモデルを突破せよ! MITの中国人博士がモデル解釈のための新しいツールExSumをリリース

近年の人工知能の急速な発展は主にニューラルネットワークモデルによるものですが、モデルが大規模かつ複雑...

数学的能力はChatGPTを超え、700億のオープンソース大規模モデルが人気:AIを使用してAIを微調整、Microsoftの中国人チームが制作

AI生成の指示を使用してAlpacaモデルを微調整すると、数学的能力はChatGPTを超える—— M...

動的計算グラフとGPU対応操作

[[409431]]動的計算グラフディープラーニングに PyTorch を使用する主な理由の 1 つ...

ビッグデータとAIアプリケーションを成功させる4つの鍵

ビッグデータ技術が今や世界の主要なマーケティングツールの 1 つになっていることは周知の事実です。 ...

...

たった2時間で7元以下で3Dロボットが作れます

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

LLaMAが使用するオープンソースデータセットは棚から削除されました。これには約20万冊の本が含まれており、OpenAIデータセットに匹敵します。

オープンソースのデータセットは著作権侵害のため棚から削除されました。例えば、LLaMA、GPT-J ...

機械学習における数学的意義

機械学習におけるパフォーマンスを主張するために使用される指標については、ほとんど議論されていません。...

...

AI時代に需要が高まる6つの仕事

[51CTO.com クイック翻訳] 人工知能によってもたらされる自動化の波が、世界中のさまざまな業...

Ctrip カスタマー サービス ロボット ASR エンジンの負荷分散の実践

著者についてCtrip の技術専門家である Yu Xiu 氏は、電話の音声およびビデオ通信やインテリ...

画像はさまざまな方法で変更できます。NVIDIAはGANを使用して高精度のディテールレタッチを実現

[[436122]] EditGAN は、複雑かつ高精度な画像編集効果を実現しながらも、高い画像品質...