NetEase はデータ指標の異常をどのように検出し、診断するのでしょうか?

1. 背景

指標はビジネスと密接に関係しており、その価値は、問題点やハイライトを発見し、タイムリーに問題を解決してハイライトを促進することにあります。電子商取引ビジネスのさらなる発展に伴い、ビジネスの反復が速くなり、ロジックが複雑になり、指標の数が増え、指標間の差異が非常に大きく、変化が速くなっています。システム内の異常な指標を迅速に識別し、問題の根本原因を見つける方法は、ビジネスにとって非常に重要です。アラームしきい値を手動で設定すると、間違いが起きやすく、非常に時間とコストがかかります。私たちは、以下の目標を達成できる自動化された方法を構築したいと考えています。

自動化ではユーザー入力に依存する必要がありません。従来の方法では例外ルールや属性ディメンションなどの定義が必要でしたが、自動化システムでは手動のユーザー入力は不要になります。
汎用性: さまざまな指標分布に適応でき、異なる指標は異なる方法に適合します。
適時性: 毎日および毎時間の指標の異常検出と帰属を実現します。
正確性と積極性: データを通じて人を見つけるという目標を達成します。

次に、指標異常検出と指標異常診断についてそれぞれ紹介します。

2. 指標異常検出

1. 異常とは何ですか?

データサイエンス作業の最初のステップは、問題を定義することです。異常の定義は、データ指標の異常です。指標が高すぎたり低すぎたり、大きく変動したりすることはすべて異常であり、早期の警告と診断が必要です。指標の異常には次の 3 つの種類があります。

絶対値異常

これは、ビジネスの現状を反映する指標の本来の分布に従わない統計的な外れ値を指します。

異常な変動

前月比での急激な増加または減少は、事業の急激な変化を反映しています。

異常な傾向

最初の 2 種類の異常は単点的かつ短命ですが、一部の異常は比較的隠れており、中長期的には明確な上昇傾向または下降傾向を示し、特定の潜在的なリスクを示すことがよくあります。したがって、トレンド異常の検出、ビジネス警告の実施、早期介入も必要です。

これら 3 種類の異常は互いに独立しており、異なるシナリオは異なる種類の異常に対応する場合があります。

たとえば、上の図では、ポイント A には絶対値異常とボラティリティ異常の両方があります。ポイント B は前日からの前月比の変化が大きくないため、絶対値異常のみが報告されています。ポイント C とポイント D はどちらも異常な変動のみを報告しましたが、その理由は異なります。ポイント C での指標の急激な低下はポイント B によって引き起こされたもので、指標の正常な低下です。これは後処理ロジックで解決する必要があります。

2.異常な指標はフレームワーク内で測定される

指標検出の普遍性、自動化、適時性を実現するために、統計的テストに基づく教師なし検出フレームワークを設計しました。

絶対値異常検出

まず、絶対値検出は主に GESD テストアルゴリズムに基づいており、統計を計算して外れ値を検出します。プロセスは次のとおりです。

データセットには最大 r 個の外れ値があると仮定します。最初のステップは、平均からの偏差が最も大きいサンプル i を見つけ、次に統計量 R _iを計算することです。これは、 _xiの絶対値から平均を引いた値を標準偏差で割った値です。次に、対応するサンプルポイント i の臨界値 λ _iが計算されます。ここで、パラメーターは、n は合計サンプルサイズ、i は除外されたサンプルの数、t は自由度 ni-1 の t 分布の p パーセンタイル、p は設定された信頼水準 α (通常、α は 0.05) と現在のサンプルサイズに関連しています。

2 番目のステップでは、平均からの偏差が最も大きいサンプル i を削除し、上記のステップを合計 r 回繰り返します。

3番目のステップは、統計量_Riが_λiより大きい、つまり外れ値であるサンプルを見つけることです。

この方法の利点は、まず、外れ値の数を指定する必要がなく、外れ値の上限のみを設定する必要があることです。上限内では、アルゴリズムは外れ値を自動的に捕捉します。次に、3Sigma の検出率が非常に低く (1% 未満)、非常に極端な異常しか検出できないという問題を克服します。

GESD アルゴリズムでは、検出率の上限を制御することで適応を実現できますが、この方法の前提は、入力指標が正規分布している必要があるということです。現在観察されている電子商取引のビジネス指標の大部分は正規分布しています。もちろん、非正規分布している個別のビジネス指標 (<5%) もあり、それらをカバーするには分位点などの他の方法が必要です。

変動異常検出

2 つ目はボラティリティ異常検出です。これは主にボラティリティ分布に基づいて、分布の変曲点を計算します。上記の方法は、主にほとんどの指標ボラティリティが正規分布していないため適用できないため、ここではボラティリティ分布に直接適用することはできません。変曲点を見つける原理は、2 次導関数と距離に基づいて曲線上の最大曲がる点を見つけることです。増加するボラティリティは 0 より大きく、減少するボラティリティは 0 より小さくなります。y 軸の両側の 0 より大きい部分と 0 より小さい部分については、それぞれ 2 つのボラティリティの変曲点を見つける必要があります。ボラティリティが変曲点の範囲を超えると、異常なボラティリティであると見なされます。ただし、場合によっては、変曲点が存在しない、または変曲点が早すぎて検出率が高くなりすぎる可能性があるため、安全網を提供するために、分位点などの他の方法が必要になります。 1 つの検査方法が万能というわけではなく、組み合わせて使用する必要があります。

トレンド異常検出

3 つ目は、Man-Kendall テストに基づくトレンド異常検出です。まず統計量Sを計算します。ここで、sgnは符号関数です。指標シーケンスの前の値と次の値の相対的な大小関係に応じて、それらをペアにすることで、-1、1、0の3つのマッピング値を取得できます。統計量 S を標準化すると Z が得られ、これは表を参照して p 値に変換できます。統計的には、p値が0.05未満の場合は有意な傾向であると考えられます。

その利点は、ノンパラメトリック検定であるため、すべての分布に適用でき、バックアップ方法が必要ないことです。 2つ目の利点は、指標シーケンスに連続性が必要ないことです。これは、トレンド異常検出を行う際に、異常な絶対値を持つサンプルを事前に除去する必要があるためです。そのため、ほとんどの指標シーケンスは連続していませんが、この方法は不連続な指標をサポートできます。

異常検出後処理

3 種類の異常が終了した後は、不要なアラームを減らし、業務の中断を減らすことを主な目的とする後処理作業が必要です。

最初のタイプはデータ異常です。このデータ異常は、データソースがデータウェアハウスレベルにあり、データウェアハウスチームによって保証されているため、データソースが間違っていることを意味するものではありません。ここでのデータ異常とは、前サイクルの異常によって引き起こされた現在のサイクルの異常な変動を指します。たとえば、ある指標が昨日100％上昇し、今日50％下落したとします。このような状況は、ルールに基づいて排除する必要があります。排除の条件は、（1）前サイクルに変動または絶対値異常があり、（2）現在のサイクルの変動が正常に戻ること、つまり変動異常はあるものの、変動異常と同じ方向の絶対値異常がないことです。たとえば、価格が昨日 100% 上昇し、今日 50% 下落した場合、後処理モジュールによってフィルタリングされます。ただし、価格が 99% 下落した場合は絶対値異常がトリガーされるため、早期警告が必要になります。このようにして、ボラティリティの異常を 40% 以上排除しました。

2 つ目のタイプの後処理は、S レベルの昇進の情報調整に基づいています。このタイプの昇進中は、異常な指標が 1 時間ごとに表示されることがありますが、その理由は誰もが知っているため、報告する必要はありません。

3. 異常指標の診断

1. 異常指標診断レベルの分類

推論は、実行可能な領域と結論の確実性に応じて、決定論的推論、可能推論、推測的推論の 3 つのレベルに分けられます。

2. 異常指標の診断方法の比較

推論のレベルによって診断方法が異なります。

推測的な推論、結論は主に人間の経験に依存しており、結論は比較的不明瞭で、操作の余地は限られており、これはこの記事の方法論的議論の範囲外です。

可能性推論（1）は、機械学習に基づいて指標データを適合させ、回帰予測を行い、特徴の重要度を計算することができる。この方法の欠点は、単一の異常の原因を説明できないことである。（２）単一の異常を説明したい場合は、各予測値と各入力特徴のターゲットへの寄与を計算できるshap値アルゴリズムを追加する必要があります。この方法はある程度の解釈可能性を持っていますが、十分に正確ではなく、因果関係ではなく相関関係しか生み出せません。（３）ベイジアンネットワークは指標間の関係性のグラフやネットワークを構築するために使用できますが、計算が比較的複雑でブラックボックスであるという欠点があります。

決定論的推論は主に逆アセンブリ寄与アルゴリズムに基づいています。加算、乗算、除算のいずれの場合でも、寄与アルゴリズムは、各部分の指標または構造の変化が全体に与える影響を分解して測定します。利点は、強力な決定論、ホワイトボックス性、強力な適応性、および異常の位置を正確に特定する機能です。ただし、これには当然の欠点もあります。つまり、同じインジケータに対して、分解できるディメンションが多数存在するため、結合されたディメンションが爆発的に増加するという問題が発生します。

3. 事業状況

多くのデータサイエンスの問題では、実際のビジネスシナリオに基づいて対応する方法を選択する必要があります。そこで、私たちのアプローチを紹介する前に、まずはビジネスの現状を紹介したいと思います。

プラットフォーム電子商取引の成長は、トラフィックの維持と有料コンバージョンによって推進されることがわかっています。人口ボーナスがピークに達し、トラフィック獲得がますます困難になる中、NetEase Yanxuanは戦略的なアップグレードを実行し、プラットフォーム電子商取引からブランド電子商取引へと転換し、JD.comやTaobaoなどのプラットフォーム電子商取引企業をブランドパートナーに変えました。

ブランドeコマースの成長原動力は、爆発的な商品とのオムニチャネル連携を通じて突破口を開き、スターカテゴリーを創出してブランドを確立することです。たとえば、人々は必ずしも当社のアプリを通じてNetEase Yanxuanについて知っているわけではないかもしれません。TaobaoやJD.comで商品を購入して、当社のブランドについて知ったのかもしれません。 NetEase Yanxuan の成長展望は、新規ユーザーの誘致、ユーザーの維持、有料ユーザーへの注力から、人気商品の開発とチャネルの画期的な成長の達成に注力する方向にシフトしました。

ブランド電子商取引の指標分類は、戦略レベル、戦術レベル、実行レベルに分けられます。戦略レイヤーは、第 1 レベルのインジケーター、つまり North Star インジケーターに対応します。たとえば、市場の GMV は目標の達成度を測定し、企業の戦略的意思決定に役立ちます。戦術層は、第 1 レベルの指標をあらゆるレベルの部門およびビジネスラインに分割して得られる第 2 レベルの指標に対応し、プロセス管理に役立ちます。実行層は第 3 レベルの指標に対応し、第 2 レベルの指標をさらに商品カテゴリと各レベルの担当者に分割してサービスを実行します。

ブランド電子商取引の現在の指標評価方法と、部門、人、製品を特定する必要性に基づいて、私たちのアルゴリズムは決定論的、説明可能、ホワイトボックスである必要があります。そこで、指標の各層や各部分が全体に与える影響を計算するために、分解ベースのアプローチ、すなわち前述の分解寄与法を採用しました。

4. 解体寄与分の算出方法

貢献度を計算する方法は 3 つあります。1 つは加算、1 つは乗算、もう 1 つは除算です。

分解方法は上の写真の通りです。 Y は分解する対象の指標（市場の GMV など）、 _Xiは分解次元の 1 つにおける i 番目の次元値（省や都市の GMV など）、 _{Xi1 は}現在のサイクルの^指標^、 _{Xi0 は}前のサイクルの元の値を表します。

加算の分解式は分かりやすく、各次元値の変化値 ΔX _{i を}全体の元の値 Y ⁰で割ったものがその寄与となります。

乗算分解は、乗算係数分解のLMDI（対数平均指数法）法を採用しています。両辺の対数 ln を取ることで加法形式が得られ、その後上記の方法に従って各因子の寄与を得ることができます。前後の寸法値の比率が大きいほど、寄与が大きくなります。

分割法では、2 因子分解法を使用します。つまり、各部分と各次元値の全体に対する寄与は 2 つの因子で構成されます。最初の要因は変動寄与であり、 A _Xiで表されます。2 番目の要因は構造変化寄与 B _Xi 、つまり各部分の構造変化寄与です。例えば、各部門の売上総利益率は上昇しましたが、会社全体の売上総利益率は低下しました。その理由は、利益率の低い部門の売上シェアが増加し、それが全体の業績を低下させているからである可能性が高く、これは誰もがよく知っているシンプソンのパラドックスである。この問題は、分割分解アルゴリズムに B _Xi部分の構造変化の寄与を導入することで解決できます。

貢献の非常に重要な特性は、重複なし、省略なしという MECE 原則を満たす加法性です。分解方法に関係なく、特定の分解次元におけるすべての次元値寄与C _Xiを合計することで、全体の変化率ΔY%が得られます。

5. 指標分解次元の爆発の問題

売上高や粗利益など、特定の第 1 レベルの指標の異常な理由を分類するとします。分類の次元は、販売チャネルや省や都市にすることも、製品カテゴリ、新規顧客と既存顧客などに基づくこともできます。 n 個の分割次元があると仮定すると、n 個の次元に対応する中間テーブルを生成し、各次元の各次元値_{Xi の}指標の変化を計算してその寄与を取得する必要があります。

異常な指標の原因を正確に見つけるためには、単一の次元のみを分割すると、その次元の結論しか得られず、正確な問題を特定できないという問題があります。すべての次元を組み合わせるなど、分解次元が細かすぎると、各項目の寄与が小さくなりすぎて主な原因が得られなくなります。したがって、さまざまな次元の組み合わせで、必要な結論を徹底的に掘り下げて探す必要があります。

現在 n 個の分割ディメンションがあると仮定すると、最初に^{2n 個の}中間テーブルを作成する必要があります。中間テーブルの作成中は、キャリバーが一貫しており、データウェアハウスの仕様を満たしていることを確認する必要があります。ワークロードは非常に大きくなります。これらの中間テーブルが構築された後、分解アルゴリズムの API が個別に呼び出され、対応する寄与が計算されます。その結果、非常に大きな計算量とストレージ消費量が発生し、次元爆発の問題が発生しています。

6. 指標分解次元爆発問題の最適化

次元爆発の問題を解決するために、実装スキームは次のように最適化されます。

最適化 1: ディメンション分解のプロセスを貢献度に基づく集計に変更します。前述のように、寄与は加算的であるため、アルゴリズムは最初に 1 回呼び出され、最も細かい最終指標の寄与を計算します。次に、ディメンションの寄与が必要な場合は、寄与を合計するためのグループ化条件として使用されます。これにより、中間テーブルの IO 処理が省略され、必要なアルゴリズム呼び出しは 1 回のみになります。クラスターで合計操作を実行すると、インジケーター分解アルゴリズムを呼び出すよりもはるかに高速になります。

上記は主指標の異常診断ですが、実際の業務では副指標の診断も必要です。この方法では寄与度を一度正規化するだけでよく、繰り返し計算する必要がありません。主指標と副指標の両方を同時に異常診断することができます。

計算効率の問題は解決されましたが、結果の空間計算量が非常に大きいという問題がまだ残っています。各次元の次元値の平均数を k とすると、 1 次元分解空間+ 2 次元分解空間+ 3 次元分解空間+ n 次元分解空間= となります。

最適化2: 次元の組み合わせを制限して、実際のビジネスニーズに応じてプルーニングを実行し、結果の空間の複雑さを軽減します。

写真

内で。具体的には、2 つの操作があります。1 つ目は、ディメンションをグループ化することです。第 1 レベルチャネルと第 2 レベルチャネルのように自然な階層関係を持つディメンションの場合、第 2 レベルチャネルに分割すると、第 1 レベルチャネルの情報がすでに用意されています。第 1 レベルチャネルと第 2 レベルチャネルの組み合わせを冗長化する必要はありません。グループ間でディメンションを組み合わせるだけで済みます。 2 つ目は、ディメンションの組み合わせ数を制限することです。これは、アトリビューション診断分析では、実際のビジネスでは特に複雑なディメンションに重点を置くことはなく、一般的には 2 つまたは 3 つのディメンションの組み合わせで十分であるためです。

最適化 3: ジニ係数のソートに基づいて最適なディメンションを決定し、異常を正確に特定します。剪定後の複数の分割度と対応する次元値の寄与から、最適なものを選択して主な原因を特定するにはどうすればよいでしょうか。直感的には、特定のディメンションの粒度が細かく、最上位のディメンション値の寄与が大きいほど、それが異常な指標の主な原因である可能性が高くなります。ジニ係数は、このシナリオに適した測定方法です。各部分の寄与の二乗の合計から 1 を引いた値が小さいほど、分割ディメンションは合理的です。

上の図の右側に例があります。ある異常な販売量の場合、最初の方法は製品ディメンションごとに分解することです。各製品の寄与が小さすぎるため、ジニ係数が非常に大きくなります。 2 つ目の方法は、二次チャネルの粒度に応じて細分化することです。粒度が比較的粗いため、算出されるジニ係数は比較的大きな値になる可能性があります。第 3 の計算方法である、第 1 次産業と第 2 次産業を掛け合わせると、第 2 次産業を 1 レベル掘り下げると、プラスの寄与を示す部分とマイナスの寄与を示す部分があるため、ジニ係数はさらに小さくなる可能性があります。正の寄与とは指標の変動にプラスの影響を与える部分であり、負の寄与とはマイナスの影響を与える部分です。この例では、分割ディメンションの業界 1 にチャネル 1 を掛けた寄与が 60% であり、これが主な原因に起因しており、私たちの認識とより一致していることがわかります。したがって、ジニ係数を通じて、より合理的な分割次元と異常な指標の主な原因を見つけることができます。

4. 品質保証

Q1: 診断の精度を評価するためにどのような指標が使用されますか?

A1: 確定診断を行うため、結論は非常に明確です。純粋な指標の観点から見ると、計算してコードを記述することで精度が確保されます。業務理解の観点からは、例えば、ある業務の正常な動作によって異常が発生した場合や、偽陽性や偽陰性が他の原因によって発生した場合など、悪い事例を収集することで精度を評価します。

Q2: 貢献ポイントは混合されますか?例えば、GMV を分解する場合、最初は加算式を使用してチャネルを分解し、次に乗算式を使用しました。異なる分解方法を使用する順序をどのように判断しますか?

A2: これは非常に実践的な良い質問です。まず、加算と乗算を混ぜるというアイデアは実現可能です。貪欲な方法で検索し、各ステップのTOP次元値の対応する寄与と、分解の次のステップ後の寄与を計算し、寄与の減少量を組み合わせて、次のステップが加算による分解か乗算による分解かを決定します。

別の考え方としては、特定の方向から始めることです。たとえば、eコマースのGMVの場合、最初に加算で細分化し、次に最下層に到達するまで継続的に細分化します。たとえば、特定の製品の場合、乗算で細分化して、この製品のGMVがなぜ低下したのか、トラフィックの低下が原因なのか、コンバージョン率の低下が原因なのかなどを調べることができます。具体的なアプローチは、さまざまな実際のビジネスニーズ、および適時性や開発コストなどの考慮事項と組み合わせる必要があります。

NetEase Yanxuanの現在のシナリオでは、ブランド電子商取引として、普遍性とビジネスの地位を考慮すると、外部チャネルを通じて販売する場合、トラフィックやコンバージョン率などの要素は私たちにとってブラックボックスであるため、当社のビジネスシナリオでは、主に加法分解に重点を置いています。

<<: GitHubは、Copilot Chat機能が12月に一般公開され、教育ユーザーとオープンソースプロジェクトのメンテナーには無料で提供されることを発表した。

>>: DeepMindは「Transformerは事前学習データを超えて一般化できない」と指摘しているが、疑問視する人もいる。