ICLRスポットライト！清華大学は時系列異常検出アルゴリズムを提案し、5つのSOTA結果を達成した。

現実世界のシステムは、動作中に大量の時系列データを生成します。

これらの時系列データを通じてシステム内の可能性のある異常現象を発見することは、大規模サーバー、地対空、水道・電気設備の監視など、システムのセキュリティを確保し、設備の円滑な運用と経済的損失を回避するために非常に重要です。

そこで、清華大学ソフトウェア学院のチームは、教師なし時系列異常検出の問題に焦点を当て、ICLR 2022 の Spotlight として採用されました。

著者: Xu Jiehui*、Wu Haixu*、Wang Jianmin、Long Mingsheng

論文リンク:
https://openreview.net/forum?id=LzQQ89U1qm_

実際のアプリケーションでは、時系列データの異常検出は非常に困難です。支配的な正常データから異常なポイントまたは異常な時間パターンを発見する必要があり、これには 2 つの主要な問題が伴います。

（１）異常な表現が正常なデータに埋もれないように、ネットワークを通じてより有益な表現を得る方法。

（２）学習した表現に基づいて異常を選別するためのより識別的な基準を定義する方法。

1. 動機

時系列の本質的な特性に基づいて、各時点は時系列全体との関連性、つまり時間次元における関連性の重み分布によって表すことができることがわかります。ポイントレベルの特徴と比較すると、この相関関係は、サイクル、トレンドなどのシーケンスのパターン情報を意味するため、より有益です。

同時に、外れ値は正常点と比較して、正常パターンが支配するシーケンス全体と強い相関関係を確立することが難しく、隣接する領域（連続性のため）にさらに注意を払う傾向があります。したがって、全体的なシーケンスと隣接する事前分布との相関のこの違いは、異常検出のための自然で非常に識別力の高い基準を提供します。

上記の観察に基づいて、関連の不一致に基づく時系列異常検出を実装するための Anomaly Transformer モデルを提案しました。これには、2 つの形式の関連性を個別にモデル化する Anomaly-Attention メカニズムが含まれており、Minimax 関連性学習戦略を使用して、正常ポイントと異常ポイントの差をさらに拡大します。

Anomaly Transformer がさまざまな分野の 5 つのデータセットで SOTA 結果を達成したことは注目に値します。

2. 方法

2.1 異常トランスフォーマー

2.1.1 全体的なアーキテクチャ

標準の Transformer モデルと比較して、Anomaly Transformer には、マルチレベルのディープフィーチャから潜在的な時間的関連性を学習するために各レイヤーに設計された新しい Anomaly-Attention ユニットがあります。

全体的なアーキテクチャは上の図に示されています。Anomaly-Attention (左) は、事前関連 (事前関連、隣接領域の事前により注意を払う) とシリーズ関連 (シリーズ関連、データからマイニングされた依存関係) を同時にモデル化します。

シーケンス再構築タスクに加えて、私たちのモデルは、外れ値と正常点間の相関差のギャップをさらに拡大し、外れ値の検出を容易にするミニマックス戦略も使用します。

2.1.2 異常注意

相関差を計算するために、事前相関とシーケンス相関を均一にモデル化する新しい注意メカニズム、Anomaly-Attention を提案します。

（１）事前相関は、時系列の連続性により、各瞬間が隣接する領域にさらに注意を払うという事前情報を示すために使用されます。表現には学習可能なスケールパラメータを持つガウスカーネル関数を採用します。ガウスカーネル関数の中心は、対応する時点のインデックスに配置されます。ガウス分布自体の単峰性分布特性により、このような設計により、学習した重みが対応する時点の近傍に自然に集中するのに役立ちます。同時に、適応スケールパラメーターは、事前の関連付けがさまざまな時間パターンに動的に適応するのに役立ちます。

（２）シーケンシャルアソシエーションは、シーケンスデータから直接抽出された依存関係を表すために使用されます。その計算方法は、標準的なTransformerの注目行列の計算方法に似ています。注目行列の各行の重み分布は、ある時点でのシーケンスの関連性に対応します。同時に、シーケンス再構築タスクをより適切に完了するために、モデルは合理的なタイミング依存関係を自動的にマイニングします。

上記の設計により、モデルはそれぞれ事前の関連性とシリアルな関連性を捉えることができます。以前のモデルと比較して、この関連性に基づく表現にはより豊富な情報が含まれています。

2.1.3 関連の不一致

関連性の差を 2 つの差として定義し、これが後続の異常検出の基準として使用されます。関連性の差は、各レベルでの以前の関連性とシーケンス関連性の間の対称 KL 距離によって計算されます。

2.2 ミニマックス相関学習

教師なしタスクで広く使用されている再構成エラーに加えて、通常のポイントと外れ値の間のギャップを拡大するために、追加の相関差損失も導入します (以下を参照)。

事前関連の単峰性により、新たに追加された関連差損失により、シーケンス関連は隣接していない領域にさらに注意を払うようになり、外れ値の再構築がより困難になり、通常のポイントと外れ値の区別が容易になります。

しかし、実験により、相関差を直接最小化すると、事前分布の学習可能なスケールパラメータが大幅に減少し、モデルの劣化を引き起こすことが示されています。したがって、関連付け学習のプロセスをより適切に制御するために、ミニマックス戦略を使用します。

（１）最小化段階では、時系列相関を固定し、事前相関を近似することで、事前相関が異なる時系列パターンに適応できるようにします。

（２）最大化段階では、事前の関連付けは固定され、シーケンスの関連付けは関連付け間の差を最大化するように最適化されます。このプロセスにより、シーケンスの関連付けは隣接していないグローバルポイントに重点を置くようになり、外れ値の再構築がより困難になります。

最後に、正規化された関連差と再構築誤差を組み合わせて、新しい異常検出基準を定義します。

3. 実験

私たちは、サービス検出や地上空間探査などの複数のアプリケーションをカバーする 5 つの標準データセットでモデルを検証しました。 Anomaly Transformer は 5 つのベンチマークすべてで SOTA 結果を達成しました。さらなるベンチマークモデルとデータの説明については、論文を参照してください。

3.1 アブレーション実験

我々は、提案された事前関連付け、トレーニング戦略、および新しい異常基準の有効性を検証するためにアブレーション実験を設計した。

3.2 基準分析

5 種類の時系列異常について、異なる異常基準に基づいてそれらの区別を視覚化しました。相関差に基づく異常判定曲線の方がより正確な判別性があることがわかります。

3.3 事前関連分析

上記のさまざまな異常カテゴリについては、事前の関連付けから学習したパラメータの視覚化も提供します。図に示されているように、外れ値はシーケンス内の他のポイントよりも小さいことが多く、これは外れ値が隣接していない部分と弱い関連性があることを意味します。これは、外れ値とシーケンス全体の間に強い事前関連性を確立することが難しいことも裏付けています。