著者について Ping An Technology のデータベース チームの運用保守開発エンジニアであるMa Bo は、主に傾向予測、異常検出、自動運用保守プラットフォーム、ログ アラームなど、Ping An Technology のデータベース分野における AIOps 実装プロジェクトに参加してきました。現在は、Ping An Cloud 上のデータベース インテリジェント運用保守システムの構築に取り組んでいます。 初期のシステム管理から基本的なスクリプトによる運用保守、自動化された運用保守、そして最終的にはインテリジェントな運用保守に至るまで、運用保守の全歴史を振り返ります。こうした長年の発展を経て、運用・保守担当者の業務内容は劇的な変化を遂げました。 10 年以上前は、障害がいつどこで発生するかはわかりませんでした。発生したときに根本原因を見つけて問題を解決するしかありませんでした。これは非常に受動的なアプローチでした。 その後、大規模なスクリプトが導入され、問題への対処方法はより科学的になり、速度も満足のいくものになりましたが、受動的な問題解決という本質的な現象は変わりませんでした。これまでの経験から、多くの企業が監視システムを導入し、独自の自動運用保守プラットフォームを開発して、問題が発生したとき、または発生しそうになったときに自動的に解決することを目指しました。このアプローチは、これまでのすべての「受動的な運用保守」の本質を突破し、問題が発生する前に防止し、障害を未然に防ぐことができます。しかし、それに伴い、アラームの数も膨大になり、監視データも膨大になります。いかに効率的に障害を解決するかが、今や私たちが解決しなければならない難しい問題となっています。 人工知能時代の到来は、まさに私たちが直面している上記のような問題を解決するものであり、AIOps は既存の運用保守データ (ログ、監視情報、アプリケーション情報など) を基に、機械学習を通じて、自動運用保守では解決できない問題をさらに解決することが期待されています。 当社では現在、データベースの運用・保守の自動化からインテリジェンス化への変革を積極的に推進しております。周知のとおり、データマイニングや機械学習は、基礎となる膨大なデータから切り離すことはできません。平安科技は近年、自動化された運用と保守の適用を通じて、膨大な量の多次元データベースパフォーマンスデータ、ログデータ、ホストデータを蓄積してきました。 このデータを使用することで、機械学習などの方法を使用して、時系列異常検出、根本原因分析、電子メールアラームの収束、容量予測などの複数のアプリケーションシナリオで必要な情報を取得し、障害を自動的に検出、診断、解決することができます。 1. 時系列異常検出 時系列データは、大規模、多種類、多様な要求という特徴を持つ AIOps の基本データです。自動化された運用および保守段階では、主に一定閾値方式を使用します。 この方法はシンプルで実装も簡単ですが、柔軟性が不十分で、障害がタイムリーに検出されず、現在のアラームのニーズを満たすことができないという欠点も明らかです。次の図に示すように、従来のしきい値アラームでは、次の 2 つの変動異常は無視されます。 一定閾値法 このとき登場したのが、動的閾値法です。従来の動的閾値法は、前年比や前月比の変化に基づく統計的手法を採用しています。この方法は解釈性が高く、実装も簡単ですが、柔軟性が低く、休日の影響を大きく受けます(下の図に示すように、9月24日は中秋節で、先週に比べてトラフィックが大幅に減少しています。このとき、前月比や前年比の方法は適用できません)。また、問題がタイムリーに発見されません。 多くの企業では、加重移動平均法を使用して動的なしきい値を作成しています。これらの企業は、次の式に示すように、同じ次元でポイントの値が前の期間のデータと関連している必要があると考えています。 9/18-9/25指標データチャート 現在、時系列データの異常検出に機械学習を適用しています。上記の方法と比較すると、機械学習の方法はより正確ですが、より高価です。 時系列異常検出は、本質的には「正常」と「異常」の 2 分類問題として考えることができます。過去の監視データにラベルを付け、教師ありアルゴリズムと教師なしアルゴリズムを組み合わせてモデルを構築することで、現在の時系列が正常かどうかを判断できます。 2. 根本原因分析 ほとんどの場合、監視指標間の相関関係により、1 つの指標が異常であれば、関連する多くの指標も異常になります。すべてのアラームインジケーターを同時に分析して処理すると、多くの人的資源が無駄になります。この問題を解決するには、根本原因の分析を行い、的を絞った治療を行う必要があります。 通常、データの根本原因分析は次の 3 つの方法で実行できます。
Oracle データベースの DB_TIME が高い場合を例に挙げます。
根本原因分析方法1 根本原因分析法2 根本原因分析法3 3. アラームの収束 監視ビジネスがある程度規模が大きくなると、毎日受信する警報メールの数は飛躍的に増加し、特に監視頻度の高い一部の監視項目に問題が発生すると、この状況は顕著になります。 この問題を解決するために、最初に、同じアラームが一定期間内に 1 回だけ表示されるようにアラームの頻度を設定しました。 この方法により、確かにいくつかのアラームは軽減されますが、ルールを策定することでさらに収束できる明らかなアラームがまだいくつか残っています。たとえば、同じクラスター内のすべてのデータベースに ping を実行できない場合や、同じネットワーク セグメント内のすべての IP トラフィックが突然増加した場合、これらのアラームを統合して送信できます。 AIOps 時代では、アラートの収束と根本原因分析が一緒に実行されることがよくあります。 2 番目の根本原因分析方法と同様に、まずアラーム項目セット データを取得し、頻繁に発生する項目を抽出します。頻繁アラーム項目セットで、アラーム A とアラーム B が同時に頻繁に表示され、A が B よりも早く表示される場合、電子メールアラームでは B アラームを無視し、A アラームのみを運用保守担当者にプッシュすることができます。 異なるシナリオでのアラーム収束には、異なる要件があります。AIOps と比較すると、従来のアラーム収束方法はよりシンプルで効率的であり、ルールベースの方法も拡張性と解釈性に優れています。ただし、AIOps は常識と経験では発見できない相関関係を発見し、アラーム収束を実行できます。 4. 容量予測 容量予測は、データベースの運用と保守の多くの分野で使用されています。アプリケーション シナリオによって特性が異なるため、すべてのデータに適応できるモデルを見つけるのは困難です。 容量予測に関して、当社の典型的なアプリケーションは、データベース DB_SIZE の容量予測です。データベース容量は、全体的に増加し、不規則で、大きく変動するという特徴があります。データベース容量を合理的に予測することで、短期的には起こりうる障害を事前に発見し、プロアクティブな予防と解決を実行できるため、問題が発生したときに受動的に対処する必要がなくなり、長期的には合理的な容量計画とリソース割り当てを実行できます。 最初は線形回帰と簡単なデータ前処理を検討しましたが、結果は理想的ではありませんでした。業務規模の違いにより、データベースの容量は大きく異なり、テーブルのインポートやデータベースの容量拡張などの操作を実行する場合、線形フィッティングや非線形フィッティングの効果が満足できるものではありません。 明らかに、従来の線形回帰法は単純ですが、予測効果が低く、要件を満たすことができません。この問題を解決するために、容量データを周期型と急激な増減型に分類します。分類方法は、統計的手法やクラスタリングまたは分類手法を使用できます。 周期的なデータの場合、全体的な上昇傾向では、周期内の周期的なデータの成長値が線形に増加するため、実際には線形に適合可能であると考えることができます。このタイプのデータの場合、線形回帰と呼ばれる機械学習手法を使用してデータベース容量を予測できます。 定期データ 急激な増加や減少があるデータの場合、線形フィッティングの効果は低くなります。この場合、月ごとの増加を合計する方法を使用して、履歴データ内の月曜日から日曜日までの特定の日の増加の加重平均を取得し、この増加を予測に適用します。単純な線形フィッティング法と比較すると、この方法の精度は大幅に向上し、平均予測データの平均二乗残差はほぼ半分に減少します。 急激な上昇と下降のデータ 上記4つの応用シナリオの技術開発は、AIを通じて運用と保守をより効率的にし、より多くの障害を事前に発見して解決できるようにすることに注力しています。 AIOps に関しては、インテリジェントな質疑応答ロボット、集中型ログ分析プラットフォームなど、まだ試行錯誤すべきことがたくさんあります。関連する結果は後ほど皆さんと共有します。 |
<<: WOT2018 グローバル人工知能カンファレンスは引き続き盛り上がりを見せています。アプリケーションに重点を置き、AI が飛躍します。
>>: AI+中国製 Baidu Brain が蘇州にご招待し、「インテリジェント」製造についてお話しします
1. バブルソート 2. シェルソート 3. 選択ソート 4. 挿入ソート 5. クイックソート 6...
毎年、大学入試の結果が発表されると、多くの受験生が専攻の選択に悩みます。では、優秀な学生たちはこのよ...
イーロン・マスク氏は、わずか5年で人間の言語を無意味にすることができる技術に取り組んでいると述べてい...
プラットフォームを選択するための第一の原則は、「データに近い」ことです。コードをデータの近くに保つこ...
従来の自動車と比較して、自動運転車は、車両が乗客を安全に目的地まで輸送できるかどうかという実用的な目...
人工知能については誰もが知っていますが、人工知能トレーナーについてはどのくらい知っていますか? [[...
[[195898]]翻訳者注: この記事では、著者と 3 人の友人がプログラミング マラソンに参加し...
「私たちの論文を溜め込むのはやめてください」ネイチャー誌のコラムに学者の投稿が掲載される。記事は、...
最近、「ネイチャー」誌は表紙に次のような記事を掲載した。「ディープラーニングアルゴリズムを使用して皮...
CSDNパスワード漏洩事件では、ネットユーザーらはパスワードのプレーンテキスト保存とMD5保存の問題...
[[207640]]この記事は、Zhihu の質問「ディープラーニングの分散トレーニングにおける大...