アプリケーション管理における AI/ML のユースケース

[[320826]]

概要

人工知能ベースの運用 (AIOps) は、人工知能と従来の AM/IM 運用を融合したものです。他のすべての分野と同様に、AI は運用管理に大きな影響を与えます。 AI のパワーが運用に適用されると、アプリケーションとそれをサポートするアプリケーション/インフラストラクチャの管理方法が再定義されます。

複数のアプリケーションを同時に実行すると、大量のデータが生成される可能性があります。ネットワーク層からエンドユーザーへの API 呼び出しまでのデータ生成の遅延。ユーザーは、パフォーマンスが少しでも中断されることのないアプリケーションエクスペリエンスを期待しています。

スタックのさまざまなレイヤーからデータを取得できるため、推測される洞察の豊富なソースになります。運用の複雑さにより、アルゴリズム IT 運用 (AIOps) プラットフォームが誕生しました。このプラットフォームソリューションは、AI と ML を使用して監視データから洞察を獲得し、人間の意思決定を強化することで自動化ソリューションを推進します。

主なユースケースとソリューション

アプリケーション監視

アプリケーションメトリックは、応答時間、1 分あたりのリクエスト数、時間の経過に伴うエラー率などを追跡し、その動作の傾向を特定します。さらに、インフラストラクチャ層がアプリケーションのさまざまな負荷条件をどのように満たすのをサポートしているかを理解するために、CPU 使用率、メモリ使用率、負荷平均などのインフラストラクチャメトリックがキャプチャされました。アプリケーションの複雑さが増すにつれて、予想されるパターンからの異常を検出することが難しくなります。これらの異常を無視すると、潜在的な停止につながる可能性があります。

解決

変更パターンは、アプリケーションレベル、サービスレベル、トランザクションレベル、外部依存関係など、さまざまなスコープで分析および検出できます。まず、正常なシステム動作を構成するものを決定し、次に正常なシステム動作からの逸脱を特定します。 AIOps は、ソースを正確に特定することでこれらの外れ値を正確に強調表示できるため、リアルタイムで RCA をより適切に実現するのに役立ちます。さらに、潜在的な停止やインフラストラクチャの中断を防ぎます。

取引追跡

ビジネストランザクションは、ポイントツーポイントアプリケーション接続間の単純な同期メッセージ交換から、より複雑な非同期通信まで多岐にわたります。取引を追跡するには、高度な追跡および監視ソリューションが必要です。長時間実行される複数ステップの非同期トランザクションは、複数のテクノロジー、層などにわたって IT インフラストラクチャを転送します。

解決

複雑なトランザクションは変形したり断片化したりすることが多く、タグ付けや統計的サンプリング手法による標準的な追跡や分析が困難になります。メソッド呼び出しと個々のメッセージペイロードの内容を検査してトランザクションをつなぎ合わせ、それらを相関させ、既存の動作やパフォーマンスにおけるハングや違反を直感的に視覚化します。

ローカリゼーションの欠陥

ソフトウェア品質の管理は、ソフトウェア開発ライフサイクルにおける重要な課題です。実稼働環境に入る前に欠陥を特定して修正することが非常に重要です。製造中に欠陥が見つかった場合、莫大なコストが発生する可能性があります。この文脈では、利用可能なリソースが限られているため、バグの発見は最も時間がかかり、困難な作業であると考えられています。したがって、手動デバッグプロセスを強化するには、ソフトウェアエンジニアリングで完全/半自動化されたテクニックが必要です。バグがどこに限定される可能性があるかというヒントを開発者が得ると、デバッグがより効率的になります。

解決

さまざまなグラフマイニングアルゴリズム/テクニックを使用して、ソフトウェアの欠陥を特定できます。これらの技術は、障害を検出し、配信トレース間のサブグラフを区別することに依存しています。障害がまれなコードパターンで現れない場合、これらの方法は適用できない可能性があります。一方、多くのアプローチは、潜在的に欠陥のあるプログラムコンポーネント (ステートメントまたは述語) を選択し、制御フローグラフに基づいて疑わしさと実行トレースのコンテキストに応じてランク付けすることに重点を置いています。

ベースラインに到達する

パフォーマンスベンチマークは、さまざまな負荷条件下でのアプリケーションおよびインフラストラクチャコンポーネントのパフォーマンスを決定します。負荷条件には、「通常」、「運用」、「準」、「ストレス」、「ピーク」、「ブレークポイント」などがあります。ベースラインは、上限と下限の間で変動することが予想される単一のメトリックのルールまたはしきい値のセットです。従来、これらの関連付けは、定義された時間間隔で収集されたパフォーマンスデータを収集した後に機械学習アルゴリズムを実行してモデル化され、パフォーマンスの逸脱が発生したときに通知するためにリアルタイムで展開されます。このアプローチはコンポーネントには最適ですが、最新の開発方法論との「関連性」という点では失敗しています。

解決：

ハイパーコンバージドインフラストラクチャ管理、ドメイン駆動型アプリケーション開発、分散コンピューティングの普及、ポリモーフィックプログラミング、永続性の影響により、ソフトウェアコンポーネントの開発および展開の方法が変化しました。ソフトウェアコンポーネントへの頻繁な変更は、動的にスケールアップ/スケールダウンするインフラストラクチャ上に継続的に展開する必要があります。このパラダイムシフトにより、モデル構築演習では、アプリケーションおよびインフラストラクチャコンポーネントの最新の変更に対応するために、ほぼリアルタイムのデータを使用する必要が生じます。これらのモデルは、新しいルールを学習し、継続的に進化するために、リアルタイムのフィードを使用する必要があります。

予測問題

APM のスマートアラートは、異常を動的に検出します。アラートをインテリジェントにするには、ツールがアプリケーションの性質とその動作を理解して異常を検出できるように構成可能である必要があります。静的なしきい値を定義するのが一般的です。たとえば、このサービス呼び出しが返されるまでに 3 秒以上かかる場合は、アラートを発生させます。ただし、さまざまなアプリケーションの使用パターンについて、監視する重要なメトリックとそのしきい値を特定するのは面倒な作業であるため、アプリケーションの正常性を基準にして異常な動作があった場合に通知するためのスマートな方法が必要です。今日のツールは、アプリケーションの動作を理解して基準を確立できるほどスマートであり、基準に基づいてリクエストを分析するときに使用するポリシーを定義し、実際に確認する必要がある問題があった場合にスマートなアラートを提供できます。

<<: 世界初の翻訳エンジンが進化して復活、「細部にこだわり」方言もマスター

>>: 論文をレビューするための新しい Python プログラム。手動レビューをなくし、arXiv 論文のスコアを自動的に付けます。