概要 人工知能ベースの運用 (AIOps) は、人工知能と従来の AM/IM 運用を融合したものです。他のすべての分野と同様に、AI は運用管理に大きな影響を与えます。 AI のパワーが運用に適用されると、アプリケーションとそれをサポートするアプリケーション/インフラストラクチャの管理方法が再定義されます。 複数のアプリケーションを同時に実行すると、大量のデータが生成される可能性があります。ネットワーク層からエンドユーザーへの API 呼び出しまでのデータ生成の遅延。ユーザーは、パフォーマンスが少しでも中断されることのないアプリケーションエクスペリエンスを期待しています。 スタックのさまざまなレイヤーからデータを取得できるため、推測される洞察の豊富なソースになります。運用の複雑さにより、アルゴリズム IT 運用 (AIOps) プラットフォームが誕生しました。このプラットフォーム ソリューションは、AI と ML を使用して監視データから洞察を獲得し、人間の意思決定を強化することで自動化ソリューションを推進します。 主なユースケースとソリューション アプリケーション監視 アプリケーション メトリックは、応答時間、1 分あたりのリクエスト数、時間の経過に伴うエラー率などを追跡し、その動作の傾向を特定します。さらに、インフラストラクチャ層がアプリケーションのさまざまな負荷条件をどのように満たすのをサポートしているかを理解するために、CPU 使用率、メモリ使用率、負荷平均などのインフラストラクチャ メトリックがキャプチャされました。アプリケーションの複雑さが増すにつれて、予想されるパターンからの異常を検出することが難しくなります。これらの異常を無視すると、潜在的な停止につながる可能性があります。 解決 変更パターンは、アプリケーション レベル、サービス レベル、トランザクション レベル、外部依存関係など、さまざまなスコープで分析および検出できます。まず、正常なシステム動作を構成するものを決定し、次に正常なシステム動作からの逸脱を特定します。 AIOps は、ソースを正確に特定することでこれらの外れ値を正確に強調表示できるため、リアルタイムで RCA をより適切に実現するのに役立ちます。さらに、潜在的な停止やインフラストラクチャの中断を防ぎます。 取引追跡 ビジネス トランザクションは、ポイントツーポイント アプリケーション接続間の単純な同期メッセージ交換から、より複雑な非同期通信まで多岐にわたります。取引を追跡するには、高度な追跡および監視ソリューションが必要です。長時間実行される複数ステップの非同期トランザクションは、複数のテクノロジー、層などにわたって IT インフラストラクチャを転送します。 解決 複雑なトランザクションは変形したり断片化したりすることが多く、タグ付けや統計的サンプリング手法による標準的な追跡や分析が困難になります。メソッド呼び出しと個々のメッセージ ペイロードの内容を検査してトランザクションをつなぎ合わせ、それらを相関させ、既存の動作やパフォーマンスにおけるハングや違反を直感的に視覚化します。 ローカリゼーションの欠陥 ソフトウェア品質の管理は、ソフトウェア開発ライフサイクルにおける重要な課題です。実稼働環境に入る前に欠陥を特定して修正することが非常に重要です。製造中に欠陥が見つかった場合、莫大なコストが発生する可能性があります。この文脈では、利用可能なリソースが限られているため、バグの発見は最も時間がかかり、困難な作業であると考えられています。したがって、手動デバッグ プロセスを強化するには、ソフトウェア エンジニアリングで完全/半自動化されたテクニックが必要です。バグがどこに限定される可能性があるかというヒントを開発者が得ると、デバッグがより効率的になります。 解決 さまざまなグラフ マイニング アルゴリズム/テクニックを使用して、ソフトウェアの欠陥を特定できます。これらの技術は、障害を検出し、配信トレース間のサブグラフを区別することに依存しています。障害がまれなコード パターンで現れない場合、これらの方法は適用できない可能性があります。一方、多くのアプローチは、潜在的に欠陥のあるプログラム コンポーネント (ステートメントまたは述語) を選択し、制御フロー グラフに基づいて疑わしさと実行トレースのコンテキストに応じてランク付けすることに重点を置いています。 ベースラインに到達する パフォーマンス ベンチマークは、さまざまな負荷条件下でのアプリケーションおよびインフラストラクチャ コンポーネントのパフォーマンスを決定します。負荷条件には、「通常」、「運用」、「準」、「ストレス」、「ピーク」、「ブレークポイント」などがあります。ベースラインは、上限と下限の間で変動することが予想される単一のメトリックのルールまたはしきい値のセットです。従来、これらの関連付けは、定義された時間間隔で収集されたパフォーマンス データを収集した後に機械学習アルゴリズムを実行してモデル化され、パフォーマンスの逸脱が発生したときに通知するためにリアルタイムで展開されます。このアプローチはコンポーネントには最適ですが、最新の開発方法論との「関連性」という点では失敗しています。 解決: ハイパーコンバージド インフラストラクチャ管理、ドメイン駆動型アプリケーション開発、分散コンピューティングの普及、ポリモーフィック プログラミング、永続性の影響により、ソフトウェア コンポーネントの開発および展開の方法が変化しました。ソフトウェア コンポーネントへの頻繁な変更は、動的にスケールアップ/スケールダウンするインフラストラクチャ上に継続的に展開する必要があります。このパラダイム シフトにより、モデル構築演習では、アプリケーションおよびインフラストラクチャ コンポーネントの最新の変更に対応するために、ほぼリアルタイムのデータを使用する必要が生じます。これらのモデルは、新しいルールを学習し、継続的に進化するために、リアルタイムのフィードを使用する必要があります。 予測問題 APM のスマートアラートは、異常を動的に検出します。アラートをインテリジェントにするには、ツールがアプリケーションの性質とその動作を理解して異常を検出できるように構成可能である必要があります。静的なしきい値を定義するのが一般的です。たとえば、このサービス呼び出しが返されるまでに 3 秒以上かかる場合は、アラートを発生させます。ただし、さまざまなアプリケーションの使用パターンについて、監視する重要なメトリックとそのしきい値を特定するのは面倒な作業であるため、アプリケーションの正常性を基準にして異常な動作があった場合に通知するためのスマートな方法が必要です。今日のツールは、アプリケーションの動作を理解して基準を確立できるほどスマートであり、基準に基づいてリクエストを分析するときに使用するポリシーを定義し、実際に確認する必要がある問題があった場合にスマートなアラートを提供できます。 |
<<: 世界初の翻訳エンジンが進化して復活、「細部にこだわり」方言もマスター
>>: 論文をレビューするための新しい Python プログラム。手動レビューをなくし、arXiv 論文のスコアを自動的に付けます。
1. 拡張現実(AR)建築の世界では、拡張現実と仮想現実が岐路に立っています。 AR はコンピュータ...
AI テクノロジーがかなり集中化しており、テクノロジー大手が優位に立っていることにお気づきですか?...
エッジ AI とクラウド AI は、現在企業が使用している最も重要なテクノロジーの一部であることがわ...
電子技術の発達により、私たちはいつでもどこでも「視聴覚の饗宴」を楽しめるようになり、人間の聴覚と視覚...
シナリオの観点から、音声認識はストリーミング音声認識と非ストリーミング音声認識に分けられます。非スト...
AI が IT 運用に直接影響を与えることができる分野を考えるとき、他のアプリケーションよりも際立っ...
研究者は、新たに開発された人工知能技術の助けを借りて、大量の画像を分析し、分類およびマイニング可能な...
[[424530]] 1. 背景近年、人工知能はセキュリティ、教育、医療、観光などの産業や生活の場面...
[[393588]]まとめファームウェア/ソフトウェアのセキュリティ脆弱性はグリッド セキュリティに...
現在の人工知能の発展は、主にディープラーニングに代表される機械学習技術の恩恵を受けています。ディープ...
最近、ChatGPT を使用しているときに小さな問題に遭遇しました。特殊な状況のため、syslog ...
AI によって人々の働き方が変化する中、企業は従業員が自動化された職場環境に能力を適応できるように支...