概要 人工知能ベースの運用 (AIOps) は、人工知能と従来の AM/IM 運用を融合したものです。他のすべての分野と同様に、AI は運用管理に大きな影響を与えます。 AI のパワーが運用に適用されると、アプリケーションとそれをサポートするアプリケーション/インフラストラクチャの管理方法が再定義されます。 複数のアプリケーションを同時に実行すると、大量のデータが生成される可能性があります。ネットワーク層からエンドユーザーへの API 呼び出しまでのデータ生成の遅延。ユーザーは、パフォーマンスが少しでも中断されることのないアプリケーションエクスペリエンスを期待しています。 スタックのさまざまなレイヤーからデータを取得できるため、推測される洞察の豊富なソースになります。運用の複雑さにより、アルゴリズム IT 運用 (AIOps) プラットフォームが誕生しました。このプラットフォーム ソリューションは、AI と ML を使用して監視データから洞察を獲得し、人間の意思決定を強化することで自動化ソリューションを推進します。 主なユースケースとソリューション アプリケーション監視 アプリケーション メトリックは、応答時間、1 分あたりのリクエスト数、時間の経過に伴うエラー率などを追跡し、その動作の傾向を特定します。さらに、インフラストラクチャ層がアプリケーションのさまざまな負荷条件をどのように満たすのをサポートしているかを理解するために、CPU 使用率、メモリ使用率、負荷平均などのインフラストラクチャ メトリックがキャプチャされました。アプリケーションの複雑さが増すにつれて、予想されるパターンからの異常を検出することが難しくなります。これらの異常を無視すると、潜在的な停止につながる可能性があります。 解決 変更パターンは、アプリケーション レベル、サービス レベル、トランザクション レベル、外部依存関係など、さまざまなスコープで分析および検出できます。まず、正常なシステム動作を構成するものを決定し、次に正常なシステム動作からの逸脱を特定します。 AIOps は、ソースを正確に特定することでこれらの外れ値を正確に強調表示できるため、リアルタイムで RCA をより適切に実現するのに役立ちます。さらに、潜在的な停止やインフラストラクチャの中断を防ぎます。 取引追跡 ビジネス トランザクションは、ポイントツーポイント アプリケーション接続間の単純な同期メッセージ交換から、より複雑な非同期通信まで多岐にわたります。取引を追跡するには、高度な追跡および監視ソリューションが必要です。長時間実行される複数ステップの非同期トランザクションは、複数のテクノロジー、層などにわたって IT インフラストラクチャを転送します。 解決 複雑なトランザクションは変形したり断片化したりすることが多く、タグ付けや統計的サンプリング手法による標準的な追跡や分析が困難になります。メソッド呼び出しと個々のメッセージ ペイロードの内容を検査してトランザクションをつなぎ合わせ、それらを相関させ、既存の動作やパフォーマンスにおけるハングや違反を直感的に視覚化します。 ローカリゼーションの欠陥 ソフトウェア品質の管理は、ソフトウェア開発ライフサイクルにおける重要な課題です。実稼働環境に入る前に欠陥を特定して修正することが非常に重要です。製造中に欠陥が見つかった場合、莫大なコストが発生する可能性があります。この文脈では、利用可能なリソースが限られているため、バグの発見は最も時間がかかり、困難な作業であると考えられています。したがって、手動デバッグ プロセスを強化するには、ソフトウェア エンジニアリングで完全/半自動化されたテクニックが必要です。バグがどこに限定される可能性があるかというヒントを開発者が得ると、デバッグがより効率的になります。 解決 さまざまなグラフ マイニング アルゴリズム/テクニックを使用して、ソフトウェアの欠陥を特定できます。これらの技術は、障害を検出し、配信トレース間のサブグラフを区別することに依存しています。障害がまれなコード パターンで現れない場合、これらの方法は適用できない可能性があります。一方、多くのアプローチは、潜在的に欠陥のあるプログラム コンポーネント (ステートメントまたは述語) を選択し、制御フロー グラフに基づいて疑わしさと実行トレースのコンテキストに応じてランク付けすることに重点を置いています。 ベースラインに到達する パフォーマンス ベンチマークは、さまざまな負荷条件下でのアプリケーションおよびインフラストラクチャ コンポーネントのパフォーマンスを決定します。負荷条件には、「通常」、「運用」、「準」、「ストレス」、「ピーク」、「ブレークポイント」などがあります。ベースラインは、上限と下限の間で変動することが予想される単一のメトリックのルールまたはしきい値のセットです。従来、これらの関連付けは、定義された時間間隔で収集されたパフォーマンス データを収集した後に機械学習アルゴリズムを実行してモデル化され、パフォーマンスの逸脱が発生したときに通知するためにリアルタイムで展開されます。このアプローチはコンポーネントには最適ですが、最新の開発方法論との「関連性」という点では失敗しています。 解決: ハイパーコンバージド インフラストラクチャ管理、ドメイン駆動型アプリケーション開発、分散コンピューティングの普及、ポリモーフィック プログラミング、永続性の影響により、ソフトウェア コンポーネントの開発および展開の方法が変化しました。ソフトウェア コンポーネントへの頻繁な変更は、動的にスケールアップ/スケールダウンするインフラストラクチャ上に継続的に展開する必要があります。このパラダイム シフトにより、モデル構築演習では、アプリケーションおよびインフラストラクチャ コンポーネントの最新の変更に対応するために、ほぼリアルタイムのデータを使用する必要が生じます。これらのモデルは、新しいルールを学習し、継続的に進化するために、リアルタイムのフィードを使用する必要があります。 予測問題 APM のスマートアラートは、異常を動的に検出します。アラートをインテリジェントにするには、ツールがアプリケーションの性質とその動作を理解して異常を検出できるように構成可能である必要があります。静的なしきい値を定義するのが一般的です。たとえば、このサービス呼び出しが返されるまでに 3 秒以上かかる場合は、アラートを発生させます。ただし、さまざまなアプリケーションの使用パターンについて、監視する重要なメトリックとそのしきい値を特定するのは面倒な作業であるため、アプリケーションの正常性を基準にして異常な動作があった場合に通知するためのスマートな方法が必要です。今日のツールは、アプリケーションの動作を理解して基準を確立できるほどスマートであり、基準に基づいてリクエストを分析するときに使用するポリシーを定義し、実際に確認する必要がある問題があった場合にスマートなアラートを提供できます。 |
<<: 世界初の翻訳エンジンが進化して復活、「細部にこだわり」方言もマスター
>>: 論文をレビューするための新しい Python プログラム。手動レビューをなくし、arXiv 論文のスコアを自動的に付けます。
Google LLC のクラウド コンピューティング部門は本日、オープンソースの人工知能モデルを共有...
過去数年間、モノのインターネットに関する議論の多くは、接続されたデバイス自体、つまりそれが何であるか...
教育の分野では、人工知能の倫理に関する人々の考え方には複数の道が存在します。例えば、主観に基づく検討...
出典: CreditEase Technology Institute の第 1 回テクニカル サロ...
Windows Insider ユーザーが投稿したスクリーンショットから判断すると、Windows ...
[51CTO.comからのオリジナル記事] 2015年以降、仮想現実(VR)業界は急速に発展しました...
少し前にOpenAIが驚くべき生成効果を持つグラフィックモデルDALL・E 3をリリースしました。た...
必要な変更。医療制度と支払者(政府と民間の両方)において、この用語は患者への不必要なリスク、医療の質...
「自動化」の本質的な意味は変わりませんが、その用語の使用法は時間の経過とともに確実に変化してきました...
私たちは、アルゴリズムの時間計算量や空間計算量についてよく考えます。時間や空間が十分にある場合、その...
Emogi は、チャット アプリでテキストを送信したり、投稿にコメントしたり、友人にビデオを送信した...