この記事は公開アカウント「Reading Core Technique」(ID: AI_Discovery)から転載したものです。 人工知能ベースの運用 (AIOps) は、AI と従来のアクティブ メッセンジャー (AM、またはインスタント メッセンジャー、IM) テクノロジを組み合わせたものです。 AI が他のすべての分野に革命をもたらしたように、運用管理にも大きな影響を与えるでしょう。 AI のパワーが運用に適用されると、アプリケーションとそれをサポートするアプリケーション/インフラストラクチャの管理方法が再定義されます。
複数のアプリケーションを同時に実行すると、大量のデータが生成されます。データはネットワーク層で生成され、非表示の API インターフェースを通じてエンドユーザーに届きます。ユーザーは完璧なアプリケーションエクスペリエンスを期待しており、いかなる障害も許容しません。 完全に異なるレイヤーからデータを収集し、それを洞察に富んだリポジトリに変換することが可能になります。運用の複雑さにより、インテリジェントな運用および保守プラットフォームが誕生しました。インテリジェントな運用および保守プラットフォームは、AI および ML テクノロジーを使用して監視データから洞察を獲得し、人間の意思決定を強化することで自動化されたソリューションを推進します。 重要な応用事例とソリューション 1. 障害箇所の特定 ソフトウェア品質の管理は、ソフトウェア開発ライフサイクルにおける重要な懸念事項です。ほとんどすべてのソフトウェアは、リリース後に何らかの不具合が発生します。障害が本番環境に入る前に検出して修正することが重要です。生産に失敗するとコストが大幅に増加します。利用可能なリソースが限られている場合、障害箇所の特定は最も時間がかかり、困難な作業であると考えられます。したがって、ソフトウェア エンジニアは、手動デバッグ プロセスを改善するための半自動/全自動のテクニックを必要とします。開発者が障害の発生場所に関するヒントを得ることができれば、デバッグはより効率的になります。 解決 多くのグラフ マイニング アルゴリズム/テクニックは、開発者がソフトウェアの障害を見つけるのに役立ちます。これらの技術は、検出失敗記録と合格記録間の判別グラフに依存します。障害がまれなコード パターンで発生しない場合は、これらのアプローチは適切ではない可能性があります。一方、多くのアプローチでは、主にエラーの可能性があるプログラム コンポーネント (ステートメント インターフェイスや述語インターフェイスなど) をスクリーニングし、疑いの度合いに応じてこれらのコンポーネントをランク付けし、制御フロー グラフに従って実行トレースのコンテキストを配置します。 2. ベンチマークの達成 パフォーマンス ベンチマークは、さまざまな負荷条件下でのアプリケーション コンポーネントとインフラストラクチャのパフォーマンスを決定します。負荷条件には、通常負荷、作業負荷、準負荷、ピーク負荷、ブレークポイント負荷などがあります。ベンチマークとは、特定の範囲内で変動するさまざまなパラメータのルールとしきい値のセットです。従来のアプローチは、一定期間のパフォーマンス データを収集し、機械学習アルゴリズムを通じて上記の関係のモデルを構築し、パフォーマンスの逸脱が発生したときに通知できるようにすぐに展開することです。このアプローチは動きの遅いコンポーネントには適していますが、急速な最新の開発方法は「不合理」になります。 解決 ハイパーコンバージド インフラストラクチャ管理、ドメイン駆動型アプリケーション開発、分散コンピューティングの台頭、多言語プログラミングとメンテナンスにより、ソフトウェア コンポーネントの開発および展開の方法が変わりました。継続的に更新されるソフトウェア コンポーネントは、動的にスケーリングされる基盤インフラストラクチャ上に継続的に展開する必要があります。このパラダイムシフトには、アプリケーションおよびインフラストラクチャ コンポーネントの最新の変更に対応するほぼリアルタイムのデータを使用してモデルを構築する必要があります。これらのモデルでは、新しいルールを学習し、継続的な進化を実現するために、リアルタイムの入力データが必要です。 3. アプリケーション監視 アプリケーション メトリックは、応答時間、1 分あたりのリクエスト数、時間の経過に伴うエラー率を追跡し、傾向を特定します。さらに、CPU 使用率、メモリ使用率、負荷などのインフラストラクチャ パラメータは、インフラストラクチャ層がアプリケーションのさまざまな負荷条件にどのように適応するかを理解するのに役立ちます。アプリケーションの複雑さが増すにつれて、予想されるパターンからの異常の検出が難しくなります。異常を検出できない場合は、プログラムが中断される潜在的なリスクがある可能性があります。 解決 アプリケーション層、サービス層、トランザクション層、外部依存関係など、さまざまな層で変更パターンを検出し、分析できます。まず、正常なシステム動作を構成するものを決定し、次に正常なシステム動作からの逸脱を特定します。インテリジェントな運用では、リソースを正確に検索することで外れ値を正確に特定できるため、リアルタイムの根本原因分析 (RCA) をより適切に実行し、潜在的な停止やインフラストラクチャの障害を回避するのに役立ちます。 4. 早期警告の問題 アプリケーション パフォーマンス モニター (APM) ソフトウェアのインテリジェント アラートは、異常を動的に検出できます。アラートをインテリジェントにするには、検出ソフトウェアがアプリケーションの特性と動作を理解して異常を検出できるように構成可能である必要があります。サービス要求の応答時間が 3 秒を超えた場合にアラートを設定するなど、静的しきい値を設定するのが一般的です。ただし、さまざまなアプリケーションの使用パターンに対して監視する必要がある重要なパラメータとそのしきい値を特定することは、非常に面倒な作業です。したがって、アプリケーションの通常状態のベースラインを設定し、異常な動作が発生したときに通知するためのインテリジェントなアプローチが必要です。 解決 アルゴリズム技術が進歩するにつれて、アラートは非常にスマートになってきています。予備的なデータ分析を実行し、標準偏差、パーセンテージ、予測分析などの予測指標に基づいてアラートを発行できます。今日では、検出ソフトウェアはアプリケーションの動作を理解してベースラインを設定できるほどスマートであり、分析要求が開発者のベースラインから逸脱した場合に開発者が独自の分析戦略を定義し、開発者の注意を必要とする実際の問題がある場合にインテリジェントなアラートを発行できます。
出典: Pexels 5. 取引追跡 アプリケーション接続間の単純なポイントツーポイントの同期情報交換から、より複雑な非同期通信まで、すべてがビジネス業務の範囲内に含まれます。トランザクションの追跡には、高度な追跡および監視ソリューションが必要です。長期にわたる複数ステップの非同期トランザクションでは、IT インフラストラクチャを転送したり、複数のテクノロジや層にまたがることなどが必要になる場合があります。 解決 複雑なトランザクションは変動性が高く分散していることが多く、ラベル付けや統計的サンプリング手法によって標準的な追跡や分析が役に立たなくなります。インテリジェントな運用と保守は、メソッド呼び出しと個々の情報ペイロード コンテンツを調べることによってトランザクションを関連付け、予想される動作とパフォーマンスにおける今後の脆弱性または既存の脆弱性を直感的に視覚的に表現します。 |
<<: 専門家レベルの機械学習ツールの推奨事項。専門家と同じものを入手しましょう。
>>: YOLOプロジェクト復活!マスターが後を継ぎ、YOLOの父が2か月間引退し、v4バージョンが正式にリリースされました
テスト自動化における人工知能の使用は、品質保証業界を支配する最新のトレンドの 1 つです。実際、キャ...
[[178638]] [51CTO.com クイック翻訳]過去数年間で、民間および商用ドローンへの関...
[[427302]]ガートナーの新しい調査によると、人工知能 (AI) 技術計画を持つテクノロジーお...
AIやビッグデータなどの技術の急速な発展に伴い、関連する知識も普及してきました。数多くのウェブサイ...
今週オーストラリアのシドニーで開催されたガートナー・データ&アナリティクス・サミットで、この調査・ア...
近年、ディープラーニングの分野における畳み込みニューラルネットワーク(CNN または ConvNet...
オートエンコーダー (AE) と生成的敵対的ネットワーク (GAN) は、複雑な分布に対する教師なし...
1. 全体的なアーキテクチャ粗いソートは、リコールと細かいソートの中間のモジュールです。 。数万の候...
4月29日、テンセントのAIモデル「Hunyuan」がCLUE(中国語言語理解評価コレクション)部門...