クラウド コンピューティングは、集中性、効率性、弾力性、ビジネスの俊敏性をもたらしましたが、クラウドの運用と保守には前例のない課題ももたらしました。新しい技術トレンドの課題にどのように対処し、クラウド時代に対応したインテリジェントな監視プラットフォームを構築し、クラウド アプリケーションをより適切に保護するかは、今日のあらゆる企業が直面している困難な問題です。 最近行われた[T·Talk]シリーズイベントの第8回では、51CTOコンテンツセンターがChengyun Productsの副社長である張懐鵬氏をライブ放送室のゲストとして特別に招待し、クラウド時代のデジタル観察ツールの作成に関する経験と考えを共有しました。 【T·Talk】でも今回のハイライトをまとめていますので、ぜひ参考にしていただければと思います。 デジタル変革の波に乗ったデジタルオペレーションの問題点デジタル変革とデジタル経済の構築は、今の時代の大きな潮流です。デジタル変革は人類史上第4次産業革命とも言えます。私たちの日常の仕事方法、支払い方法、買い物方法、旅行方法などは常にデジタル化の影響を受けています。簡単に言えば、私たちは今、従来の IT 時代からデジタル DT の時代に突入したのです。 デジタル DT の時代において、デジタル変革は現在の企業のビジネスとビジネス体験のやり方をほぼ再定義しました。しかし、さまざまな業界のデジタル変革が深まるにつれて、デジタルアプリケーション事故が徐々に増加しています。例えば、今年初めのある省市での健康規範の崩壊や核酸検査システムの異常は社会に大きな衝撃を与えた。
調査によると、現在、CEOの60%がデジタルトランスフォーメーションが非常に重要であると考えています。このグループのリーダーシップの下、企業もデジタルトランスフォーメーションと人工知能に向けて大きな進歩を遂げています。しかし、対照的に、エンタープライズ アプリケーションの 95% は効果的に監視および監視されていません。 現在のデジタル運用方法のほとんどは、従来のデータセンター時代から生まれたものであり、多くのツールやテクノロジーはクラウド コンピューティングのシナリオを考慮していません。クラウドコンピューティングの普及により、情報環境は大きく変化しました。アプリケーション自体の複雑さは爆発的に増大しており、分散アプリケーションの増加、依存関係の複雑化、ソフトウェアの反復の高速化が進んでいます。このようなシナリオでは、企業は DT 時代のビジネスとデータ フローに基づいた一連のソリューションを緊急に構築する必要があります。 DT 時代は、現在非常に人気のあるクラウド ネイティブなど、非常に多くの新しいテクノロジと新しいシナリオを生み出しました。クラウド ネイティブの要件により、従来の運用と保守からアプリケーションの運用と保守への進化が加速しました。従来のシナリオではインフラストラクチャが多数存在しますが、企業がクラウドに移行すると、インフラストラクチャはキャリアまたはオペレータ上でホストされるようになります。企業は、従来のコンピュータ ルームの管理、弱電流管理、ハードウェア監視、ベア メタル監視、UPS 電力配分、温度と湿度について心配する必要がなくなります。そのため、従来の設備の運用と保守は、アプリケーションを重視したサイト信頼性の運用と保守へと進化し、企業の従来の運用と保守への投資はますます減少するでしょう。
現在は、インテリジェントな運用・保守への移行段階にあります。今、私たちがやるべきことは、デジタル運用保守とIT運用保守をより軽量、効率的、低コストにすることです。運用保守チームは企業のビジネスそのものに重点を置く必要があり、ビジネスは運用保守担当者が注意を払う必要がある重要な問題です。これらすべてにより、インテリジェントな運用と保守の需要が生まれます。 企業がインテリジェントな運用と保守を実現するための典型的な技術的パス1. インテリジェントな運用と保守とは何ですか?インテリジェントな運用と保守に関して、Forrester と Gartner はレポートで次のように定義しています。AIOps は、ビジネスと運用のデータ分野に AI とデータ サイエンスを適用して関連付けを確立し、リアルタイムの規範的かつ予測的な回答を提供するソフトウェア システムです。 AIOps はソフトウェア システムになることができるため、実用的な製品になる可能性があります。 AIOps は、可用性とパフォーマンスの監視、イベントの相関と分析、IT サービスの管理と自動化など、従来の主要な IT 運用機能を強化し、部分的に置き換えることができます。 AIOps は、監視、管理、廃棄という 3 つの側面をカバーする必要がある運用を対象としています。しかし、現在、業界全体のレベルは、観察レベルに重点が置かれています。 Forrester もこれに関して典型的な声明を出しています。「AIOps は、より優れた可観測性と安定性を約束します。」 Forrester は、AIOps の中核的な価値は、先制的な機能を強化し、観測可能性の機能を改善および拡張することであると考えています。 2. 可観測性とは何ですか?観測可能性は制御理論で初めて導入されたもので、システムの内部状態を外部出力から推測できる程度を指します。 IT 分野では、ガートナーは可観測性をソフトウェアとシステムの特性として定義しています。具体的には、システムが生成したテレメトリデータに基づいて、現在のシステムの状態やシステム条件を判断する能力を指します。この機能が可観測性または観測可能性です。 なぜ可観測性が必要なのでしょうか?従来の監視テクノロジーとツールでは、分散化が進む今日のアーキテクチャにおける通信パスと依存関係を追跡することが困難です。クラウド ネイティブ シナリオまたはクラウド シナリオでは、依存関係は非常に複雑であり、従来のモノリシック アーキテクチャ アプリケーションの多くとは異なります。可観測性により複雑なシステムをより適切に制御でき、可観測性の 3 つの主要なデータの柱を通じて、複雑なシステムのあらゆる側面を非常に直感的かつ詳細に理解できます。 可観測性は運用と保守だけでなく、開発部門、SRE 部門、サポート部門、マーケティング部門、ビジネス部門にも役立ちます。したがって、AIOps と可観測性を 1 つに統合して統合プラットフォームを作成できれば、一石二鳥の非常に完璧な製品が得られます。 3. 企業がインテリジェントな運用と保守AIOpsを実現するための2つの典型的な技術的パス企業が IT インテリジェント運用と保守を実現するための 2 つの典型的な技術的パスは、「外部 AIOps」と「内因性 AIOps」として鮮明に要約できます。プラグイン AIOps は、AIOps プラットフォームをバイパス方式で企業の IT 運用および保守環境に埋め込みます。 AIOps は、企業の異種データに接続し、データ エンジニアがデータ間の依存関係を整理し、ビッグ データ処理テクノロジを使用してプロジェクトベースの配信を実現する独立したアルゴリズム プラットフォームです。
内因性 AIOps は統合された技術的ルートを重視します。内因性 AIOps エンジンにより、データ エンジニアの参加なしに、データ処理プロセス全体のクローズド ループを実現できます。速達のプロセスと同様に、送信者のアイテムはデータに相当します。データを取得した後、宅配業者は梱包、保管、発送、輸送などの業務を実行します。しかし、最終的には受信者がアイテムを受け取るので、送信者と受信者はその間のすべての処理手順を処理する必要はありません。内因性 AIOps はこの機能を重視し、AI 機能を統合された監視プラットフォームに組み込みます。 技術的な実装の違い:外部 AIOps では通常、従来の機械学習 AI が使用されます。これは本質的に、メトリック、ログ、イベントなどの情報を相関させて分析し、アラームのノイズを減らすことを目的とした統計的手法です。機械学習 AI を通じて、相関するアラートのセットを取得できます。そのため、一定の時間がかかります。一般的に、外部 AIOps では、推奨される根本原因または考えられる根本原因を提案するために、手作業または履歴記録が必要になります。 同時に、外部 AIOps は大量の外部データに依存する必要があり、外部 AIOps メーカーは通常、アルゴリズム プラットフォームのみを作成します。データのクリーニング、CMDB エンティティ間の依存関係などには、すべて外部データが必要です。したがって、外部 AIOps を実装するには、企業の情報技術運用保守システムの構築が非常に成熟している必要があり、外部 AIOps を実装する前に、呼び出しデータ、APM 製品、および比較的完全な観測可能性の前提条件がなければなりません。 内因性 AIOps は、決定論的な分析結果を目標として、決定論的な人工知能分析を提供します。つまり、問題が発生した後、問題の根本原因が決定論的であり、ほぼリアルタイムの結果になります。内因性 AIOps は、非常にリアルタイムなマトリックス依存関係マップを維持します。このテクノロジーは、従来の静的 CMDB に依存する必要がありません。代わりに、依存関係マップ自体がリアルタイム CMDB と同等であり、依存関係をリアルタイムに変更し、内因性関係を利用して管理分析を実現できます。 企業はどのように意思決定を行い、自社に適したテクノロジーの道筋を選択するのでしょうか?AIOps の実装に関しては、企業が考慮する必要がある問題が数多くあります。経営者の視点では、コストやチームといった基本的な問題に加え、各部門間のバランスや、コストと安定性、効率性のバランスも考慮する必要があります。 AIOps の目標は、問題を解決するだけでなく、合理的に解決することです。コストを確保しながら、企業ビジネスの安定性と効率性を最大化します。
Forrester のレポートでは、企業が AIOps を実装する際には、次の主要な機能に重点を置く必要があると述べられています。
データ処理の観点から見ると、2 つの技術パスの違いは次のとおりです。従来の AIOps プラットフォーム (プラグイン AIOps プラットフォームとも呼ばれる) では、データ処理プロセス中に多くのツールを組み合わせて組み立て、不安定なビッグ データ システムを作成します。人事異動があった場合、後任者に多大な技術的負債が残される可能性が高くなります。 データ収集の最初のステップでは、多数のオープンソースおよび商用ツールに依存する必要があります。 2 番目のステップは、データをビッグデータ プラットフォームに注入することです。 3 番目のステップは、データの関係を手動で整理し、データをクリーンアップすることです。最初の 3 つのステップは非常に時間がかかります。 4 番目のステップは、問題を発見して特定することです。このステップには AIOps メーカーのみが関与し、メーカーのチームが顧客のサイトに常駐して、オンデマンドで構築する必要があります。メーカーはニーズを伺い、それに応じたサービスを提供します。 5番目に、ダッシュボードを構築します。 6 番目は、システムの拡張です。アプリケーション システムの規模が大きくなるにつれて、システム全体が直線的に成長します。 プロセス全体を通じて、データ エンジニアはデータのクリーニング、収集、整理に約 80% の時間を費やす必要があります。ソリューション全体は、運用と保守の分野で最先端の才能を必要とし、彼らは運用と保守の専門家であり、アルゴリズムと開発を理解していなければなりません。 AIOps 自体は問題解決のためのサポート システムですが、プラグイン AIOps では運用と保守が困難になる可能性があり、AIOps プラットフォーム自体を保守するための専任チームが必要になります。 内因性 AIOps のデータ処理プロセスは非常にシンプルで、1 つのツールでデータ収集の問題を解決できます。特に、エンジンなど、すぐに使用できるダッシュボード機能を備えた、非常に商用性の高い製品です。したがって、その後の処理手順はすべてブラックボックスであり、企業がそれらにあまり注意を払う必要はなく、ビジネスエンジニアがアルゴリズムを理解し、SRE の技術レベルを備えている必要もありません。
同時に、企業のビジネスシステムの規模が拡大するにつれて、内生的 AIOps は非線形に成長します。ユーザー チームと製品を含むシステム全体が非線形に成長します。ソリューション全体が展開された後、企業はエージェントをインストールするだけで、その後の多くの機能が自動化されます。これにより、会社の運用および保守担当者は会社自身のビジネスに集中できるようになります。 要約:業界には、データ処理プロセス全体を完全にカバーできる新世代のソフトウェア インテリジェンス プラットフォームが必要です。生データを提示するのではなく、顧客が望む結果を直接提供します。一般的に、外部 AIOps と内因性 AIOps という 2 つの技術的パスのうち、企業には、インテリジェントな運用と保守の新しいパラダイムに属する内因性 AIOps を使用することが推奨されます。 内在的AIOpsはクラウドネイティブの運用と保守を簡素化します内在的 AIOps プラットフォームの目標は、AIOps と可観測性を組み合わせたオールインワン プラットフォームを構築することです。監視機能が必要であり、監視機能はエンドユーザーに直面する現象層であるアプリケーション監視を中心としたものでなければなりません。同時に、クラウドプラットフォーム監視やブラックボックス監視などのインフラストラクチャ監視を統合することも必要です。最後に、フロントエンドのデジタルエクスペリエンスを提供する能力も必要です。 新しい AIOps プラットフォームでは、データ アクセスからデータ出力まで継続的な自動化を実現する必要があります。事前の能力と予測・警告能力が必要です。 新しい AIOps プラットフォームは、高度な可観測性を提供する必要があります。企業に生データと生の部品を表示するだけでなく、現象や経験に焦点を当て、正確な結果を提供する必要があります。この方法でのみ、大量のノイズが企業に与える影響と干渉を最小限に抑えることができます。 内因性 AIOps のデータ処理モデルには、データ収集におけるエージェントの能力を重視するなど、多くの違いがあります。データ処理では、指標システムを重視しています。指標システムの構築は従来の方法とは異なり、統合プラットフォームに内在する内生的なAIOpsを重視しています。 内在的 AIOps プラットフォームは、次の 5 つの側面でクラウド ネイティブの運用と保守を簡素化するのに役立ちます。
1. 高品質な観測データを直接取得まず、高品質の監視データを直接取得します。典型的な要約は、「高品質の観察は高品質のテレメトリから得られる」です。高品質のバックエンド分析には、高品質のフロントエンドテレメトリデータの生成が必要です。可観測性は 3 つの柱に重点を置いています。高レベルの可観測性と内因性 AIOps 分析を実行するには、5 つの柱が必要です。従来の追跡データ、インジケーター、ログ データに加えて、非常に重要なトポロジ データとコード データも必要です。データの品質によって、モデルの上限が直接決まります。 高品質の監視データを直接取得します。このデータは、ソース コード、ビジネス、アプリケーションを変更することなく、非侵入的かつ自動的に収集され、コンテキスト情報と自動化を組み合わせることができる必要があります。コンテキスト情報は、真の根本原因分析の達成を支援し、根本原因分析が忠実度の高い背景情報を抽出するのを助け、プラットフォームが依存関係を実行するためにリアルタイムのサービス フロー図とトポロジ図を構築するのに役立ちます。マトリックス型関係トポロジー技術を含め、このコンテキスト情報も非常に重要です。 トポロジ図は主に、垂直スタックと水平スタックを含むアプリケーション環境全体の依存関係を示します。サービス フロー ダイアグラムは、サービスまたはリクエストの次元からトランザクション全体のビューを提供します。サービス フロー ダイアグラムとトポロジ ダイアグラムは、サービス間の呼び出しのシーケンスを示すことができます。サービス フロー図は、順序付けられたトランザクションの分散シーケンス全体を示しますが、トポロジ図は依存関係などを示す高レベルの抽象化です。
高品質な監視関係を直接取得するには、商用エージェント技術を使用する必要があります。市場にはオープンソースや無料のツールが多数ありますが、商用エージェント技術にはオープンソース ツールにはない次のような利点があります。
上記の利点は、多くの無料ツールでは得られません。内在的 AIOps プラットフォームは、One Agent テクノロジーに依存しています。エージェントはエッジ コンピューティング設計を採用しており、エッジ エンドポイントで大量のデータ集約とデータ クリーニング作業を実行します。 2. 継続的な自動化を実現する内在的 AIOps プラットフォームの機能は、継続的な自動化を構築するように設計されています。複雑なクラウドネイティブ環境を監視するには自動化が不可欠です。これには、自動展開、自動適応、自動検出、監視、インジェクション、クリーニングなどの一連の自動化が含まれます。複雑なクラウドネイティブ環境では、こうしたエンドツーエンドの業務を人的リソースで把握することは難しいため、自動運用や保守を支援する補助ツールとして、高度に自動化された機能が必要になります。 3. リアルタイムのマトリックス関係マップを構築する内在的 AIOps プラットフォームは、リアルタイム マトリックス トポロジを構築できます。マップに沿って進むと、サービス層の依存関係図や、コンテナ層、ホスト層、プロセスレベルなど、マップの横方向を見ることができます。垂直方向は、サービスがどのコンテナ上で実行されるか、コンテナがどのプロセスに対応するか、プロセスがどのクラウド ホスト上にあるかを示します。 4. リアルタイム出力影響分析出力影響面分析はネットワーク セキュリティの考え方に相当し、運用と保守でも同様です。システム障害や異常が発生した場合、影響を受ける領域はどこか、影響を受けるユーザーは誰か、影響を受けるサービスは誰か、影響を受けるアプリケーションは誰か、そして根本的な原因は何なのか。結果は自動化された手段とテクノロジーを通じてユーザーに出力され、運用および保守担当者による手動分析は必要ありません。
5. 根本原因を特定し、結果を確認する最後に、自動化された運用と保守の非常に重要な機能は、根本原因を特定し、結果を目撃することです。従来のテクノロジーでは、知識ベース、CMDB、因果推論に基づくさまざまな方法が必要ですが、AIOps は内因的な根本原因の特定を提供します。データの依存関係を接続できます。オブジェクト間の依存関係に加えて、呼び出しチェーン、ログ、インジケーター間の依存関係など、異なるデータ タイプ間の依存関係も接続できます。リアルタイムで根本原因の特定が可能で、適応性が高く、オーバーヘッドが低く、非常に高い精度を備えています。さらに、この技術は監視なしであるため、これらの機能を提供するためにあまり人間の支援を必要としません。
要約する企業がデジタル変革を成功させるには、すべてのアプリケーション、デジタル サービス、およびそれらをサポートする動的なマルチクラウド プラットフォームが常に完璧に動作することを保証する必要があります。 これらの非常に動的で分散されたクラウドネイティブ テクノロジーは、従来のシナリオとはまったく異なります。その結果、マイクロサービス、コンテナ、ソフトウェア定義のクラウド インフラストラクチャによって、現在では管理不能な複雑さが生じています。これらの複雑さはチームの管理能力を超えており、拡大し続けています。急速に変化する環境で起こっていることすべてを把握するには、観測可能性とインテリジェントな運用および保守機能を向上させる必要があります。 高度に自動化されたインテリジェントなテクノロジーを使用して、クラウドネイティブの O&M をより軽量で効率的かつ低コストにし、エンタープライズ チームがビジネスそのものに集中して、真にインテリジェントな O&M の時代へと移行できるようにする必要があります。 ゲスト紹介Chengyun Products 副社長、Zhang Huaipeng 氏。 2017年、杭州成雲デジタルテクノロジー株式会社に入社し、[DataBuff統合監視とインテリジェント運用保守]製品ラインの日常管理を担当し、IPD統合製品開発チームマネージャーを務め、市場管理、需要分析、チームコラボレーション、プロセス構造化、品質管理などの業務に参加しました。 |
<<: GPT-3 がマーベル ユニバースに登場! 2Dの男がスパイダーマンの続編を作るためにそれを使用しました
>>: 中国科学院深圳先端技術研究所:新しい知識強化グラフニューラルネットワークが説明可能な推奨を実現
自然言語プログラミングは Jupyter で直接実行できます。 MIT の中国人博士課程の学生によっ...
ブルームバーグとインテル研究所の研究者2人が、遺伝的アルゴリズムとチューリング完全な言語を使用して、...
人工知能に関しては、多くの人が懸念を表明しています。例えば、人類開発の最前線にいるホーキング博士とマ...
[[183558]]誰かがあなたにボールを投げてきたら、どうしますか? もちろん、すぐにキャッチす...
本日開催された第8世代XiaoIce発表会で、XiaoIce会長で元マイクロソフトのグローバルエグゼ...
より持続可能な環境を目指して、私たちは革新的な技術を活用して自然災害による損失を最小限に抑える努力を...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
本日、Meta は Code Llama シリーズで最大かつ最も強力なバージョンである Code L...
【51CTO.comオリジナル記事】スーパーマーケットに入ったところを想像してみてください。計量のた...
[[280896]] 01. はじめにデータのクエリ速度を向上させるために、キャッシュがよく使用され...
プルーニングを使用すると、AI トレーニングを高速化し、ロスレス操作を実現できます。わずか 3 行の...
1. 人工知能技術の定義人工知能技術は、複雑な生産労働において機械が人間に取って代わることを可能にす...
人工知能や自動化などの破壊的技術の急速な発展により、現代の企業は変化しています。これらのテクノロジー...
2020年11月、Appleは速度と強力な機能の点で驚異的なM1チップを発売しました。 2022年に...
ChatGPT に続いて、OpenAI のライブ ブロードキャストでは、視覚入力はまだ広く利用可能...