CreditEase の R&D ディレクター、張振氏: 運用・保守ロボットのタスク決定システムの進化

[51CTO.comより引用] 2018年5月18日〜19日、51CTO主催のグローバルソフトウェアおよび運用技術サミットが北京で開催されました。このサミットは、人工知能、ビッグデータ、モノのインターネット、ブロックチェーンなど12の核心的なホットトピックに焦点を当て、国内外から60人の第一線の専門家を集めています。これはハイエンドの技術の饗宴であり、トップクラスのIT技術者が学び、ネットワークを拡大するための見逃せないプラットフォームです。

「コンテナ下の AIOps」セッションでは、CreditEase R&D ディレクターの Zhang Zhen 氏が「運用・保守ロボットのタスク決定システムの進化」と題した素晴らしい講演を行いました。講演では、AIOps システムの目標と課題を分析し、運用保守ロボットとタスク決定システムについて説明し、タスク決定システムの進化について深く分析しました。

AIOps 自身の目標と課題

CreditEase は、非常に高度なビジネス複雑性を持つ金融企業です。図 1 は、CreditEase UAVStack (フルディメンション監視ソフトウェア) によって作成されたステータス監視図です。

図1 UAVStackによって生成されたステータス監視図

この複雑な状態図は、YiXin の運用環境におけるアプリケーション、データベース、サービス、キャッシュなどの複数の関連コンポーネント間の呼び出しと関係を表しています。特にマイクロサービスアーキテクチャでは、このような複雑なビジネス規模に直面すると、非常に単純なマイクロサービスであってもトラブルシューティングは容易ではありません。このような状況では、自動化された運用と保守はもはや最良の選択ではなく、AIOps システムが不可欠になるでしょう。 AIOps システムは、深い洞察力により、運用と保守に継続的かつ高品質で効率的な運用を提供できます。自動化された運用と保守と比較して、人間の生理的限界や認知的限界に制限されなくなります。

AIOps システムを構築する前に、明確な目標を設定し、さらに重要なことに、さまざまな課題を徹底的に分析する必要があります。

3つの大きな目標

目標 1: 適時性。自動化された運用と保守によってタイムリーさは大幅に向上しましたが、中心的な意思決定者は依然として人間です。人間の生理的限界を超えると効率を保証することが難しくなりますが、AIOps システムには上記の問題はありません。

目標2: 深い洞察力。人間の認知には限界がありますが、AIOps システムはビッグデータを活用して、より多くの既存の問題や未知の運用・保守モデルに関する洞察を得ることができます。

目標 3: 自律チューニング。 AIOps システムは、システムの最適な状態を自律的に維持し、目標を達成するために必要な実行計画を自律的に生成できます。

6つの課題

理想と現実はどれくらい離れているのでしょうか? AIOps システムの構築で直面する課題は次のとおりです。

1. 高品質かつタイムリーな監視データを取得する方法。従来の監視システムでは、より多くのデータを取得したい場合、さまざまなシステムを構築する必要があります。これらのシステムでは、適時性と品質管理について合意に達することが難しい問題です。

2. 多次元データの効率的な関連付けを実現する方法。データだけでは問題を解決することはできません。すべてのデータは有機的かつ効果的にリンクされている必要があります。

3. 運用および保守シナリオのリアルタイム認識を実現する方法。エンジニアが従来の監視および運用保守システムよりも信頼できる理由は、主に、運用保守エンジニアがコンピュータールーム、ネットワーク、仮想マシン、その他の関連する詳細など、現実世界の認知能力を多く備えているためです。 AIOps システムのパフォーマンスを向上させたい場合は、運用と保守のシナリオの認識を強化する必要があります。

4. AI「エンジニアリング」の複雑さ。実際には、機械学習アルゴリズムを実際のシナリオに適用するにはまだ長い道のりがあり、これは研究室での機械学習よりもはるかに困難です。

5. 機械学習モデルのトレーニングのジレンマ。実稼働の運用と保守では SLA (サービスレベル契約) の競合と障害のサンプルが少なすぎるため、シミュレーションに制限が生じます。

6. レガシーテクノロジースタックとハイブリッドアーキテクチャの複雑さ。スタートアップ企業には、数多くの歴史的なレガシーテクノロジースタックとハイブリッドテクノロジーアーキテクチャが存在し、レガシーシステムの「ビジネス要件」は頻繁に変化します。では、これらを AIOps システムにうまく統合するにはどうすればよいでしょうか?

CreditEase は、目標を決定し、課題を明確にした後、図 2 に示すように、自社に適した AIOps テクノロジールートを開発しました。

図 2 AIOps 技術ロードマップ

AIOps の技術的なルートは、フルディメンション監視、フルディメンション相関、フルディメンションインテリジェンスの 3 つのステップに分かれています。全次元監視段階では、監視システムを統一し、高品質でタイムリーな監視データを取得し、監視ソフトウェアを使用してさまざまな運用および保守シナリオでソースデータを抽出し、レガシーテクノロジースタックとさまざまなハイブリッドアーキテクチャに適応して適応する必要があります。全次元関連付け段階では、多次元データを効率的に関連付け、機械学習モデルのトレーニングのジレンマを解決する必要があります。フル次元インテリジェンスの段階では、AI エンジニアリングの複雑さを克服するには時間がかかります。

運用・保守ロボットはAIOpsシステムの中核です

YiXin は、AIOps の技術的なルートを決定した後、最初に権威ある監視プラットフォームである「運用保守ロボット」を実装しました。 AI ミッションロボットとも呼ばれる運用保守ロボットを図 3 に示します。

図3 運用保守ロボット

タスクロボットの設計コンセプトは、CUI インタラクションと API 実行に基づいており、マイクロインテリジェンスや人工知能などの最先端技術と組み合わせることで、運用保守ロボットが実際の決定を下し、最終的に運用保守担当者に適切なフィードバックを提供できるようになります。

タスクロボットが AIOps システムの中核となる理由は、図 4 に示すように、全次元の関連付けと全次元の知能において重要な役割を果たすためです。

図4 タスクロボットが中核

タスクロボットの役割は、DevOps ツールチェーンとビジネスシステムを重視しながら、フルディメンション監視プラットフォームとビッグデータプラットフォームに接続することです。

タスク決定システムの6つの責任の簡単な分析

タスクロボットの基本的な概要を紹介した後、張震氏はタスクロボットのタスク決定システムと責任について簡単に分析しました。

タスク決定システムとは何ですか?

張震氏は、図 5 に示すように、認知と意思決定の関係を理解することが、タスク意思決定システムを理解するための前提条件であると述べました。

図5 認知と意思決定の関係

認知インテリジェンスの 4 つの部分、すなわち理解、解釈、計画、推論は、意思決定と密接に関連しています。インテリジェントな運用と保守のシナリオにマッピングすると、図 5 に示す 4 つのポイントに対応します。タスクの意思決定の前提は、拡張現実の認識であることがわかります。

図6 拡張現実の知覚プロセス

図6は拡張現実の知覚のプロセスを示しています。このようにして、ユーザーシナリオを認識できます。このプロセスにおいて、AI は、分類判断や回帰検出のための機械学習技術の使用、物事の理解を深めるための知識グラフやシステムの構築、あいまいで正確なマッチングを実現する検索技術など、多くの意思決定機能を提供します。

タスク駆動モードと自律駆動モードは、タスクロボットの 2 つの駆動モードです。タスク駆動モードは受動的なタスクです。指示を受信し、指示の意図を理解した後、同時にタスクの実行方法を決定し、最終的にタスクを実行して結果をフィードバックします。自律運転モードは、指揮官からの期待を積極的に受け止め、意図を理解し、タスク実施計画を立ててタスクを積極的に実行し、必要に応じて結果のフィードバックを提供します。

ミッション決定システムの6つの責任

タスク駆動モードと自律駆動モードという 2 つの運転モードをサポートするには、図 7 に示すように、タスク決定システムに 6 つの主要な責任が必要です。

図7 タスク決定システムの6つの責任

次に、張震は各職責の基本的な業務原則について詳細に説明しました。

責任1: 意図の理解

図8 意図理解の仕組み

図 8 に示すように、意図理解ではまず自然言語理解を実行し、次に自然言語をロボットが理解できる形態素にマッピングしてから、意図ルーティングに入ります。インテントルーティングの目的は、人間の指示を理解することであり、基本的には次の 4 つのタイプに分けられます。

人間とロボットの間の複数回の会話。
人が直接指示を出します（ChatOps 指示）。
指示理解プロセスに入る必要があるかどうかを判断します。命令理解とは、自然言語に偏った形態素をロボット理解に偏った形態素に変換することです。
意図を拡張するには、このプロセスでグラフコンピューティングテクノロジを使用する必要があります。グラフコンピューティングには、アルゴリズム、グラフ全体の構築、クエリプロセスという 3 つの部分が含まれます。

責任2: システムの理解

図9: システム理解の仕組み

図 9 に示すように、システム理解ではまず知識グラフが構築されます。この知識グラフは、API セマンティクスと細分化されたポートレートの 2 つの部分に分かれています。次に、命令理解の結果と組み合わせてグラフ計算プロセスが実行され、使用する API の選択を支援することと、パラメータを入力することの 2 つの効果をもたらします。

責任3: 現実の理解

図10 現実理解の仕組み

図 10 に示すように、現実を理解するには、まずナレッジグラフを作成する必要があります。そのためには、基本データ、関連データ、ビジネスポートレートなどの多次元データの収集が必要です。次に、グラフコンピューティングを使用して、What タイプと関連タイプの 2 つの要件を解決します。最後に、これまでの作業に基づいて、問題の特定、根本原因の分析、現実の判断を支援します。

責任4: 異常検出

図11. 異常検出の動作原理

異常検出の動作原理を図 11 に示します。これは、フル次元指標 (つまり、フル次元監視段階で取得されたデータ) を指標関連付けモデルに変換します。このモデルには、効率的な計算と高精度の計算という 2 つのモデルが含まれます。まず、効率的なコンピューティングモデルを使用して計算を実行し、大まかな結論を導き出し、次に実装のために高精度モデルに引き渡します。

責任5: 問題分析

図12 問題分析の仕組み

図 12 に示すように、これが問題分析の動作原理です。異常検出または異常特徴マップ (数学的空間における一連のモデル) の結果が入力され、現実世界の理解と組み合わせ、計算と図 12 に示す 3 つの主要な支援分析機能によって、一連の関連する認知ニーズ、問題の場所、関連する根本原因、および影響評価が最終的に導き出されます。

責任6: 実行計画

図13 実行計画の仕組み

図 13 に示すように、これは実行計画の動作原理であり、主に事前計画、現実理解、システム理解の 3 つのレベルに分かれています。実行計画機能は、これまでの5つの機能を理解し統合するものであり、自動運転モデルにおいて最も重要なポイントです。このような実行計画が確立されると、複数の実行計画を互いにネストすることができます。ネストがある程度複雑になると、非常に複雑な作業プロセスが形成されます。この作業プロセスは、タスクロボットが徐々に人間に近づき、インテリジェント化していくプロセスです。

ミッション決定システムの具体的な進化

次に、張震はいくつかの事例を通してタスク意思決定システムの具体的な進化を分析しました。タスク決定システムは、図 14 に示すように、AIOps プラットフォームアーキテクチャ内のモジュールです。

図14 AIOpsプラットフォームフレームワーク

AIOps プラットフォームフレームワークの基盤となるレイヤーはマイクロサービスコンピューティングプラットフォームであり、これに基づいてフルディメンションの監視サービスとタスクロボットシステムが構築されます。タスクロボットシステムは、Interaction、Think、Handson の 3 つの主要部分で構成されており、タスク決定サービスは Think のセクションの 1 つです。

タスク駆動型アーキテクチャの4つの反復

タスク駆動型アーキテクチャの第 1 世代では、タスクの決定やフルディメンション監視との関係など、命令の理解とパラメータの充填がコード層で実装されており、これもサービス登録と検出を通じて実現されます。第 2 世代のタスク駆動型アーキテクチャは、自然言語とコマンド理解を組み込み、最初に知識グラフを導入するだけでなく、セマンティックテンプレートに基づく応答も実装します。第 3 世代のタスク駆動型アーキテクチャは、マイクロインテリジェントな知識グラフを構築し、マルチラウンドの対話管理を追加します。基本的に人の意図を判断し、アラーム全体の簡単な統計を実行できます。

図15 第4世代タスク駆動アーキテクチャ

図 15 に示すように、第 4 世代のアーキテクチャには、拡張されたインテント接続のためのマルチラウンドダイアログサポート、ナレッジグラフ管理サービス、問題分析の導入など、多くの強化された機能があります。

自動運転アーキテクチャの2つの反復

アラーム発生後に処理を行うタスク駆動モードと比較して、自動運転モードでは操作とメンテナンスが受動的から能動的に変わります。自動運転は、YiXin が取り組んでいるインテリジェント検査シナリオであり、運用保守エンジニアによるシステムの定期検査の効果に相当します。

スマート検査の異常検出、問題の特定、根本原因の分析、影響評価、自己修復計画は、スマート検査シナリオの 5 つのステップです。インテリジェントな検査を実現するための基本的なプロセスは 2 つあります。期待を記憶することと、プロアクティブな実装です。

自動運転（第1世代）プロセス1：メモリの期待

図16 自動運転プロセス1: 記憶期待

図 16 に示すように、まず、タスクロボットは私たちの期待を記憶し、ビジネスを理解した上でそれを高頻度で実行する必要があります。指定した期待値がいずれかのプランと一致しているかどうかを判断し、その結果を保存します。このプロセスでは、実際の実行プランではなく、事前に設定されたプランの結果が保存されます。実際に実行すると、コンテキストに応じて特定の作業リストを生成できます。

自動運転（第1世代）プロセス2：プロアクティブな実装

図17 自動運転プロセス2：アクティブ実装

図17に示すように、ロボットが実際に実行する際には、実行計画の動作原理に従い、グラフ計算に基づいて実行計画を自動生成します。同時に、実行プランはナレッジグラフが現実を理解するための API 呼び出しをスケジュールします。スケジューリングの異常検出はモデル計算によって実行されます。この生成は主に単一の指標に焦点を当てており、問題分析は含まれません。

自動運転（第2世代）

図18 自動運転（第2世代）アーキテクチャ図

図18に示すように、自動運転（第2世代）では、問題分析結果のガイダンスが追加され、結果の積極的なフィードバックが可能になり、専門家にリアルタイムで支援を依頼できるようになります。指標関連付けモデルの異常検出の側面では、問題の特定と根本原因分析のプロセスが追加され、早期警告サービス部分にイベント関連付けが導入されています。

ミッション決定システムの将来

ミッション決定システムの将来は、さらに以下の側面に取り組みます。

精度は継続的に改善する必要があります。
問題診断結果（システム/アプリケーション/ビジネスレベル）の影響を評価し、自己修復実行手段を決定します。
人間と機械の相互支援を強化し、システムが人間の支援を求める双方向の協調サポートを実現します。
ChatOps コマンドは意図の理解を完全に自動化します。つまり、デプロイメントは理解です。
事前設定プランのモデリングを支援し、事前設定プランのモデリングの複雑さを軽減するために、いくつかの半自動支援方法を導入します。
現状では、まだ特定のシナリオ向けのモデリング手法であり、汎用性に欠けています。高指数相関モデルの汎用性を向上させる必要があります。

講演の最後に、張震氏は次のように要約しました。「AIOps 自体の課題に対応する技術的なルートは、全次元監視から全次元相関へ、そして最終的には全次元インテリジェンスへと続きます。」タスクロボットは AIOps システムの中核であり、タスクロボットに基づいてのみ、フルディメンションの関連付けとフルディメンションのインテリジェンスを実現できます。タスクの意思決定は、認知インテリジェンスと AI テクノロジの組み合わせの具体化であり、システム理解、現実理解、意図理解、異常検出、問題分析、実行計画という 6 つの基本機能が含まれます。タスクロボットには、タスクと自律の 2 つの運転モードがあります。タスク運転の鍵は、人間の意図をシステムで実行可能な操作にマッピングすることであり、自律運転の鍵は、実行計画を生成し、実行効果に影響を与えることです。

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<: マスク氏：ロボットが雇用を奪い、ユニバーサル・ベーシック・インカムが必須に

>>: 機械学習の敷居が再び下がり、Zhiyuan TechnologyがAutoML製品をリリース