張震: AIOps の 6 つの技術的難しさと CreditEase の運用と保守における大きな変化

張震: AIOps の 6 つの技術的難しさと CreditEase の運用と保守における大きな変化

[51CTO.com からのオリジナル記事] 運用と保守の発展プロセスは産業革命に似ています。3 つの産業革命は機械化、電化、情報化ですが、運用と保守は原始的な手動、スクリプト、自動化ツールです。インダストリー 4.0 が静かに近づいている今、インテリジェンスは運用と保守にどのような影響を与えるのでしょうか? AIOps は、ガートナーによって初めて提唱されました。その本来の意味は、アルゴリズムに基づく IT 運用と保守です。実践、考察、議論の継続的な積み重ねにより、その認識は変化してきました。

人工知能技術の発展に伴い、人工知能をベースにした IT 運用・保守が広く認知されるようになり、AIOps は「運用のための人工知能」と解釈されるようになりました。最近、CreditEase の R&D ディレクターが 51CTO のインタビューを受けました。インタビューでは、AIOps の技術的な難しさ、金融業界における AIOps アプリケーションの現状、CreditEase の運用と保守における大きな変化に焦点が当てられました。

[[224495]]

CreditEase の研究開発ディレクター、張震氏

AIOps とは何ですか?

AIOps を理解するには、まず DevOps との関係を理解する必要があります。張震氏は、AIOpsはDevOpsの高度な段階とみなせると述べた。AIOpsは成熟したDevOpsツールチェーンを完全に置き換えるのではなく、DevOpsツールチェーンに「頭脳」を備えさせ、手動決定によって駆動される運用および保守プロセスを、システムの自律的決定によって駆動されるプロセスに変換することを目的としている。したがって、DevOpsツールチェーンとの深い統合は、AIOpsを実装する唯一の方法です。

わかりやすい比喩を使うと、AIOps は運用と保守の「アイアンマン」モードと見なすことができます。このシステムはもはや単なるツールではなく、アイアンマンの鎧のようにタスクを支援したり、独立して完了したりすることもできます。

したがって、AIOps は実際には、AI 技術を IT 運用・保守の分野に適用して効率を向上させ、真の価値を生み出す「エンジニアリング」プロセスです。これは AI エンジニアリング プロセスであるため、AI テクノロジーを実際的に検討し、スマート アラーム、スマート検査、スマート オンライン、スマート自己修復などの効果的な運用および保守シナリオを解決するために適切な AI テクノロジーを選択する必要があります。

AIOps の 6 つの技術的難しさ

AIOps を理解した後、AIOps の技術的な難しさについて見てみましょう。この部分で、張震は次の 6 つの側面から詳しく説明しました。

AI「エンジニアリング」の複雑さ

現在、機械学習はAIOpsの重要な手段です。その他、自然言語処理、高度な検索、ナレッジグラフなどがあり、実際の「エンジニアリング」実装効果を実現するには、これらもこの分野に総合的に適用する必要があります。つまり、AIOps をアルゴリズムの実装として考えるのは偏った見方です。

それだけでなく、特定のシナリオの問題を解決するには、他の分野から技術や方法を「借用」または「移植」する必要があるかもしれません。たとえば、YiXinはIoT分野からインスピレーションを得て、実際に「マイクロインテリジェンス」手法を生み出し、それをナレッジグラフと組み合わせて、マイクロインテリジェンスナレッジグラフ技術を確立しました。

高品質でタイムリーな監視データを取得する方法

アルゴリズムの適用はデータに基づいています。従来の監視アーキテクチャでは、メトリック、ログ、トレースの 3 つの主要なデータ タイプをすでにカバーできますが、各タイプのデータは独自のシステムによってキャプチャ、収集、保存されるため、データの適時性、調整、品質管理に関する一貫した標準を維持することは困難です。

さらに、データ形式も大きく異なる可能性があります。従来のビッグデータアーキテクチャでは、データをクリーンアップして形式を変換する必要があります。膨大な量のデータに直面すると、タイムリーさはさらに低下します。

多次元データを関連付けるのは難しい

従来の監視アーキテクチャでは、データ収集が均一でないため、メトリックも異なる監視システムから取得される場合があります。たとえば、ネットワーク監視、ホスト監視、アプリケーション監視は、ログ記録とトレース データは言うまでもなく、3 つの異なるシステムから取得される場合があります。これにより、多次元データを関連付けることが困難になります。

適時性に加えて、リアルタイムの相関データは、専門家のタスク意思決定能力に「近づく」、あるいは「到達する」システムの能力にとってもう 1 つの鍵となります。

機械学習モデルのトレーニングのジレンマ

インテリジェントな運用と保守に機械学習を使用する重要な目標の 1 つは、障害特性を識別できるようにすることです。ただし、運用および保守 SLA の目標は、99.9% のシステム可用性を確保することです。このような矛盾は実際の運用時に障害を引き起こすことが多いのですが、機械学習に必要なサンプル数が少なすぎます。

現在、YiXin の解決策は、本番環境と同一のシミュレーション環境を構築することです。これはサンプル収集やモデルのトレーニングの場としても使用されます。もちろん、それでもシミュレーション環境には限界があり、一部のシナリオはシミュレーションが難しいです。

運用と保守のシナリオをリアルタイムで把握する方法

運用と保守の適時性には、システムの認識が十分であることも必要です。これは、データを監視するだけではありません。運用と保守担当者がシステムよりも強い判断力を持っている理由は、運用と保守のシナリオに関するより完全な情報を持っているからです。たとえば、ネットワーク アーキテクチャ、デバイス間の関係、物理マシン/仮想マシンの分布、アプリケーションの関係、アプリケーション テクノロジ スタック、さらにはビジネス目的についても明確に把握しています。これらは、問題の特定、根本原因の分析、影響評価の基礎となるため、この情報もリアルタイムで認識する必要がありますが、これは従来の監視には欠けています。

レガシーテクノロジースタック、ハイブリッドアーキテクチャにより複雑さが増す

金融業界であろうと他の業界であろうと、新しい企業でない限り、テクノロジー スタックやアーキテクチャに大きな違いがある可能性のある、多数のレガシー システムに直面しています。したがって、認識とデータ収集には追加の投資が必要です。

一方、レガシー システムが新しいビジネス要件を導入し続けると、さらに新たな複雑さが生じます。

金融業界におけるAIOps適用の現状

金融業界におけるAIOpsの現在の適用状況について質問された張震氏は、インテリジェント運用と保守は現在、立ち上げから成熟へと移行している段階にあるが、その適用範囲は業界の特性にも関係していると述べた。業界によって運用と保守のモデルは異なり、これらの違いは実装の進捗に影響を与えるだろう。金融業界では、金融業界の特性と密接に関係するインテリジェントな運用と保守がまだ初期の試行段階にあります。

一方、金融業界は、インターネット金融会社を含む伝統的な業界の代表であり、コンプライアンス、セキュリティ、法務、プロセスなどを厳格に実施する必要があるため、インテリジェントな運用と保守によってもたらされる新しいテクノロジーに適応するにはより長い時間がかかります。

一方、ほとんどの金融企業では、監視、公開、CMDB、セキュリティ管理、さらには金融業務を支えるシステムなど、基本的なプラットフォームが長い時間をかけて構築されており、テクノロジースタック、アーキテクチャ、展開、組織運営などの面でインテリジェントな運用と保守への変革に取り組む必要があります。この変革は革命的です。

現在、業界で真の課題を抱え、関連する技術研究開発能力を持つ企業は、より早くインテリジェントな運用とメンテナンスの初期段階に参入しており、YiXin もその 1 つです。 2017 年 9 月、CreditEase は金融分野における AIOps の開発を促進することを目指して、AIOps をサポートする 3 つの強力なツールをオープンソース化しました。

CreditEaseの運営における大きな変更

ローマは一日にして成らず。CreditEase の運用・保守も、手動の運用・保守から現在のインテリジェントな運用・保守の時代へと、度重なる変化を経てきました。 YiXin の運用と保守における主な変更は、手動、自動化、DevOps ツール チェーン、フルディメンション監視モビリティ、インテリジェントな運用と保守の 5 つの段階に大別できます。

手動操作とメンテナンスの時代

手動操作と保守の時代は、人力 + コンピュータ スクリプトのモデルです。たとえば、資産管理は手動入力に依存し、データの精度はプロセスに完全に依存します。アプリケーションのパッケージ化は手動でトリガーしてから実稼働環境にアップロードすることに依存します。アプリケーションの展開は、コマンドの手動入力またはスクリプトの実行に依存します。監視では、最も基本的な指標しか確認できません。操作と保守のコラボレーションは、「人が人を探す」ことに依存します。この段階は「石器時代」と呼ばれます。

自動化運用・保守の初期段階

自動化された運用と保守の初期段階では、モデルは人力+専門システムであり、各専門システムが運用と保守の分野をカバーしていました。例えば、運用保守の監視効率を向上させる監視システムの構築、資産管理の効率化を支援する資産管理システムの導入、コード、ビルド、バージョンの管理を支援する継続的インテグレーションシステムの導入、アプリケーション展開のリモートリリースを実現するリリースシステムの導入などです。

この段階は、運用と保守の産業革命時代であり、効率が向上しています。同時に、専門分野のシステムは実際には「断片化」されており、人材が依然として中核的な原動力であることに留意する必要があります。

DevOpsツールチェーン構築期間

DevOps コンセプトと関連するオープンソース ツールの発展は、DevOps ツール チェーンの構築に貢献しました。この期間の明らかな特徴は、DevOps ツール チェーンの構築を通じて、要件、開発、ビルド、テスト、統合からリリース/ロールバックまでのエンドツーエンドのプロセスが開かれ、開発、テスト、運用と保守の連携がより適切に解決されたことです。

この時期には、人材のスキルとチーム運営モデルの変革も伴います。たとえば、機能テスターは徐々に自動テストプラットフォームに置き換えられ、テストプラットフォームの研究開発と運用保守へと変化していきます。開発者はもはや開発だけに集中しているわけではありません。自動テスト、CI/CD などの助けを借りて、セルフサービステスト、パッケージ化、起動/ロールバックを実装し、テストと運用および保守のプロセスに注意を払い始めることができます。運用および保守担当者は、単に受動的に作業指示を受け入れるだけでなく、アプリケーションの品質とプロセス イベントの追跡に注意を払い始めています。

もちろん、この期間中の監視、制御、セキュリティ、運用、保守は依然として人材 + 専門システムのモデルに依存しています。

全次元監視に基づくモバイル運用とメンテナンス

この段階はまだ自動化された運用と保守の範囲内ですが、実際には YiXin はすでにインテリジェントな運用と保守の構築を開始しており、それを全次元監視、全次元相関、全次元インテリジェンスの 3 つの段階に分けています。全次元監視が基本です。全次元性を重視する理由は、前述の課題で述べた「高品質でタイムリーな監視データ」と「運用・保守シナリオのリアルタイム把握」に対応するためです。

一方、YiXin は、統合監視システムを使用してメトリック、ログ、トレース データを収集し、完全な次元の監視ができるように監視および運用システム全体を再構築しました。同時に、これに基づいてプロファイリング データが追加されます。これは、ユーザー側からデータ センター、およびデータ センター内部へのデジタル投影として見ることができます。これにより、システムは人間と同じ、またはさらに細かい「実際の」シーンを認識できます。

一方、人員の「視覚」を解放するために、モバイル運用保守モデルも導入されています。これには、ビジネス、開発、テスト、CI/CD、運用、保守を含むすべての人がモバイルデバイスを通じていつでもさまざまなイベントを監視、トラブルシューティング、さらには処理できるように、監視システムがこの作業モードをサポートする必要があります。

インテリジェントな運用と保守の建設期間

現在、CreditEaseはインテリジェントな運用とメンテナンスを構築する段階にあり、これは人工知能技術を総合的に応用する時期です。フルディメンション関連付けは、フルディメンション監視データとポートレートデータを完全に効率的に関連付けることです。

一方で、より高速でより優れた自動化された運用と保守をサポートできる一方で、システムがこれらのデータを最大限に活用して、運用と保守における支援された、あるいは自律的な意思決定を実現できるようにすることで、インテリジェントな運用と保守の第 2 の基盤も築きます。

この段階では、ミッションロボット(AIミッションロボット、運用保守ロボットとも呼ばれる)システムが構築され、当初は「知能」を備えていました。同時に、この段階ではチームの運営モードのさらなる変革も促進され、単一チェーンのコラボレーション モードからシステム中心の多次元コラボレーションへと徐々に移行します。システムは、全員に客観的で統一されたビューを提供し、実行計画、支援提案、さらにはさまざまなイベント処理に対する積極的な意思決定と実装も提供します。

張震氏は、インテリジェントな運用と保守の構築段階は最も破壊的で飛躍的な反復であり、いくつかのシナリオで実装されていると述べた。

  • 例えば、人々は自然言語を使用して、さまざまなチャネル(WeChat、Web IM、さまざまなIM)を介してタスクロボットとコミュニケーションし、自然言語で目標を発行することができます。タスクロボットは、その目標に基づいて、目標を達成する方法を自律的に計画します。
  • たとえば、インテリジェントアラームのシナリオでは、人々は自然言語を通じてタスクロボットへのアラームを購読し、アラームパラメータを変更できます。タスクロボットは単にアラームをインタラクティブチャネルにプッシュするだけでなく、アラームイベントを自動的にフィルタリング/集約し、本当に意味のあるアラームイベントを人々にプッシュします。
  • たとえば、インテリジェントなオンライン起動のシナリオでは、起動のシステムや時間などの情報を人が発行できます。タスクロボットは人との合意に基づいてタスクの実行を計画します。オンライン起動プロセス中に問題が発生した場合、ロボットは続行するかどうか、人間の支援が必要かどうか、終了するかどうかを積極的に判断し、問題の診断を開始します。
  • たとえば、インテリジェント検査のシナリオでは、タスクロボットは自律走行モードを使用して、数千のアプリケーションインスタンスに対して異常検出、問題箇所の特定、根本原因分析、影響評価、自己修復実行を高頻度で実行します。このモデルの目標は、初級から中級の運用保守エンジニアの日常的な検査タスクを完了することです。

フルディメンションインテリジェンス - CreditEase の運用と保守の将来計画

CreditEaseの運営と保守の次の計画について尋ねられた張震氏は、まもなく第6段階である全次元インテリジェンスに入ると述べた。主な取り組みは次の3つの側面にあります。

タスクロボットの意思決定精度を継続的に向上します。これには、より多くのデータの蓄積、モデルのデバッグと統合、そして「インテリジェンス」を専門家のインテリジェンスに近づけるためのより多くのテクノロジーと方法の試行が必要です。

タスクロボットの学習能力を継続的に向上させます。機械学習には大量のトレーニングが必要です。現在、「オフライン」トレーニングが依然として主流の方法です。しかし、オンライン環境は「絶えず変化」しており、この「学習」を徐々に「オンライン」に押し進める必要があります。また、「より少ない」データを使用して「より多くの」判断を得る必要があります。要約すると、「小さなデータ、大きなタスク」モデルを実現することです。これは矛盾しているように思えますが、実際には、運用と保守の適時性の要件により、トレーニング データが多ければ多いほど、効果は高くなります。ただし、トレーニング時間が長くなることも意味し、これも大きな技術的課題となります。

タスクロボットの汎用性を継続的に向上します。 YiXin はいくつかのシナリオで進歩を遂げていますが、まだ運用と保守のすべてのシナリオをカバーしているわけではなく、より多くのシナリオに適応するために新しいテクノロジーを継続的に開発する必要があります。もっと広く言えば、異なる業界の運用・保守モデルも異なり、体系的なアプローチや製品化されたシステムを通じて、異なる業界の運用・保守シナリオに対応することも課題です。

張振先生は、5月18日〜19日に北京JWマリオットホテルで開催される2018 WOTグローバルソフトウェアおよび運用技術サミットの特別ゲストスピーカーです。彼が話すトピックは「運用ロボットのタスク決定システムの進化」です。ハイライトの一部をご紹介します。

まず、UAVStack のインテリジェント R&D/O&M 統合の全体的な青写真を共有しましょう。前述のように、YiXin のインテリジェンスへの道は、フルディメンションの監視からフルディメンションの相関、そして最終的にフルディメンションのインテリジェンスへと 3 つの段階に分かれています。

次に、運用・保守ロボットに関するコンテンツを共有します。運用保守ロボットは、全次元連想と全次元知能の2段階の中核であり、そのタスク意思決定システムは、その「脳」の「知能」の重要な構成要素の1つです。 CreditEase 運用保守ロボットはミッションロボット (AI-Mission-Robot) とも呼ばれ、人間のような動作の観点から、タスク駆動と自律駆動の 2 つの基本動作モードを備えています。

  • タスク駆動型とは、人からの指示に基づいて行動することを意味します。
  • 自動運転とは、人が目標を与えると、その目標を達成するための計画を自律的に立案し、行動を起こすことです。

どちらのモードもタスク決定システムに依存します。

このトピックは、CreditEase の実践から始まり、タスク決定システムの主要な原則、アーキテクチャの進化、および一般的なシナリオのアプリケーション分析について説明します。

開発者は、タスクロボットの「脳」に関する張震の集中的かつ詳細な分析からインスピレーションを得ることができます。

  1. タスクロボットの「知能」が、タスク意思決定システムのアーキテクチャの進化からどのように「生み出される」のかについて説明します。
  2. タスク意思決定システムの「タスク駆動型」の技術的進化から始めて、自然言語がシステムの API に「マッピング」され、正確に実行される方法について説明します。
  3. タスク意思決定システムの「自動運転」技術の進化から、タスクロボットがどのように「問題を発見し、問題を特定し、問題を分析する」かについて、より深い理解が得られます。

【今月のトップ10ランキング】

  1. 張震: AIOps の 6 つの技術的難しさと CreditEase の運用と保守における大きな変化
  2. 新居ネットワークの程永馨氏:AIの助けを借りて、運用保守プラットフォームは新たな活力を得ました
  3. SIEM&AIからSIEM@AIまで、AIが次世代のエンタープライズセキュリティの頭脳を構築
  4. 線形ネットワークに基づく音声合成のための話者適応
  5. 孫玄、Zhuanzhuan 社アーキテクチャアルゴリズム部門: AI によるマイクロサービスアーキテクチャ

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<:  WOT2018 孫林:連佳は人工知能技術の応用の原理と技術を探る

>>:  暗号化アルゴリズムの鍵交換は少し安全ではない

ブログ    
ブログ    

推薦する

...

ウクライナ、写真を通じて殺害されたロシア兵の家族を発見?顔認識が初めて軍事紛争で大規模に使用され、大きな論争を巻き起こしている

報道によると、ウクライナが使用している顔データベースは、米国に本社を置くテクノロジー企業の「Clea...

ChatGPTは、すべての過去のチャットの学習、記憶のリセット、および「読んだ後の書き込み」という新機能をテストするために公開されました。

ChatGPT は、大きな新機能をリリースしようとしている可能性があります。つまり、過去のチャット...

...

F5、AI時代のアプリケーションセキュリティの新たな革命をリード

サンノゼ — 2024年2月20日— F5(NASDAQ: FFIV)は先日、アプリケーションセキュ...

人工知能に対する期待と不安

AI は世界を変えようとしていますが、問題は、それがどのように起こるか誰も予測できないことです。過去...

ビデオ分析が物流と製造業の業務と安全性をどのように改善するか

[[400684]]製造品に対する世界的な需要が高まり続ける中、製造組織とサプライチェーン内のセキュ...

...

...

...

農業革命: 世界市場における作物収穫ロボットの台頭

農業の世界は、世界の市場に革命を起こすであろう驚異的な技術である作物収穫ロボットの登場により、パラダ...

国内メディアが大々的に報じた「世界初のAI地震監視システム」は的外れ

[[387555]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...

...

...