IT 労働者の皆さん、AI があなたの仕事を「奪う」ためにやって来ています!今回はデータセンターからスタートします

[[349442]]

人工知能に関する議論は現在、自動運転車、チャットボット、デジタルツイン、ロボット工学、そしてビッグデータセットからビジネス上の洞察を得るための AI ベースの「スマート」システムの使用に焦点が当てられています。自動運転車のような自律的に運用されるデータセンターはまだ実現していませんが、データセンターの人工知能は、テクノロジー、運用、人員の面で多くの大きな進歩を遂げています。

人工知能 (AI) と機械学習 (ML) は、将来、企業のデータセンターで重要な役割を果たすようになるでしょう。将来的には、人工知能は企業が高度に自動化され、安全で、自己修復機能を備えたデータセンターを構築するのに役立つ可能性があります。これらのデータセンターは、人間の介入をほとんどまたはまったく必要とせずに、より高い効率性と回復力で運用できます。

AI は、データセンターの効率を向上させ、次の 4 つの主要分野でビジネスを拡大する可能性があります。

セキュリティ: AI ツールは、通常のネットワークトラフィックの様子を学習し、それに基づいて異常を検出し、セキュリティ担当者へのアラートの優先順位を決定し、事後分析を実施し、セキュリティ防御に関する推奨事項を提供できます。

ワークロード管理: AI システムは、データセンター内またはハイブリッドクラウド環境 (オンプレミス、クラウド、エッジ環境) 内の最も効率的なインフラストラクチャにワークロードをリアルタイムで自動的に移行できます。

電力管理: AI ベースの電力管理により、冷却システムを最適化し、電気コストを削減し、人員数を減らし、効率を向上させることができます。

機器管理: AI システムは、システムが正しく構成されているかどうかを確認し、サーバー、ストレージ、ネットワーク機器の状態を監視し、機器が故障する時期を予測できます。

人工知能とセキュリティ

セキュリティオペレーションセンター (SOC) のセキュリティ専門家は、アラートの量に圧倒されることがよくあります。 AI ベースのシステムは、大量のテレメトリデータとログ情報をスキャンして単純なタスクを処理し、セキュリティ専門家が詳細な調査を実施できるようにします。 AI ベースのシステムは、脅威を検出、ブロック、隔離し、原因の特定を行って、実際に何が起こったのか、ハッカーがどのような脆弱性を悪用できたのかを判断することができます。これにより、AI はリアルタイムの侵入検知に非常に役立ちます。

迅速な根本原因分析により、運用担当者は情報に基づいた意思決定を行い、対処できるようになります。 AI と機械学習は、イベントを迅速に分類およびクラスタリングし、重要なイベントを識別してノイズから分離することで、インシデント処理 (インシデント対応) を簡素化できます。

AI 自動化は、人間の能力を超えたデータの解釈を支援するだけでなく、エネルギー使用、ワークロード分散の最適化、データセンター資産の利用率の最大化に関する深い洞察を得るのにも役立ちます。

AIベースのワークロード最適化

アプリケーション層の AI は、オンプレミスでもクラウドでも、ワークロードを適切な場所に自動的に移動します。たとえば、サーバーが最高の効率 (70% ～ 80% の使用率) で稼働していることを保証しながら、ワークロードを最もエネルギー効率の高いサーバーに自動的に移行できます。

AI システムは、時間に敏感なアプリケーションを高効率サーバーに移動し、すぐに実行する必要がないアプリケーションが過剰な電力を消費しないようにすることもできます。

将来的には、AI/ML は、パフォーマンス、コスト、ガバナンス、セキュリティ、リスク、持続可能性などの要素に基づいて、ワークロードを移行する場所をリアルタイムで決定することも可能になります。

電源管理とサーバーワークロード管理を統合する

AI の利点は、優れたハードウェア設計の利点と同じレベルではありません。電力管理は改善が最も簡単な領域です。それは生産性に関することであり、BTU あたりでより多くの仕事をこなせるかどうか、電気エネルギー 1 ワットあたりでより多くの仕事をこなせるかどうかに関することです。

それは、よりスマートに作業し、機器をよりスマートに動作させることも意味します。センサーがサーバーが過熱していることを検出すると、システムは、ミッションクリティカルなアプリケーションの中断を回避するために、ワークロードをあまり使用されていないサーバーに自動的かつ迅速に移行できます。また、システムは、サーバーが過熱している理由、つまりファンが故障しているかどうか (HVAC の問題)、物理コンポーネントが故障しているかどうか (機器の問題)、またはサーバーが過負荷になっているかどうか (ワークロードの問題) も調査します。

AI システムは、HVAC システムデータと環境センサーデータを相関させることで、施設の現在の状態を把握することもできます。たとえば、AI ベースのシステムは、データセンター管理者が現在の冷却の問題や潜在的な冷却の問題を理解するのに役立ちます。このような問題には、HVAC ユニットのパフォーマンスが低い、暖気通路と冷気通路の間の空気量が不十分、キャビネットの密度が高く空気の循環が妨げられるために冷気の供給が不十分などが含まれます。

キャパシティプランニングも改善の余地がある領域です。 AI システムは、ホットスポットとコールドスポットを見つけるだけでなく、データセンターが適切な数の物理サーバーにのみ電力を供給するようにすることもできます。需要が一時的に急増した場合、システムは新しい物理サーバーを起動して利用可能な容量を増やすこともできます。

多くの企業は、一方ではコストを節約し、他方では企業の環境責任を果たすために、データセンターの電力管理の研究に多大な労力を費やしています。データによれば、データセンターは世界の電力供給の 3% を消費し、温室効果ガス排出量の約 2% を占めています。

2018年、Googleは自社のハイパースケールデータセンター数か所の冷却システムの制御をAIプログラムに引き渡し、AIアルゴリズムによる推奨により電力消費が40%削減されたと発表しました。

運用状況監視および構成管理監視

多数のコンポーネントが取り付けられている IT キャビネットは労働集約的であるため、検査がタイムリーかつ徹底的に行われない可能性があります。ヘルスモニタリングでは、機器が正しく構成され、期待どおりに動作しているかどうかを確認します。

データセンターには定期的なメンテナンスが必要な物理デバイスも多数あります。 AI システムは、これらの物理デバイスの定期的なメンテナンスを実行できるだけでなく、テレメトリデータを収集して分析し、すぐに対応が必要な特定の領域を特定することもできます。大量のセンサーデータログに基づく予測的な機器障害モデリングにより、差し迫ったコンポーネントまたは機器の障害を検出し、サービスの中断を回避するために即時のメンテナンスが必要かどうかを評価できます。

AI システムは最終的には「何が問題なのかを教えてくれれば、解決します」と言えるようになるかもしれませんが、たとえそうなったとしても、多くのデータセンター運営者は「何か問題が起きたら、どこを調べればいいのか教えてください」で満足するでしょう。

機器をスムーズかつ安全に稼働させるためのもう 1 つの重要なステップは、「構成ドリフト」を制御することです。 AI は、構成の問題によって引き起こされるデータセンターの問題を特定するのに役立つ「追加の安全性チェック」として機能します。 (注: 構成ドリフトは、時間の経過に伴う一時的な構成の変化を指し、何らかの問題を引き起こす可能性があるデータセンター用語です。)

AI導入の課題

データセンターの最適化と自動化は、デジタル変革イニシアチブの不可欠な部分です。 COVID-19 パンデミックにより、多くの企業がデータセンターのさらなる自動化を模索し、デジタルデータセンターを AI 駆動型かつ自己修復型にするようになりました。これにより、AI はデータセンターで幅広く応用される可能性が高まります。一部の AI/ML 機能は、イベント処理、インフラストラクチャの健全性、熱の最適化に利用できます。

それでも、AI/ML モデルが現在の標準的なデータセンターインフラストラクチャ管理 (DCIM) を超えるには、さらなるブレークスルーと時間が必要になります。これは、初期段階では非常に魅力的かもしれませんが、最終的に約束されている破壊的な経済的/ビジネスケースからは程遠い、自動運転車の開発と非常によく似ています。

AIOps プラットフォームの成熟度、IT スキル、運用の成熟度はすべて大きな課題です。より高度な展開における課題には、データ品質や、IT インフラストラクチャおよび運用チームにおけるデータサイエンススキルの不足も含まれます。さらに、システムを管理するために適切な人材を雇用またはトレーニングする必要性、およびデータ標準と関連アーキテクチャの必要性は、AI を導入する際に直面する課題です。

しかし、最初から最後まで最大の課題はやはり人です。さまざまなインフラの運用・保守担当者は、AIに権限を委譲する準備を進めています。しかし、決定を下す意思決定者を人々が信頼していない場合、このような大規模な移行中に、どのようにして人々を訓練し、安心させることができるのでしょうか?移行期間中、人々は一般的に「それをやったら職を失うのではないか？」という疑問について考えます。

多くの企業にとって、経験豊富なデータサイエンティストを雇用することが課題であるだけでなく、既存の従業員をトレーニングすることも困難です。企業の従業員にはテクノロジーに抵抗する長い伝統があるからです。ソフトウェア定義ネットワーク (SDN) を例に挙げてみましょう。SDN は導入されてから 10 年が経ちますが、IT 運用の 4 分の 3 以上は依然としてコマンドラインインターフェイスを使用しています。