人工知能 (AI) には、問題を理解し解決する神秘的な力があると考える人もいます。人工知能は人々の日常生活の多くの分野で広く利用されており、この目的を達成するためのハードウェアがデータセンターで使用され始めています。
データ センターには、最適化や予測など、独自の複雑な問題が存在します。では、この驚くべき技術である人工知能をどのように活用して、データセンターの運用を改善できるのでしょうか? データセンターにおける人工知能の応用 機械学習、特にディープラーニングは、膨大なデータセットを調査し、人間がデータを理解して予測するために使用するモデルに依存しないパターンを見つけることができます。将来繰り返されるパターンを予測することもできます。 今日のデータ センター施設はますます成熟し、完成度が高まっており、センサーは IT パフォーマンスや環境要因に関する大量のリアルタイム データと履歴データを提供できます。 2016年、Googleは効率性向上のため、データセンターに人工知能を導入し、業界から注目を集めました。 Google は独自の人工知能技術 DeepMind を使用して、データセンターの冷却を最適化しています。同社は2014年に、データセンターエンジニアのジム・ガオ氏が人工知能技術を使用してレコメンデーションエンジンを実装していると発表した。 2016 年、このプロジェクトでは、データセンターの温度を予測する方法を学習し、プロアクティブな推奨事項を提供するニューラル ネットワークを使用して、シンガポールにある Google のデータセンターの冷却設備を最適化しました。 DeepMind の研究エンジニアであるリチャード・エバンス氏によると、この結果、データセンターの冷却費は 40 パーセント、PUE (電力使用効率) は 15 パーセント削減されました。 「このアルゴリズムは複雑なダイナミクスを理解するための一般的なフレームワークなので、データセンター環境における他の課題にも適用する予定です」と彼は語った。 同社が2018年に発表した次のステップは、データセンターの冷却システムを自動化し、人間の監視下でAIシステムがデータセンターの動作設定を調整するというものだ。冷却システムが安全に動作することを保証するために、運用チームは設定を制限しましたが、その結果、冷却コストはわずか 30% しか節約できませんでした。 このシステムは、数千個のセンサーを使用して、データセンターの冷却システムのスナップショットを 5 分ごとに撮影し、それをクラウド内の人工知能システムに送ります。これにより、潜在的なアクションが将来のエネルギー消費にどのように影響するかを予測し、最適なオプションを選択します。これにより、データがデータ センターに送信され、ローカル制御システムによって検証されてから実装されます。 プロジェクト チームのレポート システムが予期せぬ最適化効果を生み出し始めました。グーグルのデータセンターオペレーターで、長年このシステムに携わってきたダン・フェンフィンガー氏は、「AIが冬の低温を利用して通常よりも低い温度で冷却水を生成することを学習し、データセンターの冷却に必要な電力量を削減できることは驚くべきことだ」と語った。 ジム・ガオ氏は、この成功事例はシステムが安全かつ効果的に運用できることを証明したと述べた。その決定は安全規則に基づいて審査され、運用スタッフがいつでも引き継ぐことができます。 現段階では、Google の AI 最適化の顧客は Google 自身のみです。しかし、この考えは学界で強い支持を得ています。 安定性は重要 カナダのオンタリオ州にあるマクマスター大学の計算基盤研究センター(CIRC)の所長、スボジット・ゴーシュ氏は、人間と単純なルールベースのシステムはどんな状況にも対応できるが、環境が変化すると同じようには対応できないとし、AIは変化を予測できるためより優れた対応ができると述べた。 「サーバーを高温で稼働させるとダウンタイムが発生することはわかっていますが、温度変動があると状況はさらに悪化します」とゴーシュ氏は言います。「単純なルールでデータセンターを最適な定常状態に素早く到達させることができますが、その過程で温度が急激に変化し、大量のエネルギーを無駄にしてしまうのです。温度条件が頻繁に変化すると、エネルギー消費がメリットを相殺してしまう可能性があります。周囲温度がすでに 21°C ~ 27°C で、その後下がると電力が無駄になります。」 一部のデータセンターサービスプロバイダーはこれに反応しました。データセンターインフラストラクチャ管理(DCIM)サービスプロバイダーはすでに AI テクノロジーを採用しており、予測分析をすでに行っている一部の企業では機械学習テクノロジーを採用しています。 「現在、機械学習のあらゆる側面はプラットフォームの初期データ処理段階にあり、センサーやメーターからの生データは、予測モデリングエンジンに取り込まれる前に標準化、クリーニング、検証、ラベル付けされています」と分析会社ロモネットの共同創設者ザール・リンブワラ氏は述べた。 電力と冷却に関するスマートな対策にはさまざまな名前が付けられています。たとえば、Huawei の電源、冷却、DCIM インテリジェント テクノロジーは、それぞれ iPower、iCooling、iManager と名付けられています。 グーグルや他の企業と同様に、ファーウェイもパターンマッチングを使って温度を制御したり冷媒漏れの証拠を見つけたりするなど、シンプルで実用的なステップから始めた。電力システムでは、AIを活用して機器の故障を特定し、切り分ける取り組みを進めている。 ファーウェイのシニアマーケティングマネージャーであるゾウ・シャオテン氏は、1,540ラックを有する廊坊データセンターで、iCooling技術を使用してPUE値を大幅に削減したと述べた。この施設の電力密度はラックあたり約 6kW、IT 負荷率は 43% です。 DCIM ベンダーの Nlyte は、2018 年に自社のツールを世界で最も有名な AI プロジェクトの 1 つである IBM の Watson と統合し、自社の DCIM 製品の一部にしました。 Nlyte の CEO である Doug Sabella 氏は当時、AI 強化 DCIM が素晴らしい成果をもたらすだろうと予測していました。 「単純なのは予防保守です」と彼は言いました。しかし、予測的なものを超えて、DCIM はワークロードをより適切に管理するのに役立ちます。アプリケーション パフォーマンス管理の観点で考えるべき質問がいくつかあります。限られたデータ セットに基づいてワークロードを配置する場所を選択できますか? パブリック クラウドに配置する必要がありますか、それともプライベート クラウドに配置する必要がありますか? それを決定するのに役立つ場所とインフラストラクチャの属性は何ですか? この決定には全体的に重要な情報は含まれていませんが、AI の観点から見ると、データ センターが実際にワークロードを削減し、ワークロードを最適化し、ワークロード障害のリスクを軽減するのに役立ちます。 AI はデータセンターの運用に大きな影響を与えると考えています。 ” IBM Watson IoT の北米マーケティング責任者であるエイミー・ベネット氏は、別の実用的な側面を見出しています。 「AIは、疲れることなくずっと働けるデータセンターチームの新しいメンバーです」と彼は語った。 ワトソンの業績は、医療など要求の厳しい分野で同技術が期待通りの成果を上げていないとの報道によっていくぶん影を潜めている。しかし、データセンターは、その良い評判を回復できる場となるかもしれない。データセンター内の重要な設備の管理は、人間の健康よりもはるかに簡単です。 開発の次の段階 ゴーシュ氏は「今こそAIがより大きな問題を解決する時だ」と述べ、サベラ氏の意見に同調した。最初の導入後、電力と冷却の効率を高める取り組みにより、最終的に成果が得られました。この時点で、AI は読み込まれたコンテンツの管理を開始できます。 「コンピューティングの履歴コストを使用してスマートな負荷分散やコンテナ オーケストレーションを実行すると、特定のアプリケーションのエネルギー コストを削減できます」と Ghosh 氏は言います。「これにより、IT エネルギー コストを半分に削減できる可能性があります。AI を使用して作業をスケジュールするだけで、アイドル状態のサーバーのシャットダウンなど、その他のことは考慮されません。」 さらに、ゴーシュ氏はデータセンター内の機器の動作音の人工知能分析も行っている。 「経験豊富な作業員なら、機械が作動している音で何かがおかしいと分かるはずだ」と彼は語った。 「変圧器に問題があれば、そのノイズパターンは変化する」とファーウェイの上級管理職であるゾウ・シャオテン氏は言う。「変圧器のノイズパターンを学習することで、AIは音響技術を使って変圧器の動作状態を監視できる」 「このアプローチにより、AI は専門家の知識や経験を超え、人間の認知能力では決して理解できないことを理解できるようになります」とゴーシュ氏は言う。「今後 10 年で、故障が発生する前に予測できるようになります。予防保守の必要性を完全に排除するアルゴリズムを開発したいと考えています。」 ファーウェイのシニアマネージャーであるゾウ・シャオテン氏は、メリットもあると考えています。AIは、人的ミスを減らしながら、リソースの使用率をさらに20%向上させることができます。 彼は人工知能の応用を評価した。レベル 0 データセンターは、完全に手動で管理されるデータセンターです。レベル 1 データセンターの基本機能は、センサーを使用してデータセンター施設を視覚化することです。レベル 2 データセンターは、作業員に何らかの支援を提供し、無人機能を実現できます。人工知能技術がエンジニアに状況を報告し、エンジニアが適切に対応します。レベル 3 データセンターは、根本原因分析と仮想支援を提供して問題を解決できます。 Huaweiのデータセンターはこの段階に達しました。 「将来的には、AIを使って問題があるかどうかを予測したり、AIを使ってデータセンターの自己修復を可能にしたりすることが可能になると考えています」と彼は語った。 この段階では、DCIM システムは専用の AI プロセッサの恩恵を受けることもできるだろうと彼は予測しています。 Huawei はすでに、クラウド コンピューティングとエッジで DCIM を管理するために、Ascend シリーズの AI プロセッサを使用する実験を行っています。 ほとんどのユーザーはまだ初期段階ですが、明らかに楽観的なユーザーもいます。ウェルズ・ファーゴのミッションクリティカル施設のサイトマネージャーであるエリック・フッセネッガー氏は、「現在、当社は人工知能を使用して設定値を監視し、DCIM を使用してデータセンター施設の制御手段を強化しています」と述べています。 フッセネッガー氏は、AIは将来さらに進歩し、データセンターの日常的な実際の保守や運用においてスマートデバイスがより大きな役割を果たすようになるだろうと述べた。 同氏は「将来的にはロボットがデータセンター内の清掃作業やIT機器のメンテナンスを引き継ぎ、スタッフはホットアイルやコールドアイルエリアのメンテナンスを行う必要がなくなるだろう。しかし、ロボットの作業には依然としてスタッフの監督が必要だと私は考えている」と語った。 |
<<: Huaweiの「ブラックテクノロジー」がついに公開。サイバーバース以外にも重要なニュースがある
大規模な言語モデリングにヒントを得て、Deepmind は同様のアプローチを適用し、マルチモーダル、...
人工知能 (AI) の進歩により、多層のディープ ネットワークを構築し、大量のデータを学習に活用する...
人工知能はもはや未来の技術ではありません。私たちの日常の作業を自動化する機械はますます賢くなり、人工...
[[346568]] 1 スケジュールされたタスクNetty、Quartz、Kafka、Linux ...
[[391752]]昨年、ある短い動画が話題になりました。ヘルメットをかぶって家を内覧するお客さん。...
過去 1 年間、私は何百人ものクライアントにインタビューし、AI によって可能性に対する認識がどのよ...
[[265422]]人工知能はビジネスを変えています。自然言語処理やインテリジェント音声からモノのイ...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
MITの研究者らは機械学習アルゴリズムを使用して、複数回の実験で強力な殺菌力を示したハリシンと呼ばれ...
「Dlib は、高度なソフトウェアを作成するための機械学習アルゴリズムとツールの最新の C++ ツー...
講演者紹介:王東:北京大学大学院 CreditEase テクノロジーセンター AI ミドルプラットフ...