テンセントと清華大学が新インフラ分野の最新成果を発表:データセンターのバッテリー設備向けAI診断サービス

テンセントと清華大学が新インフラ分野の最新成果を発表:データセンターのバッテリー設備向けAI診断サービス

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

最近、テンセントデータセンターと清華大学オートメーション学部のインテリジェントネットワークセンターチームの賈青山教授による共同論文が、第21回IFAC国際自動制御世界会議に採択されました。この会議は自動制御分野におけるトップ3会議の一つであり、今年7月にドイツのベルリンで開催される。今年の会議では、持続可能な資源、グリーンエネルギー、デジタル化、インダストリー4.0などのテーマに焦点が当てられます。人工知能、制御、コンピューターサイエンスのますます重要になる統合も、会議の焦点となります。

テンセント共同チームが研究した論文の正式名称は、「Predictive Maintenance of VRLA Batteries in UPS toward Reliable Data Centers(中国語名:Predictive Maintenance of VRLA Batteries used in Reliable Data Center UPS、信頼性の高いデータセンターUPSで使用されるVRLAバッテリーの予測メンテナンス)」です。

報道によると、論文で提案されたバッテリー障害検出方法は、UPS(無停電電源装置)バッテリーのデータ駆動型予知保全におけるこれまでの業界研究のギャップを埋めるものであり、専門家の経験と閾値ルールに基づく現在の検出方法と比較して、精度率が高く、同時にバッテリーの健康状態に対する早期警告を提供し、データセンターのインテリジェント管理レベルを効果的に向上させることができる。これは、データセンターにおける人工知能技術の応用の鮮明な例である。

最新成果:データセンターのバッテリー機器向けAI診断サービス" src="https://s1..com/oss/202003/27/387dc75cd06faa5abd73ba7be885f70d.jpeg" _fcksavedurl="https://s1..com/oss/202003/27/387dc75cd06faa5abd73ba7be885f70d.jpeg">

研究成果はバッテリーAI診断サービスにも統合され、テンセントが自社開発したデータセンターのインテリジェント運用・保守プラットフォーム「Tencent Zhiwei」にインストールされ、テンセント神山データセンターでのバッテリー健康管理サービスの提供を成功裏にサポートしているとのことだ。現在、テンセントが自社構築したデータセンターの数万個のバッテリーをカバーしている。将来的には、テンセントのデータセンターにある数十万個のバッテリーを完全にカバーし、幅広い業界パートナーに開放される予定です。

人工知能を使用したデータセンターバッテリーの予測メンテナンス

UPS電源システムは、データセンターの電源品質を満たすための中核部分であり、バッテリーはUPSシステムの最も重要なコンポーネントの1つであり、電源システム全体の「最後の障壁」です。UPSシステムの障害のうち、バッテリー関連の理由が30%以上を占めています。バッテリー障害により UPS システムがシャットダウンし、重要な業務が中断した場合、大きな経済的損失が発生します。業界調査によると、金融業界のデータセンターではダウンタイム 1 時間ごとに 1,495,134 ドルの損失が発生し、通信業界のデータセンターではダウンタイム 1 時間ごとに 2,066,245 ドルの損失が発生しています。したがって、科学的な運用・保守管理、バッテリーシステムの監視と保守、潜在的な障害のタイムリーな検出、タイムリーな保守と交換を通じて、データセンターの継続的な運用の信頼性が大幅に向上します。

[[320129]]

無停電電源装置に使用される電池

データセンターには何千ものバッテリーがありますが、人工知能による自動検査とメンテナンスにより、効率を大幅に向上させることができます。しかし、現実的には、バッテリーの故障予測に AI を実装するのは容易ではありません。まず、日常の UPS で使用されるバッテリーは通常、浮遊充電状態で動作するため、監視データの情報量は放電テストで収集される情報量よりもはるかに少なくなります。第二に、バッテリー交換には統一された基準がなく、既存のメンテナンス戦略は専門知識に依存しています。 3 つ目は、バッテリー障害に関連するデータの量が不十分であるため、高品質のモデルを見つけるのが困難であることです。

データを使用してバッテリー寿命を予測することに関するこれまでの業界研究も、電気自動車のバッテリーなどのリサイクル可能なバッテリーに焦点を当ててきました。UPS バッテリーなど、通常は浮動充電状態にあるバッテリーの健全性管理に関する研究はこれまでありませんでした。

これらの問題に対処するため、テンセントと清華の合同チームは、テンセント知微プラットフォームが提供する膨大なデータセンター運用データを利用して、UPSのVRLAバッテリーの予測メンテナンスのための新しいデータ駆動型技術を研究しました。報道によると、データ収集とラベル付けの効率を高めるため、研究チームはまず、バッテリーの自然劣化と急速な内部劣化という2つの状況において、バッテリー劣化の時点を自動的にラベル付けできるアルゴリズムを提案した。バッテリーの内部抵抗と電圧の異常度を自動的にラベル付けすることで、データラベル付けのプロセスにおける繰り返し作業や重労働を回避できる。次に、バッテリー監視データのデータ量が多く、データ次元が低いという問題を解決するために、特徴エンジニアリング技術を適用してデータ次元を拡張します。特徴エンジニアリングを完了した後、研究者はロジスティック回帰、ランダムフォレスト、勾配ブースティング決定木、人工ニューラルネットワークモデルをトレーニングして、バッテリーが故障するかどうかを予測しました。実験結果によると、AI モデルの不良バッテリーの予測精度は 98% です。既存の閾値ベースの判断ルールと比較して、AI モデルは平均 15 日前にバッテリーの故障を予測できます。

現在、上記の研究成果は研究チームによって統合され、バッテリーAI診断サービスを形成し、テンセントが自社開発したデータセンターインフラ管理ソフトウェアプラットフォーム「Tencent Zhiwei Platform」上でリリースされ、テンセントが自社構築したデータセンターの数万個のバッテリーをカバーしています。このサービスは既存のバッテリー管理サービスに簡単に統合でき、収集されたバッテリー電圧、内部抵抗、温度データを自動的に分析および予測できます。

現場の専門エンジニアがAI故障診断の有効性について継続的なフォローアップ検証を実施しました。検証結果によると、従来のバッテリー保守戦略と比較して、AI診断サービスはバッテリーの故障状況をより正確に事前に予測できるほか、専門家の知識範囲を超えた潜在的なバッテリー故障も検出できることがわかりました。これにより、データセンターの運用保守エンジニアはバッテリーの保守・交換をより具体的に計画できるようになり、バッテリーの運用保守効率が効果的に向上し、データセンターの信頼性がさらに確保されます。テンセント天津データセンター3号館の6,880個のバッテリーを現地で検証した結果、バッテリー健全性管理サービスは96.2%のアラーム精度を達成でき、アラーム時刻は実際の故障より5~30日早く、経験則に基づく従来の分析ソリューションよりもはるかに優れていることがわかりました。

現在、テンセントチームは徐々に実装範囲を拡大しており、将来的にはZhiweiプラットフォームを使用して、テンセントの数十万個のバッテリーのビジネスカバレッジを実現する予定です。

テンセント知微プラットフォームは、テンセント社内で利用されているNebulaプラットフォームからアップグレードされたものとみられる。テンセントが独自に開発したデータセンターインフラ管理ソフトウェアプラットフォームで、約20年にわたるデータセンター運営経験とインテリジェント技術、クラウド技術を融合したものである。 Tencent Zhiwei Platform は、データセンターにおけるインテリジェントなアラーム、インテリジェントな検査、インテリジェントな容量分析、透明性の高い顧客体験を実現し、運用コストの全体的制御、洗練された管理、最適化の基盤を提供します。また、技術専門家がリアルタイムでリモートからアラームを処理したり、無人データセンターに対応したりすることも可能です。これにより、お客様はデータセンターの運用を 360 度理解し、運用の品質と効率を継続的に向上させ、コスト投資を削減し、データセンターの価値を最大化できるようになります。 Tencent Zhiwei プラットフォームはデータ センターの「頭脳」のようなもので、Tencent データ センターに正確な認識機能と迅速な反復と進化の能力を提供します。

現在、テンセント知微プラットフォームはテンセントの大規模データセンター80か所以上に導入されており、世界12の国と地域をカバーし、100万台以上のサーバーと600万以上の測定ポイントを運用・管理しています。同時に、テンセント知微は重慶電信、広東電信などの通信事業者や、銀行、証券などさまざまな業界の顧客とも協力関係を築いている。重慶テレコムは、テンセント知微プラットフォームの導入と導入後、エネルギー消費の最適化を約30%改善し、毎年100万元以上の電気代を節約したとされている。

テンセントと大学は協力して、新しいインフラ分野での技術革新と応用を推進する

テンセントは2006年に早くも人材育成、共同研究、学術交流を主眼としたテンセント大学協力プロジェクトを立ち上げ、清華大学、ハルビン工業大学、中国科学院計算技術研究所、北京大学、華中科技大学、中国人民大学、南京大学、西安交通大学など多くの有名大学と共同研究室を設立し、多くの分野の専門家と産学研協力を展開してきました。

2016年、テンセントIDCプラットフォーム部門は、清華大学自動化学部のインテリジェントネットワークセンターチームの趙千川氏、賈青山氏、夏李氏とデータセンター自動化運用・保守の分野で産学研究協力関係を構築しました。研究作業は、データセンターの運用品質の向上、運用コストの削減、運用効率の向上という3つの目標に基づいています。双方の長年にわたる継続的な努力の結果、6つの高品質の学術論文が発表され、7つの発明特許が出力されました。

テンセントデータセンターと大学の専門研究チームとの共同研究は、バッテリーの健康管理だけに焦点を当てているわけではありません。データセンターのインテリジェントアラームに関しては、研究チームはアラームと警告の多次元分析ソリューションを提案しました。これは、機器の状態と機器の技術を総合的に考慮し、マルチセンサーフュージョンや専門知識などの方法を採用しています。データセンター内のアラームデータの根本原因分析と相関分析を通じて、データセンター内のアラームストームを収束し、冗長なアラーム情報を効果的に削減し、データセンター機器の正確なアラームと早期警告を実現します。また、大規模なアラームシナリオでアラームを追跡して根本原因を特定し、現場のエンジニアが障害を迅速に特定できるように支援し、現場のアラームの精度と対応効率を効果的に向上させます。このソリューションは Tencent Zhiwei Platform に適用されており、約 100 の Tencent データセンターで実用的なサポートを提供しています。

データセンターの省エネに関しては、研究チームはAI技術を活用してデータセンターのエネルギー効率予測モデルを構築し、データセンターのエネルギー効率の正確な予測を実現し、データセンターのエネルギー効率に影響を与える要因の説明サービスを提供しました。同時に、エネルギー効率予測モデルに基づいて自動最適化インテリジェント分析を行い、省エネの最適化提案を出力しました。このソリューションは、テンセント天津データセンターの4号館で実装検証の第1フェーズを完了し、優れた省エネ効果を達成し、データセンターの省エネにおけるAI技術の応用価値と大きな可能性を証明しました。

関連研究が深まるにつれ、テンセントと清華大学はテンセント知微プラットフォームに関するさらなる研究成果を発表し、自動化からインテリジェンスへのプラットフォームの発展を促進していきます。

現在、データセンターのインテリジェンスは主要な発展方向となっています。あらゆるインターネット サービスの基盤として、データセンターは人工知能技術の推進により、運用と保守管理の面で大きな変化を遂げています。テンセントは、世界有数のインターネット企業であり、世界のIaaS市場で最も急速に成長しているクラウドコンピューティングベンダーの1つであり、ネットワーク全体で合計110万台を超えるサーバーを保有しています。テンセントは、中国で初めてサーバー総数が100万台を超える企業であり、世界でもサーバー総数が100万台を超える5社の1つです。このような状況において、テンセントデータセンターは「コスト削減と効率向上」という中核的な要求を中心に自社のリソースと経験を統合し続け、インフラ層における自社技術システムの構築を加速しています。

2020年3月4日、中国共産党中央委員会政治局常務委員会の会議で、政策決定者たちは国家計画で明確に定義されている主要プロジェクトとインフラの建設を加速させる必要性を強調した。その中でも、5Gネットワ​​ーク、ビッグデータセンター、人工知能などの新しいインフラの構築が注目の的となっている。人工知能は、新たな産業変革の中核的な原動力として、これまでの科学技術革命と産業変革によって蓄積された膨大なエネルギーを解放しています。データセンターにおける人工知能技術の応用を継続的に模索し、データセンターに人工知能を搭載することで、データセンターの自動化からインテリジェント化への発展が大きく促進され、データセンターが新しいインテリジェントビジネスのニーズに迅速に適応することも促進されます。

<<:  Google が「シャンプー」という 2 次最適化アルゴリズムを提案、Transformer のトレーニング時間を 40% 削減

>>:  AI-WAN: AIOps と SD-WAN が出会うとき

推薦する

...

...

2021 年の人工知能、データ サイエンス、機械学習のトレンドの概要

人工知能とデータサイエンス、機械学習のトレンドとデータ分析AIはますますあらゆるビジネス戦略の一部に...

...

人工知能は静かに到来し、世界のテクノロジー大手はAIをめぐる戦いを始めている

人工知能は長い間、小売業から農業に至るまで、さまざまな業界で主要な技術的焦点となってきており、大手企...

機械学習におけるシャプレー値を理解するにはどうすればよいでしょうか?

[[282454]]シャプレー値について初めて聞いたのは、モデルの解釈可能性を勉強していたときでし...

機械学習モデルのパフォーマンスを測定する 10 の指標

大規模モデルは非常に強力ですが、実際の問題を解決するには必ずしも大規模モデルに完全に依存する必要はあ...

...

世論調査によると、日本の男性の約60%が人工知能と交際する意向がある

[[252365]]日経新聞によると、日本の世論調査会社が、人工知能(AI)と恋に落ちたり友達になっ...

人工知能によって人々の仕事が失われることは確実だが、仕事がなくなることはないと言われているのはなぜでしょうか。

1956年に人工知能の概念が提案されて以来、人工知能と労働市場の関係については議論されてきました。...

【WOT2018】孫林:テクノロジーが業界を変える。貝殻探しビジネスにおけるAIの応用

[51CTO.comより引用] 2018年5月18日〜19日、51CTO主催のグローバルソフトウェア...

ハードウェアクラッキングに耐えられるハッシュアルゴリズムにはどのようなものがありますか?

序文ブルートフォース クラッキング ツール hashcat を使用したことがある人なら誰でも、このソ...

ニューラルネットワークの発明者、福島邦彦氏が受賞、シュミットフーバー氏とフェイフェイ・リー氏が賛辞を送る

[[429116]]最近、福島邦彦氏が2021年度バウアー賞および科学業績賞を受賞したというニュース...

推論速度は22.3倍に向上。北京航空航天大学とバイトダンスはバイナリキーワード認識モデルを提案した。

近年、FSMN に代表される音声キーワードスポッティング (KWS) モデルは、さまざまなエッジ シ...