AIがハイパフォーマンスコンピューティングから学べる7つの教訓

AIがハイパフォーマンスコンピューティングから学べる7つの教訓

効果的な IT 組織は、ハイパフォーマンス コンピューティング (HPC) から教訓を得て、システム レベルの思考に重点を置き、AI をより幅広く活用する方法を模索できます。

[[274633]]

すべての組織が AI テクノロジーを使用するか、使用すべきです。 AI が企業の利益と競争上の優位性に与える潜在的なプラスの影響は無視できません。

今日、ハイパフォーマンス コンピューティング (HPC) センターは、大規模な人工知能を含む大規模な高性能アプリケーションのサポートの専門家です。組織がすでに AI を実装しているか、調査/検討の初期段階にあるかにかかわらず、効果的なハイパフォーマンス コンピューティング (HPC) 組織から学ぶべき教訓があります。

Digital Trends による 2019 年の調査では、AI をすでに使用していると答えた大企業の割合が、2018 年の 24% から 2019 年には 36% へと、昨年から 50% 増加したことがわかりました。 AI への投資計画がないと回答した組織はわずか 26% でした (前年の 35% から減少)。

現在の経営陣が AI についてどう考えているかを考えると、これは驚くことではないかもしれません。プライスウォーターハウスクーパースの調査レポートによると、企業幹部の72%が、人工知能が将来ビジネス上の利点になると考えています。顧客がビジネスにとって非常に重要である場合、顧客体験 (CX) リーダーが組織内で人工知能を使用する可能性が他の企業よりもほぼ 2 倍高いことが判明した 2019 年の Digital Trends 調査に注目しているかもしれません。

組織は AI プロジェクトの評価や導入を迫られる中、システムレベルの考え方への移行を回避するための支援を必要としています。

ハイパフォーマンスコンピューティング (HPC) - 行き詰まることなく効果的な習慣を身につける

ハイパフォーマンス コンピューティング (HPC) は、最も強力なデスクトップ コンピューターやワークステーションをはるかに超える、単一のアプリケーションで膨大なパフォーマンスを実現する非常に高いレベルの総合的なコンピューティング能力を特徴としており、科学、エンジニアリング、またはビジネスにおける最大の問題を解決します。

高性能コンピューティング (HPC) コミュニティの経験から、すべてのシステムをより効率的に実行するために学べることがあります。もちろん、ハイパフォーマンス コンピューティング (HPC) にはある種の神秘性と、それを取り巻く明確な文化が存在します。ただし、AI、機械学習、ハイパフォーマンス コンピューティング (HPC) のコンピューティングのニーズと機会に対応するための訓練されたアプローチを採用することで、すべての企業がメリットを得ることができます。

高性能コンピューティング (HPC) と大規模データセンターの違いは、「関連コンピューティングの拡張」という概念です。不動産が立地に関するものであるならば、高性能コンピューティング (HPC) は規模に関するものです。

並列プログラミング、特に高性能コンピューティング (HPC) における共通の懸念事項は、アプリケーションがどれだけ効率的にスケーリングされるか (スケーラビリティと呼ばれることが多い) を測定することです。この測定値は、より多くの並列処理ユニット (プロセッサ、GPU、ASIC、FPGA など) を使用するとアプリケーションがどれだけ効率的になるかを示します。

同様に、優れた AI 導入にとって本当に重要なのはスケーリングであり、その答えは高性能コンピューティング (HPC) システムの正確なコピーではありません。

効果的なIT組織は、AIをより幅広く活用したい組織に道を示すことができる

高性能コンピューティング (HPC) の専門家との相談における最も重要な共通点は、システムレベルの思考が重要であるということです。これは少し広範かつ漠然としているため、ここでは、さらに深く掘り下げて効果的な HPC 組織に磨きをかけるための 7 つの重要な教訓を紹介します。

1. 調達活動に多額の投資をする

現在、多くのハイパフォーマンス コンピューティング (HPC) システムが導入中ですが、真剣に評価する時間がなかったために、使用されていないままになっているシステムも少なくありません。企業は、新しいスーパーコンピュータへの投資の機会、複雑さ、リスクを検討してきた高性能コンピューティング (HPC) センターを研究することで、多くの洞察を得ることができます。数年前、業界の専門家が「最高のハイパフォーマンス コンピューティング (HPC) マネージャーが最良の調達決定を下す方法」というタイトルの記事を公開し、「調達リスクの軽減」を目的とした取り組みに焦点を当てました。これには、購入後何年も賢明な判断を下す必要があることも暗黙的に含まれています。

なぜ、調達を支援するために外部の専門家を雇うのでしょうか。Numerical Algorithms Group (NAG) の HPC 担当副社長 Andrew Jones 氏は、社内の能力を強化することが理にかなっている理由を次のように説明しています。「多くの組織には、これを社内で実行する能力があります。当社は、能力と経験の構築、チームの増強、能力と経験の向上を支援します。ほとんどのお客様は 2 年に 1 回しか新しいマシンを購入しませんが、当社は HPC の計画と調達プロジェクトに継続的に関与しています。お客様は、私たちがお客様と過ごす数日や数週間ではなく、長年にわたる豊富な経験を得ることができます。」

社内の利害関係者、サプライヤーとの調達に関する話し合いや詳細な技術調査に多大な時間を費やすことの価値を見逃してはなりません。たとえ企業が外部の専門家を雇うことに投資しなかったとしても、通常業務以外の投資はどの程度でしょうか。そうでない場合、何が失敗なのでしょうか。

業界の専門家との会話では、競合(組織自身の能力と欠点)、要件/ベンチマーク、総所有コスト、タイムラインについて詳細かつ誠実に評価する必要性について繰り返し強調されました。ベンチマークとタイミングの重要性については、高性能コンピューティング (HPC) の次の 2 つの教訓として以下で説明します。

2. 公正な要件/ベンチマークの開発と使用に投資する

投資決定が組織のニーズや目標と密接に一致していることが重要です。これを達成するための重要な方法は、「ベンチマーク」です。これは業界標準ではなく、企業が購入したマシンで実行することが予想される実際のワークロードを表すベンチマークです。企業は、ベンダーが誇示したがるアプリケーションを自社のマシンがどれだけ速く実行できるかを気にするべきではありません。企業が気にするのは、マシンの中に入っている重要なアプリケーションです。

これは、ベンダーが提案したシステムを企業とベンチマークするための共同の取り組みです。企業の潜在的な購入量が大きいほど、サプライヤーに要求される労力も大きくなります。機械へのアクセスとサポートの提供は、潜在的な顧客からサプライヤーへの一般的な要望です。遠慮せずに依頼してください。しかし、ベンチマークが何であるべきか、そしてそれをどのように解釈するかを決定することは、企業自体にとって簡単な作業ではありません。

ベンチマークは実際のワークロードの近似値にすぎないことを覚えておくことが重要です。ただし、適切に使用すれば、企業にとって重要なワークロードの予想されるパフォーマンスや、そのパフォーマンスを得るための難易度に関する貴重なデータを提供できます。

2019 年の Digital Trends の調査によると、今日の組織における AI の使用の 55% はデータ分析に重点を置いています。ベンチマークを行う場合、企業はベンチマークの重み付けを実際の業務に一致させる必要があります。これは言うほど簡単ではありません。高性能コンピューティング (HPC) の調達経験のある人は、この問題にどのように取り組むかについて意見を共有できます。

アンドリュー・ジョーンズ氏は、「私たちは購入オプションを良いか悪いかで分類することは避けています。パフォーマンス データ自体と同じくらい重要なのは、そのパフォーマンスを得るために必要な労力を決定し、そのパフォーマンスの背後にあるアーキテクチャを理解することです。特に、購入の決定と実際の需要のリスクを結び付ける情報を見つけるよう努めています」と述べています。

これは、エンタープライズ エクスペリエンスにおいて非常に重要です。コードが高速に実行できるからといって、マシンが高速に実行されるとは限りません。マシン上で何が実行されているかを想像するよりも、マシン上で何が実行されているかを現実的に評価することの方が重要です。 「近代化の取り組み」についてさらに言及されるようになると、この問題は別の観点から再検討される必要がある。

単一のコード ベースだけを実行する企業は存在しないため、システム評価では、選択肢を検討するときに、パフォーマンスの可能性と潜在的なパフォーマンス損失のトレードオフを考慮する必要があります。企業にとって最適な選択肢は、多くの場合、ほとんどのアプリケーションには「十分」で、いくつかのワークロードでは優れているが、重要度の低いアプリケーションでは速度が遅くなる可能性があるシステムです。この取り組みのために、企業にはそれを実践できる最高の批判的思考者が必要です。

システムによって 1 つのベンチマークがどのように改善されるかに過度に焦点を当てることにより、特にその増加によって追加の調達、展開、およびサポート コストが必要になる場合は、全体像を把握できなくなる可能性があります。では、追加コストはパフォーマンスをより広範囲に向上させるために使用できるのでしょうか?

3. スケジュールを慎重に考え、賢い計画を立てる

さまざまなテクノロジーが利用可能になるタイミングは、機能と競争に影響を及ぼす可能性があります。テクノロジーの適用が早すぎたり遅すぎたりすると、競争力に重大な影響を及ぼします。段階的な配信は、新しいテクノロジーを使用するためにシステムをアップグレードするための強力なオプションとなります。株式仲買人はコストと価値の平均に関する情報を伝えることができますが、計算についても同じことが言えます。これにより、企業は投資を増やすプロセスで将来のステップを導く過程で学ぶことができます。サプライヤーの長期ロードマップを理解することは、リスクを管理する上で重要です。

著名なジャーナリスト、ニコール・ヘムソスは、待つことは重要だと書いている。アメリカ海洋大気庁(NOAA)は、AI が役立つ可能性があることを痛感していますが、慎重な検討が必要です。また、彼女は「この評価プロセスは、AI 導入のメリットを認識している大企業の場合と何ら変わりはないが、AI をどのように、どこで適用できるか、また、重要なシステムとして認められるほど十分に堅牢で安定しているかどうかについては慎重に検討する必要がある」と指摘した。

Tractica は、人工知能の普及により、世界のソフトウェア収益は 2025 年までに年間 1,058 億ドルに達すると予測しています (2018 年はわずか 81 億ドルでした)。彼らは、通信、消費者、広告、ビジネスサービス、ヘルスケア、小売が 6 大導入者になると予測しています。これは、複数年の開発計画を持つことが有利になる可能性があることを示唆しています。

4. アプリケーションをサポートし、ユーザーから学ぶ

これは、IT 部門がユーザーをサポートしていないということではありません。しかし、多くの IT 組織には AI などの新しい用途をサポートするための資金や認可が不足していることに注意することが重要です。これにより、ハイパフォーマンス コンピューティング (HPC) の世界ではあまり一般的ではないギャップが生じます。

AI がビジネスにとって重要である場合、最初のステップは、ユーザーやサプライヤーと協力して、企業が所有するシステムのニーズをサポートする方法を見つけることです。既存のシステムを使用するとうまく機能すること、そしてそこから学び成長できることが大きなメリットであることに気づけば、人々は驚くかもしれません。驚くべきことに、これはリソースおよびテストの場として見落とされがちです。学習が行われている場合でも、IT とユーザーの間に断絶が生じることがよくあります。ほとんどの HPC 組織と同様に、アクティブな IT 組織は、システム内の最も重要なワークロードのサポートと学習に密接に関与しています。 Python または Tensorflow がユーザーにとって重要である場合、展開先のプラットフォームに最適化されたバージョンを取得する方法をご存知ですか?

5. コードを最新化するための実践的な計画を調整する

テクノロジーとマシンが急速に進化するたびに、コードも進化する必要があります。コードの最新化は、複数のレベルの並列処理を使用して最新のハードウェア パフォーマンスを最大限に活用するスケーラブルなコードを記述するアプローチです。 HPC コミュニティ内でコードの近代化がどれだけ議論され、推進され続けるか、そしてそれがもたらすプラスの影響がどうなるかを見ていきます。

高性能コンピューティング (HPC) の導入に取り組む企業は、オープン ソース コードに多額の投資を行っており、新しいシステム向けにオープン ソース コードを改善することに注力しています。数年前、アンドリュー ジョーンズは、マルチコア プロセッサのオープン ソース プロジェクトを更新するために資金提供を受けた Intel Parallel Computing Center (Intel PCC) で働いていました。アンドリュー ジョーンズは、オープン ソース コードを変更して最新化するために取り組んだ世界的に有名なチームによって書かれた 2 冊の本を共同編集しました。

コードのモダナイゼーションは、この過程において、最初に思われるよりもはるかに重要であり、これは、モダナイゼーションの実際の作業が社内で行われるか、オープンソースで行われることが期待されるか、外部に費用を支払って行われるかに関係なく、IT 組織に教えることができる重要な教訓です。上記のすべてが混在している可能性もあります。

これらの洞察により、企業はコードの最新化が AI アプリケーションにとっても重要であることを認識しています。高性能コンピューティング (HPC) アプリケーションの経験から、特にテクノロジが急速に変化しているときにコードに投資しないと、ベンダー ロックインが強化される傾向があることがわかっています。ベンダーロックインよりも、企業は自社のコードを改善するためにお金を払うほうが得策かもしれません。

6. クラウドと非クラウドを、選択ではなくバランスの問題として考える

一部のベンダーによって誇大宣伝が行われているにもかかわらず、「クラウド内の HPC」というコンセプトは HPC ハードウェアへの投資を止めるものではありません。 Intersect360 Research の調査レポートによると、2018 年には、ほとんどのハイパフォーマンス コンピューティング (HPC) 予算が増加 (46%) するか、前年と同じ (38%) のままで、商業サイトでは最も大きな成長が見られました。これは、コンピューティング インフラストラクチャに関する専門知識が必須であるという事実を裏付けています。

AWS、Google、Azure などのクラウドベースのサービスでは、実験や早期導入のためのさまざまなプラットフォームが提供されています。これにより、インフラストラクチャの専門知識が必要になる時期が遅れ、その専門知識が組織内で成長する機会が与えられる可能性があります。クラウドベースの AI は間違いなくテクノロジー インキュベーションの重要な拠点ですが、AI イニシアチブが拡大するにつれて、企業はインフラストラクチャを構築および維持する必要に迫られています。これは、ハイパフォーマンスコンピューティング (HPC) の専門家にとっては驚くことではありません。

コスト、パフォーマンス、大量のデータが重要である場合、独自のコンピューティング インフラストラクチャの専門知識を持つことがさらに重要になります。この専門知識の必要性を無視するのは危険です。

7. 総所有コスト (TCO) – HPC から学んだ教訓だけではない

パフォーマンス (評価ベースライン) を達成するためのコスト、インストールまでの時間 (今すぐに得られるメリットと待機した場合のメリット)、および真にバランスの取れたアプローチを実現するための調達と近代化への投資に重点を置く場合、総所有コストが関係します。システム全体の問題の一部にはセキュリティが必要ですが、これは HPC 特有の問題ではありません (ただし、HPC センターはセキュリティについてよく考えています)。

総所有コスト (TCO) は 7 番目のレッスンです。TCO は HPC に固有のものではありませんが、HPC にとって非常に重要です。ハードウェア、ソフトウェア、アプリケーション、セキュリティ、人材など、全体像を考慮すること以上に「システム アプローチ」をうまく表現するものはありません。システムの価値は、システムを実装するために投資された資本と費用 (TCO) ではなく、ビジネスがシステムから得る純利益です。

システムアプローチから学んだ7つの教訓

経験豊富なハイパフォーマンスコンピューティング (HPC) センターは、大規模な高性能システムの調達と運用において大きな成功を収めています。効果的なシステムアプローチが成功の鍵となります。これらは、大規模な AI サポートに取り組むあらゆる企業にとって重要なスキルになります。

これら 7 つの教訓を深く理解すると、調達活動への投資、公平なベンチマークの開発と使用、タイミングの慎重な検討、アプリケーションとユーザー コミュニティのサポートへの多額の投資、コードの最新化計画の策定、総所有コストの管理といった体系的なアプローチが採用されます。

ハイパフォーマンス コンピューティング (HPC) から得られたこれらの経験と教訓は、企業にさらなる支援を提供することができます。しかし、すべての企業がハイパフォーマンスコンピューティング (HPC) テクノロジの熱狂的支持者になる必要はありません。

<<:  投資家心理は安定しており、人工知能への資金流入は続いている

>>:  脳コンピューターインターフェース技術は本当に人気がある

ブログ    
ブログ    

推薦する

市場規模は22億を超えるか?教育用ロボットは急速に発展している

教育は知識を伝える社会的活動として、国の人材育成システムや経済発展に影響を与え、国家の繁栄を促進しま...

ハイエナが次世代トランスフォーマーになる? StripedHyena-7B オープンソース: 最大 128k の入力、トレーニング速度が 50% 向上

近年発表されたAIモデル、例えば言語、視覚、音声、生物学など各分野の大規模モデルは、Transfor...

機械学習プログラムで使用される一般的な推奨アルゴリズムの例

推奨アルゴリズムは、機械学習とデータマイニングの分野の重要な部分であり、ユーザーにパーソナライズされ...

...

...

InnoDB ストレージ エンジンの 3 つの行ロック アルゴリズムの図解と例の分析

[[415025]]この記事はWeChatの公開アカウント「Flying Veal」から転載したもの...

誰でも大きなモデルを使用できます。よく構成されたプロンプトにより、簡単に始めることができます。

プロンプトは、中国語ではプロンプトワードと翻訳でき、大規模なモデルが特定のコンテンツを生成するように...

2020年に人工知能を変える8つのトレンド

人工知能は長い間、架空の物語、SF、さらには映画にも登場してきました。人々の目には、これは技術的な魔...

...

...

バックプロパゲーションを用いた多層ニューラルネットワークのトレーニングの原理

記事「バックプロパゲーションを使用した多層ニューラル ネットワークのトレーニングの原理」では、バック...

Xing Bo 氏のチームの LLM360 は、大規模なモデルを真に透明化する総合的なオープンソース プロジェクトです。

オープンソース モデルは、数だけでなくパフォーマンスも増加しており、活発な活力を示しています。チュー...

シンプルで効率的なアルゴリズムが衛星IoTを現実に近づける

背景モノのインターネット (IoT) の継続的な発展は、ここ数年にわたって現実のものとなってきました...

...