機械学習サーバーの利用率とスケーラビリティを最大化するにはどうすればよいでしょうか?

この記事は、公開アカウント「Reading the Core」（ID: AI_Discovery）から転載したものです。

人工知能をビジネスに統合することは高い商業的価値がありますが、この価値は通常、モデルをビジネスに適用するために必要なコンピューティングコストを相殺することはできません。機械学習とディープラーニングは計算集約型であり、クラウドコンピューティングやローカルコンピューティングのコストが下がらない限り、前例のないビジネス価値があるにもかかわらず、コストに見合う価値はないと主張する人もいます。

[[349634]]

MITの研究科学者で『ディープラーニングの計算限界』の著者であるニール・トンプソン氏は、Wired誌に掲載された記事の中で、GoogleやFacebookを含む多くの組織が影響力が大きく費用対効果の高いモデルを構築しているが、これらのモデルは計算コストが高いため利益が出ていないと書いている。

トンプソン氏は最近のスピーチや論文の中で、大規模かつ最先端のAIプロジェクトに取り組んでいる研究者らが、コストがかかりすぎるため複数のアルゴリズム設計をテストしたり実験をやり直したりすることができないと不満を言い始めていると述べた。

企業は、イノベーションを促進し、AI の取り組みからの投資収益率を高めるために、コンピューティング効率を大幅に向上させる方法を必要としています。しかし、コンピューティングのコストの高さや効率的なコンピューティングへの重点を非難すべきではありません。

実際、GPU アクセラレーションインフラストラクチャやその他のクラウドプロバイダーは大きな進歩を遂げており、複雑な AI ネットワークを前例のない速度でトレーニングする能力が大幅に向上しています。

2020 年 5 月、DeepCube は、既存のすべてのハードウェア上でディープラーニングのパフォーマンスを大幅に向上させるソフトウェアベースの推論アクセラレータをリリースしました。言い換えれば、機械学習とディープラーニングの高まる需要を満たすためにコンピューティングソリューションが開発されているということです。 AI イノベーションの潜在的な障害は、既存のコンピューティングが十分に活用されていないことと、「コンピューティング負債」のコストが増大していることです。

「計算負債」とは何ですか?

AI リーダーは、機械学習への投資収益率を妨げている主な要因の 1 つが GPU、CPU、メモリリソースの活用不足であることを知って驚くかもしれません。

企業は、AI ワークロードを大幅に加速し、パフォーマンスを向上させる可能性のあるコンピューティングに数百万ドルを投資していますが、最終的にはそれらのリソースのほんの一部、場合によっては 20% しか利用されていません。コンピューティングの割り当てと実際の使用率のギャップは驚くほど大きく、企業が考えていた以上にコストがかかる可能性があります。

計算、割り当て、使用率の間のギャップは、「計算負債」と呼ぶことができます。割り当てと容量の間の「無駄」を指します。次の図は、緑色で表される平均使用率と黄色で表される (現在の) 割り当てを視覚的に比較しています。

ワークロードの実行中は、通常、GPU の一部のみが使用され、残りの部分は他の潜在的なワークロードによってブロックされます。灰色の領域は容量、つまり GPU、CPU、またはメモリの観点から利用可能な既存のコンピューティングの量を表します。これはアイドル状態にあり、十分に活用されていないコンピューティング領域すべてです。

出典: cnvrg.io

「計算負債」の原因は何ですか?

機械学習とディープラーニングは計算負荷が高く、管理が複雑であり、この計算負荷を軽減することはさらに困難です。 AI インフラストラクチャチームが直面している最大の課題の 1 つは、消費を最大化し、機械学習プロジェクトの ROI を高める方法で、使用率を改善し、リソースを管理する方法を知ることです。計算負債の主な原因は次のとおりです。

（1）インフラチームはAIプロジェクトに対する可視性に欠けている

機械学習プロジェクトのインフラストラクチャコストは毎年 2 倍の割合で増加していますが、IT チームには機械学習リソースを適切に管理、最適化、予算化するためのツールが不足しています。ほとんどの IT/DevOps リーダーは、特定の時点での GPU/CPU およびメモリの使用率、割り当て、容量を把握していません。その結果、消費を制御して効率を向上させることができなくなります。

（２）「計算負債」の増大

AI コンピューティングのニーズが複雑になるにつれて、コンピューティングの割り当てと実際の使用率のギャップが拡大しています。通常、企業が消費するリソースは全体の 30% 程度です。その結果、コンピューティングリソースの約 70% がアイドル状態になり、企業は数千ドル、場合によっては数百万ドルの損失を被りました。

（３）非効率な作業の特定ができない

インフラストラクチャチームは、GPU/CPU を十分に活用していないワークロードを簡単に特定できません。過去のワークロードに関するデータを収集しなければ、非効率的に実行されているワークロードを分析して特定することは不可能です。可視性が不足すると、使用率の向上やワークロードの優先順位付けが難しくなります。

（４）生産性の低下

十分に活用されていない GPU は他の作業のために中断され、データサイエンティストの待機時間が長くなります。その結果、GPU を待つ間に多くの時間とリソースが浪費されることになります。また、他の作業に使用できるアイドルリソースの問題も発生します。

[[349635]]

画像ソース: unsplash

（５）標準化と統一性の欠如

チームは、作業と使用率の指標を関連付けられないことがよくあります。特定の時点での作業の配分、使用率、容量を表示するための標準的な視覚化ツールはありません。これにより、非効率性を特定し、無駄な作業量を判断することが難しくなります。機械学習は成熟段階に達しており、成長するためには AI インフラストラクチャの戦略的な開発が必須となっています。

（６）最適化戦略を制御できない

一部のチームは非効率性を特定し、最適化されたインフラストラクチャ戦略を計画できますが、それらの戦略を実行するためのツールが不足しています。 IT/DevOps チームは、リソース管理を最適化するために AI ワークロードを制御する必要があります。作業の優先順位付け、コンピューティングテンプレートの構成、ワークロードの分散と使用率の監視を行う方法がなければ、大幅な改善を実現することは不可能です。

「計算負債」を削減するための戦略

この問題には明確な解決策はありませんが、リソース管理をより効率的にする方法はあります。

（１）GPUアクセラレーション技術を活用した最先端のAIインフラへの投資

GPU アクセラレーションテクノロジーは一定の成功を収めています。ハードウェアとソフトウェアのディープラーニングアクセラレーションソリューションはすでに利用可能であり、これまでにない計算パフォーマンスを実現しています。最新の GPU アクセラレーションソリューションを検討し、真に最新の AI インフラストラクチャを導入します。

（２）ハイブリッドクラウド基盤の導入

パブリッククラウド、プライベートクラウド、オンプレミスのリソースを組み合わせることで、AI ワークロードを実行する際の俊敏性と柔軟性が向上します。 AI ワークロードによって負荷の種類が大きく異なるため、ハイブリッドクラウドインフラストラクチャを構築する企業は、より柔軟にリソースを割り当て、サイズをカスタマイズできます。パブリッククラウドを使用すると、設備投資を削減し、コンピューティング需要が高い期間に必要なスケーラビリティを提供できます。

厳しいセキュリティ要件を持つ企業の中には、プライベートクラウドを追加する必要があり、長期的には運用コストを削減できるものもあります。ハイブリッドクラウドにより、リソース予算を改善するために必要な制御と柔軟性が実現します。

（３）推定ツールを使用してGPU/CPUメモリ消費量を推定する

Microsoft の 4,960 件の失敗したディープラーニングタスクに関する Microsoft Research の調査によると、失敗の 8.8% は GPU メモリの枯渇が原因でした。これは、すべてのディープラーニングの失敗の中で最も顕著な問題です。これらの障害を減らすために、GPU メモリ消費量を推定する多くの推定ツールが開発されてきました。さらに、使用率データを収集できる場合は、この履歴データを使用して四半期ごとの GPU/CPU およびメモリの要件をより正確に予測できます。

[[349636]]

画像ソース: unsplash

（4）MLOpsのスケーリング

機械学習のワークフローを合理化し、科学とエンジニアリングの役割間の移行を標準化できる方法を紹介します。 IT と DevOps はワークロードの展開と管理を担当するため、さまざまなジョブを実行するときに明確なコミュニケーションチャネルを持つことが重要です。適切なスケジューリングツールとリソーステンプレートの戦略化により、AI ワークロードのリソース管理を改善できます。

（５）利用率を最大化し、「計算負債」を削減する

利用率を向上させるには、インフラストラクチャチームとデータサイエンスチームの両方の KPI として計算負債を含める必要があります。企業がコンピューティング負債を削減し、利用率を向上させることができれば、AI 競争で際立つことができます。

インフラストラクチャチームにとって、GPU/CPU とメモリ消費の可視性を最大限に高めて使用率を向上させるための特効薬は基本的に存在しません。業界では計算負債の脅威に対処するため、より効率的なハードウェアとソフトウェアを急速に構築していますが、まだ道のりは長いです。多くの企業は、十分に活用されていないコンピューティングに何百万ドルも費やしています。

既存のリソースを活用し、リソース管理を改善することで、企業は AI インフラストラクチャを大幅に拡張できるようになります。この記事の戦略に従うことで、コンピューティングリソースを最大限に活用できます。インフラストラクチャの最適化に注力する企業は、その努力に対する ROI が高くなり、競合他社よりも優位に立つことができます。

<<: AI開発シンポジウム：機械学習を農家に役立てる方法について議論

>>: 機械学習における欠損値に対処する9つの方法