機械学習サーバーの利用率とスケーラビリティを最大化するにはどうすればよいでしょうか?

機械学習サーバーの利用率とスケーラビリティを最大化するにはどうすればよいでしょうか?

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)から転載したものです。

人工知能をビジネスに統合することは高い商業的価値がありますが、この価値は通常、モデルをビジネスに適用するために必要なコンピューティング コストを相殺することはできません。機械学習とディープラーニングは計算集約型であり、クラウドコンピューティングやローカルコンピューティングのコストが下がらない限り、前例のないビジネス価値があるにもかかわらず、コストに見合う価値はないと主張する人もいます。

[[349634]]

MITの研究科学者で『ディープラーニングの計算限界』の著者であるニール・トンプソン氏は、Wired誌に掲載された記事の中で、GoogleやFacebookを含む多くの組織が影響力が大きく費用対効果の高いモデルを構築しているが、これらのモデルは計算コストが高いため利益が出ていないと書いている。

トンプソン氏は最近のスピーチや論文の中で、大規模かつ最先端のAIプロジェクトに取り組んでいる研究者らが、コストがかかりすぎるため複数のアルゴリズム設計をテストしたり実験をやり直したりすることができないと不満を言い始めていると述べた。

企業は、イノベーションを促進し、AI の取り組みからの投資収益率を高めるために、コンピューティング効率を大幅に向上させる方法を必要としています。しかし、コンピューティングのコストの高さや効率的なコンピューティングへの重点を非難すべきではありません。

実際、GPU アクセラレーション インフラストラクチャやその他のクラウド プロバイダーは大きな進歩を遂げており、複雑な AI ネットワークを前例のない速度でトレーニングする能力が大幅に向上しています。

2020 年 5 月、DeepCube は、既存のすべてのハードウェア上でディープラーニングのパフォーマンスを大幅に向上させるソフトウェアベースの推論アクセラレータをリリースしました。言い換えれば、機械学習とディープラーニングの高まる需要を満たすためにコンピューティング ソリューションが開発されているということです。 AI イノベーションの潜在的な障害は、既存のコンピューティングが十分に活用されていないことと、「コンピューティング負債」のコストが増大していることです。

「計算負債」とは何ですか?

AI リーダーは、機械学習への投資収益率を妨げている主な要因の 1 つが GPU、CPU、メモリ リソースの活用不足であることを知って驚くかもしれません。

企業は、AI ワークロードを大幅に加速し、パフォーマンスを向上させる可能性のあるコンピューティングに数百万ドルを投資していますが、最終的にはそれらのリソースのほんの一部、場合によっては 20% しか利用されていません。コンピューティングの割り当てと実際の使用率のギャップは驚くほど大きく、企業が考えていた以上にコストがかかる可能性があります。

計算、割り当て、使用率の間のギャップは、「計算負債」と呼ぶことができます。割り当てと容量の間の「無駄」を指します。次の図は、緑色で表される平均使用率と黄色で表される (現在の) 割り当てを視覚的に比較しています。

ワークロードの実行中は、通常、GPU の一部のみが使用され、残りの部分は他の潜在的なワークロードによってブロックされます。灰色の領域は容量、つまり GPU、CPU、またはメモリの観点から利用可能な既存のコンピューティングの量を表します。これはアイドル状態にあり、十分に活用されていないコンピューティング領域すべてです。

出典: cnvrg.io

「計算負債」の原因は何ですか?

機械学習とディープラーニングは計算負荷が高く、管理が複雑であり、この計算負荷を軽減することはさらに困難です。 AI インフラストラクチャ チームが直面している最大の課題の 1 つは、消費を最大化し、機械学習プロジェクトの ROI を高める方法で、使用率を改善し、リソースを管理する方法を知ることです。計算負債の主な原因は次のとおりです。

(1)インフラチームはAIプロジェクトに対する可視性に欠けている

機械学習プロジェクトのインフラストラクチャ コストは毎年 2 倍の割合で増加していますが、IT チームには機械学習リソースを適切に管理、最適化、予算化するためのツールが不足しています。ほとんどの IT/DevOps リーダーは、特定の時点での GPU/CPU およびメモリの使用率、割り当て、容量を把握していません。その結果、消費を制御して効率を向上させることができなくなります。

(2)「計算負債」の増大

AI コンピューティングのニーズが複雑になるにつれて、コンピューティングの割り当てと実際の使用率のギャップが拡大しています。通常、企業が消費するリソースは全体の 30% 程度です。その結果、コンピューティング リソースの約 70% がアイドル状態になり、企業は数千ドル、場合によっては数百万ドルの損失を被りました。

(3)非効率な作業の特定ができない

インフラストラクチャ チームは、GPU/CPU を十分に活用していないワークロードを簡単に特定できません。過去のワークロードに関するデータを収集しなければ、非効率的に実行されているワークロードを分析して特定することは不可能です。可視性が不足すると、使用率の向上やワークロードの優先順位付けが難しくなります。

(4)生産性の低下

十分に活用されていない GPU は他の作業のために中断され、データ サイエンティストの待機時間が長くなります。その結果、GPU を待つ間に多くの時間とリソースが浪費されることになります。また、他の作業に使用できるアイドル リソースの問題も発生します。

[[349635]]

画像ソース: unsplash

(5)標準化と統一性の欠如

チームは、作業と使用率の指標を関連付けられないことがよくあります。特定の時点での作業の配分、使用率、容量を表示するための標準的な視覚化ツールはありません。これにより、非効率性を特定し、無駄な作業量を判断することが難しくなります。機械学習は成熟段階に達しており、成長するためには AI インフラストラクチャの戦略的な開発が必須となっています。

(6)最適化戦略を制御できない

一部のチームは非効率性を特定し、最適化されたインフラストラクチャ戦略を計画できますが、それらの戦略を実行するためのツールが不足しています。 IT/DevOps チームは、リソース管理を最適化するために AI ワークロードを制御する必要があります。作業の優先順位付け、コンピューティング テンプレートの構成、ワークロードの分散と使用率の監視を行う方法がなければ、大幅な改善を実現することは不可能です。

「計算負債」を削減するための戦略

この問題には明確な解決策はありませんが、リソース管理をより効率的にする方法はあります。

(1)GPUアクセラレーション技術を活用した最先端のAIインフラへの投資

GPU アクセラレーション テクノロジーは一定の成功を収めています。ハードウェアとソフトウェアのディープラーニング アクセラレーション ソリューションはすでに利用可能であり、これまでにない計算パフォーマンスを実現しています。最新の GPU アクセラレーション ソリューションを検討し、真に最新の AI インフラストラクチャを導入します。

(2)ハイブリッドクラウド基盤の導入

パブリック クラウド、プライベート クラウド、オンプレミスのリソースを組み合わせることで、AI ワークロードを実行する際の俊敏性と柔軟性が向上します。 AI ワークロードによって負荷の種類が大きく異なるため、ハイブリッド クラウド インフラストラクチャを構築する企業は、より柔軟にリソースを割り当て、サイズをカスタマイズできます。パブリック クラウドを使用すると、設備投資を削減し、コンピューティング需要が高い期間に必要なスケーラビリティを提供できます。

厳しいセキュリティ要件を持つ企業の中には、プライベート クラウドを追加する必要があり、長期的には運用コストを削減できるものもあります。ハイブリッド クラウドにより、リソース予算を改善するために必要な制御と柔軟性が実現します。

(3)推定ツールを使用してGPU/CPUメモリ消費量を推定する

Microsoft の 4,960 件の失敗したディープラーニング タスクに関する Microsoft Research の調査によると、失敗の 8.8% は GPU メモリの枯渇が原因でした。これは、すべてのディープラーニングの失敗の中で最も顕著な問題です。これらの障害を減らすために、GPU メモリ消費量を推定する多くの推定ツールが開発されてきました。さらに、使用率データを収集できる場合は、この履歴データを使用して四半期ごとの GPU/CPU およびメモリの要件をより正確に予測できます。

[[349636]]

画像ソース: unsplash

(4)MLOpsのスケーリング

機械学習のワークフローを合理化し、科学とエンジニアリングの役割間の移行を標準化できる方法を紹介します。 IT と DevOps はワークロードの展開と管理を担当するため、さまざまなジョブを実行するときに明確なコミュニケーション チャネルを持つことが重要です。適切なスケジューリング ツールとリソース テンプレートの戦略化により、AI ワークロードのリソース管理を改善できます。

(5)利用率を最大化し、「計算負債」を削減する

利用率を向上させるには、インフラストラクチャ チームとデータ サイエンス チームの両方の KPI として計算負債を含める必要があります。企業がコンピューティング負債を削減し、利用率を向上させることができれば、AI 競争で際立つことができます。

インフラストラクチャ チームにとって、GPU/CPU とメモリ消費の可視性を最大限に高めて使用率を向上させるための特効薬は基本的に存在しません。業界では計算負債の脅威に対処するため、より効率的なハードウェアとソフトウェアを急速に構築していますが、まだ道のりは長いです。多くの企業は、十分に活用されていないコンピューティングに何百万ドルも費やしています。

既存のリソースを活用し、リソース管理を改善することで、企業は AI インフラストラクチャを大幅に拡張できるようになります。この記事の戦略に従うことで、コンピューティング リソースを最大限に活用できます。インフラストラクチャの最適化に注力する企業は、その努力に対する ROI が高くなり、競合他社よりも優位に立つことができます。

<<:  AI開発シンポジウム:機械学習を農家に役立てる方法について議論

>>:  機械学習における欠損値に対処する9つの方法

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

マトリックスシミュレーション! Transformer の大型モデルの 3D 視覚化。GPT-3 と Nano-GPT の各層がはっきりと見える

「マトリックスシミュレーション」の世界は本当に存在するかもしれない。人間のニューロンをシミュレートし...

...

AIをめぐる世界的な競争でリードしているのは中国、米国、それともヨーロッパか

現在、世界中でAI関連企業に多額の投資が流入しており、トップ研究機関の科学者が毎週、さまざまなAIア...

インテリジェントロボットにはどのような主要なセンサー技術が使用されていますか?

今日のロボットで重要な役割を果たしているいくつかの主要なセンサー技術には、磁気位置センサー、存在セン...

簡単なアルゴリズムからアセンブリ言語の予備的研究

コンパイルを無視しないでくださいC、C++、Javaなど、日常生活で慣れ親しんでいる高級言語と比較す...

AIが5分で「3D展示」を完成させる「魔法の博物館」を制作

よく見てください、ここはメカスーツまで多種多様な展示品がある「魔法博物館」です...魔法の鏡、クリス...

...

...

クック氏は大量生産に資源を投入する気はなく、他の部門からも疑問視され、嘲笑されている。アップルの自動車製造への道は暗い。

アップル社内では、自動車製造部門が疑問視され、嘲笑された。 Appleの自動車製造は、業界関係者の間...

第2世代GANネットワークの台頭? DALL·E Miniのグラフィックが恐ろしく、外国人も大興奮!

現在、GoogleやOpenAIなどの大手企業が開発したテキストから画像へのモデルは、興味深いニュー...

AIがビジネスにどのように役立つか

[[353997]]人工知能は誕生以来、成功と失敗の時期を経験し、技術の進歩も限界と放棄に直面してき...

金融技術分野における人工知能と機械学習の応用と開発

[[383269]] [51CTO.com クイック翻訳] 過去数年間、金融業界では、業界の絶え間な...

再び攻撃! AI+教育に注力する学百軍は、年間10億元という小さな目標を設定

「今年末までに、学覇君は年間売上高10億元を確保するという小さな目標を達成する予定です」と張凱蕾氏は...

ツール・ド・フランスがChatGPTとデジタルツイン技術を導入

6月30日のニュースによると、ツール・ド・フランスは世界で最も権威のある自転車レースの一つで、毎年何...

このガイドを理解することで、ニューラルネットワークの「ブラックボックス」をマスターすることができます。

「人間のニューラルネットワークはどのように機能するのか?」この質問は多くのデータ サイエンティスト...