機械学習サーバーの利用率とスケーラビリティを最大化するにはどうすればよいでしょうか?

機械学習サーバーの利用率とスケーラビリティを最大化するにはどうすればよいでしょうか?

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)から転載したものです。

人工知能をビジネスに統合することは高い商業的価値がありますが、この価値は通常、モデルをビジネスに適用するために必要なコンピューティング コストを相殺することはできません。機械学習とディープラーニングは計算集約型であり、クラウドコンピューティングやローカルコンピューティングのコストが下がらない限り、前例のないビジネス価値があるにもかかわらず、コストに見合う価値はないと主張する人もいます。

[[349634]]

MITの研究科学者で『ディープラーニングの計算限界』の著者であるニール・トンプソン氏は、Wired誌に掲載された記事の中で、GoogleやFacebookを含む多くの組織が影響力が大きく費用対効果の高いモデルを構築しているが、これらのモデルは計算コストが高いため利益が出ていないと書いている。

トンプソン氏は最近のスピーチや論文の中で、大規模かつ最先端のAIプロジェクトに取り組んでいる研究者らが、コストがかかりすぎるため複数のアルゴリズム設計をテストしたり実験をやり直したりすることができないと不満を言い始めていると述べた。

企業は、イノベーションを促進し、AI の取り組みからの投資収益率を高めるために、コンピューティング効率を大幅に向上させる方法を必要としています。しかし、コンピューティングのコストの高さや効率的なコンピューティングへの重点を非難すべきではありません。

実際、GPU アクセラレーション インフラストラクチャやその他のクラウド プロバイダーは大きな進歩を遂げており、複雑な AI ネットワークを前例のない速度でトレーニングする能力が大幅に向上しています。

2020 年 5 月、DeepCube は、既存のすべてのハードウェア上でディープラーニングのパフォーマンスを大幅に向上させるソフトウェアベースの推論アクセラレータをリリースしました。言い換えれば、機械学習とディープラーニングの高まる需要を満たすためにコンピューティング ソリューションが開発されているということです。 AI イノベーションの潜在的な障害は、既存のコンピューティングが十分に活用されていないことと、「コンピューティング負債」のコストが増大していることです。

「計算負債」とは何ですか?

AI リーダーは、機械学習への投資収益率を妨げている主な要因の 1 つが GPU、CPU、メモリ リソースの活用不足であることを知って驚くかもしれません。

企業は、AI ワークロードを大幅に加速し、パフォーマンスを向上させる可能性のあるコンピューティングに数百万ドルを投資していますが、最終的にはそれらのリソースのほんの一部、場合によっては 20% しか利用されていません。コンピューティングの割り当てと実際の使用率のギャップは驚くほど大きく、企業が考えていた以上にコストがかかる可能性があります。

計算、割り当て、使用率の間のギャップは、「計算負債」と呼ぶことができます。割り当てと容量の間の「無駄」を指します。次の図は、緑色で表される平均使用率と黄色で表される (現在の) 割り当てを視覚的に比較しています。

ワークロードの実行中は、通常、GPU の一部のみが使用され、残りの部分は他の潜在的なワークロードによってブロックされます。灰色の領域は容量、つまり GPU、CPU、またはメモリの観点から利用可能な既存のコンピューティングの量を表します。これはアイドル状態にあり、十分に活用されていないコンピューティング領域すべてです。

出典: cnvrg.io

「計算負債」の原因は何ですか?

機械学習とディープラーニングは計算負荷が高く、管理が複雑であり、この計算負荷を軽減することはさらに困難です。 AI インフラストラクチャ チームが直面している最大の課題の 1 つは、消費を最大化し、機械学習プロジェクトの ROI を高める方法で、使用率を改善し、リソースを管理する方法を知ることです。計算負債の主な原因は次のとおりです。

(1)インフラチームはAIプロジェクトに対する可視性に欠けている

機械学習プロジェクトのインフラストラクチャ コストは毎年 2 倍の割合で増加していますが、IT チームには機械学習リソースを適切に管理、最適化、予算化するためのツールが不足しています。ほとんどの IT/DevOps リーダーは、特定の時点での GPU/CPU およびメモリの使用率、割り当て、容量を把握していません。その結果、消費を制御して効率を向上させることができなくなります。

(2)「計算負債」の増大

AI コンピューティングのニーズが複雑になるにつれて、コンピューティングの割り当てと実際の使用率のギャップが拡大しています。通常、企業が消費するリソースは全体の 30% 程度です。その結果、コンピューティング リソースの約 70% がアイドル状態になり、企業は数千ドル、場合によっては数百万ドルの損失を被りました。

(3)非効率な作業の特定ができない

インフラストラクチャ チームは、GPU/CPU を十分に活用していないワークロードを簡単に特定できません。過去のワークロードに関するデータを収集しなければ、非効率的に実行されているワークロードを分析して特定することは不可能です。可視性が不足すると、使用率の向上やワークロードの優先順位付けが難しくなります。

(4)生産性の低下

十分に活用されていない GPU は他の作業のために中断され、データ サイエンティストの待機時間が長くなります。その結果、GPU を待つ間に多くの時間とリソースが浪費されることになります。また、他の作業に使用できるアイドル リソースの問題も発生します。

[[349635]]

画像ソース: unsplash

(5)標準化と統一性の欠如

チームは、作業と使用率の指標を関連付けられないことがよくあります。特定の時点での作業の配分、使用率、容量を表示するための標準的な視覚化ツールはありません。これにより、非効率性を特定し、無駄な作業量を判断することが難しくなります。機械学習は成熟段階に達しており、成長するためには AI インフラストラクチャの戦略的な開発が必須となっています。

(6)最適化戦略を制御できない

一部のチームは非効率性を特定し、最適化されたインフラストラクチャ戦略を計画できますが、それらの戦略を実行するためのツールが不足しています。 IT/DevOps チームは、リソース管理を最適化するために AI ワークロードを制御する必要があります。作業の優先順位付け、コンピューティング テンプレートの構成、ワークロードの分散と使用率の監視を行う方法がなければ、大幅な改善を実現することは不可能です。

「計算負債」を削減するための戦略

この問題には明確な解決策はありませんが、リソース管理をより効率的にする方法はあります。

(1)GPUアクセラレーション技術を活用した最先端のAIインフラへの投資

GPU アクセラレーション テクノロジーは一定の成功を収めています。ハードウェアとソフトウェアのディープラーニング アクセラレーション ソリューションはすでに利用可能であり、これまでにない計算パフォーマンスを実現しています。最新の GPU アクセラレーション ソリューションを検討し、真に最新の AI インフラストラクチャを導入します。

(2)ハイブリッドクラウド基盤の導入

パブリック クラウド、プライベート クラウド、オンプレミスのリソースを組み合わせることで、AI ワークロードを実行する際の俊敏性と柔軟性が向上します。 AI ワークロードによって負荷の種類が大きく異なるため、ハイブリッド クラウド インフラストラクチャを構築する企業は、より柔軟にリソースを割り当て、サイズをカスタマイズできます。パブリック クラウドを使用すると、設備投資を削減し、コンピューティング需要が高い期間に必要なスケーラビリティを提供できます。

厳しいセキュリティ要件を持つ企業の中には、プライベート クラウドを追加する必要があり、長期的には運用コストを削減できるものもあります。ハイブリッド クラウドにより、リソース予算を改善するために必要な制御と柔軟性が実現します。

(3)推定ツールを使用してGPU/CPUメモリ消費量を推定する

Microsoft の 4,960 件の失敗したディープラーニング タスクに関する Microsoft Research の調査によると、失敗の 8.8% は GPU メモリの枯渇が原因でした。これは、すべてのディープラーニングの失敗の中で最も顕著な問題です。これらの障害を減らすために、GPU メモリ消費量を推定する多くの推定ツールが開発されてきました。さらに、使用率データを収集できる場合は、この履歴データを使用して四半期ごとの GPU/CPU およびメモリの要件をより正確に予測できます。

[[349636]]

画像ソース: unsplash

(4)MLOpsのスケーリング

機械学習のワークフローを合理化し、科学とエンジニアリングの役割間の移行を標準化できる方法を紹介します。 IT と DevOps はワークロードの展開と管理を担当するため、さまざまなジョブを実行するときに明確なコミュニケーション チャネルを持つことが重要です。適切なスケジューリング ツールとリソース テンプレートの戦略化により、AI ワークロードのリソース管理を改善できます。

(5)利用率を最大化し、「計算負債」を削減する

利用率を向上させるには、インフラストラクチャ チームとデータ サイエンス チームの両方の KPI として計算負債を含める必要があります。企業がコンピューティング負債を削減し、利用率を向上させることができれば、AI 競争で際立つことができます。

インフラストラクチャ チームにとって、GPU/CPU とメモリ消費の可視性を最大限に高めて使用率を向上させるための特効薬は基本的に存在しません。業界では計算負債の脅威に対処するため、より効率的なハードウェアとソフトウェアを急速に構築していますが、まだ道のりは長いです。多くの企業は、十分に活用されていないコンピューティングに何百万ドルも費やしています。

既存のリソースを活用し、リソース管理を改善することで、企業は AI インフラストラクチャを大幅に拡張できるようになります。この記事の戦略に従うことで、コンピューティング リソースを最大限に活用できます。インフラストラクチャの最適化に注力する企業は、その努力に対する ROI が高くなり、競合他社よりも優位に立つことができます。

<<:  AI開発シンポジウム:機械学習を農家に役立てる方法について議論

>>:  機械学習における欠損値に対処する9つの方法

ブログ    
ブログ    

推薦する

アリババが雲奇会議でデジタル経済について語らなかったこと

2009 年以来、雲奇会議は、最も初期のローカル ウェブサイト サミットから、アリババの年次戦略およ...

...

...

...

人工知能業界の最新の開発動向を1つの記事で理解する

[[418444]]現在、新世代の人工知能に代表される科学・産業革命が起こりつつあります。デジタル化...

App Storeのランキングアルゴリズムの変更、開発者は準備が必要

[[80451]]数日前、AppleのApp Storeの検索アルゴリズムが変わり始めたかもしれない...

2023年までにスマートホームとモノのインターネットは完全に相互運用可能になると予想されている。

「AI+IoT」技術の応用の実現により、消費者のスマートデバイスに対する需要が高まり、スマートスピ...

AIは人間のための単なるツールだということをご存知ですか?

[[429689]]この記事は、ハーパー氏が執筆したWeChatパブリックアカウント「データとイン...

清華大学人工知能開発報告:中国は過去10年間のAI特許出願で世界第1位

ザ・ペーパー記者 張偉最新の報告書によると、中国の人工知能特許出願件数は過去10年間で世界第1位であ...

物理学者は神の粒子を研究するためのアルゴリズムを開発するためにプログラマーを招待する

Wired 誌は、大型ハドロン衝突型加速器の物理学者たちが、ヒッグス粒子の特性を明らかにするプログラ...

...

畳み込みニューラルネットワークは「グラフ」構造化データを処理できないのですか?この記事でその答えが分かります

この記事で紹介する論文は、ICML2016でのグラフへのCNNの応用に関する論文です。 ICML は...

「柯潔は2つの石を与えられた」が、それでもAIに負けた。プログラマーが知っておくべきトップ10のAIライブラリとフレームワークはこちら

[51CTO.comより引用] 遅かれ早かれ、この日はやって来る。イ・セドルがアルファ碁に1対4で負...

UNITのハイライト - 対話システムの技術的原理を素早く習得

[[254684]]人工知能時代の対話的特徴は、「対話」という一言に集約されます。音声であれテキスト...

調査によると、人工知能ソフトウェア市場は2025年までに370億ドルに達すると予想されている。

Forrester は、2025 年までの市場規模をより現実的に把握するために、AI ソフトウェア...