GPUパフォーマンスを最大化

GPUパフォーマンスを最大化

AI プロジェクトを高速化するためのデフォルトのアプローチは、GPU クラスターのサイズを増やすことです。しかし、GPU が不足しているため、コストが上昇しています。多くの AI 企業が「調達した総資本の 80% 以上をコンピューティング リソースに費やしている」のも不思議ではありません。 GPU は AI インフラストラクチャの基礎であり、可能な限り多くの予算を割り当てる必要があります。しかし、このような高コストの中でも、GPU パフォーマンスを向上させるために検討すべき、そしてますます必要になっている他の方法があります。

GPU クラスターのスケーリングは決して簡単ではありません。特に、生成 AI の急速な拡大により GPU が不足しているためです。 NVIDIA A100 GPU は最初に影響を受けた GPU の 1 つで、現在では極めて品薄になっており、一部のバージョンは出荷までに最大 1 年かかります。こうしたサプライチェーンの課題により、多くの企業が代替品としてハイエンドの H100 を検討せざるを得なくなりましたが、当然ながらそれにはより高い価格が伴います。業界向けの次世代の優れた生成 AI ソリューションを作成するために独自のインフラストラクチャに投資する起業家は、既存の GPU から最大限の効率を引き出す必要があります。

ネットワークとストレージの両方の AI インフラストラクチャ設計に変更を加えることで、企業がコンピューティング投資からより多くの成果を得る方法を見てみましょう。

データの問題

有用なアプローチは、既存のコンピューティング インフラストラクチャの非効率性を考慮し、それらの非効率性を軽減してこれらのリソースを最適に活用する方法を検討することです。データ転送速度が遅すぎて GPU をビジー状態に維持できないことが多いため、GPU の使用率を最大化することは困難です。一部のユーザーでは GPU 使用率が 20% まで低下しているのが確認されていますが、これは明らかに許容できない値です。これは、AI チームが AI 投資を最大限に活用する方法を探し始めるのに適した場所です。

GPUは人工知能のエンジンです。車のエンジンが作動するためにガソリンが必要であるのと同じように、GPU はデータで作動します。データフローを制限すると、GPU のパフォーマンスが制限されます。 GPU が 50% の効率でしか動作しない場合、AI チームの生産性は低下し、プロジェクトの完了には 2 倍の時間がかかり、投資収益率は半減します。インフラストラクチャの設計では、GPU が最高の効率で動作し、期待されるコンピューティング パフォーマンスを提供できるようにする必要があります。

注目すべきは、DGX A100 サーバーと H100 サーバーはどちらも最大 30 TB の内部ストレージ容量を備えていることです。ただし、平均的なモデル サイズが約 150 TB であることを考えると、この容量はほとんどのディープラーニング モデルには実現可能ではありません。したがって、GPU にデータを供給し続けるには、追加の外部データ メモリが必要になります。

ストレージパフォーマンス

AI ストレージは、サーバー、NVMe SSD、ストレージ ソフトウェアで構成され、通常はシンプルなデバイスにパッケージ化されています。 GPU が数十万のコアで大量のデータを並列処理するように最適化されているのと同様に、ストレージにも高いパフォーマンスが求められます。 AI におけるストレージの基本的な要件は、データセット全体を保存し、GPU を飽和させて効率的に実行し続けるために、そのデータをライン速度 (ネットワークが許す限りの速度) で GPU に転送できることです。それ以下であれば、この非常に高価で貴重な GPU リソースが十分に活用されていないことになります。

フルスピードで稼働する 10 台または 15 台の GPU サーバーのクラスターに対応できる速度でデータを配信すると、GPU リソースが最適化され、環境全体のパフォーマンスが向上し、予算を最大限に活用してインフラストラクチャ全体を最大限に活用できるようになります。

実際のところ、課題は、ストレージから最大限のパフォーマンスを引き出すために多数のクライアント コンピューティング ノードを必要とする AI 向けに最適化されたストレージ ベンダーが存在しないことです。 1 台の GPU サーバーから開始する場合、1 台の GPU サーバーにプロビジョニングできるパフォーマンスを実現するには、多数のストレージ ノードが必要になります。

すべてのベンチマーク結果を信じないでください。複数の GPU サーバーを同時に使用すると優れた帯域幅を簡単に得ることができますが、AI は、必要なときにいつでもすべてのパフォーマンスを単一の GPU ノードに提供するストレージの恩恵を受けます。必要な超高性能を実現できるストレージの使用を主張しますが、これは単一のストレージ ノードで実行でき、このパフォーマンスを単一の GPU ノードに提供できる必要があります。これにより市場が狭まる可能性がありますが、AI プロジェクトを開始する際の優先事項の 1 つとなります。

ネットワーク帯域幅

コンピューティング能力の向上により、追加の AI インフラストラクチャに対する需要が高まっています。ネットワーク上のストレージ デバイスから毎秒送信され、GPU によって処理される膨大な量のデータを管理するために、帯域幅の要件は新たな高みに達しています。ストレージ デバイス内のネットワーク アダプタ (NIC) はネットワーク内のスイッチに接続し、スイッチは GPU サーバー内のアダプタに接続します。 NIC は、正しく構成されていれば、ボトルネックなしでストレージを 1 台または 2 台の GPU サーバーに直接接続できます。ストレージから GPU に最大データ負荷を渡すのに十分な帯域幅を確保し、一定期間にわたって飽和状態を維持することが重要です。これが実現できないと、多くの場合、GPU の使用率が低下します。

GPU オーケストレーション

インフラストラクチャが整備されると、GPU オーケストレーションおよび割り当てツールは、チームがリソースをより効率的にプールおよび割り当て、GPU の使用状況を可視化し、より高度なリソース制御を提供し、ボトルネックを減らし、使用率を向上させるのに大いに役立ちます。これらのツールは、基盤となるインフラストラクチャがそもそもデータを正しく流すことができる場合にのみ、これらすべてを意図したとおりに実行できます。

AI では、データが入力となるため、企業のミッションクリティカルなアプリケーション (在庫管理データベース サーバー、電子メール サーバー、バックアップ サーバーなど) 向けの従来のエンタープライズ フラッシュの優れた機能の多くは、AI にはまったく関係がありません。これらのソリューションはレガシー プロトコルを使用して構築されており、AI 向けに再利用されているものの、これらのレガシー基盤では GPU および AI ワークロードのパフォーマンスが明らかに制限され、価格が上昇し、過度に高価で不要な機能にお金が無駄になっています。

現在、世界的に GPU が不足しており、AI 業界も急成長しているため、特に短期的には、GPU のパフォーマンスを最大化する方法を見つけることがこれまで以上に重要になっています。ディープラーニング プロジェクトが急増する中、コストを削減し、成果を向上させるための重要な方法がいくつかあります。

<<:  大手モデルサークルは「GPU が貧弱」について熱く議論している。Google の計算能力は他のすべての企業を合わせたよりも高いことが明らかになり、スタートアップに打撃を与えている。

>>:  Fooocus: シンプルで強力な安定した拡散 WebUI

ブログ    

推薦する

メリット、PyTorch中国語版の公式チュートリアルはこちら

[[275569]] PyTorchは近年人気のディープラーニングフレームワークですが、公式の中国語...

中国AIGCデータラベリングパノラマレポート:市場規模100億、求人数100万

データラベリングは重大な再編の時期を迎えています。ビッグモデル時代の到来により、データ中心の AI ...

貪欲アルゴリズム: バイナリツリーを監視したい!

[[361051]]バイナリツリーの問題の監視アドレス: https://leetcode-cn....

3種類の動的ルーティングプロトコルアルゴリズムは、

ダイナミック ルーティング プロトコルには多くの種類があります。ここでは主に、RIP、OSPF、EI...

...

...

スタンフォード大学の10のグラフはAI開発の新たなトレンドを分析している

スタンフォード大学のAI 100のAI Indexプロジェクトは、人工知能の活動と進歩を追跡し、人工...

シャドーAIの潜在的な脅威に対処するための4つのヒント

AI ツールの導入はほとんどの組織がセキュリティを確保できるよりも速いペースで進んでいるため、シャド...

AIが医療をどう変えるか リアルタイムのデータ分析は医療にとって重要

科学者たちは、人工知能が多くの分野で人間を日常的な作業から解放できると信じています。ヘルスケアはこう...

...

...

...

気温を下げて干ばつを緩和するブラックテクノロジーが多数存在します。人工降雨の謎とは?

​最近、浙江省の高温が話題になっています。継続的な高温と干ばつの悪影響を緩和するために、浙江省の多く...