GPUパフォーマンスを最大化

GPUパフォーマンスを最大化

AI プロジェクトを高速化するためのデフォルトのアプローチは、GPU クラスターのサイズを増やすことです。しかし、GPU が不足しているため、コストが上昇しています。多くの AI 企業が「調達した総資本の 80% 以上をコンピューティング リソースに費やしている」のも不思議ではありません。 GPU は AI インフラストラクチャの基礎であり、可能な限り多くの予算を割り当てる必要があります。しかし、このような高コストの中でも、GPU パフォーマンスを向上させるために検討すべき、そしてますます必要になっている他の方法があります。

GPU クラスターのスケーリングは決して簡単ではありません。特に、生成 AI の急速な拡大により GPU が不足しているためです。 NVIDIA A100 GPU は最初に影響を受けた GPU の 1 つで、現在では極めて品薄になっており、一部のバージョンは出荷までに最大 1 年かかります。こうしたサプライチェーンの課題により、多くの企業が代替品としてハイエンドの H100 を検討せざるを得なくなりましたが、当然ながらそれにはより高い価格が伴います。業界向けの次世代の優れた生成 AI ソリューションを作成するために独自のインフラストラクチャに投資する起業家は、既存の GPU から最大限の効率を引き出す必要があります。

ネットワークとストレージの両方の AI インフラストラクチャ設計に変更を加えることで、企業がコンピューティング投資からより多くの成果を得る方法を見てみましょう。

データの問題

有用なアプローチは、既存のコンピューティング インフラストラクチャの非効率性を考慮し、それらの非効率性を軽減してこれらのリソースを最適に活用する方法を検討することです。データ転送速度が遅すぎて GPU をビジー状態に維持できないことが多いため、GPU の使用率を最大化することは困難です。一部のユーザーでは GPU 使用率が 20% まで低下しているのが確認されていますが、これは明らかに許容できない値です。これは、AI チームが AI 投資を最大限に活用する方法を探し始めるのに適した場所です。

GPUは人工知能のエンジンです。車のエンジンが作動するためにガソリンが必要であるのと同じように、GPU はデータで作動します。データフローを制限すると、GPU のパフォーマンスが制限されます。 GPU が 50% の効率でしか動作しない場合、AI チームの生産性は低下し、プロジェクトの完了には 2 倍の時間がかかり、投資収益率は半減します。インフラストラクチャの設計では、GPU が最高の効率で動作し、期待されるコンピューティング パフォーマンスを提供できるようにする必要があります。

注目すべきは、DGX A100 サーバーと H100 サーバーはどちらも最大 30 TB の内部ストレージ容量を備えていることです。ただし、平均的なモデル サイズが約 150 TB であることを考えると、この容量はほとんどのディープラーニング モデルには実現可能ではありません。したがって、GPU にデータを供給し続けるには、追加の外部データ メモリが必要になります。

ストレージパフォーマンス

AI ストレージは、サーバー、NVMe SSD、ストレージ ソフトウェアで構成され、通常はシンプルなデバイスにパッケージ化されています。 GPU が数十万のコアで大量のデータを並列処理するように最適化されているのと同様に、ストレージにも高いパフォーマンスが求められます。 AI におけるストレージの基本的な要件は、データセット全体を保存し、GPU を飽和させて効率的に実行し続けるために、そのデータをライン速度 (ネットワークが許す限りの速度) で GPU に転送できることです。それ以下であれば、この非常に高価で貴重な GPU リソースが十分に活用されていないことになります。

フルスピードで稼働する 10 台または 15 台の GPU サーバーのクラスターに対応できる速度でデータを配信すると、GPU リソースが最適化され、環境全体のパフォーマンスが向上し、予算を最大限に活用してインフラストラクチャ全体を最大限に活用できるようになります。

実際のところ、課題は、ストレージから最大限のパフォーマンスを引き出すために多数のクライアント コンピューティング ノードを必要とする AI 向けに最適化されたストレージ ベンダーが存在しないことです。 1 台の GPU サーバーから開始する場合、1 台の GPU サーバーにプロビジョニングできるパフォーマンスを実現するには、多数のストレージ ノードが必要になります。

すべてのベンチマーク結果を信じないでください。複数の GPU サーバーを同時に使用すると優れた帯域幅を簡単に得ることができますが、AI は、必要なときにいつでもすべてのパフォーマンスを単一の GPU ノードに提供するストレージの恩恵を受けます。必要な超高性能を実現できるストレージの使用を主張しますが、これは単一のストレージ ノードで実行でき、このパフォーマンスを単一の GPU ノードに提供できる必要があります。これにより市場が狭まる可能性がありますが、AI プロジェクトを開始する際の優先事項の 1 つとなります。

ネットワーク帯域幅

コンピューティング能力の向上により、追加の AI インフラストラクチャに対する需要が高まっています。ネットワーク上のストレージ デバイスから毎秒送信され、GPU によって処理される膨大な量のデータを管理するために、帯域幅の要件は新たな高みに達しています。ストレージ デバイス内のネットワーク アダプタ (NIC) はネットワーク内のスイッチに接続し、スイッチは GPU サーバー内のアダプタに接続します。 NIC は、正しく構成されていれば、ボトルネックなしでストレージを 1 台または 2 台の GPU サーバーに直接接続できます。ストレージから GPU に最大データ負荷を渡すのに十分な帯域幅を確保し、一定期間にわたって飽和状態を維持することが重要です。これが実現できないと、多くの場合、GPU の使用率が低下します。

GPU オーケストレーション

インフラストラクチャが整備されると、GPU オーケストレーションおよび割り当てツールは、チームがリソースをより効率的にプールおよび割り当て、GPU の使用状況を可視化し、より高度なリソース制御を提供し、ボトルネックを減らし、使用率を向上させるのに大いに役立ちます。これらのツールは、基盤となるインフラストラクチャがそもそもデータを正しく流すことができる場合にのみ、これらすべてを意図したとおりに実行できます。

AI では、データが入力となるため、企業のミッションクリティカルなアプリケーション (在庫管理データベース サーバー、電子メール サーバー、バックアップ サーバーなど) 向けの従来のエンタープライズ フラッシュの優れた機能の多くは、AI にはまったく関係がありません。これらのソリューションはレガシー プロトコルを使用して構築されており、AI 向けに再利用されているものの、これらのレガシー基盤では GPU および AI ワークロードのパフォーマンスが明らかに制限され、価格が上昇し、過度に高価で不要な機能にお金が無駄になっています。

現在、世界的に GPU が不足しており、AI 業界も急成長しているため、特に短期的には、GPU のパフォーマンスを最大化する方法を見つけることがこれまで以上に重要になっています。ディープラーニング プロジェクトが急増する中、コストを削減し、成果を向上させるための重要な方法がいくつかあります。

<<:  大手モデルサークルは「GPU が貧弱」について熱く議論している。Google の計算能力は他のすべての企業を合わせたよりも高いことが明らかになり、スタートアップに打撃を与えている。

>>:  Fooocus: シンプルで強力な安定した拡散 WebUI

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

ChatGPTを使用してスマートコントラクトとブロックチェーンに革命を起こす方法

1. はじめに近年、人工知能(AI)の進歩により、さまざまな業界に革命が起きています。 ChatGP...

はい、純粋なSQLクエリステートメントでニューラルネットワークを実装できます。

[[229220]]よく知られているように、SQL は、開発者が大量のデータに対して効率的な操作を...

...

人工知能は人間の生活水準をどのように向上させることができるのでしょうか?

米国を例にとると、10年後には、成人一人当たり人工知能ビジネスから年間13,500ドルの利益を得るこ...

古典的なソートアルゴリズムヒープソートの簡単な分析

ヒープは通常、(完全な) ツリーとして表示できるオブジェクトの配列です。そして、以下のルールは常に満...

...

ネットセレブ列車は強制的に停止させられた。ドローンの操縦はどれほど難しいのか?

最近、「重慶の人気列車がドローンに衝突され停止」する動画がインターネット上で広く出回っている。 [[...

不動産の持続可能な開発を推進する4つのテクノロジートレンド

不動産業界は、エネルギー需要の 22% を占めていることから、変化する環境の中で持続可能性を確保する...

メタは自社の弁護士の警告を無視し、海賊版書籍を使用してAIモデルを訓練したと報じられている。

ロイター通信は12月13日、著作権侵害訴訟の新たな文書によると、メタ・プラットフォームズは何千冊もの...

AIを活用してデジタル資産管理ワークフローを効率化する方法

[[412045]]人工知能は、マーケティングテクノロジーを含むあらゆる業界の状況を変えています。マ...

市場規模は100億元を超える可能性あり。これら4種類の医療用ロボットをご存知ですか?

2020年、突然の公衆衛生事件により、医療用ロボットに大きな注目が集まりました。医療用ロボットは、...

2022年、ビッグモデルはどこまで行けるでしょうか?

[[442868]]著者: ユン・チャオこの記事は、2021年の業界レビュー、2021年のビッグモ...

分析と AI に関する 6 つの警告すべき間違い

[[439096]] 2017年、英国の雑誌『エコノミスト』は、データが石油に代わって世界で最も価値...

AI、エッジコンピューティング、IoT、クラウドコンピューティングが車両管理をどのように変えるのか

毎日生成されるデータの量は増加し続けています。その結果、これらの企業はこれまで以上に多くのデータを保...

必要なのはソースコードだけです! 7Bコードの小型モデルは同サイズでは無敵で、その性能はChatGPTやGoogle Geminiに匹敵する

「GitHub Copilot のようなコード補完ツールは、100 万人以上の開発者に使用されており...