AI プロジェクトを高速化するためのデフォルトのアプローチは、GPU クラスターのサイズを増やすことです。しかし、GPU が不足しているため、コストが上昇しています。多くの AI 企業が「調達した総資本の 80% 以上をコンピューティング リソースに費やしている」のも不思議ではありません。 GPU は AI インフラストラクチャの基礎であり、可能な限り多くの予算を割り当てる必要があります。しかし、このような高コストの中でも、GPU パフォーマンスを向上させるために検討すべき、そしてますます必要になっている他の方法があります。 GPU クラスターのスケーリングは決して簡単ではありません。特に、生成 AI の急速な拡大により GPU が不足しているためです。 NVIDIA A100 GPU は最初に影響を受けた GPU の 1 つで、現在では極めて品薄になっており、一部のバージョンは出荷までに最大 1 年かかります。こうしたサプライチェーンの課題により、多くの企業が代替品としてハイエンドの H100 を検討せざるを得なくなりましたが、当然ながらそれにはより高い価格が伴います。業界向けの次世代の優れた生成 AI ソリューションを作成するために独自のインフラストラクチャに投資する起業家は、既存の GPU から最大限の効率を引き出す必要があります。 ネットワークとストレージの両方の AI インフラストラクチャ設計に変更を加えることで、企業がコンピューティング投資からより多くの成果を得る方法を見てみましょう。 データの問題有用なアプローチは、既存のコンピューティング インフラストラクチャの非効率性を考慮し、それらの非効率性を軽減してこれらのリソースを最適に活用する方法を検討することです。データ転送速度が遅すぎて GPU をビジー状態に維持できないことが多いため、GPU の使用率を最大化することは困難です。一部のユーザーでは GPU 使用率が 20% まで低下しているのが確認されていますが、これは明らかに許容できない値です。これは、AI チームが AI 投資を最大限に活用する方法を探し始めるのに適した場所です。 GPUは人工知能のエンジンです。車のエンジンが作動するためにガソリンが必要であるのと同じように、GPU はデータで作動します。データフローを制限すると、GPU のパフォーマンスが制限されます。 GPU が 50% の効率でしか動作しない場合、AI チームの生産性は低下し、プロジェクトの完了には 2 倍の時間がかかり、投資収益率は半減します。インフラストラクチャの設計では、GPU が最高の効率で動作し、期待されるコンピューティング パフォーマンスを提供できるようにする必要があります。 注目すべきは、DGX A100 サーバーと H100 サーバーはどちらも最大 30 TB の内部ストレージ容量を備えていることです。ただし、平均的なモデル サイズが約 150 TB であることを考えると、この容量はほとんどのディープラーニング モデルには実現可能ではありません。したがって、GPU にデータを供給し続けるには、追加の外部データ メモリが必要になります。 ストレージパフォーマンスAI ストレージは、サーバー、NVMe SSD、ストレージ ソフトウェアで構成され、通常はシンプルなデバイスにパッケージ化されています。 GPU が数十万のコアで大量のデータを並列処理するように最適化されているのと同様に、ストレージにも高いパフォーマンスが求められます。 AI におけるストレージの基本的な要件は、データセット全体を保存し、GPU を飽和させて効率的に実行し続けるために、そのデータをライン速度 (ネットワークが許す限りの速度) で GPU に転送できることです。それ以下であれば、この非常に高価で貴重な GPU リソースが十分に活用されていないことになります。 フルスピードで稼働する 10 台または 15 台の GPU サーバーのクラスターに対応できる速度でデータを配信すると、GPU リソースが最適化され、環境全体のパフォーマンスが向上し、予算を最大限に活用してインフラストラクチャ全体を最大限に活用できるようになります。 実際のところ、課題は、ストレージから最大限のパフォーマンスを引き出すために多数のクライアント コンピューティング ノードを必要とする AI 向けに最適化されたストレージ ベンダーが存在しないことです。 1 台の GPU サーバーから開始する場合、1 台の GPU サーバーにプロビジョニングできるパフォーマンスを実現するには、多数のストレージ ノードが必要になります。 すべてのベンチマーク結果を信じないでください。複数の GPU サーバーを同時に使用すると優れた帯域幅を簡単に得ることができますが、AI は、必要なときにいつでもすべてのパフォーマンスを単一の GPU ノードに提供するストレージの恩恵を受けます。必要な超高性能を実現できるストレージの使用を主張しますが、これは単一のストレージ ノードで実行でき、このパフォーマンスを単一の GPU ノードに提供できる必要があります。これにより市場が狭まる可能性がありますが、AI プロジェクトを開始する際の優先事項の 1 つとなります。 ネットワーク帯域幅 コンピューティング能力の向上により、追加の AI インフラストラクチャに対する需要が高まっています。ネットワーク上のストレージ デバイスから毎秒送信され、GPU によって処理される膨大な量のデータを管理するために、帯域幅の要件は新たな高みに達しています。ストレージ デバイス内のネットワーク アダプタ (NIC) はネットワーク内のスイッチに接続し、スイッチは GPU サーバー内のアダプタに接続します。 NIC は、正しく構成されていれば、ボトルネックなしでストレージを 1 台または 2 台の GPU サーバーに直接接続できます。ストレージから GPU に最大データ負荷を渡すのに十分な帯域幅を確保し、一定期間にわたって飽和状態を維持することが重要です。これが実現できないと、多くの場合、GPU の使用率が低下します。 GPU オーケストレーションインフラストラクチャが整備されると、GPU オーケストレーションおよび割り当てツールは、チームがリソースをより効率的にプールおよび割り当て、GPU の使用状況を可視化し、より高度なリソース制御を提供し、ボトルネックを減らし、使用率を向上させるのに大いに役立ちます。これらのツールは、基盤となるインフラストラクチャがそもそもデータを正しく流すことができる場合にのみ、これらすべてを意図したとおりに実行できます。 AI では、データが入力となるため、企業のミッションクリティカルなアプリケーション (在庫管理データベース サーバー、電子メール サーバー、バックアップ サーバーなど) 向けの従来のエンタープライズ フラッシュの優れた機能の多くは、AI にはまったく関係がありません。これらのソリューションはレガシー プロトコルを使用して構築されており、AI 向けに再利用されているものの、これらのレガシー基盤では GPU および AI ワークロードのパフォーマンスが明らかに制限され、価格が上昇し、過度に高価で不要な機能にお金が無駄になっています。 現在、世界的に GPU が不足しており、AI 業界も急成長しているため、特に短期的には、GPU のパフォーマンスを最大化する方法を見つけることがこれまで以上に重要になっています。ディープラーニング プロジェクトが急増する中、コストを削減し、成果を向上させるための重要な方法がいくつかあります。 |
<<: 大手モデルサークルは「GPU が貧弱」について熱く議論している。Google の計算能力は他のすべての企業を合わせたよりも高いことが明らかになり、スタートアップに打撃を与えている。
>>: Fooocus: シンプルで強力な安定した拡散 WebUI
新しいインフラの下で、産業インターネット、5G基地局建設、都市間高速鉄道と都市間軌道交通、新エネルギ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
[[334279]]この記事の主な内容:マイクログリッド、発電機、太陽光パネルなどのスマートグリッド...
AIの次のチャンスはどこにあるのでしょうか? AIの概念が初めて提唱されたのは1956年なので、60...
以前、GPT + mindshow 自動 PPT の操作プロセスを紹介しました。主な手順は、まず G...
グーグルは水曜日、AIを収益化する方法に対する回答を求める圧力が高まる中、同社がこれまでで最も強力だ...
[[258322]]機械学習は計算知能とも呼ばれ、近年いくつかの技術的障壁を突破し、ロボット工学、機...
[51CTO.com クイック翻訳]パーソナライズされた付加価値サービスに対するユーザーの需要に対応...
ナイーブ ベイズ分類器を使用して、現実世界の機械学習の問題を解決します。ナイーブベイズナイーブベイズ...
同氏は、テスラは人間の介入なしの完全自動運転の実現に近づいていると述べ、完全自動運転の実用性と自動車...
[51CTO.com からのオリジナル記事] 周知のとおり、画像検索はコンピューター ビジョン分野に...