データセンターの未来: AIの力を活用して経済成長とイノベーションを推進

人気のSF小説で「機械知能の台頭」が描かれる場合、通常はレーザーや爆発が伴い、軽度な場合には軽い哲学的恐怖も伴います。しかし、人工知能 (AI) と機械学習 (ML) の現実的な可能性に対する関心が高まっており、新しいアプリケーションが日々登場していることは間違いありません。

すでに世界中の何百万ものユーザーが ChatGPT、Bard、その他の AI インターフェースを使用して AI と対話しています。インドでは、デスクワークの従業員の 75% が生産性向上のために AI ツールを使用しています。しかし、こうしたユーザーのほとんどは、好奇心旺盛な AI アシスタントとの快適なデスクトップでのやり取りが、実は世界中の大規模なデータセンターによって実現されていることに気づいていません。

企業は、自社のビジネス戦略に合わせて AI モデルを構築、トレーニング、改良するために、データセンター内の AI クラスターに投資しています。これらの AI コアは、AI モデルがアルゴリズムを徹底的にトレーニングするために必要な驚異的な並列処理能力を提供する GPU (グラフィックスプロセッシングユニット) のラックで構成されています。

データセットがインポートされると、Inference AI がそのデータを分析して解釈します。これは、犬には共通しないが猫には共通する特徴のトレーニングに基づいて、画像に猫が含まれているか子犬が含まれているかを判断するプロセスです。生成 AI はそのデータを処理して、まったく新しい画像やテキストを作成できます。

世界中の人々、政府、企業の関心を集めているのは、このような「スマート」な処理ですが、有用な AI アルゴリズムを作成するには、トレーニング用の膨大なデータが必要であり、コストと電力を大量に消費するプロセスです。

効率的なトレーニングはここから始まります

データセンターでは通常、AI アルゴリズムのトレーニング用にデータを処理するために連携して動作する個別の AI およびコンピューティングクラスターが維持されます。これらの電力を大量に消費する GPU によって発生する熱により、特定のラックスペースに収まる GPU の数が制限されるため、熱を減らしてリンク遅延を最小限に抑えるために物理レイアウトを最適化する必要があります。

AI クラスターには新しいデータセンターアーキテクチャが必要です。 GPU サーバーではサーバー間の接続が多く必要になりますが、電力と熱の制約によりラックあたりのサーバー数は少なくなります。その結果、従来のデータセンターよりもラック間のケーブル配線が多くなり、銅線では 100G ～ 400G リンクに必要な距離をサポートできなくなります。

一般的に、大規模な人工知能をトレーニングする場合、必要な時間の約 30% がネットワーク遅延によって消費され、残りの 70% が計算時間に費やされると考えられています。大規模なモデルのトレーニングには最大 1,000 万ドルのコストがかかる可能性があるため、このネットワーク時間は大きなコストとなります。 50 ナノ秒または 10 メートルのファイバーの遅延の節約でも大きな効果があり、AI クラスター内のほぼすべてのリンクは 100 メートルに制限されています。

メートル、ナノ秒、ワットの微調整

オペレーターは、コストと電力消費を最小限に抑えるために、AI クラスターで使用する光トランシーバーとケーブルを慎重に検討する必要があります。

考慮すべき重要なポイント:

• 波長分割多重化のための光マルチプレクサとデマルチプレクサの必要性を回避するために、パラレルファイバーを備えたトランシーバを使用する

• トランシーバのコスト削減は、デュプレックスファイバーケーブルの代わりにマルチファイバーケーブルを使用することで生じるわずかなコスト増加を相殺する以上の効果があります。

• シングルモードおよびマルチモードファイバーは、最大 100 メートルのリンクをサポートできます。マルチモードファイバーはシングルモードファイバーよりもわずかに高価ですが、ケーブルコストは主に MPO コネクタによって制御されるため、2 種類のマルチモードケーブルの差は小さくなります。

• さらに、高速マルチモードトランシーバーは、シングルモードトランシーバーよりも 1 ～ 2 ワット少ない電力を消費します。これは小さいことのように思えるかもしれませんが、AI クラスターの場合、電力を節約する機会があれば、トレーニング中や運用中に大幅な節約につながる可能性があります。

トランシーバーとアクティブ光ケーブル

多くの AI/ML クラスターは、GPU とスイッチを相互接続するために、両端に光送信機と受信機が統合された光ケーブルであるアクティブ光ケーブル (AOC) を使用します。ただし、AOC の送信機と受信機は、同様のトランシーバーの送信機と受信機と同じである場合もありますが、通常はスクラップです。

AOC 送信機と受信機は、ほとんどの場合、ケーブルのもう一方の端に接続された特定のユニットでのみ動作する必要があります。設置者は光ファイバーコネクタにアクセスできないため、光ファイバーコネクタの清掃や検査に必要なスキルは必要ありません。さらに、AOC のインストールにはトランシーバーが接続されたケーブルを配線する必要があり、ブレークアウトケーブルを使用して AOC を適切にインストールするのは特に難しいため、時間がかかり、繊細な作業になる可能性があります。

全体的に、AOC の故障率は同等のトランシーバーの 2 倍でした。 AOC に障害が発生した場合、またはネットワークリンクをアップグレードする必要がある場合、新しい AOC をネットワーク経由でルーティングする必要があり、計算時間が消費されます。トランシーバーの場合、光ファイバーケーブルはインフラストラクチャの一部であり、数世代にわたるデータレートを維持できます。

データセンターにおけるAIと機械学習の時代

AI/ML はすでに存在しており、人、企業、デバイスが相互にやり取りする方法において、より重要かつ統合された要素となるでしょう。 Salesforce のレポートによると、インドの IT リーダーの約 95% が、生成 AI モデルが近いうちに組織内で重要な役割を果たすようになると考えており、需要が高まっていることを示しています。

AI サービスとのインターフェイスは文字通り手のひらの上で実現できますが、それでも大規模なデータセンターインフラストラクチャとそれを駆動するすべてのパワーに依存しており、急速に変化するハイパーコネクテッドな世界では、AI を迅速かつ効率的にトレーニングできる企業が重要になります。 AI クラスターのケーブル配線を慎重に検討すると、コスト、電力、設置時間を節約できます。適切なファイバーケーブルを使用することで、組織は人工知能のメリットを最大限に活用できるようになります。 AI のトレーニングと運用を推進する高度なファイバーインフラストラクチャに今日投資すれば、明日は驚くべき成果が得られます。

<<: ホワイトハウスのAIに関する大統領令がサイバーセキュリティリーダーに何を意味するか

>>: