アリババが自社開発のAIクラスターの詳細を発表：64基のGPU、数百万のカテゴリーのトレーニングを4倍高速化

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

アリババは、ノードアーキテクチャからネットワークアーキテクチャ、通信アルゴリズムに至るまで、自社開発した高性能AIクラスターの技術的な詳細に関する論文を書き、公開しました。

この論文は「EFLOPS: 高性能分散トレーニングプラットフォームのためのアルゴリズムとシステムの共同設計」と題され、コンピューターアーキテクチャに関するトップカンファレンスである HPCA 2020 に掲載されました。アリババは中国で唯一、論文を収集した企業だ。論文の著者の一人であり、アリババの上級技術専門家である江暁偉氏が、会議で論文の内容を共有した。

AIクラスターの技術的な詳細を実演するだけでなく、それがアリババの社内業務やアルゴリズムにどのように価値をもたらすかについても紹介しました。このクラスターは、アリババの人工知能ビジネスのモデルトレーニングを提供するために、アリババコンピューティングプラットフォームの人工知能トレーニングプラットフォーム（PAI）に適用されています。

Pailitaoの100万カテゴリモデルのトレーニング速度を4倍に高め、初めて数千万の分類モデルのトレーニングをサポートし、Alibabaの翻訳モデルの精度を向上させながら、トレーニング時間を100時間から12時間に短縮できます。

さらに、世界トップクラスの AI コンピューティングシステムと比較すると、アリババの AI クラスターはパフォーマンスの低いハードウェアリソースを使用しているにもかかわらず、同等のパフォーマンスを発揮しています。

アリババが高性能AIクラスターの性能を公開するのは今回が初めてですが、具体的な内容を教えてください。 Alibaba Research Team の解釈に基づいて、一つずつ見ていきましょう。

ビジネスニーズに基づいてAIクラスターアーキテクチャを最適化する

ディープニューラルネットワークの技術的進歩により、AIアルゴリズムモデル、トレーニングフレームワーク、基盤となるアクセラレータ設計など、AI周辺の技術研究がますます注目を集めており、その応用範囲はますます広がり、社会生活のあらゆる側面に実装されています。

「しかし、クラスターアーキテクチャの観点からAIビジネスと従来のビッグデータ処理ビジネスの運用モードの違いや、AIクラスターのアーキテクチャ設計をどのように最適化すべきかを検討した人はほとんどいない」とアリババ研究チームは述べた。

AI事業はデータの並列性が強いものの、ビッグデータ処理事業や高性能コンピューティング事業とは特性が明らかに異なると彼らは考えています。主な違いは 2 つあります。

まず、AI サービスのサブタスクは独立性が低く、勾配同期を実現するために定期的に通信する必要があります。次に、AI サービスの動作は加速コンポーネントを中心に行われ、加速コンポーネント間の直接通信の同時実行性は従来のサーバーに比べて大幅に高くなります。

そのため、従来のデータセンターのサーバーアーキテクチャとネットワークアーキテクチャ上で AI サービスを実行する場合、多くの深刻な問題が発生します。

具体的には、サーバーアーキテクチャの問題は、主に、リソース割り当ての不均衡によって引き起こされる輻輳の問題と、PCIe リンクの QoS の問題です。

一般的に、従来のサーバーにはノード間通信用のネットワークカードが搭載されており、AI サービスをサポートするために複数の GPU が構成されています。

しかし、AI トレーニングでは、GPU 間の勾配の同期が必要になることがよくあります。複数の GPU が同時にネットワークにアクセスすると、1 つのネットワークカードがシステムのボトルネックになります。

さらに、PCIe リンク上の帯域幅の割り当てはパスの長さと密接に関係しています。パスが長いほど帯域幅の割り当てが低くなり、ソケット間通信の問題がより深刻になります。

ネットワークアーキテクチャの問題は、主に AI トレーニングにおける同期通信によって引き起こされるショートボード効果にあります。ネットワークの輻輳は非常に一般的な問題であり、関連する研究は何十年にもわたって行われてきました。

しかし、輻輳制御アルゴリズムの最終的な目標は、衝突する 2 つのフローの速度を制限し、できるだけ早く物理帯域幅を均等に共有できるようにすることです。AI トレーニングクラスターの通信効率の問題を解決することはできません。

AI ビジネス通信は同期的であるため、各通信トランザクションの最終的なパフォーマンスは、最も遅い接続によって決まります。帯域幅を均等に分割すると、トランザクションの完了時間が指数関数的に増加し、AI 通信のパフォーマンスに重大な影響を与えます。

これを踏まえて、アリババはAI事業向けに独自の高性能AIクラスターを開発することを決定した。

アリババAIクラスターの主要技術

アリババが自社開発した高性能 AI クラスターは EFlops と呼ばれ、ネットワーク化された異種コンピューティングサーバーアーキテクチャ、高度にスケーラブルなネットワークアーキテクチャ、システムアーキテクチャと連携する高性能通信ライブラリという 3 つの主要テクノロジーを備えています。

ネットワークカード上のデータ輻輳を回避するために、各 GPU に他の GPU と通信するための専用のネットワークカードが提供されます。

さらに、Top-of-Server 設計コンセプトに基づいて、ノード内のアクセラレータ間の通信がノードの外部にエクスポートされ、成熟した Ethernet QoS メカニズムを使用して、輻輳したトラフィック間の公平性が確保されます。

研究チームは、アクセラレータチップの計算能力が急速に向上するにつれて、通信パフォーマンスに対する要求が高まり、このマルチ NIC ネットワーク異種コンピューティングサーバーアーキテクチャがすぐに主流になると考えています。

ネットワークアーキテクチャレベルでは、EFlops は、ネットワークの 2 つの層の間に豊富なリンクリソースを提供し、層間ルーティングの制御可能性を実現する BiGraph ネットワークトポロジを設計しました。

彼らは、マルチ NIC サーバー構造と組み合わせて、EFlops プロジェクトで BiGraph ネットワークトポロジを提案しました。これは、従来の Fat-tree トポロジと類似していますが、根本的な違いもあります。

Fat-tree トポロジと同様に、ネットワークを 2 つの部分 (上部と下部) に分割し、2 層 Fat-tree トポロジのスパインスイッチとリーフスイッチのように、Clos アーキテクチャを通じて相互接続します。

Fat-tree とは異なり、両方のスイッチ上のコンピューティングサーバーに直接アクセスできます。つまり、各スイッチは Fat-tree トポロジでスパインとリーフの役割を果たし、最大ホップ数は 3 です。

また、BiGraph トポロジに 2 つの重要な機能が追加されました。

一方、2 つのスイッチ層間には豊富な物理リンクリソースが提供されます。 N 台のコンピューティングサーバーを備えたシステムでは、2 つのスイッチ層間に少なくとも N/2 個の物理リンクが存在します。一方、異なるレベルに接続された任意の 2 つのコンピューティングサーバー間の最短パスは一意です。

したがって、この機能を最大限に活用して、通信ライブラリまたはさらに高いレベルでサーバー間通信パターンを管理できます。たとえば、接続を確立するときに、適切な送信元サーバーと宛先サーバーが選択され、ネットワーク上のパスの選択が制御されます。

これを明確にするために、データ並列トレーニングシナリオで最も重要な集合通信操作である Allreduce という新しい概念を導入する必要があります。

その中で、一般的に使用される通信アルゴリズムには、リングベース (Ring)、ツリーベース (Tree)、および半減期倍増 (HD) などがあります。

Alibaba のこの論文では、Ring と HD に主な焦点が当てられています。前者は最も広く使用されているアルゴリズムの 1 つであり、後者は本研究の最適化の対象です。

リングアルゴリズムと HD アルゴリズムでは、送信されるデータ量に違いはなく、どちらも 2S です (S はメッセージのサイズ)。通信時間の観点から見ると、リングアルゴリズムでは N-1 ステップの通信が必要ですが、HD アルゴリズムでは log2N ステップしか必要ありません (N は参加ノードの数)。

リングアルゴリズムでは N 個の接続のみが必要ですが、HD アルゴリズムでは N*log2N 個の接続が必要です。 HD アルゴリズムの各ステップでは、N/2 個の接続のみが必要であることに注意してください。

BiGraph トポロジの特性を分析に組み合わせると、BiGraph トポロジの 2 層スイッチ間に N/2 個の物理リンクがあり、HD アルゴリズムの各ステップで N/2 個の接続が必要であることがわかります。

BiGraph トポロジ内の 2 つのスイッチ層間の最短パスの決定論により、HD アルゴリズムの接続と BiGraph トポロジの物理リンクを 1 つずつマッピングして、それらの間のリンク競合を回避し、ネットワーク輻輳の問題を完全に解決することが可能になります。

これを基に、彼らはさらにランクマッピングアルゴリズムを提案しました。これは、HDアルゴリズムの通信接続をBiGraphネットワークの物理リンクに1つずつマッピングし、ネットワークの混雑を回避します。アルゴリズムHalving-Doubling with Rank-Mapping（HDRM）は、Alibabaのカスタマイズされた集合通信ライブラリACCLに実装されています。具体的な手順は次のとおりです。

このようなクラスターのパフォーマンスはどうでしょうか?

EFlops システムのパフォーマンスを評価するために、16 個のノードと合計 64 個の GPU を備えたトレーニングクラスターを導入しました。各ノードは、4 つの Tesla V100-32G GPU と 4 つの ConnectX-5 100Gbps ネットワークカードで構成されています。

ネットワーク環境は、8 台の物理スイッチが 16 台の仮想スイッチに分割され、BiGraph の 2 つのレイヤーに展開される BiGraph トポロジに従って設計されています。

研究チームは、MLPerf の ResNet50 モデルを使用して、指定された精度に達した後に単位時間あたりに処理される画像の数を計算することでクラスターのパフォーマンスを評価しました。

次の図は、システム全体のスループットと単一の GPU の平均スループットを含む、EFlops システムと単一 NIC システムのパフォーマンス比較を示しています。

EFlops システムのパフォーマンスは基本的に線形拡張を達成しているのに対し、単一ネットワークカードシステムの単位スループットは規模とともに明らかに減少していることがわかります。

世界トップクラスの AI コンピューティングシステムと比較すると、EFlops は、より低パフォーマンスのハードウェアリソースを使用しているにもかかわらず、同等のパフォーマンスを示しました (V100-PCIe のパフォーマンスは V100-SXM2 よりも約 10% 低くなります)。

さらに、アリババの内部アプリケーションのパフォーマンス向上も分析しました。 Pailitao 百万カテゴリモデルを例にとると、EFlops システムは通信パフォーマンスを 5.57 倍、エンドツーエンドのパフォーマンスを 34.8% 向上させることができます。

通信量の割合が小さいため、HDRM アルゴリズムにより通信パフォーマンスが 43.5% 向上し、全体のパフォーマンスが 4.3% 向上します。 BERT モデルの場合、通信量は Pailitao 百万カテゴリモデルよりも大幅に多くなっています。HDRM アルゴリズムだけで、通信パフォーマンスが 36%、エンドツーエンドのパフォーマンスが 15.8% 向上します。

研究チームは、システム規模が拡大し続けるにつれて、EFlops のパフォーマンス上の利点が大幅に増加すると予測できると述べています。 64 ノードクラスターの利点を基に、さらに 512 個の GPU を搭載した高性能 AI トレーニングクラスターを構築しました。

予備評価の結果、ImageNet トレーニングセットに基づく Resnet50 モデルでは、EFlops クラスターがほぼ線形のスケーラビリティを維持できることが示されています。

Alibabaインフラストラクチャチームによって構築

EFlops クラスターの作成には、アリババの技術専門家 17 名が参加しました。そのほとんどはアリババのインフラストラクチャチームのメンバーで、Pingtou Ge チームがサポートを提供しました。

論文の筆頭著者は、中国科学院計算技術研究所を卒業し、現在はアリババの上級技術専門家である董建波氏です。論文の責任著者は、アリババDAMOアカデミーの上級研究員であり、平頭閣の主任科学者である謝元氏です。

Xie Yuan 氏は、コンピューティングアーキテクチャとチップ設計の分野の専門家です。彼の研究対象は、コンピューターアーキテクチャ、集積回路設計、電子設計自動化、組み込みシステム設計です。彼は、トップジャーナルやカンファレンスで 300 本以上の論文を発表しています。

IEEE、AAAS、ACMフェローの称号を受賞した後、2月28日には再び国際的な学術栄誉であるIEEE CS 2020技術功績賞を受賞しました。

<<: クールなデュオ: AI が金融テクノロジーの進化にどのように役立つかを示す 6 つのケーススタディ

>>: 14,000元相当のコースノートはオープンソースで、fast.aiの創設者が新しい本のソースコードを公開

ブログ

アリババが自社開発のAIクラスターの詳細を発表：64基のGPU、数百万のカテゴリーのトレーニングを4倍高速化

ビジネスニーズに基づいてAIクラスターアーキテクチャを最適化する

アリババAIクラスターの主要技術

このようなクラスターのパフォーマンスはどうでしょうか?

Alibabaインフラストラクチャチームによって構築

AI と機械学習: 大きなデマか、それとも大きな希望か?

屋台経済は活況を呈している！ロボットも問題を抱えている

Kaggle マスターはどのような言語、フレームワーク、モデルを使用していますか?詳細な統計はこちら

AIアルゴリズム企業パシフィック・フューチャー・テクノロジーの文化観光ソリューションがOCTカラープラネットに上陸

AI顧客サービス指標について話す

中国をターゲットに！米国はドローンや衛星画像を含むAIソフトウェアの輸出を緊急制限

コストを70%削減する秘訣: これらの企業はAIをコスト効率よく活用する方法を見つけました

清華大学と中国人工知能学会が2019年人工知能開発報告書を発表

推薦する

宮崎駿アニメの世界を一筆でスケッチしよう！スタンフォード大学の大型模型「𝘚𝘬𝘦𝘵𝘤𝘩-𝘢-𝘚𝘬𝘦𝘵𝘤𝘩」、スケッチが数秒で傑作に変身

Google AI ビデオがまた大ヒット！オールラウンドなユニバーサルビジュアルエンコーダーであるVideoPrismに30のSOTAパフォーマンスアップデートが実装されました

AIツールは企業にデータ侵害のリスクをもたらす

いいえ！機械学習は単なる美化された統計ではありません。

マイクロソフトのGitHub Copilotサービスは大きな損失を被っていると報じられており、同社は独自のAIチップを開発してNvidiaに対抗する予定だ

ByteDance は給与の大幅調整を行いましたが、これは隠された 20% の給与増額です。ネットユーザー：業界の清流！

旅の途中を突破せよ！ OpenAIが秘密裏に新プラットフォームをテスト

中国における医療用人工知能の現状分析：製品検証から市場検証まで

がん治療のブレークスルー：AIGCの医薬品開発における役割

液体冷却が高性能コンピューティングインフラストラクチャに関連する課題を克服する方法

TCP輻輳制御アルゴリズムについての簡単な説明

9つのディープラーニングアルゴリズムの紹介