アリババが自社開発のAIクラスターの詳細を発表:64基のGPU、数百万のカテゴリーのトレーニングを4倍高速化

アリババが自社開発のAIクラスターの詳細を発表:64基のGPU、数百万のカテゴリーのトレーニングを4倍高速化

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

アリババは、ノードアーキテクチャからネットワークアーキテクチャ、通信アルゴリズムに至るまで、自社開発した高性能AIクラスターの技術的な詳細に関する論文を書き、公開しました。

この論文は「EFLOPS: 高性能分散トレーニング プラットフォームのためのアルゴリズムとシステムの共同設計」と題され、コンピューター アーキテクチャに関するトップ カンファレンスである HPCA 2020 に掲載されました。アリババは中国で唯一、論文を収集した企業だ。論文の著者の一人であり、アリババの上級技術専門家である江暁偉氏が、会議で論文の内容を共有した。

AIクラスターの技術的な詳細を実演するだけでなく、それがアリババの社内業務やアルゴリズムにどのように価値をもたらすかについても紹介しました。このクラスターは、アリババの人工知能ビジネスのモデルトレーニングを提供するために、アリババコンピューティングプラットフォームの人工知能トレーニングプラットフォーム(PAI)に適用されています。

Pailitaoの100万カテゴリモデルのトレーニング速度を4倍に高め、初めて数千万の分類モデルのトレーニングをサポートし、Alibabaの翻訳モデルの精度を向上させながら、トレーニング時間を100時間から12時間に短縮できます。

さらに、世界トップクラスの AI コンピューティング システムと比較すると、アリババの AI クラスターはパフォーマンスの低いハードウェア リソースを使用しているにもかかわらず、同等のパフォーマンスを発揮しています。

アリババが高性能AIクラスターの性能を公開するのは今回が初めてですが、具体的な内容を教えてください。 Alibaba Research Team の解釈に基づいて、一つずつ見ていきましょう。

ビジネスニーズに基づいてAIクラスターアーキテクチャを最適化する

ディープニューラルネットワークの技術的進歩により、AIアルゴリズムモデル、トレーニングフレームワーク、基盤となるアクセラレータ設計など、AI周辺の技術研究がますます注目を集めており、その応用範囲はますます広がり、社会生活のあらゆる側面に実装されています。

「しかし、クラスターアーキテクチャの観点からAIビジネスと従来のビッグデータ処理ビジネスの運用モードの違いや、AIクラスターのアーキテクチャ設計をどのように最適化すべきかを検討した人はほとんどいない」とアリババ研究チームは述べた。

AI事業はデータの並列性が強いものの、ビッグデータ処理事業や高性能コンピューティング事業とは特性が明らかに異なると彼らは考えています。主な違いは 2 つあります。

まず、AI サービスのサブタスクは独立性が低く、勾配同期を実現するために定期的に通信する必要があります。次に、AI サービスの動作は加速コンポーネントを中心に行われ、加速コンポーネント間の直接通信の同時実行性は従来のサーバーに比べて大幅に高くなります。

そのため、従来のデータセンターのサーバー アーキテクチャとネットワーク アーキテクチャ上で AI サービスを実行する場合、多くの深刻な問題が発生します。

具体的には、サーバー アーキテクチャの問題は、主に、リソース割り当ての不均衡によって引き起こされる輻輳の問題と、PCIe リンクの QoS の問題です。

一般的に、従来のサーバーにはノード間通信用のネットワーク カードが搭載されており、AI サービスをサポートするために複数の GPU が構成されています。

しかし、AI トレーニングでは、GPU 間の勾配の同期が必要になることがよくあります。複数の GPU が同時にネットワークにアクセスすると、1 つのネットワーク カードがシステムのボトルネックになります。

さらに、PCIe リンク上の帯域幅の割り当てはパスの長さと密接に関係しています。パスが長いほど帯域幅の割り当てが低くなり、ソケット間通信の問題がより深刻になります。

ネットワーク アーキテクチャの問題は、主に AI トレーニングにおける同期通信によって引き起こされるショート ボード効果にあります。ネットワークの輻輳は非常に一般的な問題であり、関連する研究は何十年にもわたって行われてきました。

しかし、輻輳制御アルゴリズムの最終的な目標は、衝突する 2 つのフローの速度を制限し、できるだけ早く物理帯域幅を均等に共有できるようにすることです。AI トレーニング クラスターの通信効率の問題を解決することはできません。

AI ビジネス通信は同期的であるため、各通信トランザクションの最終的なパフォーマンスは、最も遅い接続によって決まります。帯域幅を均等に分割すると、トランザクションの完了時間が指数関数的に増加し、AI 通信のパフォーマンスに重大な影響を与えます。

これを踏まえて、アリババはAI事業向けに独自の高性能AIクラスターを開発することを決定した。

アリババAIクラスターの主要技術

アリババが自社開発した高性能 AI クラスターは EFlops と呼ばれ、ネットワーク化された異種コンピューティング サーバー アーキテクチャ、高度にスケーラブルなネットワーク アーキテクチャ、システム アーキテクチャと連携する高性能通信ライブラリという 3 つの主要テクノロジーを備えています。

ネットワーク カード上のデータ輻輳を回避するために、各 GPU に他の GPU と通信するための専用のネットワーク カードが提供されます。

さらに、Top-of-Server 設計コンセプトに基づいて、ノード内のアクセラレータ間の通信がノードの外部にエクスポートされ、成熟した Ethernet QoS メカニズムを使用して、輻輳したトラフィック間の公平性が確保されます。

研究チームは、アクセラレータ チップの計算能力が急速に向上するにつれて、通信パフォーマンスに対する要求が高まり、このマルチ NIC ネットワーク異種コンピューティング サーバー アーキテクチャがすぐに主流になると考えています。

ネットワーク アーキテクチャ レベルでは、EFlops は、ネットワークの 2 つの層の間に豊富なリンク リソースを提供し、層間ルーティングの制御可能性を実現する BiGraph ネットワーク トポロジを設計しました。

彼らは、マルチ NIC サーバー構造と組み合わせて、EFlops プロジェクトで BiGraph ネットワーク トポロジを提案しました。これは、従来の Fat-tree トポロジと類似していますが、根本的な違いもあります。

Fat-tree トポロジと同様に、ネットワークを 2 つの部分 (上部と下部) に分割し、2 層 Fat-tree トポロジのスパイン スイッチとリーフ スイッチのように、Clos アーキテクチャを通じて相互接続します。

Fat-tree とは異なり、両方のスイッチ上のコンピューティング サーバーに直接アクセスできます。つまり、各スイッチは Fat-tree トポロジでスパインとリーフの役割を果たし、最大ホップ数は 3 です。

また、BiGraph トポロジに 2 つの重要な機能が追加されました。

一方、2 つのスイッチ層間には豊富な物理リンク リソースが提供されます。 N 台のコンピューティング サーバーを備えたシステムでは、2 つのスイッチ層間に少なくとも N/2 個の物理リンクが存在します。一方、異なるレベルに接続された任意の 2 つのコンピューティング サーバー間の最短パスは一意です。

したがって、この機能を最大限に活用して、通信ライブラリまたはさらに高いレベルでサーバー間通信パターンを管理できます。たとえば、接続を確立するときに、適切な送信元サーバーと宛先サーバーが選択され、ネットワーク上のパスの選択が制御されます。

これを明確にするために、データ並列トレーニング シナリオで最も重要な集合通信操作である Allreduce という新しい概念を導入する必要があります。

その中で、一般的に使用される通信アルゴリズムには、リングベース (Ring)、ツリーベース (Tree)、および半減期倍増 (HD) などがあります。

Alibaba のこの論文では、Ring と HD に主な焦点が当てられています。前者は最も広く使用されているアルゴリズムの 1 つであり、後者は本研究の最適化の対象です。

リング アルゴリズムと HD アルゴリズムでは、送信されるデータ量に違いはなく、どちらも 2S です (S はメッセージのサイズ)。通信時間の観点から見ると、リング アルゴリズムでは N-1 ステップの通信が必要ですが、HD アルゴリズムでは log2N ステップしか必要ありません (N は参加ノードの数)。

リング アルゴリズムでは N 個の接続のみが必要ですが、HD アルゴリズムでは N*log2N 個の接続が必要です。 HD アルゴリズムの各ステップでは、N/2 個の接続のみが必要であることに注意してください。

BiGraph トポロジの特性を分析に組み合わせると、BiGraph トポロジの 2 層スイッチ間に N/2 個の物理リンクがあり、HD アルゴリズムの各ステップで N/2 個の接続が必要であることがわかります。

BiGraph トポロジ内の 2 つのスイッチ層間の最短パスの決定論により、HD アルゴリズムの接続と BiGraph トポロジの物理リンクを 1 つずつマッピングして、それらの間のリンク競合を回避し、ネットワーク輻輳の問題を完全に解決することが可能になります。

これを基に、彼らはさらにランクマッピングアルゴリズムを提案しました。これは、HDアルゴリズムの通信接続をBiGraphネットワークの物理リンクに1つずつマッピングし、ネットワークの混雑を回避します。アルゴリズムHalving-Doubling with Rank-Mapping(HDRM)は、Alibabaのカスタマイズされた集合通信ライブラリACCLに実装されています。具体的な手順は次のとおりです。

このようなクラスターのパフォーマンスはどうでしょうか?

EFlops システムのパフォーマンスを評価するために、16 個のノードと合計 64 個の GPU を備えたトレーニング クラスターを導入しました。各ノードは、4 つの Tesla V100-32G GPU と 4 つの ConnectX-5 100Gbps ネットワーク カードで構成されています。

ネットワーク環境は、8 台の物理スイッチが 16 台の仮想スイッチに分割され、BiGraph の 2 つのレイヤーに展開される BiGraph トポロジに従って設計されています。

研究チームは、MLPerf の ResNet50 モデルを使用して、指定された精度に達した後に単位時間あたりに処理される画像の数を計算することでクラスターのパフォーマンスを評価しました。

次の図は、システム全体のスループットと単一の GPU の平均スループットを含む、EFlops システムと単一 NIC システムのパフォーマンス比較を示しています。

EFlops システムのパフォーマンスは基本的に線形拡張を達成しているのに対し、単一ネットワーク カード システムの単位スループットは規模とともに明らかに減少していることがわかります。

世界トップクラスの AI コンピューティング システムと比較すると、EFlops は、より低パフォーマンスのハードウェア リソースを使用しているにもかかわらず、同等のパフォーマンスを示しました (V100-PCIe のパフォーマンスは V100-SXM2 よりも約 10% 低くなります)。

さらに、アリババの内部アプリケーションのパフォーマンス向上も分析しました。 Pailitao 百万カテゴリモデルを例にとると、EFlops システムは通信パフォーマンスを 5.57 倍、エンドツーエンドのパフォーマンスを 34.8% 向上させることができます。

通信量の割合が小さいため、HDRM アルゴリズムにより通信パフォーマンスが 43.5% 向上し、全体のパフォーマンスが 4.3% 向上します。 BERT モデルの場合、通信量は Pailitao 百万カテゴリ モデルよりも大幅に多くなっています。HDRM アルゴリズムだけで、通信パフォーマンスが 36%、エンドツーエンドのパフォーマンスが 15.8% 向上します。

研究チームは、システム規模が拡大し続けるにつれて、EFlops のパフォーマンス上の利点が大幅に増加すると予測できると述べています。 64 ノード クラスターの利点を基に、さらに 512 個の GPU を搭載した高性能 AI トレーニング クラスターを構築しました。

予備評価の結果、ImageNet トレーニング セットに基づく Resnet50 モデルでは、EFlops クラスターがほぼ線形のスケーラビリティを維持できることが示されています。

Alibabaインフラストラクチャチームによって構築

EFlops クラスターの作成には、アリババの技術専門家 17 名が参加しました。そのほとんどはアリババのインフラストラクチャ チームのメンバーで、Pingtou Ge チームがサポートを提供しました。

論文の筆頭著者は、中国科学院計算技術研究所を卒業し、現在はアリババの上級技術専門家である董建波氏です。論文の責任著者は、アリババDAMOアカデミーの上級研究員であり、平頭閣の主任科学者である謝元氏です。

Xie Yuan 氏は、コンピューティング アーキテクチャとチップ設計の分野の専門家です。彼の研究対象は、コンピューター アーキテクチャ、集積回路設計、電子設計自動化、組み込みシステム設計です。彼は、トップ ジャーナルやカンファレンスで 300 本以上の論文を発表しています。

IEEE、AAAS、ACMフェローの称号を受賞した後、2月28日には再び国際的な学術栄誉であるIEEE CS 2020技術功績賞を受賞しました。

<<:  クールなデュオ: AI が金融テクノロジーの進化にどのように役立つかを示す 6 つのケース スタディ

>>:  14,000元相当のコースノートはオープンソースで、fast.aiの創設者が新しい本のソースコードを公開

ブログ    
ブログ    

推薦する

アマゾンとファーウェイの機械学習面接を経験すると、試験官はこれらの答えを聞きたがっていることが判明

[[245589]]ジョージ・セイフ氏はこれまで、主にデータサイエンスや機械学習関連の職種を対象に、...

...

GPT-4 コードインタープリターのベンチマーク! CUHKはモデルに数学の問題を解くコードを書かせ、そのスコアはGPT-4を上回る

GPT-4 コードインタープリターをベンチマークし、CUHK の最新の研究では「大きな動き」が発表さ...

実稼働機械学習システムの構築に関する考慮事項

データとコンピューティング能力の向上に伴い、「機械学習」(ML)と「ディープラーニング」という用語は...

スマートビルディングテクノロジーを導入する前に考慮すべき7つのこと

スマートビルディングの設備やシステムを評価する際には、体系的なアプローチを取る必要があります。これら...

...

データと人工知能の整合性をどのように確保するか?

2022 年、データと AI はデジタル革命の新たな章の基盤を築き、ますます多くのグローバル企業に...

...

英国は「国家AI研究リソース」としてGPUを購入するために1億3000万ドルを費やす計画だと報じられている。

8月21日、英国のリシ・スナック首相は、世界的なコンピューティング能力の競争に追いつくために、1億...

ディープラーニングにおける PyTorch と NumPy 間のデータ変換についてどれくらい知っていますか?

ディープラーニングでは、PyTorch と NumPy はデータの処理と変換によく使用される 2 つ...

ディープラーニングによる画像セグメンテーション:手法と応用

人工知能とディープラーニング手法に基づく現代のコンピュータービジョン技術は、過去 10 年間で目覚ま...

AGI は 1 年以内に登場しますが、人類には 5 年しかありませんか?

OpenAIは今年初めにSoraを発表し、世界中に衝撃を与えた。数年前まではまだ、この大柄なモデル...

...

ボストン・ダイナミクスのロボット犬がチャットできるようになりました! ChatGPTは機知に富んだ会話をサポートします

すごいですね、ボストン・ダイナミクスのロボット犬が直接話せるようになりました。そして、Siriの「人...