アリババがコアテクノロジーを公開:推論性能が2位より5倍速く、4つの世界選手権で優勝した方法

アリババがコアテクノロジーを公開:推論性能が2位より5倍速く、4つの世界選手権で優勝した方法

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

最近、スタンフォード大学のDAWNBench ImageNetの最新結果が発表された。アリババはグーグル、フェイスブックなどを上回り、4つのリストで世界1位を獲得した。

128 枚のカードを持つ V100 では、ResNet50 のトレーニングにわずか 158 秒しかかからず、トップ 5 の 93% の精度を達成できます。

10,000 枚の画像の検証セットでは、上位 5 つの精度が 93% 以上であり、推論パフォーマンスは 2 位よりも 5 倍以上高速です。

トレーニングのパフォーマンスとコストであれ、推論のパフォーマンスとコストであれ、アリババが異種コンピューティングの分野で世界クラスの AI ソフトウェアとハ​​ードウェアの統合と究極のパフォーマンス最適化能力を備えていることを反映していると言えます。

アリババはどうやってそれを実現したのでしょうか? 4 度の優勝を誇る Alibaba Cloud Heterogeneous Computing チームが、その背後にある技術的な秘密を共有しました。

[[321937]]

これはどういう結果でしょうか?

スタンフォードの DAWNBench は、エンドツーエンドのディープラーニング モデルのトレーニングと推論パフォーマンスのベンチマーク プラットフォームです。2017 年の NIPS カンファレンスでスタンフォード大学によってリリースされ、それ以来、業界から幅広い支持を受けています。

Google、Facebook、VMWAREなど世界的に有名な企業が続々と参加しています。 DAWNBench は、人工知能の分野で最も影響力と権威のあるランキングの 1 つになりました。

AI コンピューティングにとって最も重要な 2 つの指標は、パフォーマンスとコストです。最新の結果は、トレーニングと推論の分野におけるハードウェアとソフトウェアの統合における Alibaba Cloud の世界クラスのパフォーマンス最適化機能を実証しました。

Alibaba CloudヘテロジニアスコンピューティングAIアクセラレーションチームは、最も重要な武器はAlibaba Cloudが自社開発したFeiTian AIアクセラレーションエンジンAIACC、Alibaba Cloudが自社開発したチップHanguang 800(略称AliNPU)、そしてAlibaba Cloudのヘテロジニアスコンピューティングクラウドサービスであると明らかにした。

AIACC は Alibaba Cloud が独自に開発した AI アクセラレーション エンジンです。Tensorflow、PyTorch、MxNet、Caffe、Kaldi などの主流の AI コンピューティング フレームワークを均一に高速化する業界初のアクセラレーション エンジンです。トレーニング アクセラレーション エンジン AIACC-Training と推論アクセラレーション エンジン AIACC-Inference が含まれています。

トレーニング加速エンジンは、分散ネットワークのパフォーマンスを最適化し、分散ネットワークの通信機能を最大限に活用できるようにします。推論加速エンジンは、Alibaba Cloudの異種コンピューティングクラウドサービス(GPUクラウドサービスとNPUクラウドサービスを含む)をターゲットにした詳細なパフォーマンス最適化を行い、異種アクセラレーションデバイスのコンピューティングパワーを最大限に活用できるようにします。

NVidia GPU を例にとると、業界最速の推論エンジンは TensorRT であり、AIACC-Inference の計算性能は TensorRT の 1.5 ~ 2.5 倍の性能加速比を実現できます。

Hanguang 800は、アリババ初の自社開発AIチップであり、世界で最も強力なAI推論チップでもあります。主にクラウドベースの視覚処理シナリオで使用されます。その性能は既存のAIチップの記録を破り、その性能とエネルギー効率は世界最高です。

業界標準のResNet-50テストでは、Hanguang 800の推論性能は78,563 IPSに達し、業界最高のAIチップの4倍に達しました。エネルギー効率比は500 IPS/Wで、2位の3.3倍です。AIACC-Inferenceは、Hanguang 800の超高コンピューティングパワーも十分に活用できます。これは、Alibaba Cloudのソフトウェアとハ​​ードウェアを統合した究極のパフォーマンス最適化のモデルです。

Alibaba Cloud の異種コンピューティング クラウド サービスは、GPU、FPGA、NPU などの異種コンピューティング デバイスを統合し、クラウド コンピューティング サービスを通じて顧客に異種コンピューティング サービスを提供します。

人工知能の台頭に伴い、ますます多くの AI コンピューティングがヘテロジニアス コンピューティングを使用してパフォーマンスの高速化を実現しています。Alibaba Cloud のヘテロジニアス コンピューティング サービスは、クラウド上の最も豊富な高速化インスタンス上に構築されています。AIACC のコンピューティング パワーの向上により、AI コンピューティングに、ユニバーサルで弾力性があり、アクセスしやすい高速コンピューティング クラウド サービスを提供します。

ImageNet 上の ResNet50 のトレーニング記録を更新する

画像認識の分野では、ImageNet 上での ResNet50 のトレーニングが最も代表的なシナリオです。

最新の公開リストでは、AIACC-Training はこのシナリオでパフォーマンスとコストの両方で世界第 1 位にランクされており、AIACC が分散トレーニングの分野で国際的にトップレベルにあり、必要なコンピューティング コストを削減しながらユーザーがトレーニング パフォーマンスを向上できるように支援できることが実証されています。

トレーニング パフォーマンス リストの新しい世界記録。128 個の V100 (16 個の異種コンピューティング クラウド サービス インスタンス ecs.gn6e-c12g1.24xlarge) のクラスターで実行され、32G VPC のネットワーク通信を使用して、2 分 38 秒で ResNet50 をトップ 5 の精度 93% までトレーニングしました。

前回の世界記録で使用されたクラスタサイズも128台のV100で、ネットワーク通信は100GのInfiniBandネットワークであり、今回世界記録を破った32GのVPCの3倍の帯域幅となっている。異種コンピューティング クラウド サービスの典型的なネットワーク構成は、帯域幅 32 Gbps の VPC ネットワークです。エンドユーザーのシナリオに近づくために、Alibaba は VPC ネットワークを選択しました。

32G VPC ネットワークとネットワーク物理帯域幅のこれまでの世界記録との間の大きなギャップは、チームにとって大きな課題でした。私たちは、2 つの主要な方向で徹底的な最適化を行いました。

最初の方向性は、モデル自体を最適化し、ハイパーパラメータを調整し、オプティマイザーを改善して、93% の精度を達成するために必要な反復回数を減らし、同時に単一のマシンのパフォーマンスを向上させることです。

2 つ目の方向性は、分散パフォーマンスの最適化です。当社チームが開発した FeiTian AI アクセラレーション エンジン AIACC-Training (旧 Ali-Perseus-Training) を分散通信ライブラリとして使用し、32G VPC の潜在能力を最大限に活用します。

最終的に、2 つの方向への極端な最適化が重ね合わされ、一見不可能と思われたパフォーマンスの壁を克服し、より低いネットワーク帯域幅で新たな世界記録を樹立しました。

同時に、分散トレーニングの展開自体が複雑であるため、効率を向上させ、外部ユーザーが結果を再現しやすくするために、アリババチームは以前に開発したインスタントビルドツールFastGPUを使用して、クラスターの作成と分散トレーニングのスケジュール設定をスクリプト形式で完了しました。これはワンクリックで開始でき、最適化作業の効率を大幅に向上させます。

将来的には、AIACC ベースのベンチマーク コードをオープンソース化し、外部ユーザーがワンクリックで結果を再現できるようにする予定です。

分散トレーニングの分野は近年急速に発展しており、選択できるソリューションも数多くあります。Tensorflow の場合、フレームワーク自体が PS モードと Ring allreduce スタイルの分散通信をサポートしており、サードパーティのサポートとしては Horovod などがあります。

ResNet50 の分散トレーニングの場合、オープンソース ソリューションの中では Horovod が依然として最適なソリューションです。そのため、Alibaba は Horovod を比較の基準として使用しています。

分散トレーニングの論理ブロック図を次の図に示します。

最小の計算ノードは単一の GPU カードです。各計算ノードは、データセット全体からデータの一部をこのノードのトレーニング データとして分割し、順方向計算と逆方向計算を開始します。逆方向計算が完了すると、現在のバッチによって生成された勾配が取得されます。

次に、パラメータを更新する前に、勾配をクラスター全体で通信する必要があります。 Horovod API は、勾配が更新される前に、マルチノード通信プロセスをオプティマイザーに挿入します。

AIACC トレーニング

AIACC-Training は、Alibaba Cloud が独自に開発したディープラーニング分散トレーニング通信エンジンで、Tensorflow、PyTorch、MxNet、Caffe をサポートし、IaaS レベルでオープンソースと統合および互換性のあるアクセラレーション ライブラリを提供します。

現在、多くのAIおよびインターネットのお客様が本番環境に大量に導入・使用しており、異機種コンピューティング製品のコスト効率が大幅に向上し、ソフトウェアレベルから差別化されたコンピューティングサービスをお客様に提供しています。アーキテクチャを下図に示します。

AIACC-Training は、この Dawnbench レコードの分散バックエンドとして重要な役割を果たしました。以下は、AIACC トレーニングの背後にある分散最適化の詳細な分析です。

分散型勾配交渉

分散パフォーマンスの鍵は、この通信リンクの効率をいかに最適化するかです。ResNet50の場合、約170個の勾配データを通信する必要があり、総通信量は約50MBになります。

これらの勾配が生成されるタイミングは、計算グラフ内のそれぞれの位置によって異なります。依存関係を持つ計算グラフの勾配によって、これらの勾配が計算される順序が決まります。

計算グラフ内の互いに完全に独立した演算子の場合、各計算のタイミングにはある程度のランダム性があります。マルチノード通信で解決すべき最初の問題は、勾配の同期順序をネゴシエートすることです。

Horovod で使用されている方法は、ノード 0 を中心として、他のすべてのノードとポイントツーポイントで通信し、すべてのノードで準備されている勾配を決定します。次に、ノード 0 は、これらの準備された勾配で通信する方法を決定します。最後に、通信戦略がポイントツーポイントで他の各ノードに送信され、通信戦略に従ってマルチマシン通信が開始されます。

このポイントツーポイントのネゴシエーション戦略では、128 個のノードを持つノード 0 のローカル ホットスポットが作成され、256 回の通信が必要になります。 AIACC-Training では、この中央ノード ネゴシエーション モードを廃止し、代わりに 128 個のノード間でネゴシエートする分散型アプローチを採用しました。128 個のノードは実際には 16 個のインスタンスに分散されているため、最適化によってこのトポロジを簡単に識別でき、単一の GPU カードで 256 個の通信ホットスポットが生成されなくなります。

ほとんどの場合、複数の勾配が準備されていることを考慮すると、この最適化では複数の勾配を同時にネゴシエートすることもできるため、ネゴシエーションの通信量は実際に約 1 桁削減されます。

細粒度勾配融合

勾配ネゴシエーションの後、すべてのノードは現時点で通信できる勾配を認識します。次の最適化問題は、任意の数の勾配を収集した後すぐにすべての勾配を通信するか、より最適化された組み合わせを選択して通信するかです。

ここでの決定的な結論は、単一の勾配の通信効率は常に非常に低いということです。複数の勾配を融合し、融合後により大きな粒度で通信する必要があります。

AIACC トレーニングでは、きめ細かな融合戦略を導入しています。通信リンクの現在の通信状態を動的に分析し、過度の差異を回避するために、よりバランスの取れた融合戦略を選択します。

これにより、各通信の粒度が可能な限り均一になり、大きな変動の可能性が低減されます。この融合戦略はネットワーク モデルごとに最適値が異なるため、このパラメータを動的に調整して最適な融合粒度を見つける自動最適化機能を実装しました。

非同期マルチストリーム通信

基盤となる通信ライブラリは、GPU 間のデータ通信に依然として NCCL を使用しています。NCCL プログラミング モデルは、通信に単一の通信ストリームのみをサポートしており、単一の通信ストリームの効率は非常に低くなっています。単一のストリームの転送容量は、多くの場合、約 10G bps にしか達しません。

AIACC-Training は、より高い通信エンジン レベルからの複数のストリームをサポートします。勾配通信用に複数の通信ストリームを割り当てます。各ストリームは、分割された特定の融合勾配を提供します。後続の分割の融合粒度は、現在の分割の融合勾配に依存しません。

そのため、複数のストリーム間の通信が完全に非同期であっても、複数のストリーム間の速度が不均一であっても、全体の効率に重大な影響を与えることはありません。規模が拡大しても、最適なネットワーク帯域幅の使用率をよりよく維持できます。

融合粒度と同様に、分割ストリームの数もトレーニング モデルと現在の実際のネットワーク帯域幅と高い相関関係にあるため、オフラインで最適な設定を行うことは不可能です。

通信フローの数を自動チューニングプロセスに組み込む自動チューニングメカニズムを設計しました。融合粒度と分割フローの数を組み合わせて、最適なパラメータの組み合わせを自動的にチューニングします。

モデルの最適化

アルゴリズム レベルでの最適化は、主にデータ、モデル、ハイパーパラメータ、オプティマイザーの 4 つの側面に分けられます。

データに関しては、マルチ解像度画像のプログレッシブトレーニングを採用しました。この方法は、初期段階で低解像度の画像を使用することで前方および後方の計算速度を大幅に向上できるだけでなく、トレーニングと推論中に異なるサイズを使用することによって発生する精度の低下を弱めることもできます。

モデルに関しては、最近のネットワークバリアントの利点を取り入れ、最新の研究に基づいて BatchNorm に若干の調整を加えました。

私たちはハイパーパラメータに関して多くの調査を行ってきました。たとえば、学習率の減衰では、非常に一般的なステップ減衰やコサイン減衰は使用せず、より直接的な線形減衰を採用しました。さらに、ウォームアップステップの数が非常に重要であることもわかりました。

オプティマイザーに関しては、SGD の一般化の利点と適応型オプティマイザーの高速収束を吸収しながらオプティマイザー ソリューションを再設計し、改良されたオプティマイザーのトレーニングをより高速かつ正確にしました。

上記の最適化作業に基づいて、28 エポック、合計 1159 回の反復でトレーニングを完了し、トップ 5 の精度要件である 93% を達成しました。一方、元のトレーニングでは、同じ精度を達成するのに 90 エポックが必要でした。

パフォーマンス結果

上記のパフォーマンス最適化をすべて組み合わせることで、128 枚のカードの V100 で 158 秒以内にトップ 5 の 93% の精度を達成し、新しい世界記録を樹立しました。

推論性能記録を更新:2位より5倍以上速い

推論プロジェクトでは、DawnBench コンペティションでは、推論フレームワークが ImageNet の 10,000 枚の画像の検証セットで画像を分類する必要があり、分類モデルの上位 5 つの精度が 93% 以上である必要があります。

バッチサイズ=1の設定で、画像ごとに推論の平均時間と平均コストを計算します。これまでのパフォーマンス記録では、平均推論時間は 1 ミリ秒未満であり、これは人間の視覚の反応速度をはるかに超えています。

最新の公開リストでは、異種コンピューティングに基づく当社の AliNPU クラウド サービス インスタンス (ecs.ebman1.26xlarge) が推論パフォーマンス プロジェクトで 1 位を獲得し、2 位よりも 5 倍以上高速でした。

同時に、以前提出された推論コスト1位の結果(異種コンピューティングGPUクラウドサービスインスタンスecs.gn6i-c8g1.2xlargeベース)は現在まで上回られていないため、パフォーマンスとコストの両方で1位を獲得しています。

AIACC推論

当社は、お客様にサービスを提供して DawnBench で 1 位になることを目指しながら、異種コンピューティング サービスのシナリオにおける推論最適化技術を絶えず磨いています。当社は、TensorFlow、PyTorch、MXNet、Kaldi などの主流の AI フレームワークにおけるモデル最適化の問題を解決できるように、お客様の実際のニーズに基づいて AIACC-Inference モデル アクセラレーション エンジンを開発しました。

最適化方法は、モデルの計算グラフを分析し、その中の計算ノードを融合し、モデル内の計算ノードの数を減らし、計算グラフの実行効率を向上させることを含む。

また、FP32、FP16、および Int8 精度のモデル最適化オプションも提供しており、複数の精度で最適化されたモデルを生成できます。FP16 および Int8 精度モデルは、NVIDIA Volta および Turing アーキテクチャの Tensor コア ハードウェア サポートを活用して、V100 および T4 GPU カードでのモデル推論のパフォーマンスをさらに向上させることができます。

現在、AIACC-Inference は、一般的に使用される画像分類やオブ​​ジェクト検出モデルだけでなく、Bert や StyleGAN などの NLP モデルや GAN ネットワーク モデルもサポートしています。

さらに、1x1、3x3、7x7 畳み込みカーネルを徹底的に最適化し、AIACC-Inference に新しい演算融合メカニズムを追加することで、業界最速の TensorRT の 1.5 ~ 2.5 倍のパフォーマンス加速比を実現できます。

モデルとフレームワークの最適化

最後に提出したバージョンでは、ベースモデルをより合理化された ResNet26d に置き換え、トレンドを生み出しました。

今回、モデルの精度をさらに向上させ、モデルを合理化するために、ハイパーパラメータを調整し、より多くのデータ強化手法を導入しました。 AugMix、JSD loss、RandAugment を組み合わせて使用​​することで、ResNet26d モデルの精度が 93.3% に向上し、0.13% 以上の精度向上が達成されました。

Hanguang 800 (AliNPU) に基づく最適化

AliNPU のアーキテクチャ上の特徴に基づいて推論エンジンを最適化しました。 AliNPU は、データのアップロードとダウンロードの保存形式として uint8 を使用します。

そのため、エンジンに入る前と後に量子化と逆量子化の操作を挿入してデータを復元する必要があります。しかし、これらの操作はCPU上で実行され、AliNPUで高速化することはできず、推論時間の大部分を占めます。これらの操作を前処理と後処理で実行することで、推論遅延を0.117msに短縮できます。

私たちが使用する推論モデルは比較的小さいことを考慮すると、経験的な GPU 帯域幅 4GB/秒によれば、画像を入力するときに 147KB のデータを AliNPU にアップロードするのに 0.03 ミリ秒かかります。そのため、フレームワークにプリロード メカニズムを導入してデータを AliNPU にプリフェッチし、平均推論レイテンシをさらに 0.0739 ミリ秒に短縮しました。

<<:  Zoomに狂った外国人がビデオ会議ロボットを開発、同僚たちはすでに大笑い

>>:  ロボティック プロセス オートメーション (RPA): 6 つのオープン ソース ツール

ブログ    
ブログ    

推薦する

...

業界大手がIoTとAIを成功裏に導入するための3つのステップ

変化は避けられませんが、人間はそれに抵抗する傾向があります。エリザベス1世女王は、編み機の発明によっ...

GitHub のネイティブ AI コード生成ツール Copilot が Visual Studio 2022 を正式にサポート

現在、Microsoft、OpenAI、GitHub が共同で作成した AI プログラミング支援ツー...

人工知能がその地位を占める中、あなたは仕事を続けることができるでしょうか?

産業革命の重機からデジタルコンピュータ時代、さらに最近では人工知能の急速な発展に至るまで、技術の進歩...

Baidu の最新の IDL 成果: 自然言語から始めて、AI エージェントに人間のように学習することを教える

AI は驚異的な進歩を遂げていますが、多くの分野ではまだ限界があります。たとえば、コンピューター ゲ...

...

杭州市の100以上の交差点で無人信号制御が実現し、杭州シティブレイン1.0が正式にリリースされました

10月11日、アリババは2017年杭州雲奇大会で、人類のテクノロジーの未来を探求する実験室「大墨学院...

神よ、AIロボットは人間よりも優れた政治家になれると信じますか?

[[186489]]昨年、アルファ碁がイ・セドルに勝利して以来、人工知能は国民の間で話題となってい...

...

マイクロソフトの面接アルゴリズムに関する 4 つの質問

(1)要素が0から65535までの任意の数値であり、同じ値が繰り返し出現しない整数列。 0 は例外で...

ABIリサーチ:ドローン市場は2030年までに920億ドル規模に

ABIリサーチは、ドローン市場は今後10年間で大きく成長し、2030年までに920億ドルの価値に達す...

...

ElevenLabs、元の話し手の声と感情を維持するAI翻訳吹き替え機能を発表

AIテキスト読み上げ会社ElevenLabsは10月11日、火曜日にAI Dubbingを発表した。...

WOT + ヒーローズ ギャザリング、2018 年に技術者が見逃せないお祭り

現在、デジタル変革の潮流に直面し、ビッグデータ、クラウドコンピューティング、ブロックチェーン、Dev...

ディープフェイクが流行中!誰かがこれを使ってロシアの野党の人物を真似し、ズームで欧州の国会議員を「からかう」

[[399266]]ビッグデータダイジェスト制作著者: 王 イエ最近、欧州の一部の上級議員は困惑し...