オフサイトのコンピューティング能力の使用率が 55% 向上し、オープンソースになりました。「東洋のデータと西洋のコンピューティング」のAIインフラへの対応

AIの波の中で、企業や国を問わず、コンピューティング能力に対する需要は日々高まっています。最近立ち上げられた「East Data West Computing」プロジェクトは、マクロレベルから AI インフラストラクチャを精力的に構築しています。しかし、地理的に離れた場所にあるコンピュータ間の通信遅延は比較的大きく、異なる地域のコンピューティングパワーをどのように調整し、効率的に活用するかが、緊急に取り組む必要がある大きな課題となっています。

「East Data West Computing」プロジェクトレイアウト

同時に、ビッグデータ時代の文脈において、プライバシーデータをいかに保護するかも社会的に話題となっており、国はデータセキュリティとプライバシー保護に関する一連の規制を導入している。

上記の困難に対処するために、オープンソースプロジェクト Sky Computing は、空間異種分散コンピューティングの特性をうまく活用し、ユーザーデータのプライバシーを確保しながら、フェデレーテッドラーニングを最大 55% 高速化できます。

住所：
https://github.com/hpcaitech/SkyComputing

空間異種分散コンピューティング

ディープラーニングの継続的な発展に伴い、モデルのサイズは拡大しています。BERTやGPT-3などの現在の主流モデルには、数億のパラメータがあります。これらのモデルは予測精度とパフォーマンスの向上において大きな進歩を遂げましたが、ストレージとコンピューティングに大きな負担ももたらしました。 AIモデルのトレーニングを高速化するために、通常はスーパーコンピューターなどの同じタイプの高速相互接続されたプロセッサを多数使用する分散型機械学習が誕生しました。

スーパーコンピュータ

空間異種分散コンピューティングでは、さまざまなコンピューティング機能と通信機能を備えたコンピューティングリソースを大規模なクラスターとしてさらに組み合わせて、大規模なコンピューティングタスクを完了します。計算に関係するハードウェアリソースには、大規模なプロフェッショナルコンピューティングサーバーや小型のスマートデバイスなどがあります。現在、異種コンピューティングの新しい形として、空間異種分散コンピューティングがますます注目を集めています。わが国を例に挙げると、「東のデータと西のコンピューティング」作業の実施により、ますます多くのコンピューティングリソースが西側のさまざまな地域に広く分散されるようになります。このようなハイブリッドコンピューティングクラスターをどのように調整して効率的に連携させるかが、高性能コンピューティングアプリケーションの研究のホットスポットにもなります。

近年、クラウドサービスの規模、範囲、対象は継続的に拡大しており、データストレージやデータコンピューティング関連のビジネスをクラウドに展開することを選択する企業がますます増えています。しかし、すべてのサービスをクラウド環境に依存することのデメリットは、データ移行のコストが非常に高いこと、同時にデータのプライバシーと信頼性を保証することが難しいことです。さらに、異なる地域に分散されたクラウドコンピューティングパワー間の通信コストが高いため、それらが効果的に連携して高度なコンピューティングタスクを完了することが困難になります。

クラウドコンピューティング

フェデレーテッドラーニング

Google は、データのプライバシーを保護するために、暗号化された分散機械学習技術であるフェデレーテッドラーニングを 2016 年に提案しました。名前が示すように、仮想「連合」を構築することで、あらゆる規模のデータアイランドを統合します。各データアイランドは、この「連合」における国家のようなもので、ある程度の独立性（企業秘密やユーザーのプライバシーなど）を維持するだけでなく、他の当事者とデータを共有することなく、共同で AI モデルのモデリングやその有効性の向上を行うこともできます。現在、フェデレーテッドラーニングは、Siri、Alexなどの各種音声アシスタントなど、スマート端末のモデルトレーニングに広く使用されています。

フェデレーテッドラーニング

既存の連合学習モデルの並列処理では、モデルは各トレーニングデバイスに均等に分散されます。しかし、前述のように、フェデレーテッドラーニングのトレーニングデバイスは、パフォーマンスの差が大きいユーザーのスマート端末であることが多いため、使用状況が均一に分散されると、通信時間のボトルネックが発生することがよくあります。

ご存知のとおり、樽効果とは、樽に貯められる水の量が、最も短い木材によって決まるというものです。従来の連合学習でも同様の現象が存在します。つまり、トレーニング速度は最も遅いデバイスによって決まります。

たとえば、モデル並列処理を使用した同じ連合学習タスク内のスマートフォンと Raspberry Pi には、同じ量の作業が割り当てられます。しかし、スマートフォンの計算能力は Raspberry Pi をはるかに上回っているため、Raspberry Pi がタスクを完了するまでスマートフォンはアイドル状態のままになります。

バケツ効果

スカイコンピューティング

Sky Computing は、大規模コンピューティングのコンピューティング能力要件を満たすために、負荷分散を通じてさまざまなサイズと機能のクラウドサーバーをインテリジェントに相互接続することで、上記の問題点に対処します。同時に、フェデレーテッドラーニングを通じて、ユーザーデータへのアクセスはクラウドサーバー内でのみ行われるため、データの移行やプライバシーの漏洩を回避できます。

負荷分散

負荷分散の問題を解決するには、まず「負荷」とは何かを理解する必要があります。コンピュータでは、どのような操作を実行する場合でも、本質的には、負荷は「タスクを完了するために必要な時間」として理解できます。フェデレーテッドラーニングでは、モデルのトレーニングに必要な計算の総量は固定されています。したがって、コンピューティングタスクを適応的にインテリジェントに割り当てることができれば、各デバイスがコンピューティングタスクを完了するのにかかる時間が均等になり、全体的なトレーニング時間が最適化されます。適切な割り当て方法を得るには、まずモデルとデバイス関連の情報を取得し、次に実際の適切な割り当て操作を実行する必要があります。したがって、モデルのトレーニングでは、ベンチマークと配布の 2 つの段階に分ける必要があります。

トレーニングプロセス

ベンチマーク

ベンチマーク段階では、Sky Computing はモデルとデバイスの 2 つの次元からデータを収集する必要があります。モデル次元では、モデルの各レイヤーに必要なメモリ使用量と計算量を知る必要があります。モデルの推定メモリフットプリントとデバイスで使用可能なメモリを組み合わせることで、メモリ不足の状況を回避できます。必要な計算が増えるほど、同じデバイスでタスクを完了するのにかかる時間が長くなります。デバイスの次元では、ネットワーク環境や現在の動作負荷などの要因によって影響を受けるデバイスの通信遅延、計算能力、使用可能なメモリを把握する必要があります。強力なコンピューティング能力と良好な通信機能を備えながらも利用可能なメモリが少ないデバイスの場合、メモリがオーバーフローすることなく、できるだけ多くのモデルレイヤー (コンピューティングタスク) を割り当てる必要があります。 Sky Computing は負荷分散型の連合学習システムであるため、ベンチマーク段階ではデバイスの機械学習機能のみを考慮します。各デバイス上で小規模な機械学習テストタスクを実行することで、デバイスの AI 計算能力がテストされます。

全体的なプロセス

配布する

タスクの割り当て方法を決定する際に、数学的分析により、割り当て方法が本質的に NP 困難な混合整数線形計画問題であることが示されます。したがって、多項式時間で最適解を得ることはできません。しかし、モデルのサイズが大きくなり、デバイスの数も増え続けると、最適なソリューションを計算するコストが明らかに許容できないものになります。

したがって、実際の状況では、最適なソリューションを直接計算するのではなく、ヒューリスティックアルゴリズムを使用して近似ソリューションを取得しようとします。 Sky Computing では、2 段階のヒューリスティックアルゴリズムを設計しました。第 1 段階は事前割り当てで、デバイスの実際の使用可能なメモリサイズに応じてモデルを割り当て、各デバイスの実際のワークロードを計算します。第 2 段階は割り当て調整で、デバイスの負荷を動的に調整し、システム全体の負荷を反復的に軽減します。同時に、Sky Computingの優位性を検証するために、比較として最適な割り当ても実験で設定しました。

実装アーキテクチャ

パフォーマンス

クラスター環境では、主要な要因変数を制御し、連合学習 AI タスクの前進時間と後進時間を指標として Sky Computing のパフォーマンスを検証しました。

実験結果

3 つの割り当て方法 (even: 均一割り当て、heuristic: ヒューリスティックアルゴリズム、optimal: 最適割り当て) をテストしました。さまざまな規模のコンピューティングリソースとさまざまなモデルサイズでのパフォーマンスと、各反復を完了するのにかかる時間が記録されます。私たちのヒューリスティックアルゴリズムは、デバイスの数とモデルの深さに応じて非常に優れたパフォーマンスを発揮することがわかります。 64 個のノードと 160 個の隠し層を持つ実験環境では、Sky Computing は現在の均一に割り当てられたモデルと比較して 55% 高速化できます。

実験結果

このうち、最適割り当て計算コストが極めて高いため、ノード数が64個になると計算が難しく、実用には適さないため、小規模な用途での参考値としてのみ用いられます。

オープンソースの共同構築

Sky Computing は、空間異種分散コンピューティングの特性を活用してフェデレーテッドラーニングを加速し、最大 55% のパフォーマンス向上を実現する当社の成功した試みです。このプロジェクトはまだ開発段階ですが、今後はより綿密な実験を行い、実際のアプリケーションにできるだけ早く展開し、動的冗長性などの機能を提供していきます。

論文アドレス: https://arxiv.org/abs/2202.11836

プロジェクトアドレス: https://github.com/hpcaitech/SkyComputing

<<: 写真から3Dモデルを生成、GANとオートエンコーダが衝突して奇跡を起こす

>>: 2022年の展望: 自動化におけるイノベーションと機会