オフサイトのコンピューティング能力の使用率が 55% 向上し、オープンソースになりました。 「東洋のデータと西洋のコンピューティング」のAIインフラへの対応

オフサイトのコンピューティング能力の使用率が 55% 向上し、オープンソースになりました。 「東洋のデータと西洋のコンピューティング」のAIインフラへの対応

AIの波の中で、企業や国を問わず、コンピューティング能力に対する需要は日々高まっています。最近立ち上げられた「East Data West Computing」プロジェクトは、マクロレベルから AI インフラストラクチャを精力的に構築しています。しかし、地理的に離れた場所にあるコンピュータ間の通信遅延は比較的大きく、異なる地域のコンピューティングパワーをどのように調整し、効率的に活用するかが、緊急に取り組む必要がある大きな課題となっています。

「East Data West Computing」プロジェクトレイアウト

同時に、ビッグデータ時代の文脈において、プライバシーデータをいかに保護するかも社会的に話題となっており、国はデータセキュリティとプライバシー保護に関する一連の規制を導入している。

上記の困難に対処するために、オープンソース プロジェクト Sky Computing は、空間異種分散コンピューティングの特性をうまく活用し、ユーザー データのプライバシーを確​​保しながら、フェデレーテッド ラーニングを最大 55% 高速化できます

住所:

https://github.com/hpcaitech/SkyComputing

空間異種分散コンピューティング

ディープラーニングの継続的な発展に伴い、モデルのサイズは拡大しています。BERTやGPT-3などの現在の主流モデルには、数億のパラメータがあります。これらのモデルは予測精度とパフォーマンスの向上において大きな進歩を遂げましたが、ストレージとコンピューティングに大きな負担ももたらしました。 AIモデルのトレーニングを高速化するために、通常はスーパーコンピューターなどの同じタイプの高速相互接続されたプロセッサを多数使用する分散型機械学習が誕生しました。

スーパーコンピュータ

空間異種分散コンピューティングでは、さまざまなコンピューティング機能と通信機能を備えたコンピューティング リソースを大規模なクラスターとしてさらに組み合わせて、大規模なコンピューティング タスクを完了します。計算に関係するハードウェア リソースには、大規模なプロフェッショナル コンピューティング サーバーや小型のスマート デバイスなどがあります。現在、異種コンピューティングの新しい形として、空間異種分散コンピューティングがますます注目を集めています。わが国を例に挙げると、「東のデータと西のコンピューティング」作業の実施により、ますます多くのコンピューティング リソースが西側のさまざまな地域に広く分散されるようになります。このようなハイブリッド コンピューティング クラスターをどのように調整して効率的に連携させるかが、高性能コンピューティング アプリケーションの研究のホットスポットにもなります。

近年、クラウドサービスの規模、範囲、対象は継続的に拡大しており、データストレージやデータコンピューティング関連のビジネスをクラウドに展開することを選択する企業がますます増えています。しかし、すべてのサービスをクラウド環境に依存することのデメリットは、データ移行のコストが非常に高いこと、同時にデータのプライバシーと信頼性を保証することが難しいことです。さらに、異なる地域に分散されたクラウドコンピューティングパワー間の通信コストが高いため、それらが効果的に連携して高度なコンピューティングタスクを完了することが困難になります。

クラウドコンピューティング

フェデレーテッドラーニング

Google は、データのプライバシーを保護するために、暗号化された分散機械学習技術であるフェデレーテッド ラーニングを 2016 年に提案しました。名前が示すように、仮想「連合」を構築することで、あらゆる規模のデータアイランドを統合します。各データアイランドは、この「連合」における国家のようなもので、ある程度の独立性(企業秘密やユーザーのプライバシーなど)を維持するだけでなく、他の当事者とデータを共有することなく、共同で AI モデルのモデリングやその有効性の向上を行うこともできます。現在、フェデレーテッドラーニングは、Siri、Alexなどの各種音声アシスタントなど、スマート端末のモデルトレーニングに広く使用されています。

フェデレーテッドラーニング

既存の連合学習モデルの並列処理では、モデルは各トレーニング デバイスに均等に分散されます。しかし、前述のように、フェデレーテッドラーニングのトレーニングデバイスは、パフォーマンスの差が大きいユーザーのスマート端末であることが多いため、使用状況が均一に分散されると、通信時間のボトルネックが発生することがよくあります。

ご存知のとおり、樽効果とは、樽に貯められる水の量が、最も短い木材によって決まるというものです。従来の連合学習でも同様の現象が存在します。つまり、トレーニング速度は最も遅いデバイスによって決まります。

たとえば、モデル並列処理を使用した同じ連合学習タスク内のスマートフォンと Raspberry Pi には、同じ量の作業が割り当てられます。しかし、スマートフォンの計算能力は Raspberry Pi をはるかに上回っているため、Raspberry Pi がタスクを完了するまでスマートフォンはアイドル状態のままになります。

バケツ効果

スカイコンピューティング

Sky Computing は、大規模コンピューティングのコンピューティング能力要件を満たすために、負荷分散を通じてさまざまなサイズと機能のクラウド サーバーをインテリジェントに相互接続することで、上記の問題点に対処します。同時に、フェデレーテッド ラーニングを通じて、ユーザー データへのアクセスはクラウド サーバー内でのみ行われるため、データの移行やプライバシーの漏洩を回避できます。

負荷分散

負荷分散の問題を解決するには、まず「負荷」とは何かを理解する必要があります。コンピュータでは、どのような操作を実行する場合でも、本質的には、負荷は「タスクを完了するために必要な時間」として理解できます。フェデレーテッド ラーニングでは、モデルのトレーニングに必要な計算の総量は固定されています。したがって、コンピューティング タスクを適応的にインテリジェントに割り当てることができれば、各デバイスがコンピューティング タスクを完了するのにかかる時間が均等になり、全体的なトレーニング時間が最適化されます。適切な割り当て方法を得るには、まずモデルとデバイス関連の情報を取得し、次に実際の適切な割り当て操作を実行する必要があります。したがって、モデルのトレーニングでは、ベンチマークと配布の 2 つの段階に分ける必要があります。

トレーニングプロセス

ベンチマーク

ベンチマーク段階では、Sky Computing はモデルとデバイスの 2 つの次元からデータを収集する必要があります。モデル次元では、モデルの各レイヤーに必要なメモリ使用量と計算量を知る必要があります。モデルの推定メモリ フットプリントとデバイスで使用可能なメモリを組み合わせることで、メモリ不足の状況を回避できます。必要な計算が増えるほど、同じデバイスでタスクを完了するのにかかる時間が長くなります。デバイスの次元では、ネットワーク環境や現在の動作負荷などの要因によって影響を受けるデバイスの通信遅延、計算能力、使用可能なメモリを把握する必要があります。強力なコンピューティング能力と良好な通信機能を備えながらも利用可能なメモリが少ないデバイスの場合、メモリがオーバーフローすることなく、できるだけ多くのモデル レイヤー (コンピューティング タスク) を割り当てる必要があります。 Sky Computing は負荷分散型の連合学習システムであるため、ベンチマーク段階ではデバイスの機械学習機能のみを考慮します。各デバイス上で小規模な機械学習テストタスクを実行することで、デバイスの AI 計算能力がテストされます。

全体的なプロセス

配布する

タスクの割り当て方法を決定する際に、数学的分析により、割り当て方法が本質的に NP 困難な混合整数線形計画問題であることが示されます。したがって、多項式時間で最適解を得ることはできません。しかし、モデルのサイズが大きくなり、デバイスの数も増え続けると、最適なソリューションを計算するコストが明らかに許容できないものになります。

したがって、実際の状況では、最適なソリューションを直接計算するのではなく、ヒューリスティックアルゴリズムを使用して近似ソリューションを取得しようとします。 Sky Computing では、2 段階のヒューリスティック アルゴリズムを設計しました。第 1 段階は事前割り当てで、デバイスの実際の使用可能なメモリ サイズに応じてモデルを割り当て、各デバイスの実際のワークロードを計算します。第 2 段階は割り当て調整で、デバイスの負荷を動的に調整し、システム全体の負荷を反復的に軽減します。同時に、Sky Computingの優位性を検証するために、比較として最適な割り当ても実験で設定しました。

実装アーキテクチャ

パフォーマンス

クラスター環境では、主要な要因変数を制御し、連合学習 AI タスクの前進時間と後進時間を指標として Sky Computing のパフォーマンスを検証しました。

実験結果

3 つの割り当て方法 (even: 均一割り当て、heuristic: ヒューリスティック アルゴリズム、optimal: 最適割り当て) をテストしました。さまざまな規模のコンピューティング リソースとさまざまなモデル サイズでのパフォーマンスと、各反復を完了するのにかかる時間が記録されます。私たちのヒューリスティック アルゴリズムは、デバイスの数とモデルの深さに応じて非常に優れたパフォーマンスを発揮することがわかります。 64 個のノードと 160 個の隠し層を持つ実験環境では、Sky Computing は現在の均一に割り当てられたモデルと比較して 55% 高速化できます。

実験結果

このうち、最適割り当て計算コストが極めて高いため、ノード数が64個になると計算が難しく、実用には適さないため、小規模な用途での参考値としてのみ用いられます。

オープンソースの共同構築

Sky Computing は、空間異種分散コンピューティングの特性を活用してフェデレーテッド ラーニングを加速し、最大 55% のパフォーマンス向上を実現する当社の成功した試みです。このプロジェクトはまだ開発段階ですが、今後はより綿密な実験を行い、実際のアプリケーションにできるだけ早く展開し、動的冗長性などの機能を提供していきます。

論文アドレス: https://arxiv.org/abs/2202.11836

プロジェクトアドレス: https://github.com/hpcaitech/SkyComputing

<<:  写真から3Dモデルを生成、GANとオートエンコーダが衝突して奇跡を起こす

>>:  2022年の展望: 自動化におけるイノベーションと機会

ブログ    
ブログ    
ブログ    

推薦する

ハッカーたちは猫娘を作成する代わりに、一流の原子力研究所から何十万ものデータを盗んだ...

米国にある世界トップクラスの原子力研究所の一つが最近、大きな問題に直面している。データベースがハッキ...

...

顔認識の背後にあるもの:怖いのは技術ではない

[[312730]]以前、AI顔変換ソフトウェアZAOが一夜にして人気を博したことで、サーバーが「満...

チューリング賞受賞者ヨシュア・ベンジオ氏:生成フローネットワークがディープラーニングの分野を拡大

最近、「GFlowNet Foundations」と題された論文が注目を集めています。これはチューリ...

人工知能が再び大学入試に挑戦:AIはエッセイの書き手と比べて何点取れるのか?

今年も大学入試の季節がやってきました。現在、大学入試は受験生にとっての一大イベントであるだけでなく、...

人工知能は本当に人間の仕事を置き換えるのでしょうか?

今年に入ってから、新型コロナウイルス感染症の継続的な感染拡大により世界的に景気が低迷し、多くの国や地...

Java における 4 つの基本的な暗号化アルゴリズムの分析

シンプルな Java 暗号化アルゴリズムは次のとおりです。厳密に言えば、BASE64 は暗号化アルゴ...

人工知能アプリケーションのための6つの主要技術、ついに誰かがわかりやすく説明

[[338620]]画像はPexelsよりこの記事はWeChatの公開アカウント「Big Data ...

真の人工知能から私たちはどれくらい遠いのでしょうか?

DeepMind がまた別の「悪役」を生み出しました! [[428779]]これらの小人たちは、ア...

機械学習と予測アプリケーションに必要な50のAPI

[[231536]] API は、ソフトウェア プログラムを構築するためのプロトコルとツールのセッ...

人工知能技術が伝染病の予防と制御に役立つ

[[318426]]現在、人工知能技術は急速に発展しており、特に医療保健の分野では、生活の各分野で広...

...

第4回パラダイム NeurIPS 2020: ナレッジグラフ埋め込みの自動化

少し前に、Fourth Paradigm の上級研究員である Quanming Yao 博士が、Ne...

...

バーチャルシンガー、AIの背後にある見えざる手が音楽の未来を握っているのか?

19 世紀以前、人々が集まるときには、人生の物語を語り、感情や考えを伝えるために、常に最も原始的な...