オフサイトのコンピューティング能力の使用率が 55% 向上し、オープンソースになりました。 「東洋のデータと西洋のコンピューティング」のAIインフラへの対応

オフサイトのコンピューティング能力の使用率が 55% 向上し、オープンソースになりました。 「東洋のデータと西洋のコンピューティング」のAIインフラへの対応

AIの波の中で、企業や国を問わず、コンピューティング能力に対する需要は日々高まっています。最近立ち上げられた「East Data West Computing」プロジェクトは、マクロレベルから AI インフラストラクチャを精力的に構築しています。しかし、地理的に離れた場所にあるコンピュータ間の通信遅延は比較的大きく、異なる地域のコンピューティングパワーをどのように調整し、効率的に活用するかが、緊急に取り組む必要がある大きな課題となっています。

「East Data West Computing」プロジェクトレイアウト

同時に、ビッグデータ時代の文脈において、プライバシーデータをいかに保護するかも社会的に話題となっており、国はデータセキュリティとプライバシー保護に関する一連の規制を導入している。

上記の困難に対処するために、オープンソース プロジェクト Sky Computing は、空間異種分散コンピューティングの特性をうまく活用し、ユーザー データのプライバシーを確​​保しながら、フェデレーテッド ラーニングを最大 55% 高速化できます

住所:

https://github.com/hpcaitech/SkyComputing

空間異種分散コンピューティング

ディープラーニングの継続的な発展に伴い、モデルのサイズは拡大しています。BERTやGPT-3などの現在の主流モデルには、数億のパラメータがあります。これらのモデルは予測精度とパフォーマンスの向上において大きな進歩を遂げましたが、ストレージとコンピューティングに大きな負担ももたらしました。 AIモデルのトレーニングを高速化するために、通常はスーパーコンピューターなどの同じタイプの高速相互接続されたプロセッサを多数使用する分散型機械学習が誕生しました。

スーパーコンピュータ

空間異種分散コンピューティングでは、さまざまなコンピューティング機能と通信機能を備えたコンピューティング リソースを大規模なクラスターとしてさらに組み合わせて、大規模なコンピューティング タスクを完了します。計算に関係するハードウェア リソースには、大規模なプロフェッショナル コンピューティング サーバーや小型のスマート デバイスなどがあります。現在、異種コンピューティングの新しい形として、空間異種分散コンピューティングがますます注目を集めています。わが国を例に挙げると、「東のデータと西のコンピューティング」作業の実施により、ますます多くのコンピューティング リソースが西側のさまざまな地域に広く分散されるようになります。このようなハイブリッド コンピューティング クラスターをどのように調整して効率的に連携させるかが、高性能コンピューティング アプリケーションの研究のホットスポットにもなります。

近年、クラウドサービスの規模、範囲、対象は継続的に拡大しており、データストレージやデータコンピューティング関連のビジネスをクラウドに展開することを選択する企業がますます増えています。しかし、すべてのサービスをクラウド環境に依存することのデメリットは、データ移行のコストが非常に高いこと、同時にデータのプライバシーと信頼性を保証することが難しいことです。さらに、異なる地域に分散されたクラウドコンピューティングパワー間の通信コストが高いため、それらが効果的に連携して高度なコンピューティングタスクを完了することが困難になります。

クラウドコンピューティング

フェデレーテッドラーニング

Google は、データのプライバシーを保護するために、暗号化された分散機械学習技術であるフェデレーテッド ラーニングを 2016 年に提案しました。名前が示すように、仮想「連合」を構築することで、あらゆる規模のデータアイランドを統合します。各データアイランドは、この「連合」における国家のようなもので、ある程度の独立性(企業秘密やユーザーのプライバシーなど)を維持するだけでなく、他の当事者とデータを共有することなく、共同で AI モデルのモデリングやその有効性の向上を行うこともできます。現在、フェデレーテッドラーニングは、Siri、Alexなどの各種音声アシスタントなど、スマート端末のモデルトレーニングに広く使用されています。

フェデレーテッドラーニング

既存の連合学習モデルの並列処理では、モデルは各トレーニング デバイスに均等に分散されます。しかし、前述のように、フェデレーテッドラーニングのトレーニングデバイスは、パフォーマンスの差が大きいユーザーのスマート端末であることが多いため、使用状況が均一に分散されると、通信時間のボトルネックが発生することがよくあります。

ご存知のとおり、樽効果とは、樽に貯められる水の量が、最も短い木材によって決まるというものです。従来の連合学習でも同様の現象が存在します。つまり、トレーニング速度は最も遅いデバイスによって決まります。

たとえば、モデル並列処理を使用した同じ連合学習タスク内のスマートフォンと Raspberry Pi には、同じ量の作業が割り当てられます。しかし、スマートフォンの計算能力は Raspberry Pi をはるかに上回っているため、Raspberry Pi がタスクを完了するまでスマートフォンはアイドル状態のままになります。

バケツ効果

スカイコンピューティング

Sky Computing は、大規模コンピューティングのコンピューティング能力要件を満たすために、負荷分散を通じてさまざまなサイズと機能のクラウド サーバーをインテリジェントに相互接続することで、上記の問題点に対処します。同時に、フェデレーテッド ラーニングを通じて、ユーザー データへのアクセスはクラウド サーバー内でのみ行われるため、データの移行やプライバシーの漏洩を回避できます。

負荷分散

負荷分散の問題を解決するには、まず「負荷」とは何かを理解する必要があります。コンピュータでは、どのような操作を実行する場合でも、本質的には、負荷は「タスクを完了するために必要な時間」として理解できます。フェデレーテッド ラーニングでは、モデルのトレーニングに必要な計算の総量は固定されています。したがって、コンピューティング タスクを適応的にインテリジェントに割り当てることができれば、各デバイスがコンピューティング タスクを完了するのにかかる時間が均等になり、全体的なトレーニング時間が最適化されます。適切な割り当て方法を得るには、まずモデルとデバイス関連の情報を取得し、次に実際の適切な割り当て操作を実行する必要があります。したがって、モデルのトレーニングでは、ベンチマークと配布の 2 つの段階に分ける必要があります。

トレーニングプロセス

ベンチマーク

ベンチマーク段階では、Sky Computing はモデルとデバイスの 2 つの次元からデータを収集する必要があります。モデル次元では、モデルの各レイヤーに必要なメモリ使用量と計算量を知る必要があります。モデルの推定メモリ フットプリントとデバイスで使用可能なメモリを組み合わせることで、メモリ不足の状況を回避できます。必要な計算が増えるほど、同じデバイスでタスクを完了するのにかかる時間が長くなります。デバイスの次元では、ネットワーク環境や現在の動作負荷などの要因によって影響を受けるデバイスの通信遅延、計算能力、使用可能なメモリを把握する必要があります。強力なコンピューティング能力と良好な通信機能を備えながらも利用可能なメモリが少ないデバイスの場合、メモリがオーバーフローすることなく、できるだけ多くのモデル レイヤー (コンピューティング タスク) を割り当てる必要があります。 Sky Computing は負荷分散型の連合学習システムであるため、ベンチマーク段階ではデバイスの機械学習機能のみを考慮します。各デバイス上で小規模な機械学習テストタスクを実行することで、デバイスの AI 計算能力がテストされます。

全体的なプロセス

配布する

タスクの割り当て方法を決定する際に、数学的分析により、割り当て方法が本質的に NP 困難な混合整数線形計画問題であることが示されます。したがって、多項式時間で最適解を得ることはできません。しかし、モデルのサイズが大きくなり、デバイスの数も増え続けると、最適なソリューションを計算するコストが明らかに許容できないものになります。

したがって、実際の状況では、最適なソリューションを直接計算するのではなく、ヒューリスティックアルゴリズムを使用して近似ソリューションを取得しようとします。 Sky Computing では、2 段階のヒューリスティック アルゴリズムを設計しました。第 1 段階は事前割り当てで、デバイスの実際の使用可能なメモリ サイズに応じてモデルを割り当て、各デバイスの実際のワークロードを計算します。第 2 段階は割り当て調整で、デバイスの負荷を動的に調整し、システム全体の負荷を反復的に軽減します。同時に、Sky Computingの優位性を検証するために、比較として最適な割り当ても実験で設定しました。

実装アーキテクチャ

パフォーマンス

クラスター環境では、主要な要因変数を制御し、連合学習 AI タスクの前進時間と後進時間を指標として Sky Computing のパフォーマンスを検証しました。

実験結果

3 つの割り当て方法 (even: 均一割り当て、heuristic: ヒューリスティック アルゴリズム、optimal: 最適割り当て) をテストしました。さまざまな規模のコンピューティング リソースとさまざまなモデル サイズでのパフォーマンスと、各反復を完了するのにかかる時間が記録されます。私たちのヒューリスティック アルゴリズムは、デバイスの数とモデルの深さに応じて非常に優れたパフォーマンスを発揮することがわかります。 64 個のノードと 160 個の隠し層を持つ実験環境では、Sky Computing は現在の均一に割り当てられたモデルと比較して 55% 高速化できます。

実験結果

このうち、最適割り当て計算コストが極めて高いため、ノード数が64個になると計算が難しく、実用には適さないため、小規模な用途での参考値としてのみ用いられます。

オープンソースの共同構築

Sky Computing は、空間異種分散コンピューティングの特性を活用してフェデレーテッド ラーニングを加速し、最大 55% のパフォーマンス向上を実現する当社の成功した試みです。このプロジェクトはまだ開発段階ですが、今後はより綿密な実験を行い、実際のアプリケーションにできるだけ早く展開し、動的冗長性などの機能を提供していきます。

論文アドレス: https://arxiv.org/abs/2202.11836

プロジェクトアドレス: https://github.com/hpcaitech/SkyComputing

<<:  写真から3Dモデルを生成、GANとオートエンコーダが衝突して奇跡を起こす

>>:  2022年の展望: 自動化におけるイノベーションと機会

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

物体検出と注釈の時代は終わったのでしょうか?

急速に進化する機械学習の分野では、データのラベル付けという面倒で時間のかかる作業が依然として存在して...

2021年の世界人工知能産業の市場規模と投資・資金調達状況を分析人工知能は今後スパイラル状に発展する

人工知能業界の主要上場企業:現在、国内の人工知能業界の上場企業は主に百度(BAIDU)、テンセント(...

開発のボトルネックを打破し、人工知能の未来は何に頼って「はしごを登る」のでしょうか?

[[411053]]ファーウェイは7月9日、2021年世界人工知能大会およびアセンド人工知能サミッ...

...

AI および機械学習プロジェクトはどの程度安全ですか?

人工知能と機械学習は私たちに利益をもたらしますが、そのセキュリティには注意が必要です。どれくらい安全...

説明可能なAIと説明可能な機械学習:ブラックボックスに光を当てる

人工知能(AI)や機械学習の分野では、「ブラックボックス」という概念が常に大きな注目を集めています。...

ハーバード史上最短の在職期間! 53歳の女性校長、博士論文の盗作疑惑で辞職

ハーバード大学の第30代学長が正式に辞任を発表しました! 53歳のクローディン・ゲイ氏は昨年7月に就...

AIの「ショートカット」がシミュレーションを数十億倍高速化

[[314916]]シミュレーターは、NASA がエアロゾル モデルを使用してオーストラリアの火災に...

わずか数行のコードで最初のウェブアプリを作成

データ サイエンス プロジェクトの展開は、データ サイエンティストと機械学習エンジニアの両方に必要な...

AIと胚の融合?システム生物学者のパトリック・ミュラーは双子ネットワークを使ってゼブラフィッシュの胚を研究している

動物の発育過程において、胚は時間の経過とともに複雑な形態変化を遂げます。研究者は、発育の時間と速度を...

自動車ドメインコントローラの統合アーキテクチャの背景、利点、設計を1つの記事で理解する

車両の電動化が徐々に進むにつれ、電子制御ユニット(ECU)が車全体を制御するようになりました。アンチ...

Microsoft EdgeブラウザがGoogleのオープンソース圧縮アルゴリズムをサポート

来年の Win10 Creator Update に備えて、Microsoft は Edge ブラウ...

UiPath、業界初のエンドツーエンドのハイパーオートメーションプラットフォームを発表

[[326225]] 「すべての人にロボットを」というビジョンを掲げ、エンタープライズ向けロボティッ...