シンガポール国立大学と清華大学は、決定木向けに特別に設計され、高速かつ安全な新しい連合学習システムを共同で提案した。

シンガポール国立大学と清華大学は、決定木向けに特別に設計され、高速かつ安全な新しい連合学習システムを共同で提案した。

フェデレーテッド ラーニングは機械学習において非常に注目されている分野であり、複数の当事者がデータを転送せずに共同でモデルをトレーニングすることを指します。フェデレーテッドラーニングの発展に伴い、FATE、FedML、PaddleFL、TensorFlow-Federated などのフェデレーテッドラーニングシステムが次々と登場しています。ただし、ほとんどの連合学習システムは、ツリー モデルの連合学習トレーニングをサポートしていません。ニューラル ネットワークと比較すると、ツリー モデルはトレーニングが速く、解釈性が高く、表形式のデータに適しています。ツリーモデルは、広告の推奨、株価予測など、金融、医療、インターネットなどの分野で幅広い応用シナリオを持っています。

決定木の代表的なモデルは、勾配ブースティング決定木 (GBDT) です。単一のツリーの予測能力には限界があるため、GBDT はブースティング法を使用して複数のツリーを連続してトレーニングし、各ツリーを使用して現在の予測値とラベル値の残差を適合させることで、最終的に良好な予測効果を実現します。代表的な GBDT システムには、XGBoost、LightGBM、CatBoost、ThunderGBM などがあります。XGBoost は、KDD カップの優勝チームによって何度も使用されています。ただし、これらのシステムはいずれも、フェデレーテッド ラーニング シナリオでの GBDT トレーニングをサポートしていません。最近、シンガポール国立大学と清華大学の研究者らは、ツリーモデルのトレーニングに重点を置いた新しい連合学習システム「FedTree」を提案した。

  • 論文アドレス: https://github.com/Xtra-Computing/FedTree/blob/main/FedTree_draft_paper.pdf
  • プロジェクトアドレス: https://github.com/Xtra-Computing/FedTree

FedTree システムの概要FedTree のアーキテクチャ図を図 1 に示します。インターフェイス、環境、フレームワーク、プライバシー保護、モデルの 5 つのモジュールがあります。

図1: FedTreeシステムアーキテクチャ

インターフェース: FedTree は、コマンド ライン インターフェースと Python インターフェースの 2 つのインターフェースをサポートしています。ユーザーはパラメータ(参加者数、フェデレーション シナリオなど)を指定するだけで、1 行のコマンドで FedTree をトレーニング用に実行できます。 FedTree の Python インターフェースは scikit-learn と互換性があり、トレーニングと予測のために fit() と predict() を呼び出すことができます。

環境: FedTree は、単一のマシン上でのフェデレーテッド ラーニングのシミュレーション展開と、複数のマシン上での分散フェデレーテッド ラーニングの展開をサポートします。スタンドアロン環境では、FedTree はデータを複数のサブデータセットに分割し、各サブデータセットを参加者としてトレーニングすることをサポートします。マルチマシン環境では、FedTree は各マシンを参加者としてサポートし、マシンは gRPC を介して相互に通信します。同時に、FedTree は CPU に加えて、トレーニングを高速化するために GPU の使用をサポートしています。

フレームワーク: FedTree は、水平および垂直の連合学習シナリオの両方で GBDT トレーニングをサポートします。水平シナリオでは、参加者ごとに異なるトレーニング サンプルと同じ特徴空間が存在します。縦断的シナリオでは、参加者ごとに特徴空間が異なり、トレーニング サンプルは同じです。パフォーマンスを確保するために、どちらのシナリオでも、複数の当事者が共同で各ノードのトレーニングに参加します。さらに、FedTree は、参加者がツリーを並行してトレーニングし、それらを集約して参加者間の通信オーバーヘッドを削減するアンサンブル学習もサポートしています。

プライバシー: トレーニング中に渡される勾配によってトレーニング データに関する情報が漏洩する可能性があるため、FedTree は準同型暗号化 (HE) やセキュア集約 (SA) など、勾配情報をさらに保護するためのさまざまなプライバシー保護方法を提供します。同時に、FedTree は最終的にトレーニングされたモデルを保護するために差分プライバシーを提供します。

モデル: ツリーのトレーニングに基づいて、FedTree はブースティング/バギング手法による GBDT/ランダム フォレストのトレーニングをサポートします。異なる損失関数を設定することにより、FedTree によってトレーニングされたモデルは、分類や回帰を含む複数のタスクをサポートします。

実験表 1 は、a9a、breast、credit におけるさまざまなシステムの AUC と abalone における RMSE をまとめたものです。FedTree のモデル効果は、すべてのデータでトレーニングされた GBDT (XGBoost、ThunderGBM) および FATE の SecureBoost (SBT) の効果とほぼ同じです。さらに、プライバシー保護戦略 SA と HE はモデルのパフォーマンスに影響を与えません。

表1: 異なるシステムのモデル効果の比較

表 2 は、さまざまなシステムにおける各ツリーのトレーニング時間 (秒単位) をまとめたものです。FedTree は FATE よりもはるかに高速であり、水平連合学習シナリオでは 100 倍以上の高速化率を達成できることがわかります。

表2: 異なるシステムにおけるツリーあたりのトレーニング時間の比較

研究の詳細については、FedTree のオリジナルの論文を参照してください。

<<:  DeepMind の最新研究: AI が人間に勝ち、より優れた経済メカニズムを設計 | Nature サブジャーナル

>>:  時代遅れのリソグラフィー機械は中国に販売できません!米国がオランダのASMLに不当な圧力をかけ、国産チップが再び抑制される

ブログ    
ブログ    
ブログ    

推薦する

...

RPAにより業務効率が大幅に向上、40%の企業が効果を確認

効率性、俊敏性、生産性に対する需要が高まるにつれ、新しいテクノロジーとアプリケーションが、企業と企業...

AIの負担を軽減する時が来た。Python AIライブラリ5選のおすすめ

機械学習は興味深いものですが、作業範囲が広く複雑で困難です。開発者として学ぶべきツールはたくさんあり...

ヴィンセントの画像プロンプトはもう退屈でも長くもありません! LLM強化拡散モデル、簡単な文章で高品質の画像を生成できる

拡散モデルは、テキストプロンプトのガイダンスに基づいて高品質でコンテンツが豊富な画像を生成できる、主...

...

人工知能の応用範囲は想像を超えています

こんにちは!皆さん、こんにちは。私は大学の科学研究者で、主に人工知能の分野で研究を行っています。今後...

...

データ構造とアルゴリズムの基本概念

[[361250]]この記事はWeChatの公開アカウント「bigsai」から転載したもので、著者...

スマートホームシステム設計の5つの原則

スマートホームコントロールの開発の鍵は、設計コンセプトとオペレーターの考え方にあります。市場のターゲ...

北京、上海、深セン、杭州、中国の人工知能産業のリーダーは誰でしょうか?

人工知能企業は主に北京、上海、深セン、杭州に分布している中国新世代人工知能開発研究所のデータによると...

...

Juli プロジェクト第 21 号 - AntRay: 大規模モデル時代の AI コンピューティング インフラストラクチャ

8月12日、Juliプロジェクトシリーズ活動の第21回「大規模言語モデルのトレーニングとアプリケーシ...

...

AIが考古学に参入!科学者らはディープラーニングアルゴリズムを使用して、約100万年前に人類が火を使用していた証拠を発見した。PNASに掲載。

火の使用はホモ・サピエンスの進化における重要な要素であり、より複雑な道具の作成を可能にしただけでなく...

...