1. フェデレーテッドラーニングの背景従来の機械学習手法では、トレーニングのためにデータを単一のマシンまたはデータセンターに集中させる必要がありました。しかし、モバイルインターネットやビッグデータなどの技術の台頭により、個人データは政府機関、医療機関、保険機関、さまざまなインターネット大手のプラットフォームなど、さまざまな機関に分散しています。異なる管理機関間でのデータの流通は、漏洩のリスクを伴うことがよくあります。また、近年、データプライバシーへの注目が高まっています。個人のプライバシーに関わるデータは効果的に共有することが難しく、トレーニングに必要なデータを集めるのは非常に難しく、多くの分野でデータサイロ化が生じています。 実際、海外のビッグデータアプリケーションもこの課題に直面しています。 Googleは2016年に早くもフェデレーテッドラーニングの概念を提案しました。これは、マルチソースのデータが独自のデバイスを離れる必要がなく、代わりに独自のデバイスで個別にモデルをトレーニングし、特定の暗号化メカニズムを通じてクラウド上に共有モデルメカニズムを確立してモデルを更新することを意味します。フェデレーテッドラーニングを通じて、すべてのトレーニングデータは各デバイスに残り、最終的にトレーニングされたモデルは目的の効果を達成できます。 2. フェデレーテッドラーニングとは何ですか?ある病気の補助診断モデルをトレーニングするとします。診断をより正確にするためには、より大きなサンプルが必要なので、3 つの病院 A、B、C のデータを使用する必要があります。これらの病院には、異なる患者がいますが、患者データの種類は同じです (例: CT、症状の説明、病歴など)。患者のプライバシーとそれぞれの症例データのセキュリティを保護するために、病院はすべてのデータを共有することはできません。実際には、十分なデータ準備なしに優れたモデルを構築することは困難です。 フェデレーテッドラーニングの目的は、各病院が独自のデータでモデルをトレーニングし、暗号化メカニズムを通じて共有モデルを確立し、モデルを更新できるようにすることです。これにより、病院のデータセキュリティと患者のプライバシーが保護されるだけでなく、大規模な集中データ転送のコストも削減されます。 フェデレーテッド ラーニングは、プライバシー保護と安全な暗号化技術を備えた分散型機械学習フレームワークです。分散化された参加者が他の参加者に個人データを開示することなく、モデルのトレーニングで協力できるようにすることを目的としています。 3. フェデレーテッドラーニングトレーニングプロセス従来のフェデレーテッド ラーニング フレームワークのトレーニング プロセスは、次の手順に簡単にまとめることができます。
4. 連合学習のコア技術フェデレーテッド ラーニング フレームワークには、次のような多くのテクノロジが含まれています。
さらに、一部のフェデレーテッド ラーニング フレームワークもブロックチェーンのアイデアを活用し、インセンティブ メカニズムを使用しています。すべてのデータ保有者が参加でき、そのメリットは普遍的です。 プライバシー保護技術についても言及する価値があります。データ転送中にデータのプライバシーとセキュリティをどのように保護するかは、常に暗号化の分野における主要な研究のホットスポットでした。 5. フェデレーテッドラーニングにおけるプライバシー保護フェデレーテッド ラーニングでプライバシー保護を強化し、脅威を軽減するには、主に 4 つの方法があります。
1. マルチパーティセキュアコンピューティングセキュア マルチパーティ コンピューティング (SMPC) は、それぞれが秘密データを保持している、相互に信頼していないパーティのグループが、特定の関数を共同で計算するという問題を解決するために使用されます。セキュアなマルチパーティ コンピューティングにより、すべての参加者が正しい計算結果を取得することが保証され、計算結果以外の情報を取得できなくなります。コンピューティング プロセス全体を通じて、参加者は常に自分が所有するデータに対して絶対的な制御権を持ちます。 たとえば、分散ネットワークでは、相互に信頼していない n 人の参加者 P1、P2、…、Pn が存在し、各参加者 Pi は秘密データ Xi (i=1、2、3、…、n) を保持しています。これらn人の参加者は協力して、与えられた関数f(x1,x2,…,xn) -> (y1,y2,…,yn)を実行します。ここで、yiは参加者Piによって取得された出力結果です。参加者Piは、yiを除く他の参加者Pj (i != j)に関する入力情報を取得できません。 y1= y2 = … =yn の場合、単純に f:(x1,x2,…,xn) -> y と表すことができます。次の図に示すように: 2. 差分プライバシー差分プライバシーは、差分攻撃に対抗するために導入されたプライバシー保護スキームです。明確な特徴を持つデータにノイズを追加して乱すことで、単一のデータの一意性が失われ、大量のデータに隠されて機密データの漏洩を防ぐことができます。DP は、データに元の分散特性を持たせることができます。フェデレーテッドラーニングでは、データの逆検索を回避するために、クライアントがアップロードしたパラメータに対して差分プライバシーが実行されます。これにより、アップロードされたパラメータに不確実性がもたらされ、モデルのトレーニング効果に影響を与える可能性があります。 たとえば、SARS 感染症に関する情報を含むデータベースがあります。この病気を研究し分析したいのですが、個人のプライバシーが漏れてしまうのが怖いです。1つの方法は、データベースから名前とID番号を無感作にすることです。しかし、市内にこの病気の患者が数人しかいなければ、誰かがデータベースにその人が含まれていることを知ったら、その人がSARSに感染していることや治療状況が明らかになる可能性があります。個人情報が特定されないように、病気に類似した情報を記載したノイズサンプルブックを追加することがあります。 3. ベリファイネットVerifyNet は、プライバシーを保護し、信頼性が検証された連合学習フレームワークです。 VerifyNet の二重隠しプロトコルは、フェデレーション学習中にユーザーのローカル勾配の機密性を保証します。さらに、中央サーバーは各ユーザーに集約された結果の正確さの証明を提供する必要があります。 VerifyNet では、攻撃者が証拠を偽造して他のユーザーを欺くことは困難です。さらに、VerifyNet は、ユーザーがトレーニング プロセス中に終了し、脅威が見つかった場合にすぐにロールバックできるようにサポートしているため、さまざまな方法でユーザーのプライバシーとセキュリティを保護します。 4. 敵対的トレーニング敵対的トレーニングは、ニューラル ネットワークの堅牢性を高める重要な方法であり、アクティブな防御技術です。フェデレーテッド ラーニングの敵対的トレーニング中に、いくつかの小さな変動 (誤分類の原因となる可能性があります) がサンプルに混合され、その後、ニューラル ネットワークがこの変換に適応します。そのため、フェデレーテッド ラーニングの最終的なグローバル モデルは、既知の敵対的サンプルに対して堅牢です。 6. フェデレーテッドラーニングの種類連合学習は、データの種類に応じて、水平連合学習、垂直連合学習、連合転移学習に分けられます。 1. 水平連合学習水平連合学習は、診断と治療の内容は似ているが患者が異なる異なる地域の病院など、データ機能の重複が多く、サンプルの重複が少ないシナリオに適しています。 まず、各参加者は同じモデル定義を取得し、モデルの初期化パラメータを統一します。モデルは次の手順を繰り返してトレーニングされます。
現在、連合学習の技術アーキテクチャは比較的単純であり、実装の実現可能性は高いです。 2. 垂直連合学習垂直連合学習は、サンプルの重複は大きいが特徴の重複は小さいシナリオに適しています。たとえば、同じ地域にある病院、薬局、保険代理店は、その地域に住む患者を主に対象としているため、サンプルは同じですが、薬局と病院は事業内容が異なり、データ特性も異なります。 プライバシー保護規制により、トレーニングのためにデータを直接公開交換することはできません。そのため、上図に示すように、A と B は暗号化アライメント技術を使用してサンプルを暗号化し、両者が共有する顧客に重複があることを確認し、このデータを暗号化に使用する必要があります。 A: 参加者; B: 参加者; C: コーディネーター ① Cは公開鍵をAとBに送信する(暗号化のため)。 ②AとBはそれぞれ自分に関わる特徴量の中間結果を計算し、その結果を交換してそれぞれの最小値と損失値を求める。 ③ AとBはそれぞれ計算して暗号化した最小パラメータをCに送信する。同時にBはラベルに基づいて損失値を計算し、その結果をCにまとめる。 ④ Cは復号化されたパラメータをそれぞれAとBに送り返し、両者のモデルを更新します。 プロセス全体を通じて、参加者は互いのデータと特性を知らず、トレーニングが完了した後、参加者は自分の推定モデルパラメータのみを取得できます。 垂直連合学習は、機能の重複が少ないという問題を解決しますが、参加する当事者が増えるほど、コンピューティング アーキテクチャが複雑になり、実行が困難になり、実装が難しくなります。 3. 連合転移学習参加者が所有するデータ間で特徴とサンプルの重複がほとんどない場合、連合転移学習を使用してデータとラベルの不足を克服できます。 7. 連合学習、分散学習、マルチエージェント1. 分散機械学習分散機械学習とは、複数のコンピューティング/タスク ノード (ワーカー) を使用して、グローバル機械学習/ディープラーニング モデル (マスター ノード (マスター) によってスケジュールされる) を共同でトレーニングすることを指します。分散機械学習は従来の HPC 分野とは異なることに注意することが重要です。従来の HPC 分野では主に計算集約型であり、加速率の向上が主な目標となっています。分散機械学習もデータ集約型であり、トレーニング データが大量 (単一のマシンに保存できない) であることと、モデル サイズが大きいことという問題に直面しています。さらに、分散機械学習における通信の問題にもさらに注意を払う必要があります。 複数のコンピューティング ノードを使用してモデルのトレーニングを並列化すると、ワークロードが複数のプロセッサまたはワーカーに分割され、トレーニング プロセスが高速化されます。並列化には主に 2 つのタイプがあります。データ並列処理とは、トレーニング データを利用可能なワーカーに配布し、各ワーカーでモデルのコピーを実行することを意味します。次に、各ワーカーは同じモデル上で異なるデータ部分を実行します。対照的に、モデル (またはネットワーク) の並列処理では、モデルを異なるワーカーに分割し、各ワーカーがモデルの異なる部分で同じデータに対して操作を行います。 2. マルチエージェントマルチエージェント システムとは、共通の環境を共有し、センサーを使用して認識し、アクチュエータを使用して動作する、自律的に相互作用するエンティティのグループです。マルチエージェント システムは、さまざまなエージェント間で制御権限を分散し、問題に対する分散アプローチを提供します。 3. 連合学習、分散学習、マルチエージェントの違い
8. フェデレーテッドラーニングアーキテクチャフェデレーテッド ラーニング アーキテクチャには、集中型フェデレーション (クライアント/サーバー) アーキテクチャと分散型フェデレーション (ピアツーピア コンピューティング) アーキテクチャの 2 種類があります。 1. 集中型連合学習アーキテクチャ集中型フェデレーテッド ラーニング アーキテクチャは、フェデレーテッド ラーニングで複数のユーザーのコラボレーションが必要なシナリオで主に使用されます。調整機関は中央サーバーとして機能し、グローバル モデルを調整する役割を果たします。 2. 分散型連合学習アーキテクチャ複数の参加機関がデータサイロに直面しており、複数の機関の中からコーディネーターを選択することが困難なシナリオでは、一般的に、分散型連合学習アーキテクチャ(ピアツーピアアーキテクチャ)を採用できます。 IX. 結論フェデレーテッド ラーニングは、プライバシーを漏らすことなく、異なる機関に分散されたデータを適用するという問題を解決しますが、データ プライバシーの障壁を打ち破り、データの価値を高めます。しかし、フェデレーテッド ラーニングの実装には依然として多くの技術的な困難が存在します。
技術的な困難に加えて、参加者の協力メカニズムについても検討する必要があります。
一般的に、デジタル化が進むにつれて、フェデレーテッド ラーニングは近い将来も重要な研究分野であり続けるでしょう。しかし、現時点では、フェデレーテッド ラーニングは、関連技術をさらに向上させ、実装の成功事例を増やす必要があります。 |
<<: デジタルヒューマンとは何か、そしてその将来性はどのようなものでしょうか?
序文最近、突然素晴らしいアイデアが浮かびました。コンピューターの画面に顔を向けると、コンピューターは...
[[442070]]レファレンス・ニュース・ネットワークは12月26日、ドイツのフランクフルター・ア...
[[286629]]ビッグデータダイジェスト制作出典: techtalks編纂者:穆金、曹培鑫、銭...
[[421984]]データ サイエンティストは、データの準備があらゆる AI システムの成功に非常に...
この記事では主に、機械学習プロジェクトの編成と管理に関する実践的な経験をいくつか紹介します。パイソン...
暴走列車が線路を走っています。5人が線路に縛られており、列車に轢かれそうになっています。この時点で、...
[[431006]]アルゴリズムの速度最適化でボトルネックが発生し、要件を満たすことができませんか?...
9 月 19 日、Jim Fan は Fudan NLP チームからの LLM ベースのエージェント...
AlexNet ニューラル ネットワークから ChatGPT、生成 AI の爆発的な増加まで、NVI...
コンピュータが人間の囲碁の名人と対戦していたとき、コンピュータは数年連続で世界チャンピオンに勝つこと...