連合継続学習における最新の研究の進歩の概要

データプライバシーの制限により、複数のセンター間でのデータ共有は制限されており、フェデレーテッドラーニングアーキテクチャの下で高性能なディープラーニングモデルを開発する際のマルチセンターコラボレーションの有効性に影響を与えます。ピアツーピアの連合学習の手法としての継続学習は、トレーニングデータの代わりに中間モデルを共有することでデータプライバシーの制限を回避し、ディープラーニングアルゴリズムの複数センターによる共同開発を促進します。最近、研究者たちは連合継続学習 (FCL) 方式を研究しており、連合学習アーキテクチャの下での継続学習における多拠点コラボレーションの実現可能性を研究しています。

1. 背景

1.1 継続的な学習

まず、継続的な学習とは何かを確認しましょう。現在、継続学習、増分学習、生涯学習は同義語であると一般に考えられています。これらはすべて、継続的なデータストリームでモデルをトレーニングします。時間が経つにつれて、より多くのデータが利用可能になりますが、古いデータはストレージの制限やプライバシー保護のために利用できなくなる場合があります。また、学習タスクの種類と数は事前に定義されていません (分類タスクのカテゴリ数など)。

モデルが新しいデータセットまたはタスクで再トレーニングされると、ディープラーニングは壊滅的な忘却の問題に悩まされます。つまり、ディープラーニングモデルは学習した古い知識を壊滅的に忘れてしまいます。継続的学習技術の目的は、以前に学習した知識を保持しながら、機械学習モデルを新しいデータで更新できるようにすることです。継続学習には、2 つの大きな利点があります。1) 以前のタスクで学習したトレーニングデータを保存する必要がないため、メモリを節約できると同時に、物理デバイス (マシンメモリなど) や学習戦略 (プライバシー保護など) の制限によりデータを長期間保存できないという問題を解決できます。2) モデルは以前のタスクで学習した知識を保存でき、以前のタスクで学習した知識を将来のタスクの学習に大幅に適用できるため、学習効率が向上します。

現在、継続学習の方法はまだ開発中であり、厳密な数学的定義はまだありません。ハンらは論文[1]で継続学習の模式図を示しており、図1に示されています。「継続学習プロセスでは、エージェントは連続した非独立な均一に分散されたストリームデータの例を1つずつ学習し、エージェントは各例を1回だけ訪問します。この学習方法は、動物の学習プロセスに近いものです。タスクの順序を無視して各タスクを個別にトレーニングすると、壊滅的な忘却につながります。これは、継続学習が直面する最大の問題でもあります。したがって、継続学習の本質は、さまざまな手段を通じて学習した知識を効率的に変換して活用し、新しいタスクの学習を完了することであり、忘却によって引き起こされる問題を大幅に軽減できます。[1]」

図1. 継続学習の模式図[1]

これまで、継続学習アルゴリズムは数多く存在してきましたが、主にメモリ応答、動的構造モデル、正則化モデルの 3 種類に分けられます。 1) リプレイ方式では、学習した知識を保存するために、以前のデータセットから代表的なサンプルを選択します。この方法の研究の焦点は、「古いタスクのデータのどの部分を保持する必要があるか、そして古いデータを新しいデータと組み合わせてモデルをトレーニングする方法」であり、これはデータストレージの制限を克服するには実行可能ですが、データプライバシーの問題により他のセンターのサンプルが利用できないため、複数センターのコラボレーションには実行できません[6-8]。 2) 動的構造モデルは、ネットワークの各部分（特定の重みや特定の神経接続など）が対応するタスクを担当するマルチタスクシナリオのための動的ネットワークアーキテクチャまたは動的パラメータを設計します[9][10]。 3) 正則化手法では、同じ従来のニューラルネットワークを使用しますが、学習した知識の重要なパラメーターを保持するために、損失関数に新しい正則化項を追加します。この方法の主なアイデアは、「新しいタスクの損失関数に制約を課すことで、古い知識が新しい知識によって覆われるのを防ぐ」ことです[11][12]。

1.2 連合継続学習

フェデレーテッドラーニングの主なアイデアは分散化です。モデルは共同トレーニングに参加する各クライアントに分散され、ユーザーデータを中央サーバーにアップロードせずに、ローカルクライアントのデータに基づいてモデルがトレーニングされるため、各クライアントのプライバシーが保護されます。ただし、既存の方法のほとんどは、連合学習フレームワーク全体のデータカテゴリが時間の経過とともに固定されることを前提としています。現実には、連合学習に参加したクライアントは、新しいカテゴリのデータを収集することがよくあるかもしれません。しかし、各クライアントのローカルデバイスのストレージスペースは非常に限られていることを考慮すると、収集されたすべてのカテゴリに十分なデータを保存することは困難です。この場合、現実世界の連合学習モデルは、古いカテゴリのデータのパフォーマンスの深刻な破滅的な忘却に悩まされる可能性があります。さらに、連合学習フレームワークでは、新しいユーザーが継続的に参加することが多く、新しいデータカテゴリが多数存在することが多く、グローバルモデルの壊滅的な忘却がさらに悪化します。

近年、一部の研究者は、連合学習と継続学習のアイデアを組み合わせて、連合継続学習フレームワークを構築することを提案しています。しかし、連合学習と継続学習を単純に組み合わせると、新たな問題が発生します。まず、連合継続学習では、他のクライアントからの干渉の可能性に加えて、依然として壊滅的な忘却の問題に直面しています。したがって、クライアント間の干渉を最小限に抑え、クライアント間の知識の転送を最大化するために、他のクライアントからの知識を選択的に活用する必要があります。 2つ目の問題は、フェデレーテッドラーニングが通信して知識を交換する際に、通信コストが高すぎる場合があり、「通信コスト」が無視できない問題となっていることです。

最近発表された 4 つの論文を通じて、連合継続学習における最新の研究の進歩をレビューします。

最初の記事では、新しい連合継続学習フレームワークである連合加重クライアント間転送 (FedWeIT) を提案します。 FedWeITは、各クライアントのローカルモデルパラメータを密な基本パラメータと疎なタスク適応パラメータに分解し、より効率的な通信を実現します[2]。
2番目の論文では、グローバルとローカルの両方の観点から壊滅的な忘却を可能な限り減らすことを目的とした新しいグローバルローカル忘却補償（GLFC）モデルを提案し、最終的に連合学習がグローバル増分モデルを訓練できるようにすることを目的とした[3]。
3 番目の論文では、連合相互相関と継続学習のアプローチを提案しています。異種問題の場合、この方法では、通信にラベルのない公開データを活用し、相互相関行列を構築して、ドメインシフト下で一般化可能な表現を学習します。同時に、壊滅的な忘却を防ぐために、ローカルアップデートでクロスドメイン情報とローカルドメイン情報を使用して知識蒸留を実行し、参加者のプライバシーを漏らすことなくドメイン間およびドメイン内の知識を効果的に提供します[4]。
4 番目の記事では、Federated Multilingual TTS System Fed-Speech と呼ばれる連合学習アーキテクチャを提案します。このアーキテクチャでは、話者のイントネーションを維持するために、パラメータを分離するプログレッシブプルーニングマスクを使用します。さらに、選択的なマスキングが適用され、タスク間で知識を効果的に再利用できます。最後に、ユーザーのプライバシーを維持するためにプライベートスピーカー埋め込みが導入されています[5]。

2. 重み付けされたクライアント間転送による連合継続学習

継続的学習と連合学習はどちらも、現実世界のディープニューラルネットワークでは重要です。しかし、各クライアントがプライベートな再帰データストリームから一連のタスクを学習するケースについての研究はほとんど行われていません。フェデレーテッドラーニングのこの問題は、継続的な学習に新たな課題をもたらします。たとえば、無関係な知識からの干渉を防ぎながら、他のクライアントの知識を効果的に活用するにはどうすればよいでしょうか。これらの問題に対処するために、本論文では、ネットワーク作業の重みをグローバルな連合パラメータとスパースなタスク固有のパラメータに分解する、新しい連合継続学習フレームワーク、すなわち連合重み付きクライアント間転送 (FedWeIT) を提案します。各クライアントは、特定のタスクパラメータの重み付けされた組み合わせによって、他のクライアントから選択的な知識を取得できます。具体的には、他のクライアントのタスク固有のパラメータが中央サーバーを介して取得され、これらのパラメータが重み付けされて集約され、選択的知識が得られるため、類似のタスク間でのコンセンサス知識の転送が最大化されます。 FedWeIT は互換性のないタスク間の干渉を最小限に抑え、学習プロセス中にクライアント間でのアクティブな知識転送を可能にします。

著者らは、クライアント間のタスク類似性の程度が異なる既存の連合学習および継続学習方法に対して、Fed-WeIT を検証しました。提案されたモデルは大幅に優れており、通信コストが大幅に削減されます。コードは https://github.com/wyjeong/FedWeIT で公開されています。

2.1 方法の紹介

著者らは、間接的な経験から人間が学習するプロセスに着想を得て、連合学習環境における新しい継続学習、連合継続学習 (FCL) を導入しました。 FCL では、複数のクライアントが学習したパラメータを中央サーバーと交換しながら、プライベートデータストリーム内のタスクシーケンスをトレーニングすることを想定しています。標準的な継続学習（単一マシン上）では、モデルは一連のタスク{T（1）、T（2）、...、T（T）}から反復的に学習します。ここで、T（t）はt番目のタスクのラベル付きデータセットです。現実は次のようになっていると仮定します。タスクシーケンスは到着順序が不明なタスクストリームであるため、モデルはタスク t のトレーニング期間中にのみ T (t) にアクセスでき、それ以降はアクセスできません。 T(t)とこれまでに学習したモデルを考えると、タスクtの学習目標は次のようになります。

次に、従来の継続学習を、複数のクライアントと中央サーバーを備えた連合学習環境に拡張します。 C 個のクライアントがあると仮定します。各クライアント c_c∈{c_1, . . . , c_C } は、プライベートにアクセス可能なタスクシーケンス {T^(1)_c , T^(2)_c , ..., T^(t)_c }⊆ T でモデルをトレーニングします。ステップ t で受信されたクロスクライアントタスク間には関係がないことに注意することが重要です。

現在の目標は、モデルパラメータを中央サーバーに伝達し、各クライアントから送信されたパラメータを集約してクライアントに再配布することにより、C 継続学習モデルを独自のプライベートタスクストリームで効率的にトレーニングすることです。連合継続学習フレームワークでは、ラウンド q でクライアント c_i が学習したタスクはラウンド r でクライアント c_j が学習したタスクと類似または関連している可能性があるため、パラメータはグローバルパラメータ θ_G に集約され、クライアント間での知識転送が可能になります。しかし、関連のないタスクからの知識は役に立たず、パラメータを誤った方向に変更することで各クライアントのトレーニングを妨げる可能性があり、これをクライアント間干渉と呼ぶため、単一の包括的なパラメータ θ_G を使用することは、この目標を達成するための次善の選択である可能性があると分析しています。

実際に非常に重要なもう一つの問題は、コミュニケーションの効率です。クライアントから中央サーバーへ、また中央サーバーからクライアントへのパラメータ転送には大きな通信コストがかかります。これは、クライアントが無限のタスクストリームでトレーニングする可能性がある継続的な学習環境では問題となります。前述したように、これらの問題の主な原因は、複数のクライアントで学習されたすべてのタスクの知識が、単一のパラメータセット θ_G に保存されていることです。ただし、知識移転を効果的に行うには、各クライアントが他のクライアントでトレーニングされた関連タスクの知識のみを選択的に活用する必要があります。この選択的な転送は、学習を妨げる可能性のある無関係なタスクからの知識を考慮しないため、クライアント間の干渉を最小限に抑えるための鍵でもあります。

著者らは、パラメータを役割の異なる 3 つの異なるタイプに分解することでこの問題に対処しています。グローバルパラメータ (θ_G) は、すべてのクライアントにわたるグローバルで共通の知識を取得します。ローカルベースパラメータ (B) は、各クライアントのそれぞれの特定のタスクに使用されます。継続学習クライアントc_cのタスクセットtのモデルパラメータθ^(t)_cは次のように定義されます。

このうち、B^(t)_c は c 番目のクライアントの基本パラメータセットであり、クライアントのすべてのタスク間で共有されます。 m^(t)_cは、タスクtのB^(t)_cの適応変換を可能にするスパースベクトルマスクのセットであり、A^(t)_cは、クライアントc_cのスパースタスク適応パラメータのセットです。 L はニューラルネットワークの層の数、I_l と O_l はそれぞれ l 番目の層の重みの入力次元と出力次元です。

上記の式の最初の項により、グローバルな知識を選択的に活用できるようになります。各クライアントの基本パラメータ B^(t)_c が、すべてのクライアントのすべてのタスクにおける共通知識を捉えられることを期待しています。図2(a)に示すように、各ラウンドtでは、前の反復のグローバルパラメータθ^(t-1)_Gを使用して、クライアントから送信されたパラメータを初期化および要約します。これにより、B^(t)_c はすべてのタスクに関するグローバルな知識の恩恵も受けることができます。ただし、θ^(t-1)_G には現在のタスクに関係のない知識も含まれているため、そのまま使用するのではなく、特定のタスクに関連するパラメータのみを選択するスパースマスク m^(t)_c を学習します。このスパースなパラメータ選択により、クライアント間の干渉が最小限に抑えられ、効率的な通信が可能になります。上記の式の 2 番目の項は、タスク適応性パラメーター A^(t)_c です。パラメータの加法分解を実行すると、最初の項で取得できなかったタスクに関する知識を取得することを学習できるようになり、タスク T^(t)_c に関する特定の知識を取得できるようになります。上記の式の最後の項は、加重されたクライアント間の知識転送を表します。中央サーバーから送信される一連のパラメータには、すべてのクライアントのタスク適合性パラメータがすべて含まれています。他のクライアントからの間接的な経験を選択的に利用するために、これらのパラメータにさらに注意α^(t)_cを割り当て、加重組み合わせアプローチを採用します。この種の注意を学習することにより、各クライアントは、特定のタスクの学習に役立つ関連するタスク適応パラメータのみを選択できます。 A^(j)_i を非常にスパースになるように設計し、実際には総パラメータメモリの約 2 ～ 3% を使用しますが、すべてのタスク知識を送信することは依然として望ましくありません。したがって、知識ベースからすべての時間ステップに対してランダムにサンプリングされたタスク適応性パラメータのセットを転送することを選択し、経験的に、このアプローチは実際に良好な結果をもたらすことがわかりました。

図 2. FedWeIT の更新。 (a) クライアントはスパースな連合パラメータB_c⊙m^(t)_cを送信します。その後、中央サーバーは集約されたパラメータをクライアントに再配布します。（b）知識ベースはクライアントの以前のタスク適応パラメータを保存し、各クライアントは注意マスクトレーニングでこれらのパラメータを選択的に利用します。次の目的関数を最適化することで、分解可能なパラメータ θ^(t)_c を学習します。

ここで、Lは損失関数であり、Ω(·)はすべてのタスク適応パラメータとマスク変数をスパースにするためのスパース性誘導正則化項です。 2 番目の正規化項は、過去のタスク適応パラメータを遡及的に更新するために使用され、基礎となるパラメータの変更を反映することで、ターゲットタスクに対する元のソリューションを維持するのに役立ちます。 ∆B^(t)_c は、現在の期間と前の期間の基本パラメータの差を表します。 ∆A^(i)_cは、現在の期間と前の期間におけるタスクiのタスク適応性パラメータの差です。この規則化は、壊滅的な忘却を防ぐために非常に重要です。 λ1 と λ2 は、2 つの正規化効果を制御するハイパーパラメータです。

クライアント。各ラウンドrで、各クライアントc_cは、中央サーバーから送信されたグローバルパラメータの非ゼロ要素を使用して基本パラメータを更新します。つまり、B_c (n) = θ_G (n)であり、nはグローバルパラメータの非ゼロ要素です。これは、新しいタスクのスパース基底パラメータ ^Bb^(t)_c とタスク適応性パラメータ A^(t)_c を取得し、これら 2 つのパラメータを中央サーバーに送信します。FCL ベースラインメソッドと比較してコストが低くなります。 FCL ベースライン方式では、クライアントと中央サーバーの通信に |C|×R×|θ| のリソースが必要ですが、FedWeIT では |C|×(R×|Bb|+|A|) が必要です。ここで、R はタスクあたりの通信ラウンドの数、|·| はパラメータの数です。

中央サーバー。中央サーバーはまず、すべてのクライアントから送信された基本パラメータを要約し、それらの加重平均 θ_G を取得します。次に、θ_G がすべてのクライアントにブロードキャストされます。 t-1 のタスク適応パラメータは、トレーニングタスク t 中に各クライアントに 1 回ブロードキャストされます。 FCL ベースラインでは、中央サーバーとクライアント間の通信コストとして |C|×R×|θ| が必要ですが、FedWeIT では |C|×(R×|θG|+(|C|-1)×|A|) が必要です。ここで、θ_G、A は非常にスパースです。アルゴリズム 1 は FedWeIT のアルゴリズムについて説明します。

2.2 実験の導入

著者らは、さまざまなタスクシーケンス構成で、ベースラインメソッド (Overlapped-CIFAR-100 および NonIID-50) に対して FedWeIT を検証しました。 1) Overlapped-CIFAR-100: 100 個の CIFAR-100 データセットクラスを 20 個の NonIID スーパークラスタスクにグループ化します。次に、20 個のタスクから 10 個のタスクがランダムに選択され、インスタンスが分割されて、重複するタスクを持つ各クライアントのタスクシーケンスが作成されます。 2) NonIID-50: 次の 8 つのベンチマークデータセットを使用します: MNIST、CIFAR-10/-100、SVHN、Fashion MNIST、Not MNIST、TrafficSigns。 8 つのデータセットのクラスは 50 個の NonIID タスクに分割され、各タスクは他のタスクに使用されるクラスとは分離した 5 つのクラスで構成されます。

実験で使用した比較モデルは次のとおりです。1) STL: 到着するタスクごとに単一タスク学習。 2) EWC: 各クライアントが個人的な継続学習を実施します。 3) Stable-SGD: 各クライアントは継続的に Stable-SGD を学習します。 4) APD: 各クライアントは個人の継続的な学習のために APD を使用します。 5) FedProx: FedProx アルゴリズムを使用する FCL。 6) Scaffold: Scaffold アルゴリズムを使用した FCL。 7) FedCurv: FedCurv アルゴリズムを使用する FCL。 8) FedProx-[モデル]: [モデル]を使用したFedProxアルゴリズムを使用してトレーニングされたFCL。 9) FedWeIT: FedWeIT アルゴリズム。

表 1 は、両方のデータセットでの (連合) 継続学習後の各タスクの最終的な平均パフォーマンスを示しています。 FedProx ベースの FCL アプローチでは、連合学習を使用しない同じアプローチと比較して、継続学習 (CL) アプローチのパフォーマンスが低下することがわかります。これは、無関係なタスクで学習されたすべてのクライアント側パラメータを集約すると、各タスクの学習に深刻な干渉が生じ、壊滅的な忘却と最適でないタスク適応につながるためです。 Scaffold は、すべてのクライアントが異なるタスクシーケンスから学習するため、ローカル勾配の正規化が FCL に悪影響を与えるため、FCL でのパフォーマンスは低くなります。 FedCurv はタスク間のパラメータの違いを減らしますが、タスク間の干渉を最小限に抑えることができないため、単一マシン CL 方式よりもパフォーマンスが劣ります。一方、FedWeIT は、両方のデータセットにおいて、単一マシンの CL ベースラインおよび FCL ベースラインを大幅に上回ります。クライアント数が増えても (C = 100)、FedWeIT は一貫してすべてのベースラインを上回ります (図 3)。この改善は主に、FedWeIT が他のクライアントの知識を選択的に活用して、ターゲットタスクに迅速に適応し、最終的なパフォーマンスを向上させる能力によるものです。

表 1. FCL 中の 2 つのデータセットにおける 5 つのクライアントのタスクごとの平均パフォーマンス (スコア = 1.0)。すべての学習フェーズで 3 つの個別の試行を完了した後、タスクの精度とモデルサイズを測定しました。著者らはまた、各タスクの訓練におけるC2S/S2C通信コストを測定した。

図3. 5人および100人のクライアントで最後の2つのタスク（9番目と10番目）をトレーニングしたときの平均タスク適合度

新しいタスクへの迅速な適応は、クライアント間の知識移転のもう 1 つの明らかな利点です。より大規模なネットワークにおけるこの方法の実用性をさらに実証するために、著者らは ResNet-18 の NonIID データセットで実験を行いました (表 2)。FedWeIT は、より少ないパラメータを使用しながらも、最強のベースライン (FedProx-APD) よりも大幅に優れています。

表2. NonIID-50データセットにおけるResNet-18を使用したFCL結果

さらに、著者らは、各方法における壊滅的な忘却の重大性を理解するために、継続的な学習中に過去のタスクのパフォーマンスがどのように変化するかを研究しています。図 4 は、3 番目、6 番目、8 番目のタスクにおける FedWeIT と FCL ベースラインのパフォーマンスを示しています。 FCL ベースラインは、クライアント間の干渉により、他のクライアントの無関係なタスクからの知識が過去のタスクの知識を上書きするため、EWC によるローカル継続学習よりも深刻な壊滅的な忘却に悩まされていることがわかります。対照的に、私たちのモデルでは壊滅的な忘却の兆候は見られませんでした。これは主に、グローバル/タスク適応パラメータを介して他のクライアントから学習した事前知識を選択的に活用することにより、クライアント間の干渉を効果的に軽減できるためです。 FedProx-APD も壊滅的な忘却の問題に悩まされることはありませんが、知識の伝達が非効率的であるため、パフォーマンスは低下します。

図4. 壊滅的な忘却。 NonIID-50 での連合継続学習中のタスク 3、6、8 における現在のタスク適応性のパフォーマンス比較

3. 連合クラス増分学習

3.1 局所的壊滅的忘却補償

フェデレーテッドラーニングは、分散クライアント上のプライベートデータを使用した共同トレーニングを可能にすることで、ますます注目を集めています。ただし、既存の方法のほとんどは、フレームワーク全体のオブジェクトカテゴリが固定されていることを前提としています。このため、ローカルクライアントは新しいカテゴリを継続的に収集する一方で、古いカテゴリを保存するためのストレージスペースは非常に限られているため、実際のシナリオではグローバルモデルが深刻な壊滅的な忘却に悩まされることになります。さらに、これまでに見たことのない新しいカテゴリのデータを持つ新しいクライアントが FL トレーニングに参加する可能性があり、これによりグローバルモデルの壊滅的な忘却がさらに悪化します。これらの課題に対処するために、本論文では、壊滅的な忘却を軽減するために、ローカルおよびグローバルな観点からグローバルカテゴリ増分モデルを学習する新しいグローバル-ローカル忘却補償 (GLFC) モデルを提案します。著者らは、これが FL 設定でグローバルクラス増分モデルを学習する最初の試みであると述べています。具体的には、ローカルクライアントのカテゴリの不均衡によって引き起こされるローカル忘却に対処するために、著者らは、カテゴリを考慮した勾配補償損失とカテゴリ意味関係蒸留損失を設計し、古いカテゴリの忘却のバランスを取り、さまざまなタスクで一貫したクラス間関係を蒸留しました。非 IID クラスの不均衡によって引き起こされるグローバル忘却問題に対処するために、著者らは、ローカル関係蒸留を支援するために最良の古いグローバルモデルを選択するプロキシサーバーを提案しました。プライバシー保護を考慮して、プロキシサーバーはプロトタイプ勾配ベースの通信メカニズムを通じてローカルクライアントから新しいクラスの変動したプロトタイプサンプルを収集し、それらを使用してグローバルモデルのパフォーマンスを監視し、最適なモデルを選択します。代表的なベンチマークデータセットにおける当モデルの平均精度は、SOTA法よりも4.4%〜15.1%高くなっています。コードは https://github.com/conditionWang/FCIL で公開されています。

図 5 はモデルの概要を示しています。 FCIL の要件を満たすために、私たちのモデルは、カテゴリ認識勾配補償損失とカテゴリ意味関係蒸留損失を使用してローカル忘却問題を解決し、プロキシサーバーを介してローカルクライアントに最適な古いモデルを選択することでグローバル忘却問題を解決します。

図5. GLFCモデルの概要。これは主に、ローカルカテゴリの不均衡によって引き起こされるローカル壊滅的な忘却を克服するための、カテゴリを考慮した勾配補償損失 L_GC とカテゴリ意味関係蒸留損失 L_RD で構成されます。プロキシサーバーS_Pは、非ii.d.クラスの不均衡によって引き起こされるクライアント間のグローバルな壊滅的な忘却を解決するために使用されます。ここでは、L_RDに最適な古いグローバルモデルを選択しながら、プライベート通信のためにS_Pとクライアント間でプロトタイプの勾配通信メカニズムが開発されます。

t番目の増分タスクでは、新しいカテゴリトレーニングデータとl番目のローカルクライアントS_l∈S_bのサンプルメモリM_lが与えられた場合、ミニバッチの分類損失L_CEは次のようになります。

（１）

ここで、b はバッチサイズ、Θ_r,t は中央サーバーからローカルクライアントに送信されるラウンド r のグローバルタスクの分類モデルです。 P^t_l (x_t^(l_i, Θ_r,t) ∈R^（C^p+C^t）はΘ_r,tによって予測されるシグモイド確率を表し、DCE (・,・)はバイナリクロスエントロピー損失を表します。

前述のように、新しいカテゴリと古いカテゴリ (T^t_l と M_l) 間のローカルな不均衡により、ローカルトレーニングでは古いカテゴリでのパフォーマンスが大幅に低下します (つまり、ローカルな壊滅的な忘却)。ローカル忘却を防ぐために、図 5 に示すように、ローカルクライアント用にカテゴリを考慮した勾配補償損失とカテゴリ意味関係蒸留損失を開発しました。これにより、不均衡な勾配伝播を修正し、増分タスク全体でカテゴリ間の意味の一貫性を確保できます。

カテゴリ認識勾配補償損失: S_G が Θ^r,t をローカルクライアントに配布した後、ローカルクライアントのカテゴリ配布の不均衡により、Θ^r,t の最後の出力層の勾配バックプロパゲーションが不均衡になります。これにより、ローカルモデル Θ^r,t_l を更新して、ローカルトレーニング後に新しいカテゴリで異なる学習ペースを実行し、古いカテゴリで異なる忘却ペースを実行できるようになります。この現象は、新しいストリーミングデータが継続的に古いカテゴリの一部になるときに、古いカテゴリのローカル忘却を深刻に悪化させます。

この問題に対応して、本論文では、勾配伝播の重み付けを変更することで、新しいカテゴリの学習速度と古いカテゴリの忘却速度をそれぞれ調整する、カテゴリを考慮した勾配補償損失 L_GC を設計します。具体的には、単一のサンプル (x^t_li、y^t_li) について、Θ^r,t_l の最後の出力層の y^t_li 番目のニューロンに関する勾配測度 G^t_li を取得します。

（２）

新しいカテゴリの学習率と古いカテゴリの忘却率を正規化するために、新しいカテゴリと古いカテゴリに対して個別に勾配正規化を実行し、それを使用して L_CE を再推定します。ミニバッチ {x^t_li, y^t_li} が与えられた場合、次のように定義されます。

（３）

新旧カテゴリーの勾配平均として、I(・)は指標関数であり、下付き文字の条件が真であればI(真)=1、そうでない場合はI(偽)=0となる。したがって、再加重された L_CE 損失は次のように表されます。

（4）

カテゴリーと意味の関係の蒸留損失。現在のグローバルモデル Θ^r,t に初期化されたローカルモデル Θ^r,t_l のトレーニングプロセス中に、Θ^r,t_l によって予測される確率は、クラス間の意味的類似性関係を表します。異なる増分タスク間のクラス間の意味的一貫性を保証するために、著者らは、新旧クラス間の基本的な関係を考慮して、クラス意味的関係蒸留損失 L_RD を設計しました。図5に示すように、データセットのミニバッチ{X^t_lb、Y^t_lb}は、それぞれ保存された古いモデルΘ^t-1_lと現在のローカルモデルΘ^r、t_lに転送されます。これらの確率は、新しいクラスと古いクラス間のクラス間関係を反映しています。既存の知識蒸留戦略とは異なり、著者らは L_RD を最適化することによって新旧のクラス間のクラス間関係を考慮し、Θ^t-1_l と Θ^r,t_l の間の古いクラスの意味的一貫性のみを保証します。つまり、ワンホットエンコードされたラベル Y^t_lb の変形を使用して、Y^t_lb の最初の C^p 次元を P^t-1_l (X^t_lb, Θ^t-1_l) に置き換え、この変形を次のように表現します。

L_RD は次のように取得されます。

（５）

一般に、l 番目のローカルクライアントの最適化目標は次のとおりです。

（6）

タスクシフト検出。 FCIL では、ローカルクライアントが新しいクラスデータをいつ受信するかについて事前に知ることはできません。この問題に対処するために、著者らは、トレーニングデータのラベルが以前に観察されたことがあるかどうかを識別するという解決策を検討しています。ただし、カテゴリ分布の非 iid 設定のため、このアプローチでは、新しく受信したラベルが新しいカテゴリのものか、他のローカルクライアントによって観察された古いカテゴリのものかを判断できません。もう 1 つの直感的な解決策は、パフォーマンスの低下を新しいクラスを収集するシグナルとして使用することです。このソリューションは、{So、Sb、Sn} のランダム選択とそれらの非 iid クラス分布により、新しいクラスが受信されない場合でもパフォーマンスが急激に低下するため、FCIL では実行できません。この目的のために、著者らは、ローカルクライアントが新しいカテゴリを受け取ったタイミングを正確に識別するためのタスクシフト検出メカニズムを提案しています。具体的には、r番目のグローバルラウンドで、各クライアントは受信したグローバルモデルΘ^r,tを通じて現在のトレーニングデータT^t_lの平均エントロピーH^r,t_lを計算します。

（７）

3.2 地球規模の破滅的な忘却補償

式（6）は、局所的なカテゴリの不均衡によって引き起こされる局所的な壊滅的な忘却を解決できるが、他のクライアントからの異質な忘却（つまり、全体的な壊滅的な忘却）を解決することはできない。言い換えれば、非 iid クラスの不均衡な分布により、ローカルクライアント上の一部の古いクラスのグローバルな壊滅的な忘却が発生し、ローカルの壊滅的な忘却がさらに悪化します。したがって、異なるクライアントの異種忘却問題をグローバルな視点から解決する必要があります。前述のように、式(5)で提案されたカテゴリ-意味関係蒸留損失L_RDは、クラス間の関係を洗練するために、以前のタスクの古い分類モデルΘ^t-1_lを保存することを必要とする。 Θ^t-1_l を改善すると、以前のタスクの蒸留の利点が全体的に向上し、古いクラスのメモリが全体的に強化されます。したがって、Θ^t-1_lの選択は、グローバルな破滅的な忘却補償において重要な役割を果たしており、グローバルな観点から考慮される必要があります。

ただし、FCILでは、プライバシー保護のために最適なθ^T-1_Lを選択することは困難です。直感的な解決策は、各クライアントが（T-1）THタスク中にデータT^T-1_Lをトレーニングしてその最高の古いモデル{θ^T-1_L}を保存することです。残念ながら、このソリューションはローカルの観点からθ^T-1_Lを選択し、選択したθ^T-1_Lがすべての古いクラスに最適なメモリを持っていることを保証することはできません。この目的のために、著者は、図5に記載されているように、グローバルな観点からすべてのクライアントに最適なθ^T-1を選択するために、プロキシサーバーS_Pを導入します。具体的には、ローカルクライアントがタスクスイッチング検出を介してTTHタスクの開始時に新しいクラス（つまり、t^T_L）を識別すると、プロトタイプのグラデーションベースの通信メカニズムを介して新しいクラスの摂動プロトタイプサンプルをS_Pに送信します。これらの勾配を受信した後、S_Pは摂動されたプロトタイプサンプルを再構築し、それらを使用して、最良のモデルが見つかるまでグローバルモデルθ^r、t（S_Gから受信）のパフォーマンスを監視します。次のタスク（t+1）に踏み込むとき、S_Pはローカルクライアントに最適なθ^r、tを分配します。これは、L_RDを実行する最適な古いモデルと見なします。

勾配ベースのプロトタイプ通信。 L-THローカルクライアントのSL∈SB∪SNを考えると、クライアントは新しいクラスのトレーニングデータT^T_Lを受信し、SLはタスク切り替え拘留を通じて新しいクラスを認識します。次に、SLは、新しいクラスごとにT^T_Lから1つの代表的なプロトタイプサンプルx^T_LC ∗のみを選択します（C = C^P_L + 1、 - 、C^P_L + C^T_L）。x^T_LC ∗の特徴は、ラストフィーチャースペースのクラスCに属するすべてのサンプルの平均埋め込みに最も近いものです。これらのプロトタイプサンプルとそのラベルは、ネットワークγ= {wi}のL層勾配エンコードネットワークエンコードに供給され、勾配∇γ_LCを計算します。 S_Pは、このラウンドでグローバルに選択されたクライアントから受信したすべての勾配をランダムに処理して、このプールにn^t_gの勾配があると仮定します。この操作により、S_Pは、特別な勾配分布に注釈を付けることにより、特定の選択されたクライアントを追跡できません。 ∇γ^tのn番目の要素∇γ^t_nの場合、∇γの最後の層の勾配の兆候を観察することにより、対応するグラウンドトゥルースラベルy^t_n（1ホットのエンコードラベルy^t_nがあります）を取得できます。標準ガウス（n0,1）によって初期化された偽のサンプルx¯^t_nが与えられると、すべてのペア{x¯^t_n、∇γ^t_n、y^t_n}は、地元のクライアントが使用する同じ勾配エンコードネットワークであるγ= {wi}に転送され、各クラスのサンプルを回復します。再構成損失L_RTは次のとおりです。

（8、9）

最高の古いモデルの選択。新しいクラスが検出された場合、S_PはTTHタスクの最初のラウンドでローカルクライアントからのみ勾配を受信できます。次に、s_pは、式（9）を最適化することにより、n^t_gの新しいカテゴリとそのラベル（つまり、{x¯^t_n、y^t_n}）のプロトタイプサンプルを再構築します（9）。 t-thタスクでは、S_Pはこれらの再構築されたサンプルをグローバルモデルθ^r、t（S_Gから受信）に転送し、次のタスクの新しいクラスのグラデーションを受信するまでどのモデルが最高の精度を持つかを評価することにより、最適なθ^tを選択します。 2番目のタスクから始まるグローバル処理の各ラウンドで、S_Pは、以前のタスクと現在のタスク（つまり、θ^t-1およびθ^t）の最適なモデルを選択したすべてのクライアントに分配します。これらの選択されたクライアントがTTHタスクでT^T+1_Lの新しいクラスを検出した場合、それらは古いモデルθ^T-1_Lにθ^tを設定します。

摂動のプロトタイプサンプルの構築。ネットワークγはS_Pとローカルクライアントにのみ個人的にアクセスできますが、L-THローカルクライアントの元のプロトタイプサンプル{x^T_LC ∗、y^t_lc ∗}を再構築するために、γとこれらの勾配を盗むことができます。プライバシーの保存を達成するために、著者はこれらのプロトタイプサンプルに摂動を追加することを提案しています。プロトタイプサンプルを再構築できる場合でも、摂動プロトタイプサンプルから取得できる有用な情報はほとんどありません。プロトタイプサンプル{x^t_lc ∗、y^t_lc ∗}を与えられた場合、式（6）で訓練された局所モデルθ^r、t_lに転送し、バックプロパゲーションを適用してこのサンプルを更新します。摂動プロトタイプサンプルを生成するために、著者はプロトタイプサンプルの潜在的な特徴にガウスノイズを導入し、次に式（11）でx^t_lc ∗を更新します。

（10）

（11）

ここで、φ（x^t_lc ∗）はx^t_lc ∗の潜在的な特徴を表し、p^t_l（φ（x^t_lc ∗）+γn（0、σ2）、θ^r、t_l）は、Gaussian noise n（x^t_lc（x^t_l）がθ^r、t_lによって予測される確率です。 σ2は、著者がこの論文のガウスノイズの影響を制御するためにy^t_lc ∗に属するすべてのサンプルの特徴的な分散を表します。図6は、再構築されたプロトタイプサンプルを示しています。

図6。CIFAR-100のプロキシサーバー（下列）によって再構築された元のプロトタイプサンプル（上の列）、摂動プロトタイプサンプル（中央行）、およびプロトタイプサンプルの視覚化

3.3実験紹介

このペーパーでは、CIFAR-100、ImagenetSubset、およびTinyImagenetの実験を実施しています。その中で、△は他の比較方法と比較してこのモデルの改善を表しています。 FCILセットアップでは、このホワイトペーパーのモデルは、振幅4.4％から15.1％の既存のクラス不調法の平均精度を超えることがわかります。これにより、このモデルにより、地元のクライアントがグローバルなクラスインクリメンタルモデルのトレーニングで協力できるようになりました。さらに、他の方法と比較して、このモデルはすべての増分タスクで安定したパフォーマンスの改善があり、FCILの忘却の問題を解決する際のこのモデルの有効性を検証します。

表3。CIFAR-100でのこのペーパーモデルとその他のベースライン方法のパフォーマンス比較

表4。このペーパーモデルのパフォーマンス比較およびImagenet-Subsetのその他のベースラインメソッド

表5。TinyImagenetと20のタスクの上位10タスクの比較

さらに、著者は、GLFCのパフォーマンスを検証するために、ベンチマークデータセットでさまざまな増分タスク（t = 5、10、20、20）の定性分析を実施しました。これらの曲線に基づいて、さまざまなタスク設定（T = 5、10、20）で他のベースラインメソッドよりも、すべての増分タスクでモデルのパフォーマンスが向上していることを簡単に観察できます。これは、GLFCモデルにより、複数のローカルクライアントがローカルおよびグローバルな忘却の問題を解決しながら、ストリーミング方法で新しいクラスを学ぶことができることを示しています。図7および8に示すように。

図7。T= 5（左）、t = 10（中）、およびt = 20（右）の場合、CIFAR-100の異なる増分タスクの定性分析。

図8。t= 5（左）、t = 10（中）、およびt = 20（右）の場合のImagenet-subsetの増分タスクの定性分析。

4。他の人から学び、不均一な連邦学習にいること

連邦学習は重要な分散学習パラダイムになりました。これには、多くの場合、他の人との共同更新やプライベートデータのローカル更新が含まれます。しかし、不均一性の問題と壊滅的な忘れが連邦学習に対する現在の課題です。第一に、非IIDデータとヘテロ構造により、他のドメインでのモデルのパフォーマンスが低下し、参加者のモデルとのコミュニケーションの障壁がありました。第二に、ローカルの更新では、モデルはプライベートデータで個別に最適化されており、現在のデータ分布を簡単に過剰に抑え、以前に得た知識を忘れて壊滅的な忘却につながる可能性があります。このペーパーでは、連邦相互相関と継続的な学習（FCCL）を提案しています。不均一性の問題については、FCCLはコミュニケーションのために非標識パブリックデータを使用し、相互相関マトリックスを構築してドメインオフセットの一般化可能な表現を学習します。同時に、壊滅的な忘却のために、FCCLはローカルアップデートの知識の改良を使用して、プライバシーを明らかにすることなく領域間およびドメイン内情報を提供します。著者は、さまざまな画像分類タスクの経験的結果を通じて、この方法の有効性とモジュールの効率を実証しました。

標準的なフェデレーション学習設定によれば、K参加者（Iでインデックス付き）があります。各参加者にはローカルモデルθ_iおよびプライベートデータd_i = {（x_i、y_i）|x_i∈R^（ni×d）、y_i∈R^（ni×c）}があります。一方、プライベートデータ分布はP_I（x、y）として表され、p_i（x | y）p_i（y）として書き換えられます。さらに、ヘテロフェデラルの学習では、データの不均一性とモデルの不均一性は次のように定義されます。

データ不均一性。 p_i（x | y）≠p_j（x | y）。プライベートデータ間にドメインオフセットがあります。つまり、p（x | y）の条件付き分布は、p（y）が共有されていても、参加者によって異なります。具体的には、同じタグYには、異なるドメインで異なる特性xがあります。
モデルの不均一性：形状（θ_i）≠形状（θ_j）。参加者は、モデルを独立してカスタマイズします。つまり、分類タスクの場合、選択したバックボーンネットワーク（ResNet、EfficientNet、MobileNetなど）は異なり、分類モデルが異なります。

著者は、通信を実現するために、ラベルのないパブリックデータd_0 = {x_0 |x_0∈R^（n0×d）}を使用します。パブリックデータは、実際のシナリオで比較的簡単に入手できます。最初の参加者の目標は、コミュニケーションに到達し、一般化可能なモデルθ_iを学ぶことでした。さらに、壊滅的な問題を考慮すると、θ_Kは、より高いかつより安定したドメイン間およびドメイン内パフォーマンスを示す必要があります。この方法のフレームワークを図9に示します。具体的には、共同更新では、著者は、類似性を達成し、冗長性を減らすために、非標識パブリックデータの出力ロジット間の相互相関マトリックスを測定します。同時に、ローカルの更新では、マルチドメイン情報は知識の蒸留によって常にバランスが取れています。

図9。FCCLの例。（a）この論文の方法論の単純化された概略図。勾配色の比率は、他の参加者の影響の程度を反映しています

4.1連邦相互関係の学習

ディメンションレベルの操作のインスピレーション。情報のボトルネックによる自己監視学習の成功した経験に触発された著者は、一般化可能な表現は可能な限り画像に関する情報を提供する必要があると同時に、サンプルの特定のドメインに適用される変換に影響を与えないことを提案します。この作業では、ドメインオフセットにより、同じタグyが異なるドメインに異なる機能xを持たせます。したがって、異なるドメインのバッチ寸法に沿ったロジット出力の分布は異なります。さらに、異なる次元のロジット出力は、異なるカテゴリに対応しています。したがって、同じ次元と異なる次元での多様性の不変性を促進する必要があります。プライベートデータには特定のドメイン情報が搭載されており、プライバシーによって保護されています。プライバシーは、自己教師の学習には不適切で実行不可能です。したがって、複数のドメインから生成および収集されることが多く、簡単に入手できる非標識パブリックデータを利用します。ロジット出力がドメインオフセットの影響を受けることを要求し、ラベルなしのパブリックデータのロジット出力の異なる寸法を変更することを要求することにより、プライベートモデルを最適化します。

相互相関マトリックスの構築。具体的には、i番目の参加者からロジット出力を取得します。 z_i = f（θ_i、x_0）∈R^（n_0×c）。 i番目とj番目の参加者の場合、ラベルのないパブリックデータのロジット出力はZ_IおよびZ_Jです。中央サーバー側のコンピューティング負担を考慮すると、平均ロジット出力を計算することは注目に値します。

次に、相互相関マトリックスが計算され、Ith参加者の平均ロジット出力はM_Iです。

（12）

その中で、Bはバッチサンプルを指し、uとvはロジット出力の寸法を参照し、||・||はバッチディメンションに沿った正規化された操作です。 M_Iは、出力寸法cのサイズを持つ正方行列であり、-1（つまり、類似していない）と1（つまり、類似）の間の値です。次に、i番目の参加者の共同損失は次のように定義されます。

（13）

ここで、λ_COLは、損失の最初と2番目の条件の重要性を交換するために使用される通常の数です。相互相関マトリックスの対角線が + 1と見なされると、異なる参加者が同様のロジット出力を持つことを奨励します。相互相関マトリックスの斜めの用語が-1の値をとる場合、これらのロジット出力の異なる寸法が互いに関連していないため、ロジット出力の多様性を促進します。

4.2連邦関連の学習を継続しました

典型的な監督の損失。連邦学習のローカル更新の場合、現在の方法は、このプロセスを監視された分類問題としてしばしば受けます。具体的には、T-th Round通信では、共同更新後、I番目のプライベートモデルは（θ^T、IM）_iとして定義されます。次に、（θ^t、im）_iは、固定エポックのプライベートデータ（x_i、y_i）で最適化されます。次のロジット出力が与えられた場合：

SoftMaxでクロスエントロピー損失を最適化します：

（14）

このようなトレーニングターゲットの設計は、主に次の2つの制限のために壊滅的な忘却の問題に直面する可能性があります。1）ローカル更新では、他の参加者からの監督がなければ、モデルは現在のデータ分布に簡単に過剰にでもきつけ、ドメイン間のパフォーマンスが低下する可能性があります。 2）予測に独立した事前の確率ペナルティのみを課すだけで、有限で困難な内臓情報を提供します。

二重ドメイン知識蒸留損失。著者は、モデルの側面から目標を正規化することにより、1）および2）の問題を解決するフェデレーションの連続学習方法を開発します。具体的には、ラウンドT-1トレーニングの終わりに、更新されたモデル（θ^T-1）_Iには、他の参加者から学んだ知識が含まれています。プライベートデータのロジットの計算出力は次のとおりです。

ドメインの知識蒸留の喪失は、次のように定義されます。

（15）

ここで、σはソフトマックス関数を表します。たとえば、フォーミュラ（15）、その目的は、プライバシーを保護しながら他の人から継続的に学習し、それによってドメイン間のパフォーマンスを確保し、連邦学習における壊滅的な忘却の問題に対処することです。さらに、Ith参加者の場合、プライベートデータでモデル（θ^∗）_ iを事前にトレインすることが可能です。次のプライベートデータが与えられます。

ドメイン内の知識蒸留損失は、次のように定義されます。

（16）

前処理されたモデルによる知識の蒸留は、柔らかく豊富なドメイン情報を提供します。さらに、式（14）の典型的な監視された損失（すなわち、クロスエントロピー損失）と協力して、ドメイン内のパフォーマンスを確保するためにソフトとハードのためにドメイン内情報を提供します。ある程度、上記の2つのモデル（つまり、更新されたモデル（θ^T-1）_Iおよび事前に訓練されたモデル（θ^∗）_ I）は、「教師」の間と内部のモデルを表します。知識の蒸留を通して、他者と自分自身からの知識はバランスが取れていますが、ドメイン間およびドメイン内のパフォーマンスを改善します。デュアルドメインの知識蒸留の計算方法は次のとおりです。

（17）

フォーミュラ（14）の典型的な監督喪失と、式（17）の2ドメインの知識蒸留損失は補完的です。前者は、モデルが分類タスクに意味のある判別表現を学習することを要求し、後者はドメイン内およびドメイン間ソフト情報でモデルを正常化するのに役立ちます。したがって、全体的なトレーニング目標は次のとおりです。

完全なFCCLプロセスは次のとおりです。

4.3実験状況の紹介

著者は、2つの分類タスク（数字やオフィスホームなど）と3つのパブリックデータセット（CIFAR-100、Imagenet、Fashion-Mnistなど）に関するこの記事方法を広範囲に評価しました。具体的には、数字タスクには4つのドメイン（MNIST（M）、USPS（U）、SVHN（SV）、およびSyn（SY））が含まれ、合計10のカテゴリがあります。 Office-Homeタスクには、4つのドメイン（Art（A）、Clip Art（C）、Product（P）、およびReal World（R））もあります。両方のタスクで、異なるドメインから取得したデータは、ドメインオフセット（データの不均一性）特性を示すことに注意してください。これら2つの分類タスクでは、参加者のカスタマイズされたモデルは、差別化されたバックボーンネットワークと分類器から違い（モデルの不均一性）を取得できます。実験では、著者はこれらの4つのドメインのモデルを再ネット、EfficientNet、MobileNet、およびGoogleLenetに設定します。著者らは、FCCLをFEDDF、FML、FEDMD、RCFL、FEDMATCなどの最先端の方法と比較しています。さらに、ソロが比較され、参加者は連合学習なしでプライベートデータのモデルを訓練します。特定の実験セットアップは完全に一貫していないため、著者は比較のための方法のいくつかの重要な機能を保持しました。

評価指標。著者は、メソッドの品質を測定するための標準メトリックを報告します：精度、ペアの数をサンプルの数で割ったものとして定義されています。具体的には、ドメイン内およびドメイン間のパフォーマンスを評価するために、次の指標が定義されています。

ドメイン間分析。表6は、さまざまな方法のドメイン間性能を報告しています。ドメインオフセットの場合、SOLOは両方のタスクで最悪の状態を実行します。 FCCLは、他の同様の方法よりも大幅に優れたパフォーマンスがあることが観察されました。図10は、FCCLが参加者間の同様のロジット出力とロジット出力の冗長性を実装していることを示しており、FCCLが同じ次元で相関を正常に実行し、パブリックデータとプライベートデータの異なる次元で非相関を実行することを確認しています。

表6。ドメイン間性能と最先端の方法の比較。 M→は、プライベートデータがMNISTであり、それぞれのモデルが他のドメインでテストされることを意味します。 AVGは、各ドメインから計算された平均精度を表します

図10。CIFAR-100を使用した異なるドメインのデジタルタスクの相互相関マトリックスの視覚分析

ドメイン内分析。壊滅的な忘却の緩和の効果を比較するために、表7は、さまざまな方法のドメイン内パフォーマンスを報告しています。 CIFAR-100の桁のタスクを例にとると、この方法はRCFLよりも2.30％優れています。さらに、図11aの図11bの通信ラウンドのドメイン内精度と最適化ターゲット値を増加させることにより、FCCLが定期的なパフォーマンスによってあまり影響を受けず、現在のデータ分布に過剰に浸透させることができないことを示しています（L^loc = 0.0225）。

表7。CIFAR-100を使用したこれら2つのタスクの最先端の方法とのドメイン内パフォーマンスの比較

図11。コミュニケーションラウンドを増やすことにより、CIFAR-100を使用したデジタルタスクをローカル更新するときの律域パフォーマンスと最適化ターゲット値の比較

モデルの均一性分析。著者は、FCCLをモデルの均一性の他の方法とさらに比較します。共有モデルをResNet-18に設定し、共同更新とローカル更新の間に平均パラメーター操作を追加します。表8は、ドメイン間およびドメイン内データを示し、オフィスホームタスクにおけるCIFAR-100のドメイン間およびドメイン内パフォーマンスを示しています。

表8。CIFAR-100を使用したオフィスホームタスクにおける最先端の方法との比較

5。FedSpeech：継続的な学習を伴うフェデレーションテキストからスピーチ

フェデレーションラーニングは、厳格なプライバシー制限の下で機械学習モデルを協力して協力して訓練することができますが、フェデレーションされたテキストからボイスへのアプリケーションは、ローカルデバイスに保存されている少数のオーディオトレーニングサンプルを使用して、複数のユーザーからの自然なスピーチを統合することを目的としています。ただし、フェデレーションされたテキストからボイスへの声はいくつかの課題に直面しています。各スピーカーにトレーニングサンプルはほとんどなく、トレーニングサンプルは各ユーザーのローカルデバイスに保存され、グローバルモデルはさまざまな打撃に対して脆弱です。このペーパーでは、上記の困難を克服するための継続的な学習方法に基づいた、連邦多言語のテキストからスピーチTTSシステムと呼ばれる新しい連邦学習アーキテクチャを提案します。具体的には次のとおりです。1）選択的マスキングを通じて、FedSpeechは、限られたトレーニングデータの影響を減らすために、共同トレーニングから効果的に恩恵を受けることができます。 2）プログレッシブトリミングマスクを使用して、異なるスピーカーのパラメーターを分離して、壊滅的な忘却の問題を克服します。したがって、FedSpeechは、すべてのスピーカーのイントネーションの変化の問題を回避します。 3）プライベートスピーカーの埋め込みを導入し、上記の2種類のマスクを追加して、プライバシーを保護し、スピーカーへのさまざまな打撃を避けます。縮小するVCTKデータセット（各スピーカーのトレーニングセットが4分の1に減少して低リソースの言語シナリオをシミュレートする）での実験は、FedSpeechが音声品質の点で上部のマルチタスクトレーニングにほぼ一致し、スピーカーの類似性実験ですべてのシステムを大幅に上回ることができることを示しています。

5.1モデル構造

FedSpeechの全体的なモデル構造を図12に示します。エンコーダは、音素埋め込みシーケンスを音素暗黙的なシーケンスに変換し、その後、持続時間やイントネーションなどの情報に異なる違いを追加し、最後にアダプされた暗黙的配列がメロディースペクトルデコーダーによってメロディースペクトルシーケンスに変換されます。フィードフォワードトランスモジュールが採用されています。これは、エンコーダーおよびメロディースペクトルデコーダーの基本構造として、自己触媒レイヤーとFastSpeechでの1Dコンボリューションフィードフォワードネットワークの重ね合わせです。さらに、ピッチ予測子と期間予測因子を使用して、より多くの情報を紹介します。各ネットワークには、Reluアクティベーションを備えた2層1D畳み込みネットワークが含まれ、その後に層の正規化とドロップアウト層が続き、隠された状態を出力シーケンスにキャストする追加の線形層が含まれます。トレーニング段階では、録音から抽出された持続時間とイントネーションの真の値は、ターゲット音声を予測するために暗黙的なシーケンスに入力されます。同時に、実際の持続時間とピッチ値をターゲットとして使用して、予測子をトレーニングします。これらの出力を使用して、ターゲット音声を合成するために推論します。

図12。FedSpeechの全体的なアーキテクチャ。 +は、要素を追加する操作を表します

スピーカーの特性を潜在スペースから推定することでスピーチを制御し、プライバシーを保護するために、著者はプライベートスピーカーモジュールを導入します。プライベートスピーカーモジュールは、スピーカーのID番号S_IDを入力として取得し、r_1、r_2、...、r_n}を生成するトレーニング可能なルックアップテーブルです。スピーカー表現Rは、トレーニングと推論におけるイントネーション特性を制御するための追加の重要な情報として、エンコーダーの出力に渡されます。プライバシーを念頭に置いて、各スピーカーは自分のモジュールパラメーターのセットを訓練および維持し、他の人がS_IDでも自分の声を合成できないようにします。

図13。FedSpeechを使用した2ラウンドのトレーニング。最初のラウンドでは、マスクが徐々にトリミングされ、各スピーカーの重量を分離します。スピーカー用に予約されている重量がしきい値よりも少ない場合、モデルは拡大します。第2ラウンドでは、例としてスピーカー2を取り上げます。選択的なマスクトレーニングは、他のスピーカーのために予約された重量の知識を再利用することです

この方法には壊滅的な忘却の問題があるため、このホワイトペーパーでは連邦集約トレーニング方法は使用されません。図13に示すように、著者は継続的な学習で一般的に使用される継続的なトレーニングセットアップを採用しています。古典的な設定に基づいて、このペーパーでは、2ラウンドのシーケンシャルトレーニングを提案しています。トレーニングの第1ラウンドでは、モデルは各スピーカーの重量の一部を個別に学習および修正するため、第2ラウンドのトレーニングでは、前と次のスピーカーの知識を選択的に再利用できます。

具体的には、トレーニングの最初のラウンドでは、図13のプログレッシブトリミングマスクを計算して、各スピーカーのパラメーターを分離します。スピーカーを1からnまでs_1：nとして示します。 S_1：nのタスクはT_1：nとして表されます。例としてS_Tを取ります。 T_Tが起動すると、グローバルモデルM_Gが最初にS_Tに送信され、収束までプライベートデータでトレーニングされます。 i番目の層の学習重量マトリックスは、（w^l_i）_1として表されます。次に、各レイヤー（w^l_i）_1の最小重量を徐々にトリミングし、0に設定し、他の重量を再訓練してパフォーマンスを回復します。最後に、重量は3つの部分に分かれています。後のスピーカーS_T+1：nのリリース重量がしきい値λよりも小さい場合、モデルの隠されたサイズをμに拡張します。剪定状態は、M_Pとして示されるプログレッシブプルーニングマスクに保存されます。次に、W^T_Sを修正し、M_PとM_G（プライベートスピーカーモジュールを除く）を次のスピーカーS_T+1デバイスに送信し、順次トレーニングを継続します。最初のラウンドが終了すると、各スピーカーは重量の特定の部分を保持します。これは、M_Pで表される（W^1：n）_sとして表されます。各タスクの重みは固定されているため、各スピーカーは推論でトーンを完全に保持できます。最後に、M_PとMGをS_1：Nデバイスに送信します。したがって、各スピーカーには、M_P、M_G、および彼が予約するプライベートスピーカーモジュールのパラメーターがあります。

トレーニングの第2ラウンドでは、データ不足の問題を解決するためにスピーカーの知識をそらすために選択的なマスクが導入されます。図13の選択的なマスクは、スピーカーによって保持されている有用な重みを自動的に選択するように訓練されています。著者は、すべてのタスクからの重みを選択する修正された選択プログラムを提案します。これは、フェデレートTTSタスクのすべてのスピーカー（特に以前のスピーカーのより多く）で公平です。特定のスピーカーS_Tの場合、2ラウンドのトレーニングがW^T_Sと選択的マスクの連邦トレーニングを放棄し、その結果、パフォーマンスがわずかに低下しました。しかし、各スピーカーについて、以前のタスクと後続のタスクから重みを選択できるようにし、全体的なパフォーマンスを大幅に改善します。

最初のラウンドが終了すると、m_gの重量がいくつかの部分（w^1：n）_sに分割され、s_1：nによって保存されます。プライバシーを維持しながら共同トレーニングから利益を得るために、著者は、他のスピーカーが保持しているパラメーターの知識を転送するために、学習可能なマスクM_B∈{0,1}を導入します。このホワイトペーパーでは、ピギーバック法を使用して、実際の価値マスクM_Sを学習し、M_Bを構築するために二等層化のしきい値を適用します。スピーカーS_Tの場合、マスク（M^T）_Bは彼のローカルデータセットでトレーニングされ、重みは次の方法で他のスピーカーの位置から選択されます。

一次元畳み込み層での選択的マスクのトレーニングプロセスは、例として説明されています。タスクTでは、m_g（つまり、w^1：n_s）が固定されています。バイナリマスクをm^t_bとして示します。次に、入出力関係の方程式は次のとおりです。

バックプロパゲーション中、m^t_bは分離できません。したがって、実際の値の選択的なマスクが導入され、（m^t）_sとして表されます。選択したしきい値としてσを示します。バイナリマスク（M^T）_Bをトレーニングすると、実数マスク（M^T）_がバックワードパスで更新されます。トレーニング後、（m^t）_sは破棄され、（m^t）_bのみが推論のために保存されます。 m^t_sの方程式は次のように表されます。

簡単にするために、著者はS_Tの例を使用して推論段階を説明します。現在、S_TにはM_P、（M^T）_B、M_G、およびローカルで保存されたスピーカーモジュールパラメーターがあります。 m_pを使用して重量w^t_sを選択し、（w^1：t-1）_s（w^t+1：n）_sの（m^t）_bで重みを選択的に再利用します。 S_Tのトーンを傷つけないように、未使用の重量はゼロに固定されます。 FedSpeechで実行された2ラウンドのトレーニングの全体的なプロセスは、アルゴリズム1に示されています。

5.2実験結果の分析

著者は、VCTKデータセットで実験を実施しました。これには、約44時間のスピーチが含まれており、109人のネイティブ英語話者が異なるアクセントを持つ発言しました。各スピーカーは約400文を読みましたが、そのほとんどは新聞から選択され、さらに虹とスピーカーのアクセントを識別するために設計された誘発パッセージがありました。低リソースの言語シナリオをシミュレートするために、各スピーカーのサンプルをランダムに選択し、3つのグループに分割しました。100個のサンプルをトレーニングに使用し、20個のサンプルを検証に使用し、20個のサンプルをテストに使用しました。著者は、評価のためにタスク1〜10として示される10個のスピーカーをランダムに選択しました。発音エラーの問題を軽減するために、著者はオープンソースのレターから病気の変換ツールを使用して、テキストシーケンスを音素シーケンスに変換しました。著者は、元の波形をMel-SpectRogramsに変換し、サンプリングレートの22050でフレームサイズとジャンプサイズを1024と256に設定します。

著者は、オーディオの品質を測定するために、テストセットでMOS（平均意見スコア）を評価します。設定とテキストの内容は、他の気晴らしを排除するために異なるモデル間で一貫しており、オーディオの品質のみが調べられます。各オーディオは、10人のネイティブ英語スピーカーによって審査されます。著者は、このモデルによって生成されたオーディオサンプルのMOを、次のような他のシステムと比較します。1）GT、Ground Truth Audio in VCTK。 2）GT（MEL + PWG）、最初にグラウンドトゥルースオーディオをMELスペクトルグラムに変換し、次にParallelwavegan（PWG）を使用してオーディオに変換します。 6）FEDAVG、ローカル情報（勾配やモデルパラメーターなど）を収集し、グローバルモデルをトレーニングします。 7）CPG、継続的な学習のためのパラメーター分離方法。著者は3）上限として、その他はベースラインとして表現します。したがって、3）、4）、5）、6）、7）、およびFedSpeechのすべてのシステムは、公正な比較のために事前に訓練されたPWGをボコーダーとして使用します。 MOSの結果を表9に示します。テーブルから、FedSpeechがすべてのベースラインと比較して最高のMOを達成したことがわかります。 FedSpeechはCPGよりも優れたパフォーマンスが発生したことに言及する価値があります。さらに、FEDAVGの結果は他の方法よりも著しく悪化しているため、他のスピーカーからの勾配が各スピーカーのトーンに大きく影響します。さらに、VCTK上のFedSpeechのMOS値は、マルチタスクトレーニングに近い（上限）。これらの結果は、連邦の多言語TTSタスクにおけるFedSpeechの利点を示しています。

表9。MOSの信頼区間と95％。

作者在测试集上进行说话人相似度评估，以衡量合成音频和ground-truth 音频之间的相似度。为了排除其他干扰因素，作者在不同的模型中保持文本内容的一致性。对于每项任务，作者利用编码器推导出总结说话人声音特征的高级表示向量。具体来说，编码器是一个带有投影的3 层LSTM，它为提取说话人的语调嵌入进行了预训练。余弦相似度是衡量说话人表述向量相似度的标准，其定义为cos sim (A, B) =A - B/kAk kBk。其结果范围从- 1 到1，数值越大，说明向量越相似。作者计算合成音频的说话人表示向量和ground-truth 音频之间的余弦相似度作为评价标准。

最终实验结果显示在表10 中。FedSpeech 的平均得分最高，甚至高于多任务的上限。这意味着FedSpeech 可以在推理阶段更好地保留每个说话人的声音，并证明了参数隔离的有效性。此外，在任务1 中，FedSpeech 的结果明显高于CPG。可以看出，有选择地重用前一个和后一个说话人的知识给说话人带来了很大的好处，因此，在联邦多语者TTS 任务中，所有的说话人都能获得更好的声音。

表10. 基线和FedSpeech 之间说话人相似度的比较。平均值是指10 个任务的平均值，γ 是指与256 个隐大小的FedSpeech 相比的模型扩展率

为了测量音频质量，作者进行了MOS 评估，每个音频由10 个英语母语者进行评判。如表11 所示，去除渐进修剪掩码或去除选择性掩码都不会导致明显的质量下降，这意味着选择性掩码有能力自动选择渐进修剪掩码所保留的权重。然而，去除这两种类型的掩码会导致灾难性的质量下降。此外，作者还进行了说话人相似性评估。如表11 所示，稍微去除这些选择性掩码或渐进修剪掩码会导致轻微的性能下降，而去除这两个掩码则会导致灾难性的下降。可以看出，渐进修剪掩码完美地保留了每个说话人的语调。此外，选择性掩码有能力自动选择渐进修剪掩码所保留的权重，将它们结合起来会导致更好的结果。

表11. 在消融实验中MOS 和说话人相似度的比较。SM 指的是选择性掩码，GPM 指的是渐进修剪掩码，相似度是余弦相似度

对于未来的工作，作者提出将继续提高合成语音的质量，并提出新的掩码策略来压缩模型和加快训练速度。此外，他们还将把FedSpeech 应用于zero-shot 的multi-speaker 设置，通过使用private speaker 模块来生成掩码。

6、本文小结

在这篇文章中，我们浅析了四篇联邦连续学习相关的最新论文。这四篇文章的重点都是解决联邦学习框架下不同客户端间相互干扰的问题，具体选择了将参数分解为全局参数和本地参数、着重考虑设备上存储数据的类别意识和类别语义、增加知识蒸馏以平衡不同数据域关系等方法，在论文给出的场景中都获得不错的效果。不过，这些文章都没有着重分析这种方法可能造成的通信代价。关于联邦持续学习的实用性还有待更进一步的研究，以更好的满足当前数据隐私保护高要求条件下的数据分析和应用需求。

<<: AI人材の世界的な需要が急増、一部の職種では年間40万ドル近くを稼ぐ

>>: 自動化から拡張現実まで: 製造業を混乱させる 12 の革新的なテクノロジートレンド