転移学習におけるドメイン適応の理解と3つの手法の紹介

ドメイン適応はコンピュータービジョンの領域であり、ソースデータセットでニューラルネットワークをトレーニングし、ソースデータセットとは大幅に異なるターゲットデータセットで優れた精度を確保することを目的としています。ドメイン適応とその応用をより深く理解するために、まずその使用例をいくつか見てみましょう。

当社には、交通標識認識用の GTSRB、信号機検出用の LISA および LARA データセット、物体検出およびセグメンテーション用の COCO など、さまざまな目的に対応した標準データセットが多数あります。しかし、ニューラルネットワークにインドの道路上の交通標識の識別などのタスクを適切に実行させたい場合、まずインドの道路のあらゆる種類の画像を収集し、それらの画像に注釈を付ける必要があり、これは時間と労力がかかる作業です。ここでは、GTSRB (ソースデータセット) でモデルをトレーニングし、インドの交通標識画像 (ターゲットデータセット) でテストできるため、ドメイン適応を使用できます。

多くの場合、堅牢なニューラルネットワークをトレーニングするために必要なすべてのバリエーションと多様性を備えたデータセットを収集することは困難です。この場合、さまざまなコンピュータービジョンアルゴリズムの助けを借りて、必要なすべてのバリエーションを含む大規模な合成データセットを生成できます。次に、ニューラルネットワークは合成データセット (ソースデータセット) でトレーニングされ、実際のデータセット (ターゲットデータセット) でテストされます。

理解を深めるために、ターゲットデータセットに使用できる注釈がないものと想定しましたが、これが唯一のケースではありません。

したがって、ドメイン適応における目標は、ラベルが利用可能なデータセット (ソース) でニューラルネットワークをトレーニングし、ラベルが利用できない別のデータセット (ターゲット) で良好なパフォーマンスを確保することです。

分類パイプライン

それでは、目標を達成する方法を見てみましょう。上記の画像分類の例を考えてみましょう。あるドメインから別のドメインに適応するには、分類器がソースデータセットとターゲットデータセットの両方から特徴を適切に抽出できるようにする必要があります。ニューラルネットワークをソースデータセットでトレーニングしたので、分類器はソースデータセットで適切に機能するはずです。ただし、分類器がターゲットデータセットで適切に機能するには、ソースデータセットとターゲットデータセットから抽出された特徴が類似している必要があります。したがって、トレーニング中は、ソースドメインイメージとターゲットドメインイメージの両方に対して同様の特徴を抽出できるように特徴抽出を強化します。

ドメイン適応の成功

対象ドメインに基づくドメイン適応型

対象ドメインによって提供されるデータの種類に応じて、ドメイン適応は次のカテゴリに分類できます。

教師あり - ターゲットドメインからのデータにラベルが付けられており、ターゲットドメインデータセットのサイズはソースデータセットよりもはるかに小さくなっています。
半教師あり - ターゲットドメインにラベル付きデータとラベルなしデータの両方があります。
教師なし — ターゲットドメインのラベルのない例が多数あります。

ドメイン適応技術

任意ドメイン適応アルゴリズムを実装するために、3 つの主な手法が使用されます。ドメイン適応のための 3 つの手法は次のとおりです。

分布ベースのドメイン適応
敵対的ドメイン適応
再構築に基づくドメイン適応

それでは、それぞれのテクニックを一つずつ見ていきましょう。

分布ベースのドメイン適応

ダイバージェンスベースのドメイン適応の原理は、ソース分布とターゲット分布間のダイバージェンス基準を最小化して、ドメイン不変の特徴を得ることです。一般的に使用される分布基準には、コントラスト領域の説明、相関アライメント、最大平均差 (MMD)、ワッサーシュタインなどがあります。このアルゴリズムをよりよく理解するために、まずいくつかの異なる分布を見てみましょう。

最大平均差異 (MMD) では、与えられた 2 つのサンプルが同じ分布に属するかどうかを調べます。 2 つの分布間の距離を、平均埋め込み特徴間の距離として定義します。集合 X 上に 2 つの分布 P と Q があるとします。 MMD は特徴マップ : X→H によって定義されます。ここで、H は再生カーネルヒルベルト空間です。 MMD の式は次のとおりです。

MMD をよりよく理解するには、次の説明を確認してください。2 つの分布は、そのモーメントが類似している場合に類似しています。カーネルを使用すると、変数を変換してすべてのモーメント (第 1 モーメント、第 2 モーメント、第 3 モーメントなど) を計算できます。潜在空間では、モーメント間の差を計算し、平均化することができます。

相関アライメントでは、MMD のように線形変換を使用して平均をアライメントするのではなく、ソースドメインとターゲットドメイン間の相関 (2 次統計) をアライメントしようとします。

トレーニング中

推論するとき

上記の構造では、ソースドメインとターゲットドメインのカテゴリが同じであると想定しています。上記のアーキテクチャでは、トレーニング中に、分類損失と発散ベースの損失という 2 つの損失を最小限に抑えます。分類損失は、特徴抽出器と分類器の重みを更新することで、優れた分類パフォーマンスを保証します。発散損失は、特徴抽出器の重みを更新することによって、ソースドメインとターゲットドメインの特徴が類似していることを保証します。推論中は、ターゲットドメインイメージをニューラルネットワークに渡すだけです。

すべての分布は通常、ノンパラメトリックであり、分類、オブジェクト検出、セグメンテーションなど、データセットや問題に固有ではない人工的な数式です。したがって、この分布ベースのアプローチは私たちの問題にはうまく機能しません。ただし、データセットまたは問題を通じて分布を学習できる場合は、従来の定義済み分布よりも優れたパフォーマンスを発揮します。

敵対的ドメイン適応

敵対的ベースのドメイン適応を実現するために、GAN を使用します。ここでのジェネレーターは単純な特徴抽出器であり、ソースドメインとターゲットドメイン間の特徴を区別することを学習する新しい識別器ネットワークを追加します。これは 2 人のプレイヤーによるゲームなので、識別子はジェネレーターがソースドメインとターゲットドメインで区別できない特徴を生成するのに役立ちます。学習可能な識別器ネットワークがあるため、問題とデータセットに固有の特徴抽出を学習します。これにより、ソースドメインとターゲットドメインを区別し、ジェネレーターがより堅牢な特徴、つまり簡単に区別できない特徴を生成するのに役立ちます。

トレーニング中、ソースドメインで

トレーニング中、ターゲットドメインで

分類問題であると仮定すると、分類損失と識別損失の 2 つの損失を使用します。分類損失の目的についてはすでに説明しました。識別器損失は、識別器がソースドメインとターゲットドメインの特徴を正しく区別するのに役立ちます。ここでは、Gradient Reversal Layer (GRL) を使用して敵対的トレーニングを実装します。 GRL ブロックは、バックプロパゲーション中に勾配に -1 または負の値を乗算する単純なブロックです。トレーニング中、ジェネレーターを更新するために、最初は分類器から、次に弁別器からの 2 つの方向からの勾配があります。 GRL の存在により、判別勾配に負の値が乗算され、ジェネレーターを判別器にトレーニングするのと逆の効果が生じます。たとえば、識別器損失関数を最適化するために計算された勾配が 2 の場合、ジェネレーターを更新するために -2 (負の値は -1 と想定) を使用します。このようにして、ジェネレーターをトレーニングして、識別器でさえソースドメインとターゲットドメインを区別できない特徴を生成するようにします。 GRL レイヤーは、多くのドメイン適応文献で広く使用されています。

再構築に基づくドメイン適応

これは画像から画像への変換に基づいています。単純なアプローチは、ターゲットドメインの画像からソースドメインの画像への変換を学習し、ソースドメインで分類器をトレーニングすることです。このアイデアを使用して、複数のアプローチを導入できます。画像から画像への変換の最も単純なモデルは、エンコーダー/デコーダーネットワークにソースドメインに類似した画像を生成するように強制する識別器を備えたエンコーダー/デコーダーベースのネットワークです。

トレーニング中

テスト中

別のアプローチは、CycleGAN を使用することです。 Cycle GAN では、2 つのエンコーダーとデコーダーに基づくニューラルネットワークが使用されます。 1 つはターゲットをソースドメインに変換するために使用され、もう 1 つはソースをターゲットドメインに変換するために使用されます。 2 つのドメイン (ソースとターゲット) から画像を生成するために、GAN を同時にトレーニングします。一貫性を確保するために、サイクル一貫性損失が導入されます。これにより、あるドメインから別のドメインへ、そしてまたそのドメインから別のドメインへ変換すると、入力とほぼ同じ画像が生成されます。したがって、2 つのペアネットワークの損失の合計は、識別器損失とサイクル一貫性損失の合計になります。

要約する

さまざまなドメイン適応方法を実現または実装するのに役立つ 3 つの異なる手法について説明しました。画像分類、オブジェクト検出、セグメンテーションなどのさまざまなタスクに優れたアプリケーションがあります。ある意味では、このアプローチは人間がさまざまなものを視覚的に認識することを学ぶ方法に似ていると言えます。このブログが、さまざまなドメイン適応パイプラインに対する私たちの考え方についての理解を深める助けになれば幸いです。

元の英語テキスト: https://levelup.gitconnected.com/understanding-domain-adaptation-63b3bb89436f

<<: 画像も感情を伝えることができるのでしょうか?ロチェスター大学のチームが新しいコンピュータービジョンのタスクを提案

>>: AIが伝統的な製造業のデジタル進化を促し、国内のスマート工場は活力に満ち溢れている