転移学習におけるドメイン適応の理解と3つの手法の紹介

転移学習におけるドメイン適応の理解と3つの手法の紹介

ドメイン適応はコンピューター ビジョンの領域であり、ソース データセットでニューラル ネットワークをトレーニングし、ソース データセットとは大幅に異なるターゲット データセットで優れた精度を確保することを目的としています。ドメイン適応とその応用をより深く理解するために、まずその使用例をいくつか見てみましょう。

当社には、交通標識認識用の GTSRB、信号機検出用の LISA および LARA データセット、物体検出およびセグメンテーション用の COCO など、さまざまな目的に対応した標準データセットが多数あります。しかし、ニューラル ネットワークにインドの道路上の交通標識の識別などのタスクを適切に実行させたい場合、まずインドの道路のあらゆる種類の画像を収集し、それらの画像に注釈を付ける必要があり、これは時間と労力がかかる作業です。ここでは、GTSRB (ソース データセット) でモデルをトレーニングし、インドの交通標識画像 (ターゲット データセット) でテストできるため、ドメイン適応を使用できます。

多くの場合、堅牢なニューラル ネットワークをトレーニングするために必要なすべてのバリエーションと多様性を備えたデータセットを収集することは困難です。この場合、さまざまなコンピューター ビジョン アルゴリズムの助けを借りて、必要なすべてのバリエーションを含む大規模な合成データセットを生成できます。次に、ニューラル ネットワークは合成データセット (ソース データセット) でトレーニングされ、実際のデータセット (ターゲット データセット) でテストされます。

理解を深めるために、ターゲット データセットに使用できる注釈がないものと想定しましたが、これが唯一のケースではありません。

したがって、ドメイン適応における目標は、ラベルが利用可能なデータセット (ソース) でニューラル ネットワークをトレーニングし、ラベルが利用できない別のデータセット (ターゲット) で良好なパフォーマンスを確保することです。

分類パイプライン

それでは、目標を達成する方法を見てみましょう。上記の画像分類の例を考えてみましょう。あるドメインから別のドメインに適応するには、分類器がソース データセットとターゲット データセットの両方から特徴を適切に抽出できるようにする必要があります。ニューラル ネットワークをソース データセットでトレーニングしたので、分類器はソース データセットで適切に機能するはずです。ただし、分類器がターゲット データセットで適切に機能するには、ソース データセットとターゲット データセットから抽出された特徴が類似している必要があります。したがって、トレーニング中は、ソース ドメイン イメージとターゲット ドメイン イメージの両方に対して同様の特徴を抽出できるように特徴抽出を強化します。

ドメイン適応の成功

対象ドメインに基づくドメイン適応型

対象ドメインによって提供されるデータの種類に応じて、ドメイン適応は次のカテゴリに分類できます。

  • 教師あり - ターゲット ドメインからのデータにラベルが付けられており、ターゲット ドメイン データセットのサイズはソース データセットよりもはるかに小さくなっています。
  • 半教師あり - ターゲット ドメインにラベル付きデータとラベルなしデータの両方があります。
  • 教師なし — ターゲット ドメインのラベルのない例が多数あります。

ドメイン適応技術

任意ドメイン適応アルゴリズムを実装するために、3 つの主な手法が使用されます。ドメイン適応のための 3 つの手法は次のとおりです。

  • 分布ベースのドメイン適応
  • 敵対的ドメイン適応
  • 再構築に基づくドメイン適応

それでは、それぞれのテクニックを一つずつ見ていきましょう。

分布ベースのドメイン適応

ダイバージェンスベースのドメイン適応の原理は、ソース分布とターゲット分布間のダイバージェンス基準を最小化して、ドメイン不変の特徴を得ることです。一般的に使用される分布基準には、コントラスト領域の説明、相関アライメント、最大平均差 (MMD)、ワッサーシュタインなどがあります。このアルゴリズムをよりよく理解するために、まずいくつかの異なる分布を見てみましょう。

最大平均差異 (MMD) では、与えられた 2 つのサンプルが同じ分布に属するかどうかを調べます。 2 つの分布間の距離を、平均埋め込み特徴間の距離として定義します。集合 X 上に 2 つの分布 P と Q があるとします。 MMD は特徴マップ : X→H によって定義されます。ここで、H は再生カーネル ヒルベルト空間です。 MMD の式は次のとおりです。


MMD をよりよく理解するには、次の説明を確認してください。2 つの分布は、そのモーメントが類似している場合に類似しています。カーネルを使用すると、変数を変換してすべてのモーメント (第 1 モーメント、第 2 モーメント、第 3 モーメントなど) を計算できます。潜在空間では、モーメント間の差を計算し、平均化することができます。

相関アライメントでは、MMD のように線形変換を使用して平均をアライメントするのではなく、ソース ドメインとターゲット ドメイン間の相関 (2 次統計) をアライメントしようとします。

トレーニング中

推論するとき

上記の構造では、ソース ドメインとターゲット ドメインのカテゴリが同じであると想定しています。上記のアーキテクチャでは、トレーニング中に、分類損失と発散ベースの損失という 2 つの損失を最小限に抑えます。分類損失は、特徴抽出器と分類器の重みを更新することで、優れた分類パフォーマンスを保証します。発散損失は、特徴抽出器の重みを更新することによって、ソース ドメインとターゲット ドメインの特徴が類似していることを保証します。推論中は、ターゲット ドメイン イメージをニューラル ネットワークに渡すだけです。

すべての分布は通常、ノンパラメトリックであり、分類、オブジェクト検出、セグメンテーションなど、データセットや問題に固有ではない人工的な数式です。したがって、この分布ベースのアプローチは私たちの問題にはうまく機能しません。ただし、データセットまたは問題を通じて分布を学習できる場合は、従来の定義済み分布よりも優れたパフォーマンスを発揮します。

敵対的ドメイン適応

敵対的ベースのドメイン適応を実現するために、GAN を使用します。ここでのジェネレーターは単純な特徴抽出器であり、ソース ドメインとターゲット ドメイン間の特徴を区別することを学習する新しい識別器ネットワークを追加します。これは 2 人のプレイヤーによるゲームなので、識別子はジェネレーターがソース ドメインとターゲット ドメインで区別できない特徴を生成するのに役立ちます。学習可能な識別器ネットワークがあるため、問題とデータセットに固有の特徴抽出を学習します。これにより、ソースドメインとターゲットドメインを区別し、ジェネレーターがより堅牢な特徴、つまり簡単に区別できない特徴を生成するのに役立ちます。

トレーニング中、ソースドメインで

トレーニング中、ターゲットドメインで

分類問題であると仮定すると、分類損失と識別損失の 2 つの損失を使用します。分類損失の目的についてはすでに説明しました。識別器損失は、識別器がソース ドメインとターゲット ドメインの特徴を正しく区別するのに役立ちます。ここでは、Gradient Reversal Layer (GRL) を使用して敵対的トレーニングを実装します。 GRL ブロックは、バックプロパゲーション中に勾配に -1 または負の値を乗算する単純なブロックです。トレーニング中、ジェネレーターを更新するために、最初は分類器から、次に弁別器からの 2 つの方向からの勾配があります。 GRL の存在により、判別勾配に負の値が乗算され、ジェネレーターを判別器にトレーニングするのと逆の効果が生じます。たとえば、識別器損失関数を最適化するために計算された勾配が 2 の場合、ジェネレーターを更新するために -2 (負の値は -1 と想定) を使用します。このようにして、ジェネレーターをトレーニングして、識別器でさえソース ドメインとターゲット ドメインを区別できない特徴を生成するようにします。 GRL レイヤーは、多くのドメイン適応文献で広く使用されています。

再構築に基づくドメイン適応

これは画像から画像への変換に基づいています。単純なアプローチは、ターゲット ドメインの画像からソース ドメインの画像への変換を学習し、ソース ドメインで分類器をトレーニングすることです。このアイデアを使用して、複数のアプローチを導入できます。画像から画像への変換の最も単純なモデルは、エンコーダー/デコーダー ネットワークにソース ドメインに類似した画像を生成するように強制する識別器を備えたエンコーダー/デコーダー ベースのネットワークです。

トレーニング中

テスト中

別のアプローチは、CycleGAN を使用することです。 Cycle GAN では、2 つのエンコーダーとデコーダーに基づくニューラル ネットワークが使用されます。 1 つはターゲットをソース ドメインに変換するために使用され、もう 1 つはソースをターゲット ドメインに変換するために使用されます。 2 つのドメイン (ソースとターゲット) から画像を生成するために、GAN を同時にトレーニングします。一貫性を確保するために、サイクル一貫性損失が導入されます。これにより、あるドメインから別のドメインへ、そしてまたそのドメインから別のドメインへ変換すると、入力とほぼ同じ画像が生成されます。したがって、2 つのペア ネットワークの損失の合計は、識別器損失とサイクル一貫性損失の合計になります。

要約する

さまざまなドメイン適応方法を実現または実装するのに役立つ 3 つの異なる手法について説明しました。画像分類、オブジェクト検出、セグメンテーションなどのさまざまなタスクに優れたアプリケーションがあります。ある意味では、このアプローチは人間がさまざまなものを視覚的に認識することを学ぶ方法に似ていると言えます。このブログが、さまざまなドメイン適応パイプラインに対する私たちの考え方についての理解を深める助けになれば幸いです。

元の英語テキスト: https://levelup.gitconnected.com/understanding-domain-adaptation-63b3bb89436f

<<:  画像も感情を伝えることができるのでしょうか?ロチェスター大学のチームが新しいコンピュータービジョンのタスクを提案

>>:  AIが伝統的な製造業のデジタル進化を促し、国内のスマート工場は活力に満ち溢れている

ブログ    

推薦する

人工知能企業が利益を上げるのは難しいと言われていますが、具体的に何が難しいのでしょうか?

[[272155]] 2016年にAlphaGoが「人間対機械」の競争に勝利して以来、人工知能への...

AIと自動化を活用して機密データを大規模に識別する方法

AIベースの機密情報検出サービスプロバイダーであるText IQのCEO、Apoorv Agarwa...

Nvidia の新しいブラック テクノロジーが「Minecraft」のモザイクをリアルな大ヒット作に変える

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

認知システムが機械学習とセマンティック技術を組み合わせるべき理由

ワインとチーズの組み合わせを識別するのに役立つアプリケーションを構築したいとします。最も優れたパフォ...

人工知能の本質的な「差別」を排除する方法

[[246531]]情報イラスト。出典:新華網ハリウッド映画「アベンジャーズ3」では、悪役サノスが「...

2019年人工知能サバイバルガイド

「資本の冬は業界のマシュー効果と適者生存を加速させており、AI分野も例外ではありません。」Infer...

自動運転車は本当に人間が運転する車よりも安全でしょうか?

自動運転車は、人工知能技術の最もエキサイティングで影響力のある応用例の 1 つです。米国だけでも、毎...

暗号化アルゴリズムの鍵交換は少し安全ではない

今日は対称暗号化アルゴリズムの重要な問題についてお話ししましょう。暗号化の基本的な概念に精通していな...

知識抽出についてお話ししましょう。学びましたか?

1. はじめに知識抽出とは通常、豊富な意味情報を持つタグやフレーズなどの非構造化テキストから構造化...

Apple、Googleなど大企業のAI面接の質問を入手しました。あなたは挑戦してみますか?

何?大手テクノロジー企業の面接の質問が漏洩した?そんなわけないですよね~。海外の有名なブログプラット...

...

メタは世界最速となる可能性のあるAIスーパーコンピュータを開発

Metaによれば、AI Research SuperCluster(RSC)は企業がより優れたAI...

...

人工知能がフィットネス業界にもたらすイノベーション:AIパーソナルトレーナーの登場

デジタル技術によって変革されない業界を見つけるのは難しいですが、適応型セクターも例外ではありません。...