転移学習におけるドメイン適応の理解と3つの手法の紹介

転移学習におけるドメイン適応の理解と3つの手法の紹介

ドメイン適応はコンピューター ビジョンの領域であり、ソース データセットでニューラル ネットワークをトレーニングし、ソース データセットとは大幅に異なるターゲット データセットで優れた精度を確保することを目的としています。ドメイン適応とその応用をより深く理解するために、まずその使用例をいくつか見てみましょう。

当社には、交通標識認識用の GTSRB、信号機検出用の LISA および LARA データセット、物体検出およびセグメンテーション用の COCO など、さまざまな目的に対応した標準データセットが多数あります。しかし、ニューラル ネットワークにインドの道路上の交通標識の識別などのタスクを適切に実行させたい場合、まずインドの道路のあらゆる種類の画像を収集し、それらの画像に注釈を付ける必要があり、これは時間と労力がかかる作業です。ここでは、GTSRB (ソース データセット) でモデルをトレーニングし、インドの交通標識画像 (ターゲット データセット) でテストできるため、ドメイン適応を使用できます。

多くの場合、堅牢なニューラル ネットワークをトレーニングするために必要なすべてのバリエーションと多様性を備えたデータセットを収集することは困難です。この場合、さまざまなコンピューター ビジョン アルゴリズムの助けを借りて、必要なすべてのバリエーションを含む大規模な合成データセットを生成できます。次に、ニューラル ネットワークは合成データセット (ソース データセット) でトレーニングされ、実際のデータセット (ターゲット データセット) でテストされます。

理解を深めるために、ターゲット データセットに使用できる注釈がないものと想定しましたが、これが唯一のケースではありません。

したがって、ドメイン適応における目標は、ラベルが利用可能なデータセット (ソース) でニューラル ネットワークをトレーニングし、ラベルが利用できない別のデータセット (ターゲット) で良好なパフォーマンスを確保することです。

分類パイプライン

それでは、目標を達成する方法を見てみましょう。上記の画像分類の例を考えてみましょう。あるドメインから別のドメインに適応するには、分類器がソース データセットとターゲット データセットの両方から特徴を適切に抽出できるようにする必要があります。ニューラル ネットワークをソース データセットでトレーニングしたので、分類器はソース データセットで適切に機能するはずです。ただし、分類器がターゲット データセットで適切に機能するには、ソース データセットとターゲット データセットから抽出された特徴が類似している必要があります。したがって、トレーニング中は、ソース ドメイン イメージとターゲット ドメイン イメージの両方に対して同様の特徴を抽出できるように特徴抽出を強化します。

ドメイン適応の成功

対象ドメインに基づくドメイン適応型

対象ドメインによって提供されるデータの種類に応じて、ドメイン適応は次のカテゴリに分類できます。

  • 教師あり - ターゲット ドメインからのデータにラベルが付けられており、ターゲット ドメイン データセットのサイズはソース データセットよりもはるかに小さくなっています。
  • 半教師あり - ターゲット ドメインにラベル付きデータとラベルなしデータの両方があります。
  • 教師なし — ターゲット ドメインのラベルのない例が多数あります。

ドメイン適応技術

任意ドメイン適応アルゴリズムを実装するために、3 つの主な手法が使用されます。ドメイン適応のための 3 つの手法は次のとおりです。

  • 分布ベースのドメイン適応
  • 敵対的ドメイン適応
  • 再構築に基づくドメイン適応

それでは、それぞれのテクニックを一つずつ見ていきましょう。

分布ベースのドメイン適応

ダイバージェンスベースのドメイン適応の原理は、ソース分布とターゲット分布間のダイバージェンス基準を最小化して、ドメイン不変の特徴を得ることです。一般的に使用される分布基準には、コントラスト領域の説明、相関アライメント、最大平均差 (MMD)、ワッサーシュタインなどがあります。このアルゴリズムをよりよく理解するために、まずいくつかの異なる分布を見てみましょう。

最大平均差異 (MMD) では、与えられた 2 つのサンプルが同じ分布に属するかどうかを調べます。 2 つの分布間の距離を、平均埋め込み特徴間の距離として定義します。集合 X 上に 2 つの分布 P と Q があるとします。 MMD は特徴マップ : X→H によって定義されます。ここで、H は再生カーネル ヒルベルト空間です。 MMD の式は次のとおりです。


MMD をよりよく理解するには、次の説明を確認してください。2 つの分布は、そのモーメントが類似している場合に類似しています。カーネルを使用すると、変数を変換してすべてのモーメント (第 1 モーメント、第 2 モーメント、第 3 モーメントなど) を計算できます。潜在空間では、モーメント間の差を計算し、平均化することができます。

相関アライメントでは、MMD のように線形変換を使用して平均をアライメントするのではなく、ソース ドメインとターゲット ドメイン間の相関 (2 次統計) をアライメントしようとします。

トレーニング中

推論するとき

上記の構造では、ソース ドメインとターゲット ドメインのカテゴリが同じであると想定しています。上記のアーキテクチャでは、トレーニング中に、分類損失と発散ベースの損失という 2 つの損失を最小限に抑えます。分類損失は、特徴抽出器と分類器の重みを更新することで、優れた分類パフォーマンスを保証します。発散損失は、特徴抽出器の重みを更新することによって、ソース ドメインとターゲット ドメインの特徴が類似していることを保証します。推論中は、ターゲット ドメイン イメージをニューラル ネットワークに渡すだけです。

すべての分布は通常、ノンパラメトリックであり、分類、オブジェクト検出、セグメンテーションなど、データセットや問題に固有ではない人工的な数式です。したがって、この分布ベースのアプローチは私たちの問題にはうまく機能しません。ただし、データセットまたは問題を通じて分布を学習できる場合は、従来の定義済み分布よりも優れたパフォーマンスを発揮します。

敵対的ドメイン適応

敵対的ベースのドメイン適応を実現するために、GAN を使用します。ここでのジェネレーターは単純な特徴抽出器であり、ソース ドメインとターゲット ドメイン間の特徴を区別することを学習する新しい識別器ネットワークを追加します。これは 2 人のプレイヤーによるゲームなので、識別子はジェネレーターがソース ドメインとターゲット ドメインで区別できない特徴を生成するのに役立ちます。学習可能な識別器ネットワークがあるため、問題とデータセットに固有の特徴抽出を学習します。これにより、ソースドメインとターゲットドメインを区別し、ジェネレーターがより堅牢な特徴、つまり簡単に区別できない特徴を生成するのに役立ちます。

トレーニング中、ソースドメインで

トレーニング中、ターゲットドメインで

分類問題であると仮定すると、分類損失と識別損失の 2 つの損失を使用します。分類損失の目的についてはすでに説明しました。識別器損失は、識別器がソース ドメインとターゲット ドメインの特徴を正しく区別するのに役立ちます。ここでは、Gradient Reversal Layer (GRL) を使用して敵対的トレーニングを実装します。 GRL ブロックは、バックプロパゲーション中に勾配に -1 または負の値を乗算する単純なブロックです。トレーニング中、ジェネレーターを更新するために、最初は分類器から、次に弁別器からの 2 つの方向からの勾配があります。 GRL の存在により、判別勾配に負の値が乗算され、ジェネレーターを判別器にトレーニングするのと逆の効果が生じます。たとえば、識別器損失関数を最適化するために計算された勾配が 2 の場合、ジェネレーターを更新するために -2 (負の値は -1 と想定) を使用します。このようにして、ジェネレーターをトレーニングして、識別器でさえソース ドメインとターゲット ドメインを区別できない特徴を生成するようにします。 GRL レイヤーは、多くのドメイン適応文献で広く使用されています。

再構築に基づくドメイン適応

これは画像から画像への変換に基づいています。単純なアプローチは、ターゲット ドメインの画像からソース ドメインの画像への変換を学習し、ソース ドメインで分類器をトレーニングすることです。このアイデアを使用して、複数のアプローチを導入できます。画像から画像への変換の最も単純なモデルは、エンコーダー/デコーダー ネットワークにソース ドメインに類似した画像を生成するように強制する識別器を備えたエンコーダー/デコーダー ベースのネットワークです。

トレーニング中

テスト中

別のアプローチは、CycleGAN を使用することです。 Cycle GAN では、2 つのエンコーダーとデコーダーに基づくニューラル ネットワークが使用されます。 1 つはターゲットをソース ドメインに変換するために使用され、もう 1 つはソースをターゲット ドメインに変換するために使用されます。 2 つのドメイン (ソースとターゲット) から画像を生成するために、GAN を同時にトレーニングします。一貫性を確保するために、サイクル一貫性損失が導入されます。これにより、あるドメインから別のドメインへ、そしてまたそのドメインから別のドメインへ変換すると、入力とほぼ同じ画像が生成されます。したがって、2 つのペア ネットワークの損失の合計は、識別器損失とサイクル一貫性損失の合計になります。

要約する

さまざまなドメイン適応方法を実現または実装するのに役立つ 3 つの異なる手法について説明しました。画像分類、オブジェクト検出、セグメンテーションなどのさまざまなタスクに優れたアプリケーションがあります。ある意味では、このアプローチは人間がさまざまなものを視覚的に認識することを学ぶ方法に似ていると言えます。このブログが、さまざまなドメイン適応パイプラインに対する私たちの考え方についての理解を深める助けになれば幸いです。

元の英語テキスト: https://levelup.gitconnected.com/understanding-domain-adaptation-63b3bb89436f

<<:  画像も感情を伝えることができるのでしょうか?ロチェスター大学のチームが新しいコンピュータービジョンのタスクを提案

>>:  AIが伝統的な製造業のデジタル進化を促し、国内のスマート工場は活力に満ち溢れている

ブログ    

推薦する

鄒聖龍が初めて人工知能について公に語り、荀雷の将来の計画が明らかにされた

「ビジネスを運営する観点から見ると、人工知能には2つの陣営があります。1つは人工知能プラットフォーム...

...

Equinix CIO: AI を活用して潜在能力の高いパートナーを見つける

多国籍データ インフラストラクチャ企業である Equinix は、機械学習の確率モデルを使用して潜在...

専門家の洞察: 顔が高度なアクセス制御認証情報である 5 つの理由

認証情報としての顔認識は、最新の正確で高速なテクノロジーを導入し、ほとんどのアクセス制御アプリケーシ...

古い写真の修復、太陽系外惑星の発見... 素晴らしい機械学習プロジェクト 8 つをご紹介します

[[337579]]カジャル・ヤダブマシンハートが編集編集者: シャオ・ジョウ、ドゥ・ウェイ人工知能...

...

将来人工知能に置き換えられる可能性が最も低い10の仕事

人工知能(AI)の急速な発展は人々の生活に便利さをもたらしたが、労働市場には大きな変化をもたらすだろ...

ChatGPT の新たな脆弱性: 個人のプライバシーを暗唱してトレーニング データを漏洩する制御不能状態、OpenAI が修正、まだ機能している

ChatGPTの最新の脆弱性が明らかになり、たった1つの文でトレーニングデータがそのまま漏洩してしま...

非反復乱数列生成アルゴリズム

この記事では、ハッシュテーブルを使用して重複を排除する通常の方法よりもはるかに高速な、繰り返しのない...

人工知能のいくつかの重要な技術をご存知ですか?

今日は人工知能の開発におけるいくつかの重要な技術を紹介します。音声認識からスマートホーム、人間と機械...

TensorFlow を使用して機械学習モデルを構築する方法

[[432744]] TensorFlow は、Google が開発し、2015 年にオープンソース...

AIの未来: 汎用人工知能

人工知能を真に理解するために、研究者は、環境に対する人間のような理解を再現できる基礎的な AGI 技...

2018 年に知っておくべき 15 の人工知能統計

人工知能(AI)は日々驚異的な速度で成長しており、それに伴い、さまざまな業界を取り巻く統計も変化して...

...

保存しておくべき機械学習チートシート 27 選

機械学習にはさまざまな側面があり、調査を始めたときに、特定のトピックの要点を簡潔にリストしたさまざま...