Google：MLの発展を牽引する転移学習とは何でしょうか？丨NeurIPS 2020

機械学習の分野でよく使われる分類学習タスクでは、訓練された分類モデルの精度と高い信頼性を確保するために、一般的に次の 2 つの基本的な仮定が立てられます。

学習に使用されるトレーニングサンプルと新しいテストサンプルは独立しており、同一に分布しています。

適切な分類モデルを学習するには、十分なトレーニングサンプルが必要です。

しかし、現実には、この 2 つの条件を満たすことは困難です。

[[359244]]

多くの ML 技術は、トレーニングデータとテストデータが同じ特徴空間にあるか、同じ分布を持っているという仮定の下でのみうまく機能します。時間の経過とともにラベルの可用性が低下したり、ラベル付けされたサンプルデータが不足したりすると、結果は満足のいくものにはなりません。

したがって、これは ML で注意が必要な別の重要な問題を提起します。それは、ソースドメインで少量の利用可能なラベル付きトレーニングサンプル/データを使用して、ラベルなし/利用可能なラベルが少なく、データ分布が異なるターゲットドメインを予測する堅牢なモデルをトレーニングする方法です。

その結果、転移学習が生まれ、幅広い注目と研究を集めるようになりました。

[[359245]]

近年、転移学習に取り組む研究者が増えています。毎年、機械学習やデータマイニングのトップカンファレンスで転移学習に関する論文が発表されています。

名前が示すように、転移学習とは、ある分野でトレーニングされたモデルパラメータを別の分野に転送し、対象分野でより良い学習結果を達成できるようにすることです。データのほとんどが関連しているため、転移学習では、モデルが学習した知識を新しいモデルと簡単に共有できるため、最初から学習する必要がなくなります。これにより、効率が向上し、サンプルが不十分なタスクの分類と認識の結果が大幅に改善されます。

今年の NeurIPS では、Google の研究チームが「転移学習では何が転移されているのか?」と題した論文を発表し、転移学習に関する最新の研究の進歩を明らかにしました。

この論文では、著者らは新しいツールと分析方法を提供し、さまざまなモジュールの役割と移行の成功に影響を与える要因をさまざまな観点から分析し、いくつかの興味深い結論を得ています。たとえば、高レベルの特徴と比較して、事前トレーニング済みモデルは主に低レベルの統計情報の移行に適しています。

具体的には、ブロックシャッフルされた画像への転送に関する一連の分析を通じて、特徴の再利用の効果を低レベルのデータ統計の学習から分離し、事前トレーニング済みの重みから初期化すると、モデルが損失関数「マップ」の同じ「盆地」にあり、異なるインスタンスが特徴空間で類似し、パラメータ空間で近いことを示しています（注：盆地という用語は、この分野の文献では、損失関数の値が比較的低いパラメータ空間の領域を指すためによく使用されます）。

転移学習アプリケーションの現状

百度の元主任科学者アンドリュー・ン氏はかつてこう語った。「転移学習は、教師あり学習に次ぐ機械学習の商業的成功の原動力となるだろう。」

2016 年の NIPS カンファレンスで、Andrew Ng 氏は AI の将来の技術開発について次のように判断しました。「教師あり学習が現在最も成熟し、商業化に成功した AI 技術であることは間違いありません。それに続いて、今後 5 年間で商業化される可能性が最も高い次の AI 技術は転移学習です。」

[[359247]]

DeepMindのCEOであるデミス・ハサビス氏も、転移学習は将来的に汎用人工知能（AGI）の誕生のきっかけとなる可能性のある最も有望な技術の1つであると述べています。現在のディープラーニング開発の波では、転移学習がまさに当てはまります。

さて、この2人のAI学者が「予測」をしてから5年近くが経ちました。では、転移学習アプリケーションの現状はどうなっているのでしょうか?

コンピュータービジョンの分野では、転移学習は多くの成功したアプリケーションで使用されています。一部のタスクでは、機械が人間を超える精度でタスクを完了することさえ可能です。

NLP の分野では、転移学習も一連の研究のブレークスルーにおける重要な要素であり、特にクロスドメイン感情分析においてその可能性を示しています。

[[359248]]

同時に、転移学習の問題点も明らかになりました。研究者らは、場合によっては、ソースドメインとターゲットドメインの視覚形式に依然として大きな違いがあることを発見しました。研究者にとって、何が移行を成功させるのか、またネットワークのどの部分が移行の成功に責任を負っているのかを理解することは困難でした。この論文では、研究チームは視覚分野における転移学習に焦点を当てました。

この記事で取り上げる 2 つの主要なデータセットは次のとおりです。

CheXpert データセットは、アンドリュー・ン氏のスタンフォードチームが AAAI 2019 で発表した大規模な X 線データセットです。このデータセットは、さまざまな病気の胸部 X 線医療画像を考慮に入れています。65,240 人の患者の 224,316 枚の注釈付き胸部 X 線写真と、各胸部 X 線写真について放射線科医が作成した病理レポートが含まれています。

ICCV 2019 で公開された DomainNet データセット。この論文の著者は、特にさまざまな分野での転移学習を調査するために、これまでで最大の UDA データセットを収集し、注釈を付けました。ドメインの多様性と多数のカテゴリ区分があり、6 つのドメインと、実際の画像からスケッチ、クリップアート、絵画サンプルまで、345 のカテゴリに分散された約 60 万枚の画像が含まれており、マルチソース UDA 研究におけるデータ可用性のギャップに対処しています。

4つのネットワークの転移学習

彼らは、4つの異なるシナリオでネットワークを分析しました。

1. 事前学習済みネットワーク（P、事前学習済みモデル）

2. ランダムに初期化されたネットワーク（RI、ランダム初期化）

3. ソースドメインで事前トレーニングされ、ターゲットドメインで微調整されたネットワーク（PT、事前トレーニングされた重みからターゲットドメインでトレーニング/微調整されたモデル）。

4. ランダム初期化（RI-T）からターゲットドメインでトレーニングされたモデル。

まず、チームはデータをシャッフルすることで特徴の再利用を研究しました。下流タスクの画像は同じサイズのブロックに分割され、ランダムに順序付けられます。データ内のブロックのシャッフルにより、画像の視覚的な特徴が損なわれます。この分析は、特徴の再利用の重要性を示し、ピクセルシャッフルによって乱されない低レベルの統計も転送の成功に役割を果たすことを証明しています。

次に、トレーニングされたモデルの詳細な動作を比較する必要があります。これを行うために、研究者らは、事前トレーニング済みモデルからトレーニングされたモデルとゼロからトレーニングされたモデル間の類似点と相違点を調査しました。事前にトレーニングされた重みを使用してトレーニングされたモデルの 2 つのインスタンスは、ランダム初期化を使用してトレーニングされたものよりも特徴空間において類似していることを実験的に実証します。

次に、事前トレーニング済みの重みとランダムに初期化された重みでトレーニングされたモデルの損失を調査し、事前トレーニング済みの重みでトレーニングされた 2 つのモデルインスタンス間でパフォーマンスの低下は見られませんでした。これは、事前トレーニング済みの重みが損失関数の領域に最適化を導くことができることを示唆しています。

次に、その方法論を詳細に分析し、論文中の実験と結果に基づいて「何が転送されているのか」を探ります。

何が移行されましたか?

人間の視覚システムは階層的な特徴で構成されており、視覚皮質のニューロンはエッジなどの低レベルの特徴に反応し、上位層のニューロンは複雑な意味入力に反応します。一般的に、転移学習の利点は、事前にトレーニングされた特徴レイヤーを再利用することから生まれると考えられています。これは、下流のタスクが小さすぎる場合や、適切な特徴表現を学習するには多様性が足りない場合に特に役立ちます。

したがって、転移学習が有用であると誰もが考える直感的な考え方は、転移学習が特徴の再利用を通じて、より少ないサンプルのデータに対してより優れた特徴の事前分布を提供するというものであることは容易に理解できます。

しかし、この直感では、転移学習の多くの成功したアプリケーションにおいて、ターゲットドメインとソースドメインが視覚的に大きく異なる理由を説明できません。

図1.画像出典: arXiv

特徴再利用の役割をより明確に説明するために、著者らは、図 1 の自然画像 (ImageNet) を含むソースドメイン (事前トレーニング) と、自然画像との視覚的な類似性が低いいくつかのターゲットドメイン (ダウンストリームタスク) を使用しました。

図 2 からわかるように、実際のドメインには ImageNet と同様の視覚的特徴を共有する自然画像が含まれているため、パフォーマンスが最も向上しています。これは、特徴の再利用が転移学習において重要な役割を果たすというチームメンバーの仮説を裏付けています。一方、データの違いが特に大きい場合 (CheXpert と quickdraw) でも、転移学習によってもたらされる大幅なパフォーマンスの向上が依然として確認できます。

最終パフォーマンスを除くすべてのケースにおいて、PT の最適化収束速度は RI-T よりもはるかに高速です。これはまた、転移学習における事前トレーニング済みの重みの利点が、特徴の再利用から直接得られるものではないことを示唆しています。

この仮説をさらに検証するために、研究チームは下流タスクを通常の視覚領域からさらに遠ざけるように変更し、具体的には下流タスクの画像を同じサイズのブロックに分割し、ランダムに順序付けました。

シャッフルにより、それらの画像内の高レベルの視覚的特徴が破壊され、モデルは浅い特徴しか把握できず、抽象的な特徴をうまく抽出できなくなります。

ブロックサイズが 224*224 という極端なケースではシャッフルは行われません。もう一方の極端なケースでは、画像内のすべてのピクセルがシャッフルされ、事前トレーニングで学習した視覚的特徴は完全に役に立たなくなります。

この論文では、チームメンバーは、各チャネルのピクセルを独立して移動し、他のチャネルに移動できる特殊なケースを作成しました。

図3.画像出典: arXiv

図 3 は、さまざまなブロックサイズが最終的なパフォーマンスと最適化速度に与える影響を示しています。次のことがわかります。

混乱の度合いが増すにつれて、RI-T と PT の最終的なパフォーマンスが低下し、タスクはより困難になります。

ブロックサイズ (クリップアート、実数) が小さくなるにつれて相対的な精度の差は小さくなり、特徴の再利用が非常に効果的であることがわかります。

quickdraw の場合はデータセットが事前トレーニングデータセットと大きく異なるため、逆のことが当てはまります。ただし、それでも事前トレーニングは quickdraw に対して依然として効果的であり、特徴の再利用以外の要因があることを示しています。

PT の最適化速度は比較的安定していますが、RI-T の最適化速度はブロックサイズが小さくなるにつれて急激に低下します。これは、特徴の再利用が PT のトレーニング速度に影響を与える主な要因ではないことを示しています。

上記の実験から、特に下流のタスクが事前トレーニング領域と同様の視覚的特徴を共有する場合、特徴の再利用は転移学習において非常に重要な役割を果たすと結論付けることができます。しかし、低レベルの統計など、特に速度の最適化の点で転移学習に大きな利点をもたらす可能性のある他の要素もあります。

エラーと機能の類似性

この部分では、さまざまなモデルの一般的な間違いと一般的でない間違いを調べることで、主に事前トレーニングの役割を明らかにします。

異なるモデル間の違いを理解するために、著者らはまず、2 つの PT、1 つの PT と 1 つの RI-T、および 2 つの RI-T の間で 2 種類のエラー率を比較し、PT モデルと RI-T モデルの間では珍しい間違いが多くあったのに対し、2 つの PT の間では珍しい間違いがはるかに少ないことを発見しました。これは、CheXpert と DomainNet の両方のターゲットドメインに当てはまります。

DomainNet 上で各モデルの 2 種類のエラーを視覚化し、PT が正しくなく RI-T が正しいデータサンプルには主に曖昧な例が含まれる一方で、PT が正しく RI-T が正しくないデータサンプルには単純なサンプルも多数含まれていることを確認しました。

これは、PT は単純なサンプルでは成功率が高いが、より曖昧で判断が難しいサンプル (RI-T の方が優れていることが多い) では困難であるという仮説と一致しており、PT には強力な事前知識があり、そのため対象ドメインに適応するのが難しいことを示しています。

上記のアイデアの検証を強化するために、チームメンバーは特徴空間における 2 つのネットワーク間の類似点も研究しました。

Centered Kernel Alignment (CKA) メトリックを使用すると、PT の 2 つのインスタンスは、異なるレイヤー間だけでなく、PT と P 間でも非常に類似していることがわかります。しかし、PT インスタンスと RI-T インスタンス間、または 2 つの RI-T インスタンス間の類似性は非常に低いです。

表2.画像出典: arXiv

つまり、事前トレーニング済みモデル間の特徴の類似性は非常に高いのに対し、同じ初期化を持つ 2 つの RI-T であっても、RI-T と他のモデル間の類似性は非常に低くなります。これは、事前トレーニング済みのモデルが同じ機能を頻繁に再利用することを明確に示しており、機能の再利用の役割を強調しています。表 2 は、さまざまなモデルのパラメータ間の距離を示しており、これも上記の結論を反映しています。

一般化パフォーマンス

より優れた一般化パフォーマンスを実現するための一般的な基準は、最終ソリューションの周りの損失関数の基底度を調べることです。

著者らは、2つの異なるチェックポイントでのすべての重みをΘとΘ̃で表し、2つの重みの線形補間{Θ휆=（1-λ）Θ+λΘ̃：λϵ[0,1]}によって一連のモデルのパフォーマンスを評価します。

ニューラルネットワークの非線形性と構成構造のため、2 つのパフォーマンスの優れたモデルの重みの線形結合は、必ずしもパフォーマンスの優れたモデルを定義するとは限らず、線形補間パスに沿ってパフォーマンスが低下することが一般的に予想されます。

ただし、2 つのソリューションが損失関数の同じバシンに属する場合、線形補間はバシン内に留まり、結果としてパフォーマンスの障壁は発生しません。さらに、同じ流域から 2 つのランダムなソリューションを補間すると、流域の中心に近いソリューションが生成されることが多く、エンドポイントよりも一般化パフォーマンスが向上する可能性があります。

チームは、単純な接続結果を避けるために、凸包と線形補間に重点を置きました。盆地上の点の凸結合のほとんどが盆地上にあるという要件は、複数の盆地を低損失 (非線形) パスで接続したり接続しなかったりできるようにする追加の制約であることを強調することが重要です。

この概念の具体的な形式化と、凸集合を流域として設定するための 3 つの要件については、論文で詳しく説明されているため、ここでは繰り返さないことにします。

補間結果は図 4 に示されています。左側は DomainNet real、右側は quickdraw です。画像出典: arXiv

一方、PT ソリューションの 2 回のランダム実行の間にパフォーマンスの低下は見られませんでした。これは、事前トレーニングされた重みが損失関数の領域への最適化を導くことを示唆しています。一方、2 つの RI-T 実行のソリューションの間には、明確な障壁が観察されます。事前トレーニング済みモデル間の損失関数が非常に滑らかであり、RI-T と異なることがわかります。

モジュールの重要性

学習済みモデルの特定の層のパラメータを初期パラメータに置き換え、置き換え前後の精度を観察すると、ネットワーク全体におけるこの層の重要性をある程度判断できます。モジュールの重要度も同様の指標です。

図5.画像出典: arXiv

図 5 は、さまざまなモジュールとさまざまなレイヤーの重要性を反映しています。教師あり学習の場合にも同様のパターンが見られます。唯一の違いは、PT モデルでは「FC」レイヤーがより重要であることが予想されることです。

次に、著者らは拡張された定義と元の定義を使用して、さまざまなモジュールの重要性を調査します。最適化されたパスと直接パスの両方がモジュールの重要性に関する興味深い洞察を提供していることに気づくのは簡単です。おそらく、重みの最適値は、最終値よりもこの分析の開始点としてより良い選択です。

図6は、図5に示した重要なモジュールである「Conv1」モジュールの分析を示しています。

図6.画像出典: arXiv

図7.画像出典: arXiv

事前トレーニングの最適化パスに沿って、さまざまなチェックポイントから事前トレーニング済みの重みを初期化することにより、転移学習の利点を比較します。図 7 は、さまざまな事前トレーニング済みチェックポイントから微調整した場合の最終的なパフォーマンスと最適化速度を示しています。

全体的に、事前トレーニングの利点はチェックポイントインデックスとともに増加し、次のような結論を導き出すことができます。

事前トレーニングでは、学習率を下げると、エポック 30 とエポック 60 で大きなパフォーマンスの向上が見られます。ただし、チェックポイント 29、30、31 (同様に 59、60、61) から初期化しても、大きな影響は見られません。一方、特にリアルとクリップアートの最終パフォーマンスについては、事前トレーニングのパフォーマンスが停滞しているチェックポイント (チェックポイント 29 や 59 など) から開始すると、大幅な改善が見られます。これは、事前トレーニングのパフォーマンスが、転移学習のための事前トレーニングされた重みの有効性を常に忠実に示す指標ではないことを示唆しています。

quickdraw は事前トレーニング中に最終的なパフォーマンスの向上がはるかに小さく、チェックポイント 10 ですぐに横ばいになりますが、real と clipart はチェックポイント 60 までパフォーマンスが大幅に向上し続けます。一方、チェックポイントインデックスが増加すると、3 つのタスクすべてにおいて最適化速度の向上に明らかな利点があります。

最適化速度はチェックポイント 10 で頭打ちになり始めますが、最終結果は実際の画像とクリップアートの両方で改善し続けます。トレーニング前の初期チェックポイントは収束モデルの流域外にあり、トレーニング中のある時点でモデルは流域に入ります。これは、いくつかのチェックポイント後にパフォーマンスが停滞した理由も説明しています。

したがって、微調整されたモデルの精度を失わないように、チェックポイントを早期に選択することができます。この現象の開始点は、事前トレーニング済みモデルが最終領域に入るタイミングによって異なります。

要約すると、この研究は転移学習で何が転移されるのか、ネットワークのどの部分が違いを生み出しているのかについて明確なイメージを提供します。

移行を成功させるには、機能の再利用と基礎となるデータ統計の両方が非常に重要です。入力のチャンクをシャッフルすることによる特徴の再利用の役割を研究すると、事前トレーニング済みの重みの初期化からトレーニングする場合、ネットワークは同じソリューションの領域に留まり、特徴は類似しており、モデルはパラメーター空間内で互いに近いことがわかります。

さらに著者らは、下位層がより一般的な機能を担当し、上位レベルのモジュールはパラメータの変動に対してより敏感であることを確認した。損失関数の流域の発見はアンサンブル法の改善に使用でき、低レベルのデータ統計の観察によりトレーニング速度が向上し、ネットワーク初期化のより優れた方法につながる可能性があります。これらの発見を活用して転移学習を改善することは有益でしょう。

<<: 人工知能について知っておくべきことすべて

>>: 機械学習を活用して産業オペレーションにおける運用リスクを管理する