事前トレーニング後、パフォーマンスが悪化します。自己トレーニングは事前トレーニングに取って代わるものでしょうか?

2018年末には、FAIRの研究者らが「ImageNetの事前トレーニングの再考」と題する論文を発表し、その後ICCV2019で発表されました。この論文では、事前トレーニングに関する非常に興味深い結論がいくつか提示されています。

[[335543]]

最近、Google Brain 研究チームはこの概念を拡張しました。新しい論文「事前トレーニングと自己トレーニングの再考」では、事前トレーニングについて議論しただけでなく、自己トレーニングについても研究し、同じ一連のタスクで自己トレーニングと教師あり事前トレーニング、自己教師あり事前トレーニングの違いを比較しました。

論文アドレス: https://arxiv.org/abs/2006.06882

著者は実験を通じて以下の結論を得た。

事前トレーニングタスクとターゲットタスクに違いがある場合、事前トレーニング（監督と自己監督を含む）によってターゲットタスクの精度が損なわれる可能性があります。
自己トレーニングは、さまざまなサイズのデータセットやさまざまな強度の強化データのトレーニングに適用できます。
自己トレーニングは事前トレーニングの補足として考えることができ、事前トレーニングと自己トレーニングを組み合わせることで、より大きな成果を達成できます。

以下は、機械学習研究エンジニアの Aakash Nain による論文「事前トレーニングと自己トレーニングの再考」の解釈です。この記事は Medium で公開され、AI Technology Review によってまとめられました。

序文

論文の詳細に入る前に、まずいくつかの用語を理解しておきましょう。事前トレーニングは、さまざまな分野 (コンピュータービジョン、自然言語処理、音声処理など) で使用される非常に一般的な方法です。コンピュータービジョンのタスクでは、1 つのデータセットで事前トレーニングされ、別のデータセットに直接適用できるモデルがよく使用されます。たとえば、ImageNet 事前トレーニングの使用は、オブジェクトのセグメンテーションやオブジェクトの検出タスクで広く使用できる初期化方法です。これを実現するために、転移学習と微調整という 2 つの手法がよく使用されます。一方、自己トレーニングでは、トレーニング中にラベルなしデータに対するモデルの予測結果を組み合わせて、モデルのパフォーマンスを向上させるために利用可能な他の情報を取得しようとします。たとえば、ImageNet を使用して COCO オブジェクト検出モデルを改善します。まず、COCO データセットでモデルをトレーニングし、次にこのモデルを使用して ImageNet の疑似ラベルを生成し (元の ImageNet ラベルは破棄します)、最後に疑似ラベル付きの ImageNet データセットとラベル付き COCO データセットを組み合わせて新しいモデルをトレーニングします。自己教師学習は、よく使用されるもう一つの事前トレーニング方法です。自己教師学習の目的は、高レベルの特徴を学習することだけではありません。代わりに、モデルがより良く学習し、さまざまなタスクやデータセットに対してより堅牢になることを期待しています。

2. 研究の動機

著者らは、以下の問題を解決したいと考えています。

事前トレーニングはトレーニングの結果にどの程度役立ちますか?
事前トレーニングが効果がないのはどのような場合ですか?
自己トレーニングを使用して、事前トレーニングと同等またはそれ以上の結果を得ることができますか?
自己トレーニングが事前トレーニングよりも優れている場合 (現時点ではそう仮定します)、どの程度まで事前トレーニングよりも優れているのでしょうか?
どのような場合に、事前トレーニングよりも自己トレーニングの方が優れているのでしょうか?
自己トレーニングはどの程度柔軟で拡張可能ですか?

3. 設定

1. データセットとモデル

物体検出: 著者らは、教師あり物体検出トレーニングに COCO データセット (画像 118,000 枚) を使用しました。 ImageNet データセット (120 万枚の画像) と OpenImage データセット (170 万枚の画像) がラベルなしデータセットとして使用されます。 EfficientNet-B7 をバックボーンネットワークとして使用し、RetinaNet オブジェクト検出器を使用します。画像の解像度は 640 x 640 に維持され、ピラミッドレベルは P3 から P7 で、ピクセルごとに 9 つのアンカーポイントが使用されます。
セマンティックセグメンテーション: 教師あり学習のセマンティックセグメンテーショントレーニングには、PASCAL VOC 2012 セグメンテーショントレーニングセット (1500 枚の画像) を使用します。自己トレーニングには、拡張された PASCAL 画像データセット (9,000 枚の画像)、ラベル付きおよびラベルなしの COCO (240,000 枚の画像)、および ImageNet (120 万枚の画像) データセットを使用しました。バックボーンネットワークとして EfficientNet-B7 および EfficientNet-L2 を使用した NAS-FPN モデルを使用します。

2. データ拡張

すべての実験では、検出とセグメンテーションに、強度の異なる 4 つの強化戦略が使用されます。 4 つの戦略は、強度の低いものから高いものの順にランク付けされています。1) Augment-S1: これは、水平反転とスケーリングクロッピングを含む標準的な「反転とクロッピング」拡張操作です。 2) Augment-S2: これには、論文「AutoAugment: データからの拡張戦略の学習」で使用されている AutoAugment のほか、反転や切り取りが含まれます。 3) Augment-S3: 大規模なスケーリング、AutoAugment、反転、切り抜きなどの機能が含まれます。ズーム範囲はAugment-S1より広くなります。 4) Augment-S4: 論文「RandAugment: 検索空間を縮小した実用的な自動データ拡張」で提案された RandAugment と、反転と切り取り、大規模なスケーリング操作を組み合わせたものです。ここでのズームレベルは Augment-S2/S3 と同じです。

3. 事前トレーニング

事前トレーニングの有効性を研究するために、著者らは ImageNet の事前トレーニング済みチェックポイントを使用しました。評価用のアーキテクチャとして EfficientNet-B7 を使用します。このモデルでは、次の 2 つの異なるチェックポイントを設定しました。1) ImageNet: AutoAugment を使用してチェックポイントで EfficientNet-B7 をトレーニングし、ImageNet で 84.5% のトップ 1 精度を達成しました。 2) ImageNet++: 論文「Noisy Student による自己トレーニングにより ImageNet 分類が改善されます。この方法では、追加の 3 億枚のラベルなし画像が使用され、86.9% のトップ 1 精度が達成されます。」で提案された Noisy Student 法を使用して、チェックポイントで EfficientNet-B7 をトレーニングします。ランダム初期化によるトレーニングの結果は、Rand Init としてマークされます。

4. 自己トレーニング

自己トレーニングは、Noisy Student メソッドに基づいており、次の 3 つのステップで構成されます。

ラベル付きデータ (COCO データセットなど) で教師モデルをトレーニングします。
教師モデルを使用して、ラベルのないデータ (ImageNet データセットなど) に疑似ラベルを生成します。
手動ラベルと疑似ラベルの損失を共同で最適化するように学生モデルをトレーニングします。

IV. 実験

1. 拡張とラベル付きデータセットのサイズが事前トレーニングに与える影響

著者らは、教師あり事前トレーニングに ImageNet を使用し、ラベル付き COCO データセットのサイズを変化させて、事前トレーニングが結果に与える影響を調査しました。実験では、ラベル付きデータのサイズを変更するだけでなく、異なる強調強度のデータセットも使用し、EfficientNet-B7をバックボーンネットワークとするRetinaNeモデルをトレーニングに使用します。著者らは、次のことを観察しました。

教師あり事前トレーニングは、大量のデータ拡張を使用する場合にパフォーマンスを低下させます。著者らは、上記のように標準的な拡張方法 Augment-S1 を使用する場合、事前トレーニングが結果に役立つと指摘しています。しかし、強化の強度が増すにつれて、事前のトレーニングは結果にあまり役立たなくなりました。実際、彼らは、最も強力なデータ拡張 (Augment-S3) を使用する場合、事前トレーニングによってパフォーマンスが著しく低下することを観察しました。
ラベル付けされたデータが増えると、教師あり事前トレーニングの価値が減ります。これは新しい発見ではありません。データ量が少ない場合、事前トレーニングが結果に役立つことは誰もが知っています。ただし、十分な量のラベル付きデータがあれば、最初からトレーニングしても悪い結果は出ません。著者らは同じ結論に達しており、これは FAIR の論文「ImageNet 事前トレーニングの再考」と一致しています。

私の意見: ImageNet でトレーニングされたモデルのほとんどは、非常に強力な拡張方法を使用していません。データが高度に拡張されると、モデルが正しく収束しない可能性があります。実際には、モデルが拡張に対して過剰適合することがあり、これには適切な詳細な調査が必要です。

2. 拡張とラベル付きデータセットのサイズが自己学習に与える影響

著者らは、同じモデル (EfficientNet-B7 バックボーンを備えた RetinaNet 検出器) と同じタスク (COCO データセットオブジェクト検出) を使用して、自己トレーニングの影響を調査しました。著者らは、自己トレーニングに ImageNet データセットを使用します (この場合、ImageNet の元のラベルは破棄されます)。著者らは次のようなことを観察した。

事前トレーニングは結果に悪影響を及ぼしますが、大規模なデータセットと高度な拡張がある場合には自己トレーニングが役立ちます。著者らは、大量のデータ拡張を使用する際にランダムに初期化されたモデルに自己トレーニングを適用すると、ベースライン結果が改善されるだけでなく、同じ状況での事前トレーニングの結果を上回ることも発見しました。この実験の結果は次のとおりです。

自己トレーニングはさまざまなサイズのデータセットでうまく機能し、事前トレーニングを補完するものと見なすことができます。著者が発見した自己トレーニングのもう 1 つの興味深い側面は、事前トレーニングを補完できるということです。つまり、ランダムに初期化されたモデルまたは事前トレーニングされたモデルと組み合わせて自己トレーニングを使用すると、パフォーマンスが一貫して向上します。パフォーマンスの向上はデータサイズに関係なく一貫しています。

ただし、ImageNet++ 事前トレーニングを使用する場合、ランダム初期化と ImageNet 事前トレーニングを使用する場合と比較して、ゲインは比較的小さくなります。これには何か特別な理由があるのでしょうか? はい、ImageNet++ の初期化は、追加の 3 億枚のラベルなし画像が使用されるチェックポイントから取得されます。

3. 自己教師あり事前トレーニングと自己トレーニング

教師あり ImageNet 事前トレーニングでは、最大のデータセットや大量のデータ拡張でのトレーニングパフォーマンスが低下します。しかし、自己教師あり事前トレーニングはどうでしょうか? 自己教師あり学習 (ラベルなしの事前トレーニング) の主な目的は、より多様なタスクやデータセットに転送できる一般的な表現を構築することです。自己教師学習の効果を研究するために、著者らは完全な COCO データセットと最高レベルの拡張を使用しました。目標は、ランダム初期化と、SOTA 自己教師アルゴリズムを使用して事前トレーニングされたモデルを比較することです。私たちは実験で SimCLR のチェックポイントを使用し、その後 ImageNet で微調整します。 SimCLR は ResNet-50 のみを使用するため、RetinaNet 検出器のバックボーンネットワークは ResNet-50 に置き換えられます。結果は次のとおりです。

この場合、自己教師あり事前トレーニングはトレーニングに悪影響を及ぼしますが、自己トレーニングによってパフォーマンスは向上することがわかります。

5. 何を学びましたか?

1. 事前学習と一般的な特徴表現

事前トレーニング（教師ありおよび自己教師あり）が必ずしもより良い結果につながるわけではないことがわかりました。実際には、事前トレーニングは自己トレーニングに比べて常にパフォーマンスが低下します。これはなぜでしょうか? ImageNet の事前トレーニング済みモデルは、COCO データセットでのオブジェクト検出のパフォーマンスが低いのはなぜでしょうか? 自己教師あり事前トレーニングによる表現の学習でパフォーマンスが向上しないのはなぜでしょうか? 事前トレーニングでは、手元のタスクを理解できず、適応できない可能性があります。分類の問題は、物体検出の問題よりもはるかに簡単です。分類タスクで事前トレーニングされたネットワークは、オブジェクト検出タスクに必要なすべての情報を取得しますか? 私がよく言うのは、これらのタスクが互いのサブセットであっても、異なるタスクには異なるレベルの粒度が必要だということです。

2. 合同訓練

著者らが指摘するように、自己トレーニングパラダイムの利点の 1 つは、教師あり学習と自己トレーニングの目標を共同でトレーニングできるため、それらの間の不一致の問題を解決できることです。タスク間の違いによって生じる不一致問題を解決するために、ImageNet と COCO の 2 つのデータセットを共同でトレーニングするなどの共同トレーニング方法も検討できます。著者は実験で自己トレーニングと同じパラメータ設定を使用し、ImageNet での事前トレーニングでは +2.6AP のゲインを得られるが、ランダム初期化と共同トレーニングを使用すると +2.9AP というより大きなゲインを得られることを発見しました。さらに、事前トレーニング、共同トレーニング、自己トレーニングはすべて付加的です。同じ ImageNet データセットを使用した場合、ImageNet 事前トレーニングでは +2.6AP のゲインが達成され、事前トレーニング + ジョイントトレーニングではさらに +0.7AP のゲインが達成され、事前トレーニング + ジョイントトレーニング + セルフトレーニングでは +3.3AP のゲインが達成されます。

3. タスク調整の重要性

上で見たように、パフォーマンスを向上させるにはタスクの適応が非常に重要です。論文「Objects365: 物体検出のための大規模で高品質なデータセット」では、どちらも境界ボックスでラベル付けされているにもかかわらず、Open Images データセットで事前トレーニングを行うと COCO のパフォーマンスが低下するという同様の結果が指摘されています。つまり、事前トレーニングが実際に結果に利益をもたらすためには、タスクを同じにするだけでなく、ラベル付けも同じにする必要があります。同時に、著者は他の 2 つの興味深い現象を指摘しています。

ImageNet で事前トレーニングされたモデルは、追加の人間によるラベルがあっても、自己トレーニングよりもパフォーマンスが悪くなります。
強力なデータ拡張手法 (Augment-S4) の助けを借りて、PASCAL (トレーニング + 拡張データセット) によるトレーニングを行うと、実際には精度が低下します。一方、同じデータセットでの自己トレーニングによって生成された疑似ラベルは精度を向上させます。

4. 自己トレーニングの拡張性、汎用性、柔軟性

著者らが実施したすべての実験から、次の結論を導き出すことができます。

柔軟性の点では、自己トレーニングは、データが少ない状態、データが多い状態、弱いデータ拡張、強いデータ拡張など、あらゆる設定でうまく機能します。
自己トレーニングは、モデルアーキテクチャやデータセットに依存しません。 ResNet、EfficientNet、SpineNet などのさまざまなアーキテクチャや、ImageNet、COCO、PASCAL などのさまざまなデータセットでうまく機能します。
一般的に、事前トレーニングが失敗しても成功しても、自己トレーニングは非常にうまく機能します。

スケーラビリティの点では、ラベル付けされたデータが多く、モデルが優れている場合、自己トレーニングのパフォーマンスが向上することが示されています。

5. 自己トレーニングの限界

自己トレーニングにはメリットもありますが、いくつかの制限もあります。

事前トレーニング済みモデルの微調整と比較すると、自己トレーニングではより多くの計算が必要になります。
事前トレーニングの高速化は、事前トレーニング済みモデルの品質、データ拡張の強度、データセットのサイズに応じて、1.3 倍から 8 倍の範囲になります。
自己トレーニングは転移学習と微調整を完全に置き換えるものではありませんが、転移学習と微調整は将来的にも広く使用されるでしょう。

VI. 結論

論文「事前トレーニングと自己トレーニングの再考」では、事前トレーニング、共同トレーニング、タスク適応、普遍的表現に関する多くの基本的な疑問が提起されています。これらの問題を解決することは、数十億のパラメータを持つモデルを構築することよりも重要であり、ディープニューラルネットワークによって行われた決定についてより優れた直感を得るのに役立ちます。

<<: 人工知能 (AI) を活用して仕事の未来を築くにはどうすればよいでしょうか?

>>: 人工知能の未来は人類にとって何を意味するのでしょうか?