2018年末には、FAIRの研究者らが「ImageNetの事前トレーニングの再考」と題する論文を発表し、その後ICCV2019で発表されました。この論文では、事前トレーニングに関する非常に興味深い結論がいくつか提示されています。
最近、Google Brain 研究チームはこの概念を拡張しました。新しい論文「事前トレーニングと自己トレーニングの再考」では、事前トレーニングについて議論しただけでなく、自己トレーニングについても研究し、同じ一連のタスクで自己トレーニングと教師あり事前トレーニング、自己教師あり事前トレーニングの違いを比較しました。 著者は実験を通じて以下の結論を得た。
以下は、機械学習研究エンジニアの Aakash Nain による論文「事前トレーニングと自己トレーニングの再考」の解釈です。この記事は Medium で公開され、AI Technology Review によってまとめられました。 序文 論文の詳細に入る前に、まずいくつかの用語を理解しておきましょう。事前トレーニングは、さまざまな分野 (コンピューター ビジョン、自然言語処理、音声処理など) で使用される非常に一般的な方法です。コンピューター ビジョンのタスクでは、1 つのデータセットで事前トレーニングされ、別のデータセットに直接適用できるモデルがよく使用されます。たとえば、ImageNet 事前トレーニングの使用は、オブジェクトのセグメンテーションやオブジェクトの検出タスクで広く使用できる初期化方法です。これを実現するために、転移学習と微調整という 2 つの手法がよく使用されます。一方、自己トレーニングでは、トレーニング中にラベルなしデータに対するモデルの予測結果を組み合わせて、モデルのパフォーマンスを向上させるために利用可能な他の情報を取得しようとします。たとえば、ImageNet を使用して COCO オブジェクト検出モデルを改善します。まず、COCO データセットでモデルをトレーニングし、次にこのモデルを使用して ImageNet の疑似ラベルを生成し (元の ImageNet ラベルは破棄します)、最後に疑似ラベル付きの ImageNet データセットとラベル付き COCO データセットを組み合わせて新しいモデルをトレーニングします。自己教師学習は、よく使用されるもう一つの事前トレーニング方法です。自己教師学習の目的は、高レベルの特徴を学習することだけではありません。代わりに、モデルがより良く学習し、さまざまなタスクやデータセットに対してより堅牢になることを期待しています。 2. 研究の動機 著者らは、以下の問題を解決したいと考えています。
3. 設定 1. データセットとモデル
2. データ拡張 すべての実験では、検出とセグメンテーションに、強度の異なる 4 つの強化戦略が使用されます。 4 つの戦略は、強度の低いものから高いものの順にランク付けされています。1) Augment-S1: これは、水平反転とスケーリング クロッピングを含む標準的な「反転とクロッピング」拡張操作です。 2) Augment-S2: これには、論文「AutoAugment: データからの拡張戦略の学習」で使用されている AutoAugment のほか、反転や切り取りが含まれます。 3) Augment-S3: 大規模なスケーリング、AutoAugment、反転、切り抜きなどの機能が含まれます。ズーム範囲はAugment-S1より広くなります。 4) Augment-S4: 論文「RandAugment: 検索空間を縮小した実用的な自動データ拡張」で提案された RandAugment と、反転と切り取り、大規模なスケーリング操作を組み合わせたものです。ここでのズームレベルは Augment-S2/S3 と同じです。 3. 事前トレーニング 事前トレーニングの有効性を研究するために、著者らは ImageNet の事前トレーニング済みチェックポイントを使用しました。評価用のアーキテクチャとして EfficientNet-B7 を使用します。このモデルでは、次の 2 つの異なるチェックポイントを設定しました。1) ImageNet: AutoAugment を使用してチェックポイントで EfficientNet-B7 をトレーニングし、ImageNet で 84.5% のトップ 1 精度を達成しました。 2) ImageNet++: 論文「Noisy Student による自己トレーニングにより ImageNet 分類が改善されます。この方法では、追加の 3 億枚のラベルなし画像が使用され、86.9% のトップ 1 精度が達成されます。」で提案された Noisy Student 法を使用して、チェックポイントで EfficientNet-B7 をトレーニングします。ランダム初期化によるトレーニングの結果は、Rand Init としてマークされます。 4. 自己トレーニング 自己トレーニングは、Noisy Student メソッドに基づいており、次の 3 つのステップで構成されます。
IV. 実験 1. 拡張とラベル付きデータセットのサイズが事前トレーニングに与える影響 著者らは、教師あり事前トレーニングに ImageNet を使用し、ラベル付き COCO データセットのサイズを変化させて、事前トレーニングが結果に与える影響を調査しました。実験では、ラベル付きデータのサイズを変更するだけでなく、異なる強調強度のデータセットも使用し、EfficientNet-B7をバックボーンネットワークとするRetinaNeモデルをトレーニングに使用します。著者らは、次のことを観察しました。
私の意見: ImageNet でトレーニングされたモデルのほとんどは、非常に強力な拡張方法を使用していません。データが高度に拡張されると、モデルが正しく収束しない可能性があります。実際には、モデルが拡張に対して過剰適合することがあり、これには適切な詳細な調査が必要です。 2. 拡張とラベル付きデータセットのサイズが自己学習に与える影響 著者らは、同じモデル (EfficientNet-B7 バックボーンを備えた RetinaNet 検出器) と同じタスク (COCO データセット オブジェクト検出) を使用して、自己トレーニングの影響を調査しました。著者らは、自己トレーニングに ImageNet データセットを使用します (この場合、ImageNet の元のラベルは破棄されます)。著者らは次のようなことを観察した。
ただし、ImageNet++ 事前トレーニングを使用する場合、ランダム初期化と ImageNet 事前トレーニングを使用する場合と比較して、ゲインは比較的小さくなります。これには何か特別な理由があるのでしょうか? はい、ImageNet++ の初期化は、追加の 3 億枚のラベルなし画像が使用されるチェックポイントから取得されます。 3. 自己教師あり事前トレーニングと自己トレーニング 教師あり ImageNet 事前トレーニングでは、最大のデータセットや大量のデータ拡張でのトレーニング パフォーマンスが低下します。しかし、自己教師あり事前トレーニングはどうでしょうか? 自己教師あり学習 (ラベルなしの事前トレーニング) の主な目的は、より多様なタスクやデータセットに転送できる一般的な表現を構築することです。自己教師学習の効果を研究するために、著者らは完全な COCO データセットと最高レベルの拡張を使用しました。目標は、ランダム初期化と、SOTA 自己教師アルゴリズムを使用して事前トレーニングされたモデルを比較することです。私たちは実験で SimCLR のチェックポイントを使用し、その後 ImageNet で微調整します。 SimCLR は ResNet-50 のみを使用するため、RetinaNet 検出器のバックボーン ネットワークは ResNet-50 に置き換えられます。結果は次のとおりです。 この場合、自己教師あり事前トレーニングはトレーニングに悪影響を及ぼしますが、自己トレーニングによってパフォーマンスは向上することがわかります。 5. 何を学びましたか? 1. 事前学習と一般的な特徴表現 事前トレーニング(教師ありおよび自己教師あり)が必ずしもより良い結果につながるわけではないことがわかりました。実際には、事前トレーニングは自己トレーニングに比べて常にパフォーマンスが低下します。これはなぜでしょうか? ImageNet の事前トレーニング済みモデルは、COCO データセットでのオブジェクト検出のパフォーマンスが低いのはなぜでしょうか? 自己教師あり事前トレーニングによる表現の学習でパフォーマンスが向上しないのはなぜでしょうか? 事前トレーニングでは、手元のタスクを理解できず、適応できない可能性があります。分類の問題は、物体検出の問題よりもはるかに簡単です。分類タスクで事前トレーニングされたネットワークは、オブジェクト検出タスクに必要なすべての情報を取得しますか? 私がよく言うのは、これらのタスクが互いのサブセットであっても、異なるタスクには異なるレベルの粒度が必要だということです。 2. 合同訓練 著者らが指摘するように、自己トレーニング パラダイムの利点の 1 つは、教師あり学習と自己トレーニングの目標を共同でトレーニングできるため、それらの間の不一致の問題を解決できることです。タスク間の違いによって生じる不一致問題を解決するために、ImageNet と COCO の 2 つのデータセットを共同でトレーニングするなどの共同トレーニング方法も検討できます。著者は実験で自己トレーニングと同じパラメータ設定を使用し、ImageNet での事前トレーニングでは +2.6AP のゲインを得られるが、ランダム初期化と共同トレーニングを使用すると +2.9AP というより大きなゲインを得られることを発見しました。さらに、事前トレーニング、共同トレーニング、自己トレーニングはすべて付加的です。同じ ImageNet データセットを使用した場合、ImageNet 事前トレーニングでは +2.6AP のゲインが達成され、事前トレーニング + ジョイント トレーニングではさらに +0.7AP のゲインが達成され、事前トレーニング + ジョイント トレーニング + セルフ トレーニングでは +3.3AP のゲインが達成されます。 3. タスク調整の重要性 上で見たように、パフォーマンスを向上させるにはタスクの適応が非常に重要です。論文「Objects365: 物体検出のための大規模で高品質なデータセット」では、どちらも境界ボックスでラベル付けされているにもかかわらず、Open Images データセットで事前トレーニングを行うと COCO のパフォーマンスが低下するという同様の結果が指摘されています。つまり、事前トレーニングが実際に結果に利益をもたらすためには、タスクを同じにするだけでなく、ラベル付けも同じにする必要があります。同時に、著者は他の 2 つの興味深い現象を指摘しています。
4. 自己トレーニングの拡張性、汎用性、柔軟性 著者らが実施したすべての実験から、次の結論を導き出すことができます。
スケーラビリティの点では、ラベル付けされたデータが多く、モデルが優れている場合、自己トレーニングのパフォーマンスが向上することが示されています。 5. 自己トレーニングの限界 自己トレーニングにはメリットもありますが、いくつかの制限もあります。
VI. 結論 論文「事前トレーニングと自己トレーニングの再考」では、事前トレーニング、共同トレーニング、タスク適応、普遍的表現に関する多くの基本的な疑問が提起されています。これらの問題を解決することは、数十億のパラメータを持つモデルを構築することよりも重要であり、ディープ ニューラル ネットワークによって行われた決定についてより優れた直感を得るのに役立ちます。 |
<<: 人工知能 (AI) を活用して仕事の未来を築くにはどうすればよいでしょうか?
>>: 人工知能の未来は人類にとって何を意味するのでしょうか?
代償なくして勝利はない。しかし、私たちはしばしばこのことを忘れ、即座の勝利を要求します。これは、世界...
[[257228]] 【新知能紹介】中国内外の科学者71人が共同で、検査結果を検知し、医師と同じくら...
概要: 顔認識を実現するための 1 行のコード、1. まず、システムに認識させたいすべての人の写真が...
この記事では、ディープラーニング モデルのトレーニングを改善するために私が個人的に見つけた 4 つの...
電池なしで自動運転できる「車」が登場した。走行し続けるためのエネルギーを自動的に収集することもできる...
[[243985]]人工知能(AI)は、1955年に米国のダートマス大学のAIの第一人者ジョン・マッ...
日常生活で人々が接触する家具のほとんどは、引き出しレール付きの引き出し、垂直回転軸付きの扉、水平回転...
遅れて気づいて申し訳ありません。この記事を読んでいる友人の中には、すでにこのプラグインをインストール...
Google と他のチームは、遺伝的プログラミングの最新の成果である AutoRobotics-Ze...
1. 背景指標はビジネスと密接に関係しており、その価値は、問題点やハイライトを発見し、タイムリーに...
まだ「投資段階」にある自動運転業界にとって、「新しいインフラ」は単なる概念ではなく、実際のビジネスチ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...