OpenAI研究者:データが不十分な場合に教師あり学習を実現する方法

OpenAI研究者:データが不十分な場合に教師あり学習を実現する方法

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

実際のアプリケーションでは、データは簡単に取得できますが、ラベル付けされたデータはほとんどありません。

一般的に、教師あり学習タスクでラベル付きデータが不十分という問題に直面した場合、次の 4 つの解決策が考えられます。

1. 事前トレーニング + 微調整: まず、強力なタスク非依存モデルを大規模な教師なしデータ コーパスで事前トレーニングします (たとえば、言語モデルは自己教師あり学習を通じてフリー テキストで事前トレーニングされ、視覚モデルはラベルなし画像で事前トレーニングされます)。次に、ラベル付きの少数の例を使用して、下流のタスクでモデルを微調整します。

2. 半教師あり学習: ラベル付きサンプルとラベルなしサンプルの両方から学習します。研究者はこの方法を使用して、視覚タスクに関する広範な研究を行ってきました。

3. アクティブラーニング:ラベル付けのコストは高いです。コスト予算が限られている場合でも、できるだけ多くのラベル付けされたデータを収集したいと考えています。アクティブ ラーニングは、最も価値のあるラベルなしサンプルを選択することを学習し、その後の収集プロセスでそのようなデータを収集して、限られた予算内でモデルが期待される結果を可能な限り達成できるようにします。

4. 事前トレーニング + 自動データセット生成: 強力な事前トレーニング モデルがあれば、そのモデルを使用して、さらに多くのラベル付きサンプルを自動的に生成できます。このアプローチは、少量学習の成功により、言語分野で特に人気があります。

この記事では半教師あり学習法を包括的に紹介しています。著者は OpenAI の研究者 Lilian Weng です。ブログのアドレスは https://lilianweng.github.io/ です。

1半教師あり学習とは何ですか?

半教師あり学習では、ラベル付きデータとラベルなしデータの両方を使用してモデルをトレーニングします。興味深いことに、半教師あり学習に関する既存の文献のほとんどは視覚タスクに焦点を当てています。事前トレーニング + 微調整方式は、言語タスクではより一般的なパラダイムです。この記事で説明したすべての方法の損失は、次の 2 つの部分で構成されます。すべてのサンプルがラベル付きサンプルである場合、監視損失の計算は非常に簡単です。教師なし損失をどのように設計するかに焦点を当てる必要があります。加重項では通常、ランプ関数が使用されます。ここで、t はトレーニング ステップの数です。トレーニング ステップの数が増えると、の割合が増加します。免責事項: この記事では、すべての半教師あり手法を網羅しているわけではなく、モデル アーキテクチャの調整にのみ焦点を当てています。半教師あり学習における生成モデルとグラフベースの方法の使用方法の詳細については、「深層半教師あり学習の概要」という論文を参照してください。

2シンボル説明表

シンボル

意味

一意のラベルの数。

ラベル付きデータセット。ここでは、真のラベルのワンホット表現です。

ラベルなしデータセット。

ラベル付きサンプルとラベルなしサンプルを含むデータセット全体。

ラベルなしのサンプルまたはラベル付きのサンプルを表すことができます。

拡張後のラベルなしまたはラベル付きサンプル。

i 番目のサンプル。

それぞれ損失、教師あり損失、教師なし損失を表す

教師なし損失重みは、トレーニング ステップの数に応じて増加します。

入力が与えられた場合のラベル付きデータセットの条件付き確率。

重み付けされたθを使用して生成されたニューラル ネットワークは、トレーニングする予定のモデルです。

論理関数fの出力値のベクトル。

予測されるラベル分布。

平均二乗誤差、交差エントロピー、KL ダイバージェンスなどの 2 つの分布間の距離関数。

教師モデルの重みの移動平均加重ハイパーパラメータ。

αは混合サンプルの係数であり、

予測分布がシャープになる温度。

適格な予測結果の信頼しきい値を選択します。

3前提

既存の研究文献では、半教師あり学習法における特定の設計上の決定をサポートするために、次の仮定が議論されています。

仮定1: 滑らかさの仮定

2 つのデータ サンプルが特徴空間の高密度領域で近い場合、それらのラベルは同じか非常に類似している必要があります。

仮定2: クラスターの仮定

特徴空間には密な領域と疎な領域の両方があります。密にグループ化されたデータ ポイントは自然にクラスターを形成します。同じクラスター内のサンプルには同じラベルが付けられる必要があります。これは仮説 1 の小さな拡張です。

仮定3: 低密度分離の仮定

クラス間の決定境界は、多くの場合、密度の低いまばらな領域に配置されます。そうしないと、決定境界によって高密度クラスターが 2 つのクラスターに対応する 2 つのクラスに分割され、仮定 1 と 2 の両方が失敗するためです。

仮定4: 多様な仮定

高次元データは多くの場合、低次元多様体上にあります。現実世界のデータは非常に高い次元で観測される場合もありますが (例: 現実世界のオブジェクト/シーンの画像)、実際には、データの特定のプロパティをキャプチャし、類似のデータ ポイントを密接にグループ化する低次元の多様体によってキャプチャできます (例: 現実世界のオブジェクト/シーンの画像は、すべてのピクセルの組み合わせの均一な分布から生成されるわけではありません)。これにより、モデルはラベルのないデータ ポイント間の類似性を検出して評価するためのより効果的な表現を学習できるようになります。これは表現学習の基礎でもあります。この仮説のより詳細な説明については、「半教師あり学習における一般的な仮説を理解する方法」の記事を参照してください。

リンク: https://stats.stackexchange.com/questions/66939/what-is-the-manifold-assumption-in-semi-supervised-learning

4 一貫性の正規化

一貫性正規化 (一貫性トレーニングとも呼ばれる) では、同じ入力が与えられた場合、ニューラル ネットワーク内のランダム性 (ドロップアウト アルゴリズムの使用など) またはデータ拡張変換によってモデルの予測が変更されないことを前提としています。このセクションの各方法には、一貫性正規化損失があります。 SimCLR、BYOL、SimCSE などのいくつかの自己教師学習手法では、この考え方が採用されています。同じサンプルの異なる拡張バージョンは同じ表現を生成します。言語モデリングにおけるクロスビュートレーニングと自己教師学習におけるマルチビュー学習は、同じ研究動機を共有しています。

(1)Πモデル

図1: Πモデルの概要。同じ入力が異なるランダムな拡張とドロップアウト マスクによって変化し、2 つのバージョンが生成され、ネットワークを通じて 2 つの出力が得られます。Π モデルは、これらの 2 つの出力が一貫していることを予測します。 (画像出典:LaineとAilaの2017年の論文「半教師あり学習のための時間的アンサンブル」)

2016 年の論文「深層半教師あり学習のための確率的変換と摂動による正規化」で、Sajjadi らは、ランダム変換 (ドロップアウト、ランダム化最大プーリングなど) 後に同じデータ ポイントの 2 つのバージョンを生成し、ネットワークを通過した後に 2 つの出力結果の差を最小化する教師なし学習損失を提案しました。ラベルは明示的に使用されていないため、この損失はラベルのないデータセットに適用できます。レイン氏とアイラ氏は、2017 年の論文「半教師あり学習のための時間的アンサンブル」の中で、この処理方法に Π モデルという名前を付けました。ここでは、異なるランダム強化またはドロップアウト マスク値を適用する同じニューラル ネットワークを指します。この損失ではデータセット全体が使用されます。

(2)時間的アンサンブル

図 2: タイミング統合の概要。学習目標は、各サンプルの指数移動平均 (EMA) のラベル予測を行うことです。 (画像出典:LaineとAilaの2017年の論文「半教師あり学習のための時間的統合」)

Π モデルでは、各サンプルがニューラル ネットワークを 2 回通過する必要があるため、計算コストが 2 倍になります。コストを削減するために、時系列アンサンブル モデルでは、学習ターゲットとして各トレーニング サンプルのリアルタイム モデル予測の指数移動平均 (EMA) を継続的に使用し、EMA は各反復で 1 回だけ計算して更新する必要があります。時系列統合モデルの出力は 0 に初期化されるため、この起動バイアスを修正するために 1 で割って正規化されます。 Adam オプティマイザーにも、同じ理由でこのようなバイアス補正項があります。ここで、は反復 t におけるアンサンブル予測であり、は現在のラウンドにおけるモデル予測です。 = 0 なので、バイアス補正後は最初の反復におけるモデル予測値と正確に等しくなることに注意してください。

(3)意地悪な教師

図 3: Mean Teacher フレームワークの概要 (画像出典: Tarvaninen および Valpola、2017、「Mean Teacher モデルはより優れたモデル: 加重平均一貫性目標による半教師付きディープラーニングの結果の最適化」)

時系列アンサンブル モデルは、学習目標として、各トレーニング例のラベル予測の指数移動平均を追跡します。ただし、このラベル予測は各反復でのみ変更されるため、トレーニング データセットが大きい場合は面倒になります。ターゲット更新が遅いという問題を克服するために、Tarvaninen と Valpola は 2017 年の論文「Mean Teachers はより優れたロール モデルです。重み平均の一貫性ターゲットにより半教師ありディープラーニングの結果が向上します」で、モデル出力ではなくモデルの重みの移動平均を追跡してターゲットを更新する Mean Teacher アルゴリズムを提案しました。重み θ を持つ元のモデルは学生モデルと呼ばれ、複数の連続する学生モデルの移動平均重みとして重み θ′ を持つモデルは平均教師モデルと呼ばれます。

一貫性正規化損失は、学生モデルと教師モデルの予測間の距離であり、このギャップは最小限に抑える必要があります。平均教師モデルは、生徒モデルよりも正確な予測を提供できます。この結論は、図 4 に示すように、実験によって確認されています。

図 4: SVHN データセットにおける Π モデルと Mean Teacher モデルの分類誤差。平均教師モデル (オレンジ色の線で表されます) は、生徒モデル (青色の線で表されます) よりもパフォーマンスが優れています。 (画像出典: Tarvaninen および Valpola、2017、「平均教師モデルはより優れた模範モデル: 加重平均一貫性目標による半教師付きディープラーニングの結果の最適化」)

彼らのアブレーション研究によると:

  • モデルが良好なパフォーマンスを達成するには、入力拡張方法 (入力画像のランダム反転、ガウスノイズなど) または学生モデルのドロップアウト処理が必要です。教師モードではドロップアウト処理は必要ありません。
  • パフォーマンスは指数移動平均の減衰ハイパーパラメータ β に敏感です。良い戦略としては、成長段階では小さい β = 0.99 を使用し、学生モデルの改善が遅くなる後期段階では大きい β = 0.999 を使用することです。
  • 一貫性コスト関数の平均二乗誤差 (MSE) は、KL ダイバージェンスなどの他のコスト関数よりも優れていることがわかります。

(4)ノイズサンプルを学習対象として利用する

最近のいくつかの一貫性トレーニング方法は、元のラベルなしサンプルとそれに対応する拡張バージョン間の予測差を最小限に抑えることを学習します。この考え方はΠ モデルと非常に似ていますが、一貫性正規化損失はラベルなしデータにのみ適用されます。

図5: ノイズの多いサンプルを使用した一貫性トレーニング

Goodfellow らによる 2014 年の論文「敵対的例の説明と活用」では、敵対的トレーニングでは入力に敵対的ノイズを適用し、モデルがそのような敵対的攻撃に対して堅牢になるようにトレーニングするとされています。

この方法を教師あり学習に適用する式は次のとおりです。

ここで、 は真の分布、 は近似真の値ラベルのワンホットエンコーディング、 はモデル予測、 は 2 つの分布の差を計算する距離関数です。宮戸らは、2018 年の論文「仮想敵対的トレーニング: 教師あり学習と半教師あり学習のための正規化手法」で仮想敵対的トレーニング (VAT) を提案しました。この手法は、半教師あり学習の分野における敵対的トレーニングの考え方を拡張したものです。は未知であるため、現在の重みが に設定されている場合、VAT は未知の項を元の入力に対する現在のモデルの予測値に置き換えます。はモデルの重みの固定値であるため、勾配の更新は実行されないことに注意してください。

VAT 損失は、ラベル付きサンプルとラベルなしサンプルの両方に適用されます。各データ ポイントにおける現在のモデルの予測多様体の負の滑らかさを計算します。この損失を最適化すると、予測マニホールドがよりスムーズになります。 Verma らは、2019 年の論文「半教師あり学習のための補間一貫性トレーニング」で補間一貫性トレーニング (ICT) を提案しました。これは、データ ポイントの補間を追加することでデータセットを強化し、モデルの予測と対応するラベルの補間を可能な限り一貫性のあるものにします。 Hongyi Zhangらは、2018年の論文「Mixup: Beyond Empirical Risk Minimization」で、2つの画像を単純な加重合計で混合するMixUp法を提案しました。補間一貫性トレーニングはこのアイデアに基づいており、予測モデルが、対応する入力の予測補間と一致するように混合サンプルのラベルを生成できるようにします。

ここで、Mean Teacherモデルのθの移動平均を表します。

図 6: 補間一貫性トレーニングの概要。 MixUp メソッドを使用して、学習ターゲットとして補間ラベルを持つ補間サンプルをさらに生成します。 (画像出典:Verma et al.、2019、「半教師あり学習のための補間一貫性トレーニング」)

ランダムに選択された 2 つのラベルなしサンプルが異なるカテゴリに属する​​確率は非常に高いため (たとえば、ImageNet には 1000 個のターゲット カテゴリがあります)、ランダムに選択された 2 つのラベルなしサンプル間に Mixup メソッドを適用すると、決定境界付近で補間が生成される可能性が高くなります。低密度分離仮説によれば、意思決定の境界は低密度領域に位置する傾向があります。

ここでθはθの移動平均を表します。 VAT と同様に、Xie らが 2020 年の論文「一貫性トレーニングのための教師なしデータ拡張」で提案した教師なしデータ拡張 (UDA) は、ラベルなしサンプルと拡張サンプルに対して同じ出力を予測することを学習します。 UDA は、一貫性トレーニングによる半教師あり学習のパフォーマンスにノイズの「品質」がどのように影響するかを研究することに特に重点を置いています。意味のある効果的なノイズ サンプルを生成するには、高度なデータ拡張手法を使用することが重要です。優れたデータ拡張方法は、ターゲットを絞った誘導バイアスを使用して、効果的(つまり、ラベルを変更せずに)かつ多様なノイズを生成できる必要があります。

画像の場合、UDA は、Cubuk らが 2019 年の論文「RandAugment:検索空間を縮小した実用的な自動データ拡張」で提案した RandAugment メソッドを使用します。これは、Python 画像処理ライブラリ PIL で利用可能な拡張操作を均一にサンプリングし、学習や最適化を必要とせず、そのため AutoAugment アプローチを使用するよりもはるかに安価です。

図 7: CIFAR-10 分類におけるさまざまな半教師あり学習手法の比較。 RandAugment を使用せずに 50,000 サンプルでトレーニングした場合、Wide-ResNet-28-2 と PyramidNet+ShakeDrop は、完全な監視下でそれぞれ 5.4% と 2.7% のエラー率を達成します。

言語分野では、UDA は逆翻訳と TF-IDF ベースの単語置換を組み合わせます。バック翻訳では高レベルの意味は保持されますが、特定の単語自体は保持されません。一方、TF-IDF ベースの単語置換では、TF-IDF スコアが低い、情報価値のない単語が削除されます。言語タスクに関する実験では、研究者らは UDA が転移学習と表現学習を補完することを発見しました。たとえば、ドメイン内のラベルなしデータ (図 8) で BERT モデルを微調整すると、パフォーマンスがさらに向上します。

図 8: 異なるテキスト分類タスクで異なる初期化設定を使用した教師なしデータ拡張方法の比較。 (画像出典:Xie et al.、2020、「一貫性トレーニングのための教師なしデータ拡張」)

を計算する際、UDA は次の 3 つのトレーニング手法を使用して結果を最適化できます。

  • 低信頼度マスキング: サンプルの予測信頼度がしきい値より低い場合は、マスクされます。
  • 予測分布のシャープ化: Softmax の低温を使用して、予測される確率分布をシャープ化します。
  • ドメイン内データのフィルタリング: 大規模なドメイン外データセットからより多くのドメイン内データを抽出するために、研究者はドメイン内ラベルを予測するように分類器をトレーニングし、信頼性の高い予測を持つサンプルをドメイン内候補サンプルとして保持します。

ここで、はモデルの重みの固定値であり、VAT と同じなので勾配の更新はありません。は強化されたデータ ポイント、は予測信頼しきい値、は分布のシャープニング温度です。

5 疑似ラベル付け

Lee らは、2013 年の論文「疑似ラベル: ディープ ニューラル ネットワーク向けのシンプルで効率的な半教師あり学習法」で疑似ラベル付けを提案しました。これは、現在のモデルによって予測される最大ソフトマックス確率に基づいてラベルなしサンプルに疑似ラベルを割り当て、その後、完全な教師あり設定でラベル付きサンプルとラベルなしサンプルの両方でモデルをトレーニングするものです。

疑似ラベル付けが機能するのはなぜですか?疑似ラベル付けは、実際にはエントロピー正規化と同等であり、ラベル付けされていないデータのクラス確率の条件付きエントロピーを最小化し、それによってクラス間の低密度分離を実現します。言い換えれば、予測されたクラス確率は実際にはクラスの重複を計算しており、エントロピーを最小化することはクラスの重複を減らし、密度の分離を減らすことと同じです。

図 9: (a) は、600 個のラベル付きデータのみを使用してモデルをトレーニングした後の MINIST テスト セットでのテスト出力の t-SNE 視覚化を示しています。(b) は、600 個のラベル付きデータと 60,000 個のラベルなしデータの疑似ラベルを使用してモデルをトレーニングした後の MINIST テスト セットでのテスト出力の t-SNE 視覚化を示しています。疑似ラベルにより、学習した埋め込み空間でより優れた分離を実現できます。 (画像出典:Lee et al.、2013、「疑似ラベル付け:ディープニューラルネットワークのためのシンプルで効率的な半教師あり学習アプローチ」)

疑似ラベルを使用したトレーニングは、当然ながら反復的なプロセスです。ここで、疑似ラベルを生成するモデルを教師モデル、疑似ラベルを用いて学習するモデルを生徒モデルと呼びます。

(1)ラベル伝播

Iscenらは2019年の論文「深層半教師あり学習のためのラベル伝播」でラベル伝播の概念を提唱しました。これは特徴埋め込みに基づいてサンプル間の類似度グラフを構築するというアイデアです。次に、疑似ラベルは、グラフ内のペアワイズ類似性スコアに比例した伝播重みを使用して、既知のサンプルからラベルなしのサンプルに「拡散」されます。概念的には k-NN 分類器に似ていますが、どちらも大規模なデータセットにうまく適応できないという問題を抱えています。

図 10: ラベル伝播の仕組みを示す概略図。 (画像出典:Iscen et al.、2019、「深層半教師あり学習のためのラベル伝播」)

(2)自己トレーニング

自己トレーニングは新しい概念ではありません。Scudder らによる 1965 年の論文「適応型パターン認識マシンのエラー確率」と Nigram と Ghani らによる CIKM 2000 年の論文「共同トレーニングの有効性と適用性の分析」はどちらもこの概念を扱っています。これは、ラベルのない各サンプルがラベルと一致するまで、次の 2 つのステップを順番に実行する反復アルゴリズムです。

  • まず、ラベル付けされたデータに基づいて分類器を構築します。
  • 次に、分類器を使用してラベルのないデータのラベルを予測し、最も信頼度の高いラベルをラベル付きの例に変換します。

Xie らは 2020 年の論文「Self-training with Noisy Student improves ImageNet classified」で、ディープラーニングに自己トレーニングを適用し、素晴らしい結果を達成しました。 ImageNet 分類タスクでは、研究者はまず EfficientNet モデルを教師モデルとしてトレーニングし、3 億枚のラベルなし画像に疑似ラベルを生成し、次により大きな EfficientNet モデルを学生モデルとしてトレーニングし、実際のラベル画像と疑似ラベル画像を学習しました。彼らの実験設定では、重要な要素は、生徒モデルのトレーニング中にノイズを追加することですが、教師モデルの疑似ラベル生成プロセス中にはノイズは追加されません。そのため、彼らの方法は「Noisy Student」と呼ばれ、ランダム深度、ドロップアウト、RandAugment メソッドを使用して Student モデルにノイズを追加します。学生モデルは、主にノイズを追加する利点により、教師モデルよりもパフォーマンスが優れています。追加されたノイズは、ラベル付きデータとラベルなしデータの両方でモデルによって生成された決定境界を滑らかにする複合効果をもたらします。学生モデルの自己トレーニングには、他にも次のような重要な技術設定がいくつかあります。

  • 学生モデルは、より多くのデータを収容できるほど十分に大きく(つまり、教師モデルよりも大きく)する必要があります。
  • ノイズの多い学生モデルは、データバランス調整法と組み合わせる必要があります。これは、各クラスの疑似ラベル付き画像の数のバランスをとるために特に重要です。
  • ソフト疑似ラベルはハードラベルよりも効果的です。

ノイズのある Student モデルは、モデルが敵対的堅牢性に対して最適化されていないにもかかわらず、FGSM (入力データに対する損失の勾配を使用し、入力データを調整して損失を最大化する高速勾配符号攻撃)​​ に対する敵対的堅牢性も向上します。

Duらは2020年の論文「自己トレーニングによる自然言語理解の事前トレーニングの改善」でSentAugment法を提案しました。これは、言語分野で自己トレーニングを行う際に、ドメイン内のラベルなしデータが不十分であるという問題を解決することを目的としています。大規模なコーパスからラベルのないドメイン内サンプルを見つけるために文の埋め込みを利用し、取得した文を自己トレーニングに使用します。

(3)確証バイアスを減らす

確証バイアスとは、教師モデルの未熟さにより誤った疑似ラベルを提供してしまう問題です。誤ったラベルに過剰適合すると、学生モデルが改善されない可能性があります。

確証バイアスを減らすために、Eric Arazo らは論文「深層半教師あり学習における疑似ラベル付けと確証バイアス」で 2 つの新しい方法を提案しました。

1 つは、ソフト ラベルで Mixup メソッドを使用することです。2 つのサンプルとそれに対応する真のラベルおよび疑似ラベルが与えられれば、補間ラベル方程式をソフトマックス出力のクロス エントロピー損失に変換できます。

ラベル付けされたサンプルが少なすぎる場合は、Mixup メソッドを使用するだけでは不十分です。そのため、論文の著者らは、ラベル付きサンプルをオーバーサンプリングすることで、各ミニバッチ内のラベル付きサンプルの最小数を設定しました。これは、ラベル付けされた例に重み付けするよりも効果的です。なぜなら、より不安定な、頻度の低い大規模な更新で​​はなく、より頻繁な更新が行われるからです。

一貫性正規化と同様に、疑似ラベル付けを最大限に活用するには、データ拡張とドロップアウト手法も重要です。

Hieu Pham らは、2021 年の論文「Meta Pseudo Labels」でメタ疑似ラベルを提案しました。これは、ラベル付けされたデータセットでのパフォーマンスに関する学生モデルのフィードバックに基づいて、教師モデルを継続的に調整します。教師モデルと生徒モデルは同期してトレーニングされます。教師モデルはより優れた疑似ラベルを生成するように学習し、生徒モデルは疑似ラベルから学習します。

教師モデルと生徒モデルの重みはそれぞれとに設定され、ラベル付きサンプルに対する生徒モデルの損失は の関数として定義され、教師モデルを最適化することでこの損失を最小限に抑える傾向があります。

ただし、上記の方程式を最適化するのは簡単な作業ではありません。 MAML(モデルに依存しないメタ学習)の考え方を借用すると、複数ステップの計算を実行しながらワンステップの勾配更新を実行することに似ています。

ソフト疑似ラベルが使用されているため、上記の目的関数は微分可能な関数です。ただし、ハード疑似ラベルを使用する場合は微分不可能な関数となるため、REINFORCE などの強化学習手法が必要になります。

最適化プロセスでは、次の 2 つのモデルが交互に実行されます。

  • 学生モデルの更新: ラベル付けされていないサンプルのバッチが与えられた場合、関数を通じて疑似ラベルを生成し、1 ステップの確率的勾配降下法の最適化を使用できます。
  • 教師モデルの更新: ラベル付けされたサンプルのバッチが与えられた場合、生徒モデルの更新を繰り返し使用して最適化します。さらに、一貫性正規化を組み込むために、UDA オブジェクトが Teacher モデルに適用されます。

図 11: 画像分類タスクにおけるメタ疑似ラベリングとその他の半教師あり学習または自己教師あり学習手法のパフォーマンス比較。 (画像出典:Hieu Pham他、2021年論文「メタ擬似ラベリング」)

6. 一貫性正規化 + 疑似ラベル付け

一貫性正規化と疑似ラベリングの 2 つの方法を組み合わせて、半教師あり学習に適用できます。

(1)ミックスマッチ

2019 年の論文「MixMatch: A Holistic Approach to Semi-Supervised Learning」で Berthelot らが提案した MixMatch 法は、以下の方法を統合してラベルなしデータを使用する半教師あり学習への総合的なアプローチです。

  • 一貫性正規化: モデルが、変動したラベルなしサンプルに対して同じ予測を出力するようにします。
  • エントロピー最小化: ラベルのないデータに対してモデルが信頼性の高い予測を出力できるようにします。
  • MixUp の機能強化: モデルがサンプル間で線形に動作するようにします。

ラベル付きデータとラベルなしデータのバッチが与えられた場合、計算によって強化バージョンが得られ、それぞれ強化されたサンプルとラベルなしサンプルに対して予測されたラベルを表します。

 

ここで、は推測されたラベルの重複を減らすために使用されるシャープニング温度です。K はラベルなしサンプルごとに生成される強化バージョンの数です。は MixMatch 関数のパラメーターです。それぞれについて、MixMatch は K 個の拡張バージョンを生成し、k の拡張バージョンはそれぞれ 1、...、K となり、モデルは平均に基づいて疑似ラベルを推測します。

図 12: MixMatch の「ラベル推測」プロセス: K 個の拡張ラベルなしサンプルの平均を取得し、予測された周辺分布を修正し、最後に分布をシャープにします。 (画像出典: Berthelot 他、2019 年の論文「MixMatch: 半教師あり学習への総合的アプローチ」)

論文のアブレーション研究によると、ラベルなしデータに対する MixUp 拡張は特に重要です。疑似ラベル分布の温度シャープニングを削除すると、パフォーマンスに重大な影響を与える可能性があります。ラベル推測では、ラベルなしデータの複数の拡張バージョンの平均を計算することも重要です。 2020年の論文「ReMixMatch: 分布アライメントと拡張アンカーによる半教師あり学習」で、Berthelotらは、次の2つの新しいメカニズムを導入することでMixMatch法を改良したReMixMatch法をさらに提案しました。

図 13: MixMatch メソッドに対する ReMixMatch メソッドの 2 つの改善点の図解。 (画像出典:Berthelot et al.、2020、「ReMixMatch:分布アライメントと拡張アンカーによる半教師あり学習」)

1. 配布の調整この方法により、周辺分布が真の値ラベルの周辺分布に近くなります。真のラベルのクラス分布は、ラベルなしデータ上の予測クラス分布の移動平均になるように設定されますラベル付けされていないサンプルに対するモデルの予測は、実際の周辺分布と一致するように正規化されます

周辺分布が均一でない場合、エントロピー最小化は有用な目的ではないことに注意することが重要です。さらに、ラベル付きデータとラベルなしデータのクラス分布が互いに一致するという仮定は絶対的すぎるため、実際の設定では正しくない可能性があります。

2. 拡張アンカーラベルのないサンプルが与えられた場合、最初に弱く強化された「アンカー」バージョンが生成され、次に CTAugment (Control Theory Augment) メソッドを使用して K 個の強く強化されたバージョンの平均が計算されます。 CTAugment は、ネットワークの許容範囲内に収まるモデル予測の拡張バージョンのみをサンプリングします。

ReMixMatch 損失は次の項で構成されます。

  • データ拡張とMixup法を適用した教師あり損失
  • データ拡張とMixup法による教師なし損失だが、ターゲットとして疑似ラベルを使用する
  • Mixup法を使用せずに、単一の強く強調されたラベルなし画像のクロスエントロピー損失
  • 自己教師学習における回転損失。

(2)ディバイドミックス

Junnan Liらは、2020年の論文「DivideMix: 半教師あり学習としてのノイズ付きラベルによる学習」で、半教師あり学習とノイズ付きラベルによる学習 LNL)を組み合わせたDivideMix法を提案しました。ガウス混合モデル (GMM) を使用して各サンプルの損失分布をモデル化し、トレーニング データをクリーンなサンプルを含むラベル付きデータセットとノイズの多いサンプルを含むラベルなしデータセットに動的に分割します。

Arazo らが 2019 年の論文「教師なしラベルノイズモデリングと損失補正」で提案したアイデアに従い、サンプルごとのクロスエントロピー損失の上にバイナリガウス混合モデルを適合させました。クリーンなサンプルは、ノイズの多いサンプルよりも早く損失が低くなることが期待されます。平均値が小さいガウス混合モデルはクリーンラベルのクラスターに対応し、ここでは c と表記されます。ガウス混合モデルの事後確率 (つまり、サンプルがクリーン サンプル セットに属する確率) がしきい値より大きい場合、サンプルはクリーン サンプルと見なされ、それ以外の場合はノイズ サンプルと見なされます。

データをクラスタリングするプロセスは、共分割と呼ばれます。確証バイアスを回避するために、DividImax メソッドは 2 つのインターリーブ ネットワークを同時にトレーニングします。各ネットワークは、Double Q-Learning の仕組みと同様に、他のネットワークからデータセットの分割された部分を使用します。

図 14: DivideMix は 2 つのネットワークを独立してトレーニングし、確証バイアスを減らします。 2 つのネットワークは、共同セグメンテーション、共同改良、共同推測を同時に実行します。 (画像出典: Junnan Li 他、2020 年、「DivideMix: 半教師あり学習のためのノイズラベルによる学習」)

MixMatch と比較して、DivideMix にはノイズの多いサンプルを処理するための追加の共分割ステップがあり、トレーニング中に次の改善が行われます: ラベルの共改良: 真の値ラベルとネットワーク予測を線形に結合します。ここで、は別のネットワークがクリーンなデータセットを生成する確率の条件下での複数の強化バージョンの平均です。

ラベルの共同推測: ラベルのないデータ サンプルに対する 2 つのモデルの予測を平均します。

図 15: DivideMix アルゴリズム。 (画像出典: Junnan Li 他、2020 年、「DivideMix: 半教師あり学習のためのノイズラベルを使用した学習」)

(3)フィックスマッチ

Sohn et alによって提案されたFixMatchメソッド「FixMatch:一貫性と自信を備えた半監視学習の簡素化」ここでは、弱い強化と高分率フィルタリングの両方が、高品質のもっともらしい擬似標識オブジェクトを生成するのに役立ちます。 FixMatchは、これらの擬似ラベルが非常に増強されたサンプルを与えられたことを予測します。

図16:FixMatchメソッドの仕組みの図。 (画像出典:Sohn et al。、2020、FixMatch:一貫性と自信を持って半教師の学習を簡素化)

どこにあるのは、非標識サンプルの擬似ラベルです。弱い強化:標準的な翻訳と変換の強化。強力な強化:自動検査、切り抜き、ランドーグメント、ctaugmentなどのデータ強化方法。

図17:FixMatchのパフォーマンスおよび画像分類タスクに関する他のいくつかの半監視学習方法。 (画像出典:Sohn et al。、2020、FixMatch:一貫性と自信を持って半教師の学習を簡素化)

FixMatchのアブレーション研究によると、

  • しきい値τを使用する場合、温度パラメーターTを使用しても、予測される分布の削減に大きな影響はありません。
  • カットアウトとCtaugmentは強力な強化方法であり、モデルの良好なパフォーマンスに大きく貢献しています。
  • ラベル推測が弱い増強ではなく強力な増強を使用する場合、モデルはトレーニングの早い段階で分岐します。弱い増強が廃棄されると、モデルは推測されたラベルに過剰に輝きます。
  • 擬似ラベル予測のために強力な増強の代わりに弱い増強を使用すると、不安定なモデルパフォーマンスにつながる可能性があります。モデルのパフォーマンスの安定性には、強力なデータ強化が重要です。

7と強力なプリトレーニングと組み合わせた

このアプローチは、自己監視学習を介して監視されていないデータの大規模なコーパス上のタスクに依存しないモデルを事前にトレーニングし、その後、特に言語タスクで一般的なパラダイムである小さなラベルのあるデータセットを使用して、下流タスクでモデルを微調整します。調査によると、半監視学習がトレーニング前と組み合わされた場合、モデルは追加の利益を達成できることが示されています。

2020年の論文「トレーニング前と自己訓練の再考」で、Zoph et al。彼らの実験的セットアップは、COCOの結果を改善するために、トレーニング前または自己訓練にImagenetを使用することです。 Imagenetを自己トレーニングに使用する場合、ラベルを破棄し、イメージネットサンプルを非標識データポイントとしてのみ使用することに注意することが重要です。 Kaiming He et al。2018年の論文では、「オブジェクトの検出など)が非常に異なる場合、イメージネットの分類がうまく機能しないことを示しています。

図18:(a)ターゲット検出パフォーマンスに対するラベルデータセットサイズの効果(弱いから強い)および(b)の結果。伝説では、「Rand Init」は、ランダムな重みで初期化されたモデルを表します。 (写真出典:Zoph et al。の論文「2020年のトレーニング前と自己訓練の再考」)

この実験では、一連の興味深い調査結果が得られました。

  • ダウンストリームタスクで利用可能なラベルサンプルが多いほど、トレーニング前の効果が低下します。トレーニング前は、低データモード(20%)で役立ちますが、高データの状況では中立または逆効果です。
  • 高いデータ/強力な拡張モードでは、トレーニング前に逆効果をもたらす場合でも、自己トレーニングが役立ちます。
  • 同じデータソースを使用しても、セルフトレーニングはトレーニング前に追加の改善をもたらす可能性があります。
  • 自己教師の事前トレーニング(たとえば、SIMCLRを介した事前トレーニング)は、監視されたプリトレーニングに似たハイデータモードでのモデルのパフォーマンスを損傷する可能性があります。
  • 共同トレーニングの監督と自己科学の学習目標は、トレーニング前とダウンストリームのタスクの間の不一致を解決するのに役立ちます。トレーニング前、共同トレーニング、自己トレーニングはすべて加算的です。
  • ノイズラベルまたは非ターゲットラベル(つまり、事前に訓練されたラベルは、ダウンストリームタスクラベルと整合していません)は、ターゲットの擬似ラベルよりも悪いです。
  • 自己訓練は、事前に訓練されたモデルで微調整するよりも計算上高価です。

2020年の論文では、大規模な監視モデルは強力な半監視学習者であり、Ting Chen et al。

1.監視なしまたはサブパービングされた方法を使用して、大規模なモデルをトレーニングします。

2。いくつかのタグの例でモデルの監視された微調整。大きな(深くて広い)ニューラルネットワークを使用することが重要であり、タグサンプルが少ないとモデルが大きくなるほど、パフォーマンスが向上します。

3.自己訓練で擬似ラベルを使用して、ラベルのない例を蒸留します。

このタスク固有の使用は、学習表現の追加容量を必要としないため、大規模なモデルの知識を小さなモデルに蒸留することができます。

b。蒸留式は次のとおりです。

 

図19:セミスの監視された学習フレームワークでは、タスクに依存しない監視されていない非監視前(左)およびタスク固有の自己訓練と蒸留(右)を介してラベルフリーのデータコーパスを使用します。 (画像出典:2020年のTing Chen et al。の論文「大規模な自己監視モデルは強力な半監視学習者です」)

紙の著者は、Imagenet分類タスクに関する実験を実施しました。自己監視前のトレーニング前のトレーニングは、SIMCLRの直接改良バージョンであるSIMCLRV2を使用します。経験的研究における彼らの観察は、2020年に提案された結果の一部を確認します。

  • より大きなモデルには、より効率的なラベル学習があります。
  • SIMCLRのより大きな/より深いプロジェクトヘッドは、特性評価の学習を改善できます。
  • ラベルのないデータを使用した蒸留は、半監視学習を最適化することができます。

図20:Imagenet分類におけるSIMCLRV2 +半監視蒸留の性能の比較。 (画像出典:2020年のTing Chen et al。の論文「大規模な自己監視モデルは強力な半監視学習者です」)

最近の半学習学習方法の要約を通じて、多くの方法が確認バイアスを減らすために設計されていることがわかります。

  • 高度なデータ増強方法を介して、効果的で多様なノイズがサンプルに適用されます。
  • ミックスアップは、画像を処理する際の効果的なデータ増強方法です。この方法は、言語タスクにも使用して、より小さな増分最適化を実現することもできます((Guo etal。2019)。
  • しきい値を設定し、信頼性の低い擬似ラベルを削除します。
  • 各小さなバッチに最小ラベルサンプルを設定します。
  • 擬似ラベル分布を研ぎ澄まして、クラスの重複を減らします。

見積もりが必要な場合は、示してください

 @ article { weng2021semititle = "十分なデータのない学習パート1:半学習学習"著者= "weng、lilian"


<<:  文化分野における人工知能の応用

>>:  効率が1200倍にアップ! MIT、医薬品製造向けの新たなAIモデルを開発

ブログ    

推薦する

人工知能の台頭は難しく、普通のAI開発者が普及する

[[241542]] Forbes によれば、FORTRAN のパンチカードから Go を使用した分...

...

...

米メディア:中国が人工知能市場を支配すると予想

[[388200]] 3月15日、アメリカの隔週刊誌フォーブスのウェブサイトは、バーナード・マー氏に...

2018年のソフトウェア開発に関する10の予測、注目のブロックチェーンとAIを含む

[[221321]]ブロックチェーン、NLP、AI 駆動型ツール、機械学習、サーバーレス コンピュー...

...

...

「万能AI」GPT-3の中国版を作る方法

質問に答えたり、翻訳したり、記事を書いたり、コードを書いたり、数式を計算したり、アイコンを描いたりす...

AIOps ツールがクラウド コンピューティングに新たな命を吹き込む理由

[[331103]] AIOps ツールは IT 分野で幅広い応用が期待されていますが、クラウド テ...

AIの千里の道のりは一歩から始まる

人類の文明の歴史は、私たち自身を超えるための道具を絶えず生み出してきた歴史です。このトラックでは、ほ...

ビデオ会議に最適な AI アプリケーション

[[439113]]人工知能により、非常に有用であることが証明された素晴らしいビデオ会議アプリケーシ...

ChatGPTという独立系ゲームがSteamから削除されました。開発者は「貯金と3年半の人生が消えてしまいました」と語っています。

3年半このゲームに一生懸命取り組んだのに、ChatGPT を使用したという理由だけで Steam ...

...

推奨アルゴリズム集(パート1) - 協調フィルタリングアルゴリズム

【51CTO.comオリジナル記事】 1. ロングテール効果?動物の尻尾と関係があるのでしょうか?前...