人間の学習を模倣した、データセット拡張の新しいパラダイム GIF フレームワークが登場

論文リンク: https://browse.arxiv.org/pdf/2211.13976.pdf
GitHub: https://github.com/Vanint/DatasetExpansion

周知のとおり、ディープニューラルネットワークのパフォーマンスはトレーニングデータの量と品質に大きく依存するため、ディープラーニングを小規模なデータタスクに広く適用することは困難です。たとえば、医療などの分野における小規模なデータ応用シナリオでは、大規模なデータセットを手動で収集してラベル付けすることは、多くの場合、時間がかかり、労力がかかります。このデータ不足の問題に対処し、データ収集のコストを最小限に抑えるために、本論文では、新しいデータを自動的に生成して、対象タスクの小さなデータセットをより大きく、より情報量の多いデータセットに拡張することを目的とした、データセット拡張の新しいパラダイムを検討します。これらの拡張データセットは、モデルのパフォーマンスと一般化能力の向上を目的としており、さまざまなネットワーク構造のトレーニングに使用できます。

この研究では、既存の方法を使用するだけではデータセットを効果的に拡張できないことが判明しました。（１）ランダムデータ拡張は主に画像の表面的な視覚的特徴を変化させるものであり、新たな物体内容を持つ画像を作成することはできない（例えば、下図の蓮はそのままであり、新たな蓮は生成されない）。そのため、導入される情報量は限られている。さらに深刻なのは、ランダムなデータ拡張によって医療画像の病変（変異）の位置が切り取られ、サンプルの重要な情報が削減されたり、ノイズの多いデータが生成されたりすることです。（２）事前学習済みの生成（拡散）モデルを直接使用してデータセットを拡張しても、対象タスクにおけるモデルのパフォーマンスを効果的に向上させることはできない。これは、これらの生成モデルの事前トレーニングデータは、ターゲットデータとの分布の差が大きいことが多く、生成したデータとターゲットタスクの間に一定の分布とカテゴリのギャップが生じ、生成されたサンプルに正しいカテゴリラベルが付いていて、モデルのトレーニングに有益であることを保証できないためです。

データセットをより効果的に拡張するために、この研究では人間の連想学習を調査しています。つまり、ある物体が与えられると、人間は蓄積された事前知識を使用して、その物体のさまざまなバリエーション（下の写真の犬など）をさまざまなタイプ、色、形、背景で簡単に想像することができます。この想像力豊かな学習プロセスは、単に写真内の動物の外観を変えるだけでなく、豊富な事前知識を適用して新しい情報を含むさまざまな写真を作成するため、データセットの拡張に非常に役立ちます。

しかし、データ想像力のための事前モデルとして人間を直接モデル化することはできません。幸いなことに、最近の生成モデル (Stable Diffusion、DALL-E2 など) は、大規模なデータセットの分布に適合し、豊かでリアルな画像を生成する優れた能力を実証しています。この論文では、事前にトレーニングされた生成モデルを事前モデルとして使用し、その強力な事前知識を活用して、小さなデータセットを効率的に関連付けて増幅するというアイデアが生まれました。

上記のアイデアに基づいて、この研究では新しいガイド付き想像力フレームワーク (GIF) を提案します。この方法は、自然画像や医療画像タスクにおけるディープニューラルネットワークの分類性能と一般化能力を効果的に向上させ、手動によるデータ収集とラベル付けによって生じる膨大なコストを大幅に削減します。同時に、拡張されたデータセットは、モデルの転移学習を促進し、ロングテールの問題を軽減するのにも役立ちます。

次に、データセット拡張のこの新しいパラダイムがどのように設計されているかを見てみましょう。

方法

データセット拡張の課題とガイドラインデータセット拡張方法を設計する上で、2つの重要な課題があります。(1) 生成されたサンプルに正しいカテゴリラベルを付けるにはどうすればよいか? （２）生成されたサンプルにモデルのトレーニングを容易にするための新しい情報が含まれていることをどのように確認するか？これら2つの課題に対処するため、本研究では広範な実験を通じて、（1）カテゴリー一貫性情報の強化、および（2）サンプル多様性の向上という2つの増幅ガイダンス基準を発見しました。

方法論的枠組み発見された増幅ガイダンス基準に基づいて、この研究ではガイド付き想像力増幅フレームワーク (GIF) を提案します。各入力シードサンプル x に対して、GIF はまず前世代モデルの特徴抽出器を使用してサンプル特徴 f を抽出し、次に特徴に対してノイズ摂動を実行します。ノイズ (z, b) を設定する最も簡単な方法はガウスランダムノイズを使用することですが、生成されたサンプルに正しいカテゴリラベルが付けられ、より多くの情報が得られることを保証することはできません。したがって、効果的なデータセット拡張のために、GIF は発見された拡張ガイダンス基準に基づいてノイズ摂動を最適化します。

使用された増幅ガイダンス基準は次のように実装されました。クラス一貫性情報インデックス: ; サンプル多様性インデックス: 。これら 2 つの指標を最大化することで、GIF はノイズの摂動を効果的に最適化し、カテゴリの一貫性を維持し、より多くの情報をもたらすサンプルを生成できます。