周知のとおり、ディープ ニューラル ネットワークのパフォーマンスはトレーニング データの量と品質に大きく依存するため、ディープラーニングを小規模なデータ タスクに広く適用することは困難です。たとえば、医療などの分野における小規模なデータ応用シナリオでは、大規模なデータセットを手動で収集してラベル付けすることは、多くの場合、時間がかかり、労力がかかります。このデータ不足の問題に対処し、データ収集のコストを最小限に抑えるために、本論文では、新しいデータを自動的に生成して、対象タスクの小さなデータセットをより大きく、より情報量の多いデータセットに拡張することを目的とした、データセット拡張の新しいパラダイムを検討します。これらの拡張データセットは、モデルのパフォーマンスと一般化能力の向上を目的としており、さまざまなネットワーク構造のトレーニングに使用できます。 この研究では、既存の方法を使用するだけではデータセットを効果的に拡張できないことが判明しました。 (1)ランダムデータ拡張は主に画像の表面的な視覚的特徴を変化させるものであり、新たな物体内容を持つ画像を作成することはできない(例えば、下図の蓮はそのままであり、新たな蓮は生成されない)。そのため、導入される情報量は限られている。さらに深刻なのは、ランダムなデータ拡張によって医療画像の病変(変異)の位置が切り取られ、サンプルの重要な情報が削減されたり、ノイズの多いデータが生成されたりすることです。 (2)事前学習済みの生成(拡散)モデルを直接使用してデータセットを拡張しても、対象タスクにおけるモデルのパフォーマンスを効果的に向上させることはできない。これは、これらの生成モデルの事前トレーニング データは、ターゲット データとの分布の差が大きいことが多く、生成したデータとターゲット タスクの間に一定の分布とカテゴリのギャップが生じ、生成されたサンプルに正しいカテゴリ ラベルが付いていて、モデルのトレーニングに有益であることを保証できないためです。 データセットをより効果的に拡張するために、この研究では人間の連想学習を調査しています。つまり、ある物体が与えられると、人間は蓄積された事前知識を使用して、その物体のさまざまなバリエーション(下の写真の犬など)をさまざまなタイプ、色、形、背景で簡単に想像することができます。この想像力豊かな学習プロセスは、単に写真内の動物の外観を変えるだけでなく、豊富な事前知識を適用して新しい情報を含むさまざまな写真を作成するため、データセットの拡張に非常に役立ちます。 しかし、データ想像力のための事前モデルとして人間を直接モデル化することはできません。幸いなことに、最近の生成モデル (Stable Diffusion、DALL-E2 など) は、大規模なデータセットの分布に適合し、豊かでリアルな画像を生成する優れた能力を実証しています。この論文では、事前にトレーニングされた生成モデルを事前モデルとして使用し、その強力な事前知識を活用して、小さなデータセットを効率的に関連付けて増幅するというアイデアが生まれました。 上記のアイデアに基づいて、この研究では新しいガイド付き想像力フレームワーク (GIF) を提案します。この方法は、自然画像や医療画像タスクにおけるディープニューラルネットワークの分類性能と一般化能力を効果的に向上させ、手動によるデータ収集とラベル付けによって生じる膨大なコストを大幅に削減します。同時に、拡張されたデータセットは、モデルの転移学習を促進し、ロングテールの問題を軽減するのにも役立ちます。 次に、データセット拡張のこの新しいパラダイムがどのように設計されているかを見てみましょう。 方法データセット拡張の課題とガイドラインデータセット拡張方法を設計する上で、2つの重要な課題があります。(1) 生成されたサンプルに正しいカテゴリラベルを付けるにはどうすればよいか? (2)生成されたサンプルにモデルのトレーニングを容易にするための新しい情報が含まれていることをどのように確認するか?これら2つの課題に対処するため、本研究では広範な実験を通じて、(1)カテゴリー一貫性情報の強化、および(2)サンプル多様性の向上という2つの増幅ガイダンス基準を発見しました。 方法論的枠組み発見された増幅ガイダンス基準に基づいて、この研究ではガイド付き想像力増幅フレームワーク (GIF) を提案します。各入力シードサンプル x に対して、GIF はまず前世代モデルの特徴抽出器を使用してサンプル特徴 f を抽出し、次に特徴に対してノイズ摂動を実行します。ノイズ (z, b) を設定する最も簡単な方法はガウスランダムノイズを使用することですが、生成されたサンプルに正しいカテゴリラベルが付けられ、より多くの情報が得られることを保証することはできません。したがって、効果的なデータセット拡張のために、GIF は発見された拡張ガイダンス基準に基づいてノイズ摂動を最適化します。 使用された増幅ガイダンス基準は次のように実装されました。クラス一貫性情報インデックス: ; サンプル多様性インデックス: 。これら 2 つの指標を最大化することで、GIF はノイズの摂動を効果的に最適化し、カテゴリの一貫性を維持し、より多くの情報をもたらすサンプルを生成できます。 実験拡張された有効性GIF はより強力な拡張有効性を備えています。GIF-SD は、6 つの自然データセットで分類精度を平均 36.9% 向上させ、3 つの医療データセットで分類精度を平均 13.5% 向上させます。 拡張効率GIF はより強力な増幅効率を備えています。Cars および DTD データセットでは、GIF-SD を使用した 5 倍の増幅の効果は、ランダム データ拡張を使用した 20 倍の増幅の効果を上回ります。 視覚化の結果既存のデータ拡張方法では新しい画像コンテンツを生成できませんが、GIF では新しいコンテンツを含むサンプルをより適切に生成できます。 既存の強調方法では、医療画像の病変の位置まで切り取られ、サンプル情報やノイズが減少する結果になりますが、GIF ではカテゴリの意味をより適切に保持できます。 計算コストと時間コスト手動によるデータ収集と注釈付けと比較して、GIF を使用するとデータセット拡張の時間とコストを大幅に削減できます。 拡張データの汎用性拡張されたデータセットは、さまざまなニューラル ネットワーク モデル構造のトレーニングに直接使用できます。 モデルの一般化能力の向上GIF は、モデルの分布外一般化パフォーマンス (OOD 一般化) の向上に役立ちます。 ロングテール問題の緩和GIF はロングテール問題の緩和に役立ちます。 セキュリティチェックGIF 生成された画像は安全で無害です。 上記の実験結果に基づいて、人間の類推と想像力の学習をシミュレートすることにより、本論文で設計された方法は、小さなデータセットを効果的に拡張し、それによって小さなデータタスクシナリオでのディープニューラルネットワークの実装とアプリケーションを改善できると信じる理由があります。 |
<<: コンピューティング要件が 1% 削減されました。 清華大学が初めて「二値化スペクトル再構成アルゴリズム」を提案、コードは完全オープンソース|NeurIPS 2023
>>: 「3D ガウス」バージョンですべてをセグメント化: ミリ秒単位で 3D セグメンテーション、1,000 倍高速
ルイス・ペレス・ブレバは、マサチューセッツ工科大学 (MIT) の教授であり、MIT エンジニアリン...
ヨアヴ・ホランダーマシンハートが編集参加者: ウー・パン、ヤン・チー5月に、コロンビア大学とリーハイ...
[[323595]]機械学習とディープラーニングのアルゴリズムは、脳内のニューロンを結びつけるシナプ...
見たものを何でもコピーします。これは魔法ですか、それとも孫悟空の魔力ですか?どちらでもない。これが ...
ルーティング アルゴリズムには通常、次の 1 つ以上の設計目標があります。最適化:最適化とは、メトリ...
人工知能、機械学習、マシンビジョンとは具体的に何でしょうか?顔認識と人工知能の関係は何でしょうか?人...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
[[314165]]この記事はLeiphone.comから転載したものです。転載する場合は、Lei...
OpenAI の謎の Q* プロジェクトに関する新たな情報があります。今朝早く、54ページに及ぶGo...
IT プロフェッショナルが AI の適用を実験する際、その多くはパブリック クラウドでそれを実行する...