現在、コンピューター ビジョン ニューラル ネットワークは高度にパラメータ化されています。通常、数千万から数億のパラメータがあり、これが ImageNet などの大規模な画像コレクションを活用する際の成功の鍵となります。ただし、これらの大容量モデルは、小規模なデータセット(数十万枚の画像を含む)や中規模のデータセットでは過剰適合する傾向があります。そのため、2014年に一部の研究者は次のように指摘しました。CNNを学習するプロセスは、何百万ものモデルパラメータを推定することに相当し、大量のラベル付きデータが必要になります。 今日、データ不足に対処するための主流の学習パラダイムは、大規模なデータセット (Imagenet など) でモデルを事前トレーニングし、特定のタスクに基づいて小規模なデータセットでモデルを微調整することです。このトレーニング手順は、多くの場合、最初からトレーニングする(たとえば、最初からランダムにパラメータを初期化する)よりも優れています。 この学習パラダイムは、検出、セグメンテーション、アクション認識などの多くのタスクで SOTA パフォーマンスを達成しています。このアプローチは成功していますが、このような大規模なラベル付きデータセットによってもたらされる利点を事前トレーニングパラダイムの制限から切り離すことは困難です。これに加えて、あるデータセットでモデルを事前トレーニングし、別のデータセットで微調整すると、矛盾が生じます。 Meta AI や他の機関の研究者は、ターゲットタスクデータのみを使用する自己教師型の事前トレーニングシナリオを検討しました。使用されるデータセットには、たとえば、Stanford Cars、Sketch、COCO などがありますが、これらは Imagenet よりも桁違いに小さいです。 この研究では、本論文で紹介したノイズ除去オートエンコーダ(BEiT やそのバリエーションなど)が、事前トレーニング データの種類とサイズに対してより堅牢であることが示されています。この研究では、ImageNet による事前トレーニングと比較して競争力のあるパフォーマンスを達成しました。 COCO では、COCO 画像のみを使用して事前トレーニングすると、検出およびインスタンス分割タスクにおける教師あり ImageNet 事前トレーニングのパフォーマンスを上回ります。 論文アドレス: https://arxiv.org/pdf/2112.10740.pdf 論文紹介 この論文では、画像の数と性質が自己教師モデルの品質にどのように影響するかを調査します。この予備分析では、ノイズ除去オートエンコーダーの代表として BEiT と SplitMask (セクション 4 のバリアント) を、結合埋め込み法 DINO (Facebook がリリースした教師なし学習) としてそれぞれ紹介します。 SplitMask は、ビジュアル トランスフォーマーに基づくノイズ除去オートエンコーダのバリエーションです。この方法の概要を図 4 に示します。 SplitMask アーキテクチャ スプリットマスク SplitMask は、分割、インペイント、一致の 3 つのステップで完了します。標準的なビジョン トランスフォーマーと同様に、画像は最初に 16×16 のパッチに分解され、次に 2 つの独立したサブセット A と B に分割されます。次に、研究者はサブセット A のパッチ表現と浅いデコーダーを使用してサブセット B のパッチを修復し、その逆も同様に行います。最後に、各ブランチに対応するデコーダーによって出力されたパッチ表現を平均プーリングすることによって、グローバル画像記述子が得られます。次に研究者らは、サブセット A から得られた画像のグローバル記述子を、サブセット B から得られた画像のグローバル記述子と一致させようとしました。 エンコーダ/デコーダアーキテクチャ SplitMask は、エンコーダー/デコーダー アーキテクチャに依存するパイプラインを実装します。モデルのエンコーダーは、絶対位置埋め込みを備えた標準的なビジュアル トランスフォーマーです。 BEiT アプローチとは対照的に、このエンコーダーはマスクされたトークン表現を処理せず、観測されたトークンのみを処理します。したがって、画像は線形埋め込みパッチに分割され、これらの表現に位置埋め込みが追加されます。これらの表現は、A と B の 2 つのサブセットに分割され、標準のトランスフォーマー レイヤーによって個別に処理されます。 全体的なコントラストの低下 この研究では、パッチ レベルでの MIM 損失の計算に加えて、画像レベルでのコントラスト損失も使用します。この目的のために、本研究ではデコーダーのすべての出力表現に平均プーリング操作を適用します。各画像には、観測されたパッチ サブセット A と B に対応する 2 つの表現 x_a と x_b が与えられます。 InfoNCE損失[59]はこれらの表現に適用されます。 実験 まず、実験では、さまざまなデータセットでのコンピューター ビジョン モデルの事前トレーニングと微調整を研究しました。詳細については、データセット名、トレーニング データとテスト データの分布などが記載されている表 3 を参照してください。 予測タスク まず、本研究ではMask R-CNNパイプライン[8]を用いて、COCO物体検出およびインスタンスセグメンテーションデータセットでSplitMaskを評価した。表4に評価結果を示す。 結果は、同じ BEiT モデルで、COCO データセットのみで事前トレーニングされたモデルの方が、ImageNet で事前トレーニングされたモデルよりも下流タスクのパフォーマンスが優れていることを示しています。たとえば、ViT ベースのバックボーンを使用する場合、ImageNet ではなく COCO で事前トレーニングを行うと、ボックス AP が +0.4 向上します。 表6はデジタル分類データセットの実証的評価結果を示しています。 表 7 は、ViT-S および ViT-B バックボーンと 300 エポックの事前トレーニングを使用した SplitMask メソッドのパフォーマンスを、他の最近の Transformer ベースの自己教師学習メソッドと比較したものです。 |
<<: ナンバーワンのディープラーニングフレームワークはどれですか? 2022年、PyTorchとTensorFlowが再び競い合う
>>: 画像の混合を利用してより細かい特徴表現を学習するCMU Xing Boのチームの新しい論文がAAAIに選出されました
人工知能を正しく使用するために、いくつかの提案があります。人工知能を実際に使用する際にこれらの提案を...
プログレス・パートナーズの創設者兼シニアマネージングディレクターのニック・マクシェーン氏は、「今後数...
[[442813]]画像ソース: https://pixabay.com/images/id-673...
Panos Labropoulos 博士は、Bright Computing のシニア サポート エ...
捜査チームがスケッチアーティストを雇って、目撃者が語った犯人像を描いてもらう犯罪番組を見たことを覚え...
[[439421]] [51CTO.com クイック翻訳]近年、人工知能(AI)は私たちの日常生活...
「ハイエンド」オープンソースでは、最も単純なリリース方法が採用されることが多いです。昨日、Mistr...
[[443145]] [51CTO.com クイック翻訳] 2022 年が近づくにつれ、人々は 20...
YOLOv8 が 2023 年 1 月に正式にリリースされてから 1 年以上経ち、ついに YOLOv...
中国はなぜ米国と同じくらい多くの人工知能研究者を育成しているにもかかわらず、機械学習などの主要分野で...
5月16日から18日まで、第2回世界情報会議が天津で開催されます。 「インテリジェント時代:新たな進...
大規模なモデルの「ブラックボックス」を解体するために、人類解釈可能性チームは、新しいモデルをトレーニ...
IT Home 11月29日のニュースによると、マイクロソフトは最近、クロスプラットフォームの機械学...
[[351301]]資本の冬を経験した後、疫病のブラックスワンが次々と起こり、AI初期に蓄積された非...