2040枚の画像で訓練されたViTの精度は96.7%で、移行パフォーマンスも驚異的だ

2040枚の画像で訓練されたViTの精度は96.7%で、移行パフォーマンスも驚異的だ

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

ViT はコンピューター ビジョンの分野で大きな成功を収めており、CNN に取って代わる可能性さえあります。

しかし、CNN と比較すると、ViT のトレーニングにはより多くのデータが必要であり、通常は大規模なデータセット JFT-300M または少なくとも ImageNet で事前トレーニングされており、少量のデータで ViT をトレーニングすることを研究した人はほとんどいません。

最近、南京大学のWu Jianxin 氏のチームは、ViT をトレーニングするのに 2040 枚の画像しか必要としない新しい方法を提案しました。

彼らは 2040 枚の花の画像をゼロからトレーニングし、96.7% の精度を達成しました。これは、少量のデータで ViT をトレーニングすることが可能であることを示しています。

さらに、ViT バックボーンの下にある 7 つの小さなデータセットで最初からトレーニングしたときにも、SOTA の結果が達成されました。

さらに重要なことは、小さなデータセットで事前トレーニングした場合でも、 ViT は優れた転移性を備えており、大規模なデータセットでのトレーニングも容易にできることを実証したことです。

論文内容

この論文では、著者らはIDMMインスタンス 差別 マルチクロップとカットミックス)。

まず、ViT 画像分類ネットワークの基本的なアーキテクチャを見てみましょう。

画像サンプルxᵢ(i = 1, 2, …, N; Nは画像の数)をViTに入力し、出力表現zᵢのセットを取得します。 wⱼはj番目のカテゴリの重みです。

次に、クラス数がトレーニング画像の総数 N に等しい場合、つまりインスタンスの識別がパラメータ化されている場合、完全に接続された層 W が分類に使用されます。

クラス j の出力は次のとおりです。

O を Softmax 層に入力して確率分布 P⁽ⁱ⁾ を取得します。たとえば、識別の場合、損失関数は次のようになります。

ディープクラスタリングの場合、損失関数は次のようになります。

重みが適切に設定されている限り(wⱼ = ~wₖとする)、インスタンスの識別はディープクラスタリングと同等にできることがわかります。

下の図からわかるように、インスタンス識別は他の方法と比較して、より分散した表現を学習し、クラス内の類似性をより適切に捉えることができます。

著者がパラメータ化されたインスタンス識別を選択したもう一つの重要な理由は、単純さと安定性です。

不安定性は、自己監督型 ViT トレーニングに影響を与える大きな問題です。インスタンス識別 (クロスエントロピー) の形式はより安定しており、最適化が容易です。

次に、勾配分析を開始し、重みに関する損失関数を導出します。

ここで、δ は指示関数であり、k=i の場合は値 1 をとり、それ以外の場合は 0 をとります。

インスタンス識別の場合、クラス数 N が通常大きく、インスタンス サンプルへのアクセスが極めて稀であるという問題があることに注意する必要があります。

まれにk≠iの場合、P⁽ⁱ⁾ₖ≈0、つまり∂L/∂wₖ≈0が期待できます。これはwₖが非常にまれにしか更新されないことを意味します。

小規模データセットの問題では、著者はCutMixラベル スムージングを使用してこの問題を軽減します。

カットミックス:

ラベルのスムージング:

最終的に、勾配は次のようになります。

この方法は、単一のラベルを直接変更することで重みマトリックスがより頻繁に更新される ViT 教師ありトレーニングでよく使用されます。

要約すると、著者らは小規模なデータセットでのインスタンス識別を強化するために以下の戦略を使用しました。

  1. 小さい解像度: 事前トレーニングでの小さい解像度は、小さなデータセットに役立ちます。
  2. 複数のクロッピング: インスタンスの識別によりコントラストの損失が一般化され、複数のインスタンスを使用するときに機能の配置と均一性が保証されます。
  3. CutMix とラベル スムージング:インスタンス識別を使用するときに、過剰適合と不定期アクセスの問題を軽減するのに役立ちます。

ターゲット データセットで最初から直接トレーニングする必要がある理由について、著者は次の 3 つの理由を挙げています。

1.データ

現在の ViT モデルは通常、大規模なデータセットで事前トレーニングされ、その後さまざまな下流タスクで微調整されます。畳み込みの典型的な帰納的バイアスがないため、これらのモデルは通常の CNN よりもデータ集約的です。

したがって、画像の量が限られたタスクでは、ViT を最初からトレーニングすることが重要です。

2.計算能力

大規模なデータセット、時間がかかり複雑なバックボーン ネットワークにより、ViT トレーニングの計算コストは​​非常に高くなります。この現象により、ViT は少数の機関の研究者にとっての特権となります。

3.柔軟性

事前にトレーニングしてから下流で微調整するモデルは、時々問題が発生することがあります。

たとえば、同じタスクに対して 10 個の異なるモデルをトレーニングし、それらを異なるハードウェア プラットフォームに展開する必要がある場合がありますが、大規模なデータセットで 10 個のモデルを事前トレーニングすることは現実的ではありません。

上の図では、ImageNet の事前トレーニング済みモデルでは、ゼロからトレーニングする場合と比較して、より多くのパラメーターと計算コストが必要であることが明らかです。

小さなデータセットで事前トレーニングした場合の転送可能性。各セルと列の最高精度の要素には、それぞれ下線​​と太字が表示されます。

最後に、以下の表では、著者らはさまざまなデータセットでの事前トレーニング済みモデルの転送精度を評価しています。

対角線上のユニット(灰色)は、同じデータセットで事前トレーニングおよび微調整されています。対角線の外側のセルは、これらの小さなデータセットの転送パフォーマンスを評価します。

この表から、次の点がわかります。

  1. 小さなデータセットで事前トレーニングした場合でも、ViT は優れた転移性を備えています。
  2. SimCLR および SupCon と比較して、私たちの方法はこれらすべてのデータセットでより高い転送精度を実現します。
  3. 事前トレーニング データセットとターゲット データセットが同じドメインにない場合でも、驚くほど良好な結果が得られます。たとえば、Indoor67 で事前トレーニングされたモデルは、Aircraft に転送されたときに最高の精度を達成しました。

著者について

この記事の第一著者は南京大学博士課程の曹雲豪氏であり、責任著者は南京大学人工知能学院の呉建新教授である。

Wu Jianxin 氏は、南京大学でコンピューターサイエンスの学士号と修士号を取得し、ジョージア工科大学で博士号を取得しました。 2013年、南京大学理工学部に教授および博士課程の指導者として加わりました。ICCV 2015およびCVPR 2017のフィールドチェアを務め、現在はジャーナル「Pattern Recognition」の編集委員を務めています。

<<:  ロボット工学における最先端技術トップ10

>>:  コードが分かりませんか? AIが人間の言語で翻訳します

ブログ    
ブログ    
ブログ    

推薦する

機械学習により顕微鏡検査がこれまで以上に向上

機械学習は、最も優れた顕微鏡のいくつかがより鮮明に見え、より速く動作し、より多くのデータを処理するの...

...

推奨システムにおける自然言語処理 (NLP) の応用

[[195357]]パーソナライズされた推奨はビッグデータ時代に欠かせない技術であり、電子商取引、情...

2021 年に注目すべき 3 つのデータ分析と AI のトレンド

組織が新型コロナウイルス感染症のパンデミックを乗り越えていく中で、データ分析と AI の ROI を...

GPT-LLMトレーナー: タスク固有のLLMトレーニングを1文で実装

人工知能の急速な発展を背景に、特定のタスクを実行するためのモデルのトレーニングは常に困難な作業となっ...

アルトマンのYCスピーチ: ChatGPTを攻撃する者は死ぬ、私ができるからといって、あなたにもできるとは限らない

ウルトラマンのシンプルな言葉はAIスタートアップ企業を震え上がらせた。 「Shelling」Open...

...

ペット経済に乗って、ロボットアプリケーションが新しい市場を開拓

[[391010]]昨今、都市化の加速と生活水準の向上に伴い、ペットを飼うことがますます多くの人々の...

調査会社がAI主要9分野を数え、世界各国のAI法規制を分析

世界中の政府は、AI技術革命に直面しても既存の法律、規制、枠組みが引き続き有効であることを保証し、新...

金融AIの実装は難しいですか?ガートナー: AI のユースケースを 3 倍にするには 4 つのステップが必要

金融分野で AI を適切に導入するには、単に時間や資金を最も多く投資すればよいという問題ではありませ...

618プロモーション期間中のHuiceの加盟店向けサービスは新たな高みに達し、インテリジェントなアップグレードで明らかな優位性を獲得した。

ポスト疫病時代において、オンライン経済は本格化し、電子商取引業界は新たな発展段階に入りました。業界で...

[私はジャービスです]: FaceIDの背後にあるディープラーニング視覚アルゴリズムについて語る

先週発売されたiPhoneXで私が一番惹かれたのは、かわいいウサギの耳ではなく、AppleのFace...

人工知能が教育改革にどのように貢献しているかをご覧ください

人工知能によってもたらされる将来の教育の変革と発展は、新たな機会を生み出すだけでなく、より大きな課題...

IDC: 生成型 AI への支出は今後 5 年間で年間 73% 増加し、2027 年には 1,430 億ドルに達する

IDCによると、世界の企業は2023年に160億ドル(ITホーム注:現在は約1169.6億人民元)を...