ConvNet と Transformer のどちらが優れていますか? Metaが4つの主要な視覚モデルを評価、LeCunが好評価

特定のニーズに基づいてビジュアルモデルを選択するにはどうすればよいでしょうか?

ConvNet/ViT モデルと教師あり/CLIP モデルは、ImageNet 以外のメトリックでどのように比較されますか?

MABZUAI と Meta の研究者によって発表された最近の研究では、一般的な視覚モデルを「非標準」の指標に基づいて包括的に比較しています。

論文アドレス: https://arxiv.org/pdf/2311.09215.pdf

LeCun 氏も、同様のサイズの ConvNext と VIT アーキテクチャを、教師ありモードでトレーニングしたものか CLIP 方式を使用してトレーニングしたものかに関係なく、さまざまな特性で比較した非常に優れた研究だと賞賛しました。

ImageNetの精度を超える

コンピュータービジョンモデルの状況はますます多様化、複雑化しています。

初期の ConvNet から Vision Transformers まで、利用可能なモデルの種類は常に拡大しています。

同様に、トレーニングパラダイムは、ImageNet での教師ありトレーニングから、自己教師あり学習および CLIP のような画像とテキストのペアでのトレーニングへと進化しました。

進歩を示す一方で、選択肢の爆発的な増加は、実務者に重大な課題を提示しています。ニーズに合った適切なターゲットモデルをどのように選択するかということです。

ImageNet の精度は常に、モデルのパフォーマンスを評価するための主な指標でした。ディープラーニング革命の火付け役となって以来、人工知能の分野で目覚ましい進歩を遂げてきました。

ただし、異なるアーキテクチャ、トレーニングパラダイム、およびデータから生じる微妙に異なるモデルを測定することはできません。

ImageNet の精度のみで判断すると、異なるプロパティを持つモデルが類似しているように見える場合があります (図 1)。この制限は、モデルが ImageNet の特性に過剰適合し始め、精度が飽和するにつれて、より顕著になります。

このギャップを埋めるために、研究者らはImageNetの精度を超えたモデルの動作の詳細な調査を実施しました。

アーキテクチャとトレーニング目標がモデルのパフォーマンスに与える影響を調査するために、Vision Transformer (ViT) と ConvNeXt を具体的に比較します。これら 2 つの最新アーキテクチャの ImageNet-1K 検証精度と計算要件は同等です。

さらに、この研究では、DeiT3-Base/16 と ConvNeXt-Base に代表される教師ありモデルと、CLIP モデルに基づく OpenCLIP のビジュアルエンコーダーを比較しました。

結果分析

研究者の分析は、さらなるトレーニングや微調整なしに評価できるモデルの動作を研究することを目的としている。

このアプローチは、事前にトレーニングされたモデルに依存することが多いため、計算リソースが限られている実務者にとって特に重要です。

具体的な分析では、著者らは物体検出などの下流タスクの価値を認識しながらも、最小限の計算要件で洞察を提供し、現実世界のアプリケーションにとって重要な動作を反映できる機能に焦点が当てられています。

モデルエラー

ImageNet-X は ImageNet-1K の拡張機能であり、16 の変動要因に対する詳細な人間による注釈が含まれており、画像分類におけるモデルエラーの詳細な分析を可能にします。

エラー率 (低いほど良い) を使用して、モデルが特定の要素に対して全体的な精度と比較してどの程度のパフォーマンスを発揮するかを定量化し、モデルエラーの微妙な分析を提供します。 ImageNet-X の結果は次のことを示しています。

1. ImageNet の精度と比較すると、CLIP モデルは教師ありモデルよりも間違いが少なくなります。

2. すべてのモデルは、主に閉塞などの複雑な要因の影響を受けます。

3. テクスチャはすべてのモデルの中で最も難しい要素です。

形状/質感の偏差

シェイプ/テクスチャバイアスは、モデルが高レベルのシェイプヒントではなくテクスチャショートカットに依存しているかどうかを調べます。

このバイアスは、さまざまな形状や質感のカテゴリの手がかりが矛盾する画像を組み合わせることで研究できます。

このアプローチは、モデルの決定がテクスチャと比較して形状にどの程度基づいているかを理解するのに役立ちます。

研究者らは、Cue Conflict データセットの形状テクスチャバイアスを評価し、CLIP モデルは教師ありモデルよりもテクスチャバイアスが小さいのに対し、ViT モデルは ConvNet よりも形状バイアスが大きいことを発見しました。

モデルのキャリブレーション

キャリブレーションは、モデルの予測の信頼性が実際の精度と一致しているかどうかを定量化します。

これは、期待されるキャリブレーション誤差 (ECE) などのメトリックや、信頼性プロットや信頼度ヒストグラムなどの視覚化ツールを通じて評価できます。

研究者らは、ImageNet-1K と ImageNet-R のキャリブレーションを評価し、予測を 15 クラスに分類しました。実験では、以下の点が観察されました。

- CLIP モデルは信頼性が高いが、教師ありモデルはやや不十分である。

- 教師あり ConvNeXt は教師あり ViT よりも適切に調整されています。

堅牢性と携帯性

モデルの堅牢性と移植性は、データ分布の変化や新しいタスクに適応するための鍵となります。

研究者らは、さまざまな ImageNet バリアントを使用して堅牢性を評価した結果、ViT モデルと ConvNeXt モデルの平均パフォーマンスは同等であったものの、ImageNet-R と ImageNet-Sketch を除き、堅牢性の点では一般に教師ありモデルが CLIP を上回っていることを発見しました。

転移可能性の点では、教師あり ConvNeXt は ViT よりも優れており、VTAB ベンチマークを使用して 19 のデータセットで評価した場合、CLIP モデルのパフォーマンスとほぼ同等です。

合成データ

カメラの角度やテクスチャなどの要素を正確に制御できる PUG-ImageNet などの合成データセットは有望な研究手段となるため、研究者は合成データでのモデルのパフォーマンスを分析しました。

PUG-ImageNet には、照明などの要素が体系的に変化するリアルな ImageNet 画像が含まれており、パフォーマンスは絶対最大精度として測定されます。

研究者らは、PUG-ImageNet のさまざまな要素に関する結果を提供し、ConvNeXt がほぼすべての要素で ViT を上回っていることを発見しました。

これは、合成データでは ConvNeXt が ViT よりも優れていることを示していますが、CLIP モデルではその差が小さくなっています。CLIP モデルの精度は教師ありモデルよりも低く、これは元の ImageNet の精度が低いことに関係している可能性があります。

特徴の不変性

特徴不変性とは、スケーリングやシフトなどの入力変換の影響を受けず、セマンティクスを保持しながら一貫した表現を生成するモデルの能力を指します。

この特性により、モデルは異なるが意味的に類似した入力全体にわたって適切に一般化できるようになります。

研究者のアプローチには、スケール不変性のために画像のサイズを変更し、位置不変性のために切り抜きをシフトし、補間された位置埋め込みを使用して ViT モデルの解像度を調整することが含まれます。

教師ありトレーニングでは、ConvNeXt は ViT よりも優れたパフォーマンスを発揮します。

一般に、モデルは動きよりもスケール/解像度の変化に対して堅牢です。スケール、変位、解像度に対して高い堅牢性を必要とするアプリケーションの場合、結果は、教師あり ConvNeXt が最適な選択肢である可能性があることを示唆しています。

研究者たちは、それぞれのモデルに独自の利点があることを発見した。

これは、標準的なパフォーマンスメトリックでは重要なタスク固有のニュアンスが見落とされる可能性があるため、モデルの選択は対象のユースケースに応じて行う必要があることを示唆しています。

さらに、既存のベンチマークの多くは ImageNet から派生したもので、評価に偏りが生じます。より現実的に代表的なコンテキストでモデルを評価するには、異なるデータ分布を持つ新しいベンチマークを開発することが重要です。

ConvNet と Transformer

- 多くのベンチマークにおいて、教師あり ConvNeXt は教師あり VIT よりも優れたパフォーマンスを発揮します。より適切に調整され、データ変換に対して不変であり、より優れた転送性と堅牢性を示します。

- 合成データでは、ConvNeXt は ViT よりも優れています。

- ViT は形状バイアスが大きくなります。

監督付き vs CLIP

- 転送可能性の点では CLIP モデルの方が優れていますが、このタスクでは教師あり ConvNeXt が競争力を発揮します。これは教師ありモデルの可能性を示しています。

- 教師ありモデルは、ImageNet のバリアントであるため、堅牢性ベンチマークで優れた結果を示します。

- CLIP モデルは、ImageNet の精度と比較して、形状バイアスが高く、分類エラーが少なくなります。

<<: Ma Yi、LeCun、Xie Saining がマルチモーダル LLM の重大な欠陥を明らかにしました。画期的な研究により視覚的理解が大幅に向上

>>: データセンターで自動化できない 5 つのこと

2年半の訓練を経て、テスラのヒューマノイドロボット「オプティマス2」がオンラインになった。

ConvNet と Transformer のどちらが優れていますか? Metaが4つの主要な視覚モデルを評価、LeCunが好評価

ImageNetの精度を超える

結果分析

2年半の訓練を経て、テスラのヒューマノイドロボット「オプティマス2」がオンラインになった。

2つの主要な負荷分散アルゴリズムの原理に関する研究

陳作寧院士：人工知能モデルとアルゴリズムの7つの発展傾向

ディープラーニングのためのテキスト前処理方法

よく使われる6つのクラスタリング評価指標

コロナウイルスのパンデミックはデジタル音声技術に新たな刺激を与えた

データサイエンスがソーシャルメディアマーケティング戦略をどう変えるか

あらゆるシーンのあらゆるもの: リアルなオブジェクトの挿入 (さまざまな運転データの合成に役立ちます)

推薦する

世界最高の AI 教育会社はどこでしょうか?米国、中国、欧州、イスラエルが先頭を走る

DAMO アカデミーの 2020 年の予測: AI は知覚知能から認知知能へと進化する

顔認証決済の登場：「決済戦争」の次なる激戦点となるか？

エンタープライズ向け人工知能プラットフォームの選択ガイド

2022年のエッジAIの主要市場

犯罪を予測する人工知能（AI）の倫理的・法的危機

アンドリュー・ン氏の新演説：AIは業界の状況を変えており、企業の障壁はアルゴリズムではなくデータである

51CTO副社長ヤン・ウェンフェイ氏：ChatGPTは非常に人気があり、将来的にはさらに強力なアプリケーションが登場するでしょう。

CPU と比較して、GPU がディープラーニングに適しているのはなぜですか?