ConvNet と Transformer のどちらが優れていますか? Metaが4つの主要な視覚モデルを評価、LeCunが好評価

ConvNet と Transformer のどちらが優れていますか? Metaが4つの主要な視覚モデルを評価、LeCunが好評価

特定のニーズに基づいてビジュアル モデルを選択するにはどうすればよいでしょうか?

ConvNet/ViT モデルと教師あり/CLIP モデルは、ImageNet 以外のメトリックでどのように比較されますか?

MABZUAI と Meta の研究者によって発表された最近の研究では、一般的な視覚モデルを「非標準」の指標に基づいて包括的に比較しています。

論文アドレス: https://arxiv.org/pdf/2311.09215.pdf

LeCun 氏も、同様のサイズの ConvNext と VIT アーキテクチャを、教師ありモードでトレーニングしたものか CLIP 方式を使用してトレーニングしたものかに関係なく、さまざまな特性で比較した非常に優れた研究だと賞賛しました。

ImageNetの精度を超える

コンピューター ビジョン モデルの状況はますます多様化、複雑化しています。

初期の ConvNet から Vision Transformers まで、利用可能なモデルの種類は常に拡大しています。

同様に、トレーニング パラダイムは、ImageNet での教師ありトレーニングから、自己教師あり学習および CLIP のような画像とテキストのペアでのトレーニングへと進化しました。

進歩を示す一方で、選択肢の爆発的な増加は、実務者に重大な課題を提示しています。ニーズに合った適切なターゲット モデルをどのように選択するかということです。

ImageNet の精度は常に、モデルのパフォーマンスを評価するための主な指標でした。ディープラーニング革命の火付け役となって以来、人工知能の分野で目覚ましい進歩を遂げてきました。

ただし、異なるアーキテクチャ、トレーニング パラダイム、およびデータから生じる微妙に異なるモデルを測定することはできません。

ImageNet の精度のみで判断すると、異なるプロパティを持つモデルが類似しているように見える場合があります (図 1)。この制限は、モデルが ImageNet の特性に過剰適合し始め、精度が飽和するにつれて、より顕著になります。

このギャップを埋めるために、研究者らはImageNetの精度を超えたモデルの動作の詳細な調査を実施しました。

アーキテクチャとトレーニング目標がモデルのパフォーマンスに与える影響を調査するために、Vision Transformer (ViT) と ConvNeXt を具体的に比較します。これら 2 つの最新アーキテクチャの ImageNet-1K 検証精度と計算要件は同等です。

さらに、この研究では、DeiT3-Base/16 と ConvNeXt-Base に代表される教師ありモデルと、CLIP モデルに基づく OpenCLIP のビジュアル エンコーダーを比較しました。

結果分析

研究者の分析は、さらなるトレーニングや微調整なしに評価できるモデルの動作を研究することを目的としている。

このアプローチは、事前にトレーニングされたモデルに依存することが多いため、計算リソースが限られている実務者にとって特に重要です。

具体的な分析では、著者らは物体検出などの下流タスクの価値を認識しながらも、最小限の計算要件で洞察を提供し、現実世界のアプリケーションにとって重要な動作を反映できる機能に焦点が当てられています。

モデルエラー

ImageNet-X は ImageNet-1K の拡張機能であり、16 の変動要因に対する詳細な人間による注釈が含まれており、画像分類におけるモデル エラーの詳細な分析を可能にします。

エラー率 (低いほど良い) を使用して、モデルが特定の要素に対して全体的な精度と比較してどの程度のパフォーマンスを発揮するかを定量化し、モデル エラーの微妙な分析を提供します。 ImageNet-X の結果は次のことを示しています。

1. ImageNet の精度と比較すると、CLIP モデルは教師ありモデルよりも間違いが少なくなります。

2. すべてのモデルは、主に閉塞などの複雑な要因の影響を受けます。

3. テクスチャはすべてのモデルの中で最も難しい要素です。

形状/質感の偏差

シェイプ/テクスチャ バイアスは、モデルが高レベルのシェイプ ヒントではなくテクスチャ ショートカットに依存しているかどうかを調べます。

このバイアスは、さまざまな形状や質感のカテゴリの手がかりが矛盾する画像を組み合わせることで研究できます。

このアプローチは、モデルの決定がテクスチャと比較して形状にどの程度基づいているかを理解するのに役立ちます。

研究者らは、Cue Conflict データセットの形状テクスチャ バイアスを評価し、CLIP モデルは教師ありモデルよりもテクスチャ バイアスが小さいのに対し、ViT モデルは ConvNet よりも形状バイアスが大きいことを発見しました。

モデルのキャリブレーション

キャリブレーションは、モデルの予測の信頼性が実際の精度と一致しているかどうかを定量化します。

これは、期待されるキャリブレーション誤差 (ECE) などのメトリックや、信頼性プロットや信頼度ヒストグラムなどの視覚化ツールを通じて評価できます。

研究者らは、ImageNet-1K と ImageNet-R のキャリブレーションを評価し、予測を 15 クラスに分類しました。実験では、以下の点が観察されました。

- CLIP モデルは信頼性が高いが、教師ありモデルはやや不十分である。

- 教師あり ConvNeXt は教師あり ViT よりも適切に調整されています。

堅牢性と携帯性

モデルの堅牢性と移植性は、データ分布の変化や新しいタスクに適応するための鍵となります。

研究者らは、さまざまな ImageNet バリアントを使用して堅牢性を評価した結果、ViT モデルと ConvNeXt モデルの平均パフォーマンスは同等であったものの、ImageNet-R と ImageNet-Sketch を除き、堅牢性の点では一般に教師ありモデルが CLIP を上回っていることを発見しました。

転移可能性の点では、教師あり ConvNeXt は ViT よりも優れており、VTAB ベンチマークを使用して 19 のデータセットで評価した場合、CLIP モデルのパフォーマンスとほぼ同等です。

合成データ

カメラの角度やテクスチャなどの要素を正確に制御できる PUG-ImageNet などの合成データセットは有望な研究手段となるため、研究者は合成データでのモデルのパフォーマンスを分析しました。

PUG-ImageNet には、照明などの要素が体系的に変化するリアルな ImageNet 画像が含まれており、パフォーマンスは絶対最大精度として測定されます。

研究者らは、PUG-ImageNet のさまざまな要素に関する結果を提供し、ConvNeXt がほぼすべての要素で ViT を上回っていることを発見しました。

これは、合成データでは ConvNeXt が ViT よりも優れていることを示していますが、CLIP モデルではその差が小さくなっています。CLIP モデルの精度は教師ありモデルよりも低く、これは元の ImageNet の精度が低いことに関係している可能性があります。

特徴の不変性

特徴不変性とは、スケーリングやシフトなどの入力変換の影響を受けず、セマンティクスを保持しながら一貫した表現を生成するモデルの能力を指します。

この特性により、モデルは異なるが意味的に類似した入力全体にわたって適切に一般化できるようになります。

研究者のアプローチには、スケール不変性のために画像のサイズを変更し、位置不変性のために切り抜きをシフトし、補間された位置埋め込みを使用して ViT モデルの解像度を調整することが含まれます。

教師ありトレーニングでは、ConvNeXt は ViT よりも優れたパフォーマンスを発揮します。

一般に、モデルは動きよりもスケール/解像度の変化に対して堅牢です。スケール、変位、解像度に対して高い堅牢性を必要とするアプリケーションの場合、結果は、教師あり ConvNeXt が最適な選択肢である可能性があることを示唆しています。

研究者たちは、それぞれのモデルに独自の利点があることを発見した。

これは、標準的なパフォーマンス メトリックでは重要なタスク固有のニュアンスが見落とされる可能性があるため、モデルの選択は対象のユース ケースに応じて行う必要があることを示唆しています。

さらに、既存のベンチマークの多くは ImageNet から派生したもので、評価に偏りが生じます。より現実的に代表的なコンテキストでモデルを評価するには、異なるデータ分布を持つ新しいベンチマークを開発することが重要です。

ConvNet と Transformer

- 多くのベンチマークにおいて、教師あり ConvNeXt は教師あり VIT よりも優れたパフォーマンスを発揮します。より適切に調整され、データ変換に対して不変であり、より優れた転送性と堅牢性を示します。

- 合成データでは、ConvNeXt は ViT よりも優れています。

- ViT は形状バイアスが大きくなります。

監督付き vs CLIP

- 転送可能性の点では CLIP モデルの方が優れていますが、このタスクでは教師あり ConvNeXt が競争力を発揮します。これは教師ありモデルの可能性を示しています。

- 教師ありモデルは、ImageNet のバリアントであるため、堅牢性ベンチマークで優れた結果を示します。

- CLIP モデルは、ImageNet の精度と比較して、形状バイアスが高く、分類エラーが少なくなります。

<<:  Ma Yi、LeCun、Xie Saining がマルチモーダル LLM の重大な欠陥を明らかにしました。画期的な研究により視覚的理解が大幅に向上

>>:  データセンターで自動化できない 5 つのこと

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

AIと機械学習が交通をどのように変えているのか

人工知能 (AI) と機械学習が現代生活を改善すると期待される多くの方法の中でも、公共交通機関に影響...

データ分析技術:エッジ人工知能の応用

私たちが SF の世界に引き込まれると、人工知能と機械学習 (AI/ML) の概念は、映画「マトリッ...

AIツールは企業にデータ侵害のリスクをもたらす

2021年以降、企業内部者によるデータ侵害、損失、盗難は月平均28%増加しており、回答者の85%は今...

卒業生向け: 機械学習とデータサイエンスのどちらを選ぶべきでしょうか?

[[337428]]データサイエンス業界は 2013 年以降、人気が爆発的に高まり、より幅広い方向...

人工知能とメタバースの関係を探る

AI とメタバースのつながりは、新たなデジタルのフロンティアを開拓しています… Metaverse ...

...

可観測性はAIの成功の重要な要素の一つである

ますます多くの企業が自社のインフラストラクチャやビジネス プロセスに人工知能を統合するにつれて、シス...

Llama2がオープンソース化された後、国内の大型モデルはどのような展開を見せるのでしょうか?

7 月 19 日、オープン ソース コミュニティの最も強力な大規模モデルが Llama から Ll...

Mathematica が Big Language Model を導入しました。ネットユーザー:買う、買う、買う

Mathematica Wolfram の最新バージョンでは、大規模言語モデル (LLM) が正式に...

クラウドベースの生成 AI システムを実行するためのベスト プラクティス

翻訳者 |ブガッティレビュー | Chonglou何だと思う?クラウド コンピューティング カンファ...

人工知能は教育にどのような変化をもたらすのでしょうか?

[[441080]]経済観察記者 鄭躍新12月16日、中国教育部元副部長で中国教育国際交流協会会長...

なぜ人工知能にはブロックチェーンが必要なのでしょうか?

この記事では、人工知能にブロックチェーンが必要な理由、人工知能がブロックチェーンに与える影響、ブロッ...

ファーウェイ、AI人材育成と科学研究の革新を促進する2つのAscendプロジェクトを開始

ファーウェイは6月25日、成都で開催された2022 Ascend AI開発者イノベーションデーで、人...

「コピー+貼り付け」に別れを告げ、ディープラーニングOCRに基づくPDFからテキストへの変換を実現

[[403226]]従来の講義には通常、PDF スライドのセットが付属します。一般的に、このような講...