ポストSORA時代において、CV実践者はどのようにモデルを選択するのでしょうか?畳み込みまたはViT、教師あり学習またはCLIPパラダイム

ポストSORA時代において、CV実践者はどのようにモデルを選択するのでしょうか?畳み込みまたはViT、教師あり学習またはCLIPパラダイム

ImageNet の精度は常にモデルのパフォーマンスを評価するための主要な指標であり、ディープラーニング革命のきっかけでもありました。しかし、今日のコンピューター ビジョンの分野では、この指標はますます「十分」ではなくなってきています。

初期の ConvNet から Vision Transformers まで、コンピューター ビジョン モデルがますます複雑になるにつれて、利用可能なモデルの種類が劇的に増加しました。同様に、トレーニング パラダイムは、ImageNet の教師ありトレーニングから自己教師あり学習や CLIP のような画像とテキストのペアのトレーニングへと進化しました。

ImageNet は、異なるアーキテクチャ、トレーニング パラダイム、およびデータから生じる微妙な違いをキャプチャしません。異なるプロパティを持つモデルは、ImageNet の精度のみで判断すると、同じように見える場合があります。この制限は、モデルが ImageNet の特異性に過剰適合し始め、精度が飽和状態に達したときに、より顕著になります。

CLIP は注目すべき例です。CLIP の ImageNet 精度は ResNet と似ていますが、そのビジュアル エンコーダーははるかに堅牢で転送可能です。これにより、当時 ImageNet メトリックだけを見ても明らかではなかった CLIP 独自の利点の調査と研究が促進されました。これは、他の特性を分析することで有用なモデルを発見できる可能性があることを示唆しています。

さらに、従来のベンチマークでは、さまざまなカメラのポーズ、照明条件、遮蔽など、現実世界の視覚の課題を処理するモデルの能力が完全に反映されていません。たとえば、ImageNet などのデータセットでトレーニングされたモデルは、条件やシナリオがはるかに多様な実際のアプリケーションにパフォーマンスを反映させることが難しいことがよくあります。

これらの問題は、この分野の専門家に新たな混乱をもたらしました。視覚モデルをどのように測定すればよいのでしょうか?ニーズに合ったビジュアル モデルをどのように選択しますか?

最近の論文では、MBZUAIとMetaの研究者がこの件について詳細に議論しました。


  • 論文タイトル: ConvNet vs Transformer、Supervised vs CLIP: ImageNet の精度を超えて
  • 論文リンク: https://arxiv.org/pdf/2311.09215.pdf

この論文では、ImageNet の精度を超えたモデルの動作に焦点を当て、コンピューター ビジョンの分野における 4 つの主要モデル (それぞれ、教師ありトレーニング パラダイムと CLIP トレーニング パラダイムでの ConvNeXt (ConvNet の代表) と Vision Transformer (ViT)) を分析します。

選択されたモデルは同様の数のパラメータを持ち、各トレーニングパラダイムで ImageNet-1K に対してほぼ同一の精度を達成し、公平な比較を保証します。研究者らは、予測誤差の種類、一般化能力、学習した表現の不変性、キャリブレーションなど、一連のモデル特性を詳細に調査し、追加のトレーニングや微調整を行わずにモデルが示す特性に焦点を当て、事前トレーニング済みモデルを直接使用したい実務者に参考資料を提供しました。

研究者らは分析の結果、モデルの動作はアーキテクチャやトレーニングパラダイムによって大きく異なることを発見した。たとえば、CLIP パラダイムでトレーニングされたモデルは、ImageNet でトレーニングされたモデルよりも分類エラーが少なくなります。ただし、教師ありモデルはより適切に調整されており、一般的に ImageNet 堅牢性ベンチマークで優れたパフォーマンスを発揮します。 ConvNeXt は合成データに有利ですが、ViT よりもテクスチャ指向です。一方、教師あり ConvNeXt は多くのベンチマークで優れたパフォーマンスを発揮し、その転送パフォーマンスは CLIP モデルに匹敵します。

さまざまなモデルが独自の方法でその利点を発揮しており、それを単一の指標で捉えることはできないことがわかります。研究者らは、特定の状況に合わせてモデルを正確に選択し、ImageNet とは関係のない新しいベンチマークを作成するには、より詳細な評価指標が必要であると強調しています。

これらの観察に基づいて、Meta AI の主任科学者 Yann LeCun 氏はこの研究をリツイートし、賛成の意を示しました。

モデルの選択

研究者らは、教師ありモデルとして、ViT-Base/16 と同じアーキテクチャを持ちながらトレーニング方法が改善された、ViT の事前トレーニング済み DeiT3-Base/16 を使用しました。また、ConvNeXt-Base も使用されました。 CLIP モデルの場合、研究者は OpenCLIP の ViT-Base/16 と ConvNeXt-Base のビジュアル エンコーダーを使用しました。

これらのモデルのパフォーマンスは、元の OpenAI モデルとは若干異なることに注意してください。すべてのモデル チェックポイントは、GitHub プロジェクトのホームページにあります。詳細なモデル比較は表 1 に示されています。

研究者らはモデル選択のプロセスを詳細に説明した。

1. 事前トレーニング済みのモデルを使用しているため、トレーニング中に表示されるデータ サンプルの量と品質を制御することはできません。

2. ConvNet と Transformer を分析するために、多くのこれまでの研究で ResNet と ViT が比較されてきました。 ViT は通常、より高度な定式化でトレーニングされ、より高い ImageNet 精度を達成するため、この比較は通常 ConvNet にとって不利です。 ViT には、LayerNorm など、ResNet が何年も前に発明されたときには含まれていなかったアーキテクチャ設計要素もいくつかあります。そのため、よりバランスのとれた評価を行うために、研究者らは ViT を、Transformer と同等のパフォーマンスを持ち、設計の多くを共有する ConvNets の最新の代表である ConvNeXt と比較しました。

3. トレーニングモードに関しては、研究者らは教師ありモードと CLIP モードを比較しました。教師ありモデルは、コンピューター ビジョンの分野で一貫して最先端のパフォーマンスを維持しています。一方、CLIP モデルは一般化と転送可能性の点で優れたパフォーマンスを発揮し、視覚表現と言語表現を結び付ける機能を提供します。

4. 自己教師ありモデルは予備テストで教師ありモデルと同様の動作を示したため、結果には含まれませんでした。これは、最終的に ImageNet-1K で教師あり方式で微調整され、多くの機能の研究に影響を与えるためと考えられます。

次に、研究者がさまざまな属性をどのように分析したかを見てみましょう。

分析する

モデルエラー

ImageNet-X は ImageNet-1K の拡張機能であり、16 の変動要因に関する詳細な人間による注釈が含まれており、画像分類におけるモデル エラーの詳細な分析を可能にします。これは、エラー比率メトリック (低いほど良い) を使用して、モデルが特定の要素に対して全体的な精度と比較してどの程度のパフォーマンスを発揮するかを定量化し、モデル エラーの微妙な分析を提供します。 ImageNet-X の結果は次のことを示しています。

1. CLIP モデルは、教師ありモデルに比べて ImageNet の精度においてミスが少なくなります。

2. すべてのモデルは、主に閉塞などの複雑な要因の影響を受けます。

3. テクスチャはすべてのモデルの中で最も難しい要素です。

形状/テクスチャの偏差

形状テクスチャ バイアスは、モデルが高レベルの形状キューではなく脆弱なテクスチャ ショートカットに依存しているかどうかを検出します。このバイアスは、さまざまな形状や質感のカテゴリからの手がかりの矛盾する画像を組み合わせることによって研究できます。このアプローチは、モデルの決定がテクスチャと比較して形状にどの程度基づいているかを理解するのに役立ちます。研究者らは、Cue Conflict データセットの形状テクスチャバイアスを評価し、CLIP モデルのテクスチャバイアスは教師ありモデルよりも小さいが、ViT モデルの形状バイアスは ConvNets よりも高いことを発見しました。

モデルのキャリブレーション

キャリブレーションは、モデルの予測の信頼性が実際の精度と一致しているかどうかを定量化します。これは、期待キャリブレーション エラー (ECE) などのメトリックや、信頼性プロットや信頼性ヒストグラムなどの視覚化ツールを通じて評価できます。研究者らは、ImageNet-1K と ImageNet-R のキャリブレーションを評価し、予測を 15 クラスに分類しました。研究者たちは実験で次のことを観察しました。

1. CLIP モデルは自信過剰ですが、教師ありモデルは若干自信不足です。

2. 教師ありConvNeXtは教師ありViTキャリブレーションよりもパフォーマンスが優れています。

堅牢性と携帯性

モデルの堅牢性と移植性は、データ分布の変化や新しいタスクに適応するために不可欠です。研究者らは、さまざまな ImageNet バリアントを使用して堅牢性を評価した結果、ViT モデルと ConvNeXt モデルの平均パフォーマンスは同等であったものの、ImageNet-R と ImageNet-Sketch を除き、堅牢性の点では一般に教師ありモデルが CLIP を上回っていることを発見しました。転移可能性の点では、19 のデータセットを使用した VTAB ベンチマークで評価したところ、教師あり ConvNeXt は ViT よりも優れており、CLIP モデルのパフォーマンスとほぼ同等でした。

合成データ

PUG-ImageNet などの合成データセットは、カメラの角度やテクスチャなどの要素を正確に制御できるため、有望な研究方法であるため、研究者は合成データでのモデルのパフォーマンスを分析しました。 PUG-ImageNet には、ポーズや照明などの要素が体系的に変化したリアルな ImageNet 画像が含まれており、パフォーマンスは絶対的なトップ 1 精度で測定されます。研究者らは、PUG-ImageNet のさまざまな要素について結果を提供し、ConvNeXt がほぼすべての要素で ViT を上回っていることを発見しました。これは、合成データでは ConvNeXt が ViT よりも優れていることを示していますが、CLIP モデルの精度は教師ありモデルの精度よりも低いため、CLIP モデルの差は小さくなっています。これは、元の ImageNet の精度が低いことに関係している可能性があります。

変換不変性

変換不変性とは、スケーリングや変換などの入力変換に関係なく、セマンティクスを保持する一貫した表現を生成するモデルの能力を指します。この特性により、モデルは異なるが意味的に類似した入力全体にわたって適切に一般化できるようになります。研究者が使用した方法には、スケール不変性を実現するために画像のサイズを変更すること、位置不変性を実現するために切り抜きを移動すること、補間された位置埋め込みを使用して ViT モデルの解像度を調整することなどが含まれます。

彼らは、切り抜きスケール/位置と画像解像度を変化させることで、ImageNet-1K のスケール、動き、解像度の不変性を評価します。教師ありトレーニングでは、ConvNeXt は ViT よりも優れたパフォーマンスを発揮します。一般に、モデルは動きよりもスケール/解像度の変化に対して堅牢です。スケール、変位、解像度に対して高い堅牢性を必要とするアプリケーションの場合、結果は、教師あり ConvNeXt が最適な選択肢である可能性があることを示唆しています。

要約する

一般的に、各モデルには独自の利点があります。これは、標準的なパフォーマンス メトリックでは特定のタスクの重要なニュアンスが見落とされる可能性があるため、モデルの選択は対象のユース ケースに応じて行う必要があることを示唆しています。さらに、既存のベンチマークの多くは ImageNet から派生したもので、これも評価に偏りをもたらす可能性があります。現実世界をよりよく表す設定でモデルを評価するには、異なるデータ分布を持つ新しいベンチマークを開発することが重要です。

この記事の結論の要約は次のとおりです。

ConvNet と Transformer

1. 教師あり ConvNeXt は、多くのベンチマークで教師あり ViT よりも優れています。より適切に調整され、データ変換に対してより不変であり、より優れた転送性と堅牢性を示します。

2. 合成データでは、ConvNeXt は ViT よりも優れたパフォーマンスを発揮します。

3. ViT は形状偏差が大きくなります。

監督とCLIP

1. CLIP モデルは転送性に優れていますが、このタスクでは教師あり ConvNeXt が競争力を発揮します。これは教師ありモデルの可能性を示しています。

2. 教師ありモデルは堅牢性ベンチマークで優れたパフォーマンスを発揮しますが、これはこれらのモデルがすべて ImageNet のバリアントであるためと考えられます。

3. CLIP モデルは、ImageNet の精度と比較して、形状バイアスが大きく、分類エラーが少なくなります。

<<:  Googleがまた新しいことを始める: 視覚言語モデルに空間推論をさせる

>>:  GPT-4を使用すると、成績の悪い生徒は成績の良い生徒よりも有利になる

ブログ    

推薦する

React と DOM - ノード削除アルゴリズム

[[378076]]これは、React DOM 操作を詳細に説明した最初の記事です。記事の内容はコミ...

AIオープンクラス | データのラベル付けについてはあまりご存じないのではないでしょうか?

人工知能の分野が日々急速な発展と進歩を遂げていることは疑いの余地がありません。携帯電話の電源を入れ、...

適切な AI データ ストレージを選択するための 6 つのガイドライン

間違った AI ストレージ プラットフォームを選択すると、ビジネスに深刻な結果をもたらす可能性があり...

...

災害後、ウェイモブは独自のデータベースの構築を断念し、商人に1億5000万元を支払った。

[[316623]] 【51CTOオリジナル記事】先週、WeMallは大規模なシステム障害に見舞わ...

IT リーダーにとって必須のコース: 人工知能のビジネスへの影響と価値をどのように測定するか?

実績のある AI プロジェクトが大規模に導入されるケースが増えており、一部の企業では大きなメリットが...

人生の意味とは何でしょうか?ステーションBのUP司会者がAIに「究極の質問」を投げかけた

人生の意味とは何でしょうか?人はなぜ生きるのか?これらの「宇宙の究極の疑問」は、歴史を通じて数え切れ...

顔認識の今後の発展は、どうすればより「面子を保つ」ことができるでしょうか?

顔認識技術の利用が増えるにつれ、さまざまなリスクが徐々に明らかになってきています。 CCTVの「3....

知っておくべき10の機械学習アルゴリズム

機械学習は、確率論、統計、近似理論、凸解析、アルゴリズム複雑性理論など、多くの分野が関わる多分野にわ...

...

自動運転の安全性の問題をどう解決するのか?まずは名前を変えてみましょう。

現在、新世代情報技術の急速な発展に伴い、自動運転をはじめとした新興産業がますます台頭しています。世界...

...

AlphaFold2 は大きな貢献をしました!清華大学チームがディープラーニングでCOVID-19抗体を強化し、AIの画期的な成果を生み出す

2020年末、DeepMindが開発した第2世代ディープラーニングニューラルネットワークであるAlp...

キングス・カレッジ・ロンドンとグラクソ・スミスクラインが人工知能技術に基づくがん研究で協力

海外メディアの報道によると、9月30日、キングス・カレッジ・ロンドンと世界的な製薬会社グラクソ・スミ...

ディープマインドは数人の大物を採用し、ニューヨークにAI研究チームを設立する予定だ

2014年、Googleはイギリスの人工知能研究所DeepMindを買収した。現在、DeepMind...