大きな模型が家から盗まれました! CNN はマルチモーダル性において Transformer と同等に優れている (Tencent と香港中国語)

大きな模型が家から盗まれました! CNN はマルチモーダル性において Transformer と同等に優れている (Tencent と香港中国語)

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

Tencent AI LabとCUHKの共同チームは、画像認識の精度と速度においてTransformerアーキテクチャモデルを上回る新しいCNNアーキテクチャを提案しました。

ポイント クラウド、オーディオ、ビデオなどの他のモダリティに切り替えるときに、モデル構造を変更する必要はありません。単純な前処理で SOTA に近づくか、それを超えることさえ可能です。

チームは、大規模コア CNN アーキテクチャとUniRepLKNetと呼ばれる強力なバックボーンの設計に特化した4 つのガイドラインを提案しました。

ImageNet-22Kで事前学習しておけば、精度も速度もSOTAになる——

ImageNet は 88%、COCO は 56.4 ボックス AP、ADE20K は 55.6 mIoU に達し、実際の速度テストでは大きな優位性を示しました。

UniRepLKNetを膨大な時系列データに使用すれば、最高レベルを達成できる――

例えば、地球の気温と風速の予測では、Nature のサブジャーナルに掲載された Transformer に基づく以前の SOTA を上回りました。

詳しくは著者の投稿をご覧ください。

「トランスフォーマー時代」において、なぜCNN が必要なのでしょうか?

UniRepLKNet の原理を正式に紹介する前に、著者はまず 2 つの質問に答えました。

最初の疑問は、 Transformer がすべてのモダリティを統合する時代に、なぜ CNN を研究する必要があるのか​​ということです。

著者は、Transformer と CNN は相互に統合された 2 つの構造設計アイデアにすぎず、前者に本質的な優位性があると信じる理由はないと考えています。

「トランスフォーマーはすべてのモードを統合する」というのは、まさに研究チームが修正しようとしている認識です。

2022年初頭にConvNeXt、RepLKNetなどが発表される前と同様に、「画像タスクではTransformerがCNNに勝る」というのが主流の認識でした。

これらの結果が明らかになった後、この認識は「CNN と Transformer は画像タスクでは類似している」と修正されました。

この研究チームの結果はそれをさらに修正し、ポイントクラウド、オーディオ、ビデオにおいて、CNN は私たちが考えていたよりもはるかに強力であることがわかりました。

CNN の伝統的な強みではない時系列予測の分野 (かつては LSTM などの技術が主流でしたが、過去 2 年間で Transformer の人気が高まっています) では、CNN は Transformer を凌駕し、それを「奪う」ことに成功しています。

そのため、研究チームは、大統一化という点ではCNNがTransformerに劣らない可能性があると考えています。

2 番目の質問は、画像タスク用に設計された CNN をオーディオ、ビデオ、ポイント クラウド、時系列データにどのように使用するかということです。

シンプルさと汎用性を追求するため、UniRepLKNet を他のモダリティに使用する場合、メインのモデル アーキテクチャには変更は加えられません (以下のすべての実験では UniRepLKNet-Small を使用します)。

他のモダリティへの移行を実現するには、ビデオ、オーディオ、ポイント クラウド、時系列データを C×H×W 埋め込みマップ (画像の場合は C=3) に処理するだけで済みます。次に例を示します。

  • オーディオスペクトル(時間×周波数)は単一チャネルイメージ、つまり C=1、H=T、W=F と見なされます。
  • ポイント クラウドを 3 つのビューに投影して 3 つのシングル チャネル イメージを取得します。C = 3、H および W は任意に指定できます。
  • ビデオ内のフレームをつなぎ合わせて大きな画像を得るのは非常に簡単です (たとえば、3×224×224 のビデオ 16 フレームをつなぎ合わせて 3×896×896 の入力を得る)。
  • 時系列データの場合、CorrFormer の埋め込みレイヤーを使用してデータを潜在空間のテンソルに変換し、それを単純かつ大まかに単一チャネル画像に再形成します。

後に示す結果は、このようなシンプルな設計が優れた結果を生み出すことを証明します。

大規模畳み込みカーネルCNNアーキテクチャ設計

2022 年、RepLKNet は、超大規模畳み込みカーネル (13×13 から 31×31) を備えた最新の CNN を構築し、超大規模畳み込みカーネルを正しく使用するためのいくつかの設計原則を提案しました。

しかし、アーキテクチャの観点から見ると、RepLKNet は Swin Transformer の全体的なアーキテクチャをそのまま使用し、変更を加えません。

現在の大規模コア CNN アーキテクチャ設計は、既存の CNN 設計原則または既存の Transformer 設計原則のいずれかに従います

従来の畳み込みネットワーク アーキテクチャ設計では、研究者が 3×3 または 5×5 の畳み込み層をネットワークに追加すると、同時に次の 3 つの効果が得られると期待されることがよくあります。

  • 受容野を広げる
  • 抽象化のレベルを上げる(例:線からテクスチャへ、テクスチャからオブジェクトの一部へ)
  • 一般的に、深さを増やすことで表現力が向上します(深くなるほど、パラメータが多くなり、非線形性が増え、フィッティング能力が向上します)。

では、大規模な畳み込みカーネル CNN アーキテクチャを設計する際には、どのような原則に従うべきでしょうか?

この記事では、上記の 3 つの要素を切り離し、対応する構造を使用して目的の効果を達成する必要があることを指摘しています。

  • 大きな受容野を確保するために、少数の大きな畳み込みカーネルを使用します。
  • 特徴の抽象化レベルを向上させるには、深さ方向の 3×3 などの小さな畳み込みを使用します。
  • 効率的な構造 (SE ブロック、ボトルネック構造など) を使用して、モデルの深さを増やし、その一般的な表現能力を強化します。

このような分離は、大きな畳み込みカーネル、つまり深いスタッキングに依存しない大きな受容野の固有の利点により可能になります。

本論文では、体系的な研究を経て、大規模畳み込みカーネル CNN の設計に関する 4 つのアーキテクチャ ガイドラインを提案します。

これらのガイドラインによると、本論文で提案する UniRepLKNet モデル構造は次のようになります。

各ブロックは、主に、深さ方向の変換、SE ブロック、FFN の 3 つの部分で構成されます。

深さ方向の畳み込みは、大きな畳み込みカーネル(図に示す Dilated Reparam Block。これは、拡張畳み込みを使用して大きなカーネル畳み込みを支援し、スパースな特徴をキャプチャし、構造的再パラメータ化方法によって畳み込みレイヤーに同等に変換できます)にすることも、深さ方向の 3x3 にすることもできます。

トランスフォーマーを上回るパフォーマンスが多数

画像モダリティにおける 3 つの古い研究として、ImageNet、COCO、ADE20K の結果は当然不可欠です。この論文では、ImageNet-22K の事前トレーニングのみが最大限に使用され、より大きなデータは使用されていません。

ビッグカーネル CNN は ImageNet にあまり注目していませんでしたが (画像分類タスクでは高い表現能力と受容野が不要で、ビッグカーネルの潜在能力を活かすことができないため)、UniRepLKNet は依然として多くの最新モデルを上回っており、実際の速度テストの結果は特に有望です。

たとえば、UniRepLKNet-XL は ImageNet の 88% の精度を達成し、DeiT III-L よりも 3 倍高速です。小型の UniRepLKNet には、FastViT などの特別に設計された軽量モデルに比べて明らかな利点もあります。

写真

COCO ターゲット検出タスクでは、UniRepLKNet の最も強力な競合相手は InternImage です。

UniRepLKNet-L は COCO 上では InternImage-L より劣りますが、UniRepLKnet-XL は InternImage-XL を上回ります。

オブジェクト検出の分野における InternImage チームの深い蓄積を考慮すると、この効果を達成するのは容易ではありません。

ADE20K セマンティック セグメンテーションでは、UniRepLKNet が大きな優位性を発揮し、最大 mIoU が 55.6 に達します。これは ConvNeXt-XL の完全な 1.6 改善です。

UniRepLKNet の時系列データ処理能力を検証するために、本論文では、非常に大規模なデータ規模を持つ自然レベルのタスク、すなわち地球温度と風速の予測に挑戦します。

UniRepLKNet はもともと画像指向のタスク用に設計されましたが、このタスク用に設計された CorrFormer (旧 SOTA) よりも優れたパフォーマンスを発揮します。

この発見は特に興味深いものです。なぜなら、この超大規模な時系列予測タスクは LSTM、GNN、Transformer に適しているように思われるのですが、今回は CNN がそれを「盗んだ」からです。

この記事の最小限の処理方法は、オーディオ、ビデオ、ポイント クラウドのタスクでも非常に効果的です。

もう一つ

この論文で報告された調査結果は、画像に関する非常に強力なバックボーンを提案するだけでなく、大規模カーネル CNN の潜在能力がまだ十分に活用されていないことを示しているようです。

Transformer の理論的な強みである「大規模な統合モデリング機能」に関しても、ビッグコア CNN は私たちが想像していた以上に強力です。

この論文では関連する証拠も報告されています。カーネル サイズを 13 から 11 に減らすと、4 つのモダリティすべてでパフォーマンスが大幅に低下します。

さらに、作者はすべてのコードを公開し、すべてのモデルと実験スクリプトをオープンソースにしました。

論文の宛先:
https://arxiv.org/abs/2311.15599

オリジナルリンク: https://mp.weixin.qq.com/s/Y1rGsy4zK78T14YSy-GtQw

<<:  ChatGPT を成功させるための 26 のスーパーヒント

>>:  データクローズドループ! DrivingGaussian: リアルなサラウンドビューデータ、運転シーンの再構成SOTA

ブログ    
ブログ    

推薦する

AI を理解する: 人工知能システムで説明可能性を追求する理由

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

ニューラル ネットワークの BP アルゴリズムが発明されるまでになぜ長い時間がかかったのでしょうか?

ローズブラットは 1950 年代にパーセプトロンを提案し、多層ニューラル ネットワークの BP アル...

...

...

...

...

爆発的なソラの背後にある技術、拡散モデルの最新の開発をレビューする記事

機械が人間の想像力を持てるようにするために、深層生成モデルは大きな進歩を遂げました。これらのモデルは...

...

2Dが3Dになり、視野角を自由に変更でき、高精細な立体感が完璧に復元されます

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

3D生成の中核理論の再構築:VAST、香港大学、清華大学が「ゼロ」のトレーニングデータで3Dモデルを生成

トレーニング データは必要ありません。「宿題をしているバナナマン」などの文をモデルに説明するだけです...

ジェネレーティブAIがファッション業界にもたらす変化

業界ではデザインやスキンケアに AI 技術が活用されています。一部の企業は、生成ツールを超えて、コン...

...

製造業におけるAI: インテリジェントロボットには次の4つの機能が必要です

インテリジェントロボットはインテリジェント製品の代表的なものです。知能ロボットには、少なくとも以下の...