大きな模型が家から盗まれました! CNN はマルチモーダル性において Transformer と同等に優れている (Tencent と香港中国語)

大きな模型が家から盗まれました! CNN はマルチモーダル性において Transformer と同等に優れている (Tencent と香港中国語)

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

Tencent AI LabとCUHKの共同チームは、画像認識の精度と速度においてTransformerアーキテクチャモデルを上回る新しいCNNアーキテクチャを提案しました。

ポイント クラウド、オーディオ、ビデオなどの他のモダリティに切り替えるときに、モデル構造を変更する必要はありません。単純な前処理で SOTA に近づくか、それを超えることさえ可能です。

チームは、大規模コア CNN アーキテクチャとUniRepLKNetと呼ばれる強力なバックボーンの設計に特化した4 つのガイドラインを提案しました。

ImageNet-22Kで事前学習しておけば、精度も速度もSOTAになる——

ImageNet は 88%、COCO は 56.4 ボックス AP、ADE20K は 55.6 mIoU に達し、実際の速度テストでは大きな優位性を示しました。

UniRepLKNetを膨大な時系列データに使用すれば、最高レベルを達成できる――

例えば、地球の気温と風速の予測では、Nature のサブジャーナルに掲載された Transformer に基づく以前の SOTA を上回りました。

詳しくは著者の投稿をご覧ください。

「トランスフォーマー時代」において、なぜCNN が必要なのでしょうか?

UniRepLKNet の原理を正式に紹介する前に、著者はまず 2 つの質問に答えました。

最初の疑問は、 Transformer がすべてのモダリティを統合する時代に、なぜ CNN を研究する必要があるのか​​ということです。

著者は、Transformer と CNN は相互に統合された 2 つの構造設計アイデアにすぎず、前者に本質的な優位性があると信じる理由はないと考えています。

「トランスフォーマーはすべてのモードを統合する」というのは、まさに研究チームが修正しようとしている認識です。

2022年初頭にConvNeXt、RepLKNetなどが発表される前と同様に、「画像タスクではTransformerがCNNに勝る」というのが主流の認識でした。

これらの結果が明らかになった後、この認識は「CNN と Transformer は画像タスクでは類似している」と修正されました。

この研究チームの結果はそれをさらに修正し、ポイントクラウド、オーディオ、ビデオにおいて、CNN は私たちが考えていたよりもはるかに強力であることがわかりました。

CNN の伝統的な強みではない時系列予測の分野 (かつては LSTM などの技術が主流でしたが、過去 2 年間で Transformer の人気が高まっています) では、CNN は Transformer を凌駕し、それを「奪う」ことに成功しています。

そのため、研究チームは、大統一化という点ではCNNがTransformerに劣らない可能性があると考えています。

2 番目の質問は、画像タスク用に設計された CNN をオーディオ、ビデオ、ポイント クラウド、時系列データにどのように使用するかということです。

シンプルさと汎用性を追求するため、UniRepLKNet を他のモダリティに使用する場合、メインのモデル アーキテクチャには変更は加えられません (以下のすべての実験では UniRepLKNet-Small を使用します)。

他のモダリティへの移行を実現するには、ビデオ、オーディオ、ポイント クラウド、時系列データを C×H×W 埋め込みマップ (画像の場合は C=3) に処理するだけで済みます。次に例を示します。

  • オーディオスペクトル(時間×周波数)は単一チャネルイメージ、つまり C=1、H=T、W=F と見なされます。
  • ポイント クラウドを 3 つのビューに投影して 3 つのシングル チャネル イメージを取得します。C = 3、H および W は任意に指定できます。
  • ビデオ内のフレームをつなぎ合わせて大きな画像を得るのは非常に簡単です (たとえば、3×224×224 のビデオ 16 フレームをつなぎ合わせて 3×896×896 の入力を得る)。
  • 時系列データの場合、CorrFormer の埋め込みレイヤーを使用してデータを潜在空間のテンソルに変換し、それを単純かつ大まかに単一チャネル画像に再形成します。

後に示す結果は、このようなシンプルな設計が優れた結果を生み出すことを証明します。

大規模畳み込みカーネルCNNアーキテクチャ設計

2022 年、RepLKNet は、超大規模畳み込みカーネル (13×13 から 31×31) を備えた最新の CNN を構築し、超大規模畳み込みカーネルを正しく使用するためのいくつかの設計原則を提案しました。

しかし、アーキテクチャの観点から見ると、RepLKNet は Swin Transformer の全体的なアーキテクチャをそのまま使用し、変更を加えません。

現在の大規模コア CNN アーキテクチャ設計は、既存の CNN 設計原則または既存の Transformer 設計原則のいずれかに従います

従来の畳み込みネットワーク アーキテクチャ設計では、研究者が 3×3 または 5×5 の畳み込み層をネットワークに追加すると、同時に次の 3 つの効果が得られると期待されることがよくあります。

  • 受容野を広げる
  • 抽象化のレベルを上げる(例:線からテクスチャへ、テクスチャからオブジェクトの一部へ)
  • 一般的に、深さを増やすことで表現力が向上します(深くなるほど、パラメータが多くなり、非線形性が増え、フィッティング能力が向上します)。

では、大規模な畳み込みカーネル CNN アーキテクチャを設計する際には、どのような原則に従うべきでしょうか?

この記事では、上記の 3 つの要素を切り離し、対応する構造を使用して目的の効果を達成する必要があることを指摘しています。

  • 大きな受容野を確保するために、少数の大きな畳み込みカーネルを使用します。
  • 特徴の抽象化レベルを向上させるには、深さ方向の 3×3 などの小さな畳み込みを使用します。
  • 効率的な構造 (SE ブロック、ボトルネック構造など) を使用して、モデルの深さを増やし、その一般的な表現能力を強化します。

このような分離は、大きな畳み込みカーネル、つまり深いスタッキングに依存しない大きな受容野の固有の利点により可能になります。

本論文では、体系的な研究を経て、大規模畳み込みカーネル CNN の設計に関する 4 つのアーキテクチャ ガイドラインを提案します。

これらのガイドラインによると、本論文で提案する UniRepLKNet モデル構造は次のようになります。

各ブロックは、主に、深さ方向の変換、SE ブロック、FFN の 3 つの部分で構成されます。

深さ方向の畳み込みは、大きな畳み込みカーネル(図に示す Dilated Reparam Block。これは、拡張畳み込みを使用して大きなカーネル畳み込みを支援し、スパースな特徴をキャプチャし、構造的再パラメータ化方法によって畳み込みレイヤーに同等に変換できます)にすることも、深さ方向の 3x3 にすることもできます。

トランスフォーマーを上回るパフォーマンスが多数

画像モダリティにおける 3 つの古い研究として、ImageNet、COCO、ADE20K の結果は当然不可欠です。この論文では、ImageNet-22K の事前トレーニングのみが最大限に使用され、より大きなデータは使用されていません。

ビッグカーネル CNN は ImageNet にあまり注目していませんでしたが (画像分類タスクでは高い表現能力と受容野が不要で、ビッグカーネルの潜在能力を活かすことができないため)、UniRepLKNet は依然として多くの最新モデルを上回っており、実際の速度テストの結果は特に有望です。

たとえば、UniRepLKNet-XL は ImageNet の 88% の精度を達成し、DeiT III-L よりも 3 倍高速です。小型の UniRepLKNet には、FastViT などの特別に設計された軽量モデルに比べて明らかな利点もあります。

写真

COCO ターゲット検出タスクでは、UniRepLKNet の最も強力な競合相手は InternImage です。

UniRepLKNet-L は COCO 上では InternImage-L より劣りますが、UniRepLKnet-XL は InternImage-XL を上回ります。

オブジェクト検出の分野における InternImage チームの深い蓄積を考慮すると、この効果を達成するのは容易ではありません。

ADE20K セマンティック セグメンテーションでは、UniRepLKNet が大きな優位性を発揮し、最大 mIoU が 55.6 に達します。これは ConvNeXt-XL の完全な 1.6 改善です。

UniRepLKNet の時系列データ処理能力を検証するために、本論文では、非常に大規模なデータ規模を持つ自然レベルのタスク、すなわち地球温度と風速の予測に挑戦します。

UniRepLKNet はもともと画像指向のタスク用に設計されましたが、このタスク用に設計された CorrFormer (旧 SOTA) よりも優れたパフォーマンスを発揮します。

この発見は特に興味深いものです。なぜなら、この超大規模な時系列予測タスクは LSTM、GNN、Transformer に適しているように思われるのですが、今回は CNN がそれを「盗んだ」からです。

この記事の最小限の処理方法は、オーディオ、ビデオ、ポイント クラウドのタスクでも非常に効果的です。

もう一つ

この論文で報告された調査結果は、画像に関する非常に強力なバックボーンを提案するだけでなく、大規模カーネル CNN の潜在能力がまだ十分に活用されていないことを示しているようです。

Transformer の理論的な強みである「大規模な統合モデリング機能」に関しても、ビッグコア CNN は私たちが想像していた以上に強力です。

この論文では関連する証拠も報告されています。カーネル サイズを 13 から 11 に減らすと、4 つのモダリティすべてでパフォーマンスが大幅に低下します。

さらに、作者はすべてのコードを公開し、すべてのモデルと実験スクリプトをオープンソースにしました。

論文の宛先:
https://arxiv.org/abs/2311.15599

オリジナルリンク: https://mp.weixin.qq.com/s/Y1rGsy4zK78T14YSy-GtQw

<<:  ChatGPT を成功させるための 26 のスーパーヒント

>>:  データクローズドループ! DrivingGaussian: リアルなサラウンドビューデータ、運転シーンの再構成SOTA

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

顔認識がコミュニティに登場: 「顔スキャン」の背後にあるプライバシーとセキュリティの問題

李静さん(仮名)は、団地内の自分のアパートのドアを開けることができなくなった。ドアには「顔認識」装置...

医療の荒野での賭け:百度は人工知能で危機を乗り切った

ロビン・リーは標高3,500メートルで牛糞を拾い、泥を塗り、牛の皮を剥ぐという極めて型破りなことをし...

ビデオメモリを節約する新しい方法: 2 ビット活性化圧縮を使用して PyTorch でニューラル ネットワークをトレーニングする

[[410937]]この記事では、カリフォルニア大学バークレー校の PyTorch をベースにしたア...

...

スマート街灯は明るく光るが、スマート街灯柱には隠された秘密があることが判明

[51CTO.comよりオリジナル記事] 近年、都市化の急速な発展に伴い、中国の都市の街灯の数はます...

...

ロボットは「赤ちゃんを作る」こともできる:世界初の生きたロボットが生命の新たな繁殖方法を生み出す

[[437620]]彼らは何百もの自由細胞を集めて、「パックマン」の形をした「口」の中に「次世代」を...

人工知能とはいったい何でしょうか?人工知能の主要なテクノロジーと概念について学びましょう。

現在、人工知能が何であるかをまだよく理解していない人がたくさんいます。今日は、人工知能の主要な技術と...

過剰に防御的?モスクワのバス運転手は中国人乗客の身元を手動で確認し、顔認識システムの使用も許可されている。

最近、モスクワのバス運転手たちは少々パニックになっている。チャットグループでは、「バスの中でアジア人...

...

アンサンブル法からニューラルネットワークまで:自動運転技術で使用される機械学習アルゴリズムとは?

現在、機械学習アルゴリズムは、自動運転車業界で増加している問題を解決するために大規模に使用されていま...

コード生成のためのツリーベースのTransformerアーキテクチャ

導入:コード生成は、プログラマーの生産性を大幅に向上させる可能性を秘めた重要な AI 問題です。自然...

...

倪光南:AI開発は教訓を学ぶべき、コア技術は購入したり置き換えたりすることはできない

「ここ数年、情報技術分野で私たちが学んだ最大の教訓の一つは、主要な中核技術は私たち自身の独立したイノ...

【慎重に応募】今後10年間で消滅する可能性が最も高く、代替される可能性が最も低い22の職業

[[373618]] 5Gの商用利用、人工知能、スマートシティ、スマートホーム、自動運転車、無人スー...