大きな模型が家から盗まれました！ CNN はマルチモーダル性において Transformer と同等に優れている (Tencent と香港中国語)

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

Tencent AI LabとCUHKの共同チームは、画像認識の精度と速度においてTransformerアーキテクチャモデルを上回る新しいCNNアーキテクチャを提案しました。

ポイントクラウド、オーディオ、ビデオなどの他のモダリティに切り替えるときに、モデル構造を変更する必要はありません。単純な前処理で SOTA に近づくか、それを超えることさえ可能です。

チームは、大規模コア CNN アーキテクチャとUniRepLKNetと呼ばれる強力なバックボーンの設計に特化した4 つのガイドラインを提案しました。

ImageNet-22Kで事前学習しておけば、精度も速度もSOTAになる——

ImageNet は 88%、COCO は 56.4 ボックス AP、ADE20K は 55.6 mIoU に達し、実際の速度テストでは大きな優位性を示しました。

UniRepLKNetを膨大な時系列データに使用すれば、最高レベルを達成できる――

例えば、地球の気温と風速の予測では、Nature のサブジャーナルに掲載された Transformer に基づく以前の SOTA を上回りました。

詳しくは著者の投稿をご覧ください。

「トランスフォーマー時代」において、なぜCNN が必要なのでしょうか?

UniRepLKNet の原理を正式に紹介する前に、著者はまず 2 つの質問に答えました。

最初の疑問は、 Transformer がすべてのモダリティを統合する時代に、なぜ CNN を研究する必要があるのかということです。

著者は、Transformer と CNN は相互に統合された 2 つの構造設計アイデアにすぎず、前者に本質的な優位性があると信じる理由はないと考えています。

「トランスフォーマーはすべてのモードを統合する」というのは、まさに研究チームが修正しようとしている認識です。

2022年初頭にConvNeXt、RepLKNetなどが発表される前と同様に、「画像タスクではTransformerがCNNに勝る」というのが主流の認識でした。

これらの結果が明らかになった後、この認識は「CNN と Transformer は画像タスクでは類似している」と修正されました。

この研究チームの結果はそれをさらに修正し、ポイントクラウド、オーディオ、ビデオにおいて、CNN は私たちが考えていたよりもはるかに強力であることがわかりました。

CNN の伝統的な強みではない時系列予測の分野 (かつては LSTM などの技術が主流でしたが、過去 2 年間で Transformer の人気が高まっています) では、CNN は Transformer を凌駕し、それを「奪う」ことに成功しています。

そのため、研究チームは、大統一化という点ではCNNがTransformerに劣らない可能性があると考えています。

2 番目の質問は、画像タスク用に設計された CNN をオーディオ、ビデオ、ポイントクラウド、時系列データにどのように使用するかということです。

シンプルさと汎用性を追求するため、UniRepLKNet を他のモダリティに使用する場合、メインのモデルアーキテクチャには変更は加えられません (以下のすべての実験では UniRepLKNet-Small を使用します)。

他のモダリティへの移行を実現するには、ビデオ、オーディオ、ポイントクラウド、時系列データを C×H×W 埋め込みマップ (画像の場合は C=3) に処理するだけで済みます。次に例を示します。

オーディオスペクトル（時間×周波数）は単一チャネルイメージ、つまり C=1、H=T、W=F と見なされます。
ポイントクラウドを 3 つのビューに投影して 3 つのシングルチャネルイメージを取得します。C = 3、H および W は任意に指定できます。
ビデオ内のフレームをつなぎ合わせて大きな画像を得るのは非常に簡単です (たとえば、3×224×224 のビデオ 16 フレームをつなぎ合わせて 3×896×896 の入力を得る)。
時系列データの場合、CorrFormer の埋め込みレイヤーを使用してデータを潜在空間のテンソルに変換し、それを単純かつ大まかに単一チャネル画像に再形成します。

後に示す結果は、このようなシンプルな設計が優れた結果を生み出すことを証明します。

大規模畳み込みカーネルCNNアーキテクチャ設計

2022 年、RepLKNet は、超大規模畳み込みカーネル (13×13 から 31×31) を備えた最新の CNN を構築し、超大規模畳み込みカーネルを正しく使用するためのいくつかの設計原則を提案しました。

しかし、アーキテクチャの観点から見ると、RepLKNet は Swin Transformer の全体的なアーキテクチャをそのまま使用し、変更を加えません。

現在の大規模コア CNN アーキテクチャ設計は、既存の CNN 設計原則または既存の Transformer 設計原則のいずれかに従います。

従来の畳み込みネットワークアーキテクチャ設計では、研究者が 3×3 または 5×5 の畳み込み層をネットワークに追加すると、同時に次の 3 つの効果が得られると期待されることがよくあります。

受容野を広げる
抽象化のレベルを上げる（例：線からテクスチャへ、テクスチャからオブジェクトの一部へ）
一般的に、深さを増やすことで表現力が向上します（深くなるほど、パラメータが多くなり、非線形性が増え、フィッティング能力が向上します）。

では、大規模な畳み込みカーネル CNN アーキテクチャを設計する際には、どのような原則に従うべきでしょうか?

この記事では、上記の 3 つの要素を切り離し、対応する構造を使用して目的の効果を達成する必要があることを指摘しています。

大きな受容野を確保するために、少数の大きな畳み込みカーネルを使用します。
特徴の抽象化レベルを向上させるには、深さ方向の 3×3 などの小さな畳み込みを使用します。
効率的な構造 (SE ブロック、ボトルネック構造など) を使用して、モデルの深さを増やし、その一般的な表現能力を強化します。

このような分離は、大きな畳み込みカーネル、つまり深いスタッキングに依存しない大きな受容野の固有の利点により可能になります。

本論文では、体系的な研究を経て、大規模畳み込みカーネル CNN の設計に関する 4 つのアーキテクチャガイドラインを提案します。

これらのガイドラインによると、本論文で提案する UniRepLKNet モデル構造は次のようになります。

各ブロックは、主に、深さ方向の変換、SE ブロック、FFN の 3 つの部分で構成されます。

深さ方向の畳み込みは、大きな畳み込みカーネル（図に示す Dilated Reparam Block。これは、拡張畳み込みを使用して大きなカーネル畳み込みを支援し、スパースな特徴をキャプチャし、構造的再パラメータ化方法によって畳み込みレイヤーに同等に変換できます）にすることも、深さ方向の 3x3 にすることもできます。

トランスフォーマーを上回るパフォーマンスが多数

画像モダリティにおける 3 つの古い研究として、ImageNet、COCO、ADE20K の結果は当然不可欠です。この論文では、ImageNet-22K の事前トレーニングのみが最大限に使用され、より大きなデータは使用されていません。

ビッグカーネル CNN は ImageNet にあまり注目していませんでしたが (画像分類タスクでは高い表現能力と受容野が不要で、ビッグカーネルの潜在能力を活かすことができないため)、UniRepLKNet は依然として多くの最新モデルを上回っており、実際の速度テストの結果は特に有望です。

たとえば、UniRepLKNet-XL は ImageNet の 88% の精度を達成し、DeiT III-L よりも 3 倍高速です。小型の UniRepLKNet には、FastViT などの特別に設計された軽量モデルに比べて明らかな利点もあります。

写真

COCO ターゲット検出タスクでは、UniRepLKNet の最も強力な競合相手は InternImage です。

UniRepLKNet-L は COCO 上では InternImage-L より劣りますが、UniRepLKnet-XL は InternImage-XL を上回ります。

オブジェクト検出の分野における InternImage チームの深い蓄積を考慮すると、この効果を達成するのは容易ではありません。

ADE20K セマンティックセグメンテーションでは、UniRepLKNet が大きな優位性を発揮し、最大 mIoU が 55.6 に達します。これは ConvNeXt-XL の完全な 1.6 改善です。

UniRepLKNet の時系列データ処理能力を検証するために、本論文では、非常に大規模なデータ規模を持つ自然レベルのタスク、すなわち地球温度と風速の予測に挑戦します。

UniRepLKNet はもともと画像指向のタスク用に設計されましたが、このタスク用に設計された CorrFormer (旧 SOTA) よりも優れたパフォーマンスを発揮します。

この発見は特に興味深いものです。なぜなら、この超大規模な時系列予測タスクは LSTM、GNN、Transformer に適しているように思われるのですが、今回は CNN がそれを「盗んだ」からです。

この記事の最小限の処理方法は、オーディオ、ビデオ、ポイントクラウドのタスクでも非常に効果的です。

もう一つ

この論文で報告された調査結果は、画像に関する非常に強力なバックボーンを提案するだけでなく、大規模カーネル CNN の潜在能力がまだ十分に活用されていないことを示しているようです。

Transformer の理論的な強みである「大規模な統合モデリング機能」に関しても、ビッグコア CNN は私たちが想像していた以上に強力です。

この論文では関連する証拠も報告されています。カーネルサイズを 13 から 11 に減らすと、4 つのモダリティすべてでパフォーマンスが大幅に低下します。

さらに、作者はすべてのコードを公開し、すべてのモデルと実験スクリプトをオープンソースにしました。

論文の宛先:
https://arxiv.org/abs/2311.15599

オリジナルリンク: https://mp.weixin.qq.com/s/Y1rGsy4zK78T14YSy-GtQw

<<: ChatGPT を成功させるための 26 のスーパーヒント

>>: データクローズドループ！ DrivingGaussian: リアルなサラウンドビューデータ、運転シーンの再構成SOTA

マイクロソフトがテキスト読み上げアバター AI ツールを発表: Azure プラットフォームをベースに仮想 3D デジタル人物を作成可能

ブログ

アメリカ合衆国憲法と聖書はどちらも AI によって生成されたのでしょうか? AI検出器は信頼性が低く、人間のデータが限られているためAI開発は制限される

ブログ

大きな模型が家から盗まれました！ CNN はマルチモーダル性において Transformer と同等に優れている (Tencent と香港中国語)

「トランスフォーマー時代」において、なぜCNN が必要なのでしょうか?

大規模畳み込みカーネルCNNアーキテクチャ設計

トランスフォーマーを上回るパフォーマンスが多数

もう一つ

マイクロソフトがテキスト読み上げアバター AI ツールを発表: Azure プラットフォームをベースに仮想 3D デジタル人物を作成可能

ベクトルデータベースが生成AIを強化する方法

2,000 ドル相当のコースノートをオープンソース化しました。講演者はKaggleの元チーフサイエンティストです！

機械学習を利用するハッカーを心配していますか?データを盗む7つの新しい方法を知る

フィンテック2022年の技術トレンド：プライバシーコンピューティングが焦点、仮想人間が金融マネージャーを再構築

人工知能について知っておくべきことすべて

小さなターゲットを検出するためのディープラーニングの一般的な方法

アメリカ合衆国憲法と聖書はどちらも AI によって生成されたのでしょうか? AI検出器は信頼性が低く、人間のデータが限られているためAI開発は制限される

推薦する

AIは近い将来自己認識できるようになるのでしょうか? Facebook がメタバースへの扉を開く「Ego4D」を発表

人工知能は 5 つの主要な地球規模の問題に解決策をもたらす | ダボスブログ

Google Brain の新しいアルゴリズムは TPU を使用せずに AI トレーニングを高速化できる

C#とTypeScriptの作者がオープンソースAIプロジェクトTypeChatを発表

ソファがリモコンに変身、PCBが落書きに隠れる、MITの技術オタクのスマートホームはこんな感じ

大学生が、1時間で600本の鉄筋を結束できる鉄筋結束ロボットを発明。建設労働者は再び失業することになるのだろうか？

携帯電話の顔認識は、単に顔を見せることだけだと思っていませんか?あまりにもナイーブだ！女の子は注意しなければならない

研究者：AIモデルの「推論」はより多くの電力を消費し、業界の電力消費は2027年に「オランダに匹敵する」ようになる

今後、セキュリティ分野で顔認識技術はどのように発展していくのでしょうか？

プログラミング啓蒙ロボット、本物の人形か、それとも本当の物語か？

最も需要の高い AIGC 関連の仕事 11 選

世界のAI競争は中国と米国がリード。人工知能は過大評価されているのか？

ドバイ、街頭にロボット警察を配備へ

5G、AI、クラウドコンピューティング…東京五輪の裏側にある「ブラックテクノロジー」を徹底検証