この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。 Tencent AI LabとCUHKの共同チームは、画像認識の精度と速度においてTransformerアーキテクチャモデルを上回る新しいCNNアーキテクチャを提案しました。 ポイント クラウド、オーディオ、ビデオなどの他のモダリティに切り替えるときに、モデル構造を変更する必要はありません。単純な前処理で SOTA に近づくか、それを超えることさえ可能です。 チームは、大規模コア CNN アーキテクチャとUniRepLKNetと呼ばれる強力なバックボーンの設計に特化した4 つのガイドラインを提案しました。 ImageNet-22Kで事前学習しておけば、精度も速度もSOTAになる—— ImageNet は 88%、COCO は 56.4 ボックス AP、ADE20K は 55.6 mIoU に達し、実際の速度テストでは大きな優位性を示しました。 UniRepLKNetを膨大な時系列データに使用すれば、最高レベルを達成できる―― 例えば、地球の気温と風速の予測では、Nature のサブジャーナルに掲載された Transformer に基づく以前の SOTA を上回りました。 詳しくは著者の投稿をご覧ください。 「トランスフォーマー時代」において、なぜCNN が必要なのでしょうか?UniRepLKNet の原理を正式に紹介する前に、著者はまず 2 つの質問に答えました。 最初の疑問は、 Transformer がすべてのモダリティを統合する時代に、なぜ CNN を研究する必要があるのかということです。 著者は、Transformer と CNN は相互に統合された 2 つの構造設計アイデアにすぎず、前者に本質的な優位性があると信じる理由はないと考えています。 「トランスフォーマーはすべてのモードを統合する」というのは、まさに研究チームが修正しようとしている認識です。 2022年初頭にConvNeXt、RepLKNetなどが発表される前と同様に、「画像タスクではTransformerがCNNに勝る」というのが主流の認識でした。 これらの結果が明らかになった後、この認識は「CNN と Transformer は画像タスクでは類似している」と修正されました。 この研究チームの結果はそれをさらに修正し、ポイントクラウド、オーディオ、ビデオにおいて、CNN は私たちが考えていたよりもはるかに強力であることがわかりました。 CNN の伝統的な強みではない時系列予測の分野 (かつては LSTM などの技術が主流でしたが、過去 2 年間で Transformer の人気が高まっています) では、CNN は Transformer を凌駕し、それを「奪う」ことに成功しています。 そのため、研究チームは、大統一化という点ではCNNがTransformerに劣らない可能性があると考えています。 2 番目の質問は、画像タスク用に設計された CNN をオーディオ、ビデオ、ポイント クラウド、時系列データにどのように使用するかということです。 シンプルさと汎用性を追求するため、UniRepLKNet を他のモダリティに使用する場合、メインのモデル アーキテクチャには変更は加えられません (以下のすべての実験では UniRepLKNet-Small を使用します)。 他のモダリティへの移行を実現するには、ビデオ、オーディオ、ポイント クラウド、時系列データを C×H×W 埋め込みマップ (画像の場合は C=3) に処理するだけで済みます。次に例を示します。
後に示す結果は、このようなシンプルな設計が優れた結果を生み出すことを証明します。 大規模畳み込みカーネルCNNアーキテクチャ設計2022 年、RepLKNet は、超大規模畳み込みカーネル (13×13 から 31×31) を備えた最新の CNN を構築し、超大規模畳み込みカーネルを正しく使用するためのいくつかの設計原則を提案しました。 しかし、アーキテクチャの観点から見ると、RepLKNet は Swin Transformer の全体的なアーキテクチャをそのまま使用し、変更を加えません。 現在の大規模コア CNN アーキテクチャ設計は、既存の CNN 設計原則または既存の Transformer 設計原則のいずれかに従います。 従来の畳み込みネットワーク アーキテクチャ設計では、研究者が 3×3 または 5×5 の畳み込み層をネットワークに追加すると、同時に次の 3 つの効果が得られると期待されることがよくあります。
では、大規模な畳み込みカーネル CNN アーキテクチャを設計する際には、どのような原則に従うべきでしょうか? この記事では、上記の 3 つの要素を切り離し、対応する構造を使用して目的の効果を達成する必要があることを指摘しています。
このような分離は、大きな畳み込みカーネル、つまり深いスタッキングに依存しない大きな受容野の固有の利点により可能になります。 本論文では、体系的な研究を経て、大規模畳み込みカーネル CNN の設計に関する 4 つのアーキテクチャ ガイドラインを提案します。 これらのガイドラインによると、本論文で提案する UniRepLKNet モデル構造は次のようになります。 各ブロックは、主に、深さ方向の変換、SE ブロック、FFN の 3 つの部分で構成されます。 深さ方向の畳み込みは、大きな畳み込みカーネル(図に示す Dilated Reparam Block。これは、拡張畳み込みを使用して大きなカーネル畳み込みを支援し、スパースな特徴をキャプチャし、構造的再パラメータ化方法によって畳み込みレイヤーに同等に変換できます)にすることも、深さ方向の 3x3 にすることもできます。 トランスフォーマーを上回るパフォーマンスが多数画像モダリティにおける 3 つの古い研究として、ImageNet、COCO、ADE20K の結果は当然不可欠です。この論文では、ImageNet-22K の事前トレーニングのみが最大限に使用され、より大きなデータは使用されていません。 ビッグカーネル CNN は ImageNet にあまり注目していませんでしたが (画像分類タスクでは高い表現能力と受容野が不要で、ビッグカーネルの潜在能力を活かすことができないため)、UniRepLKNet は依然として多くの最新モデルを上回っており、実際の速度テストの結果は特に有望です。 たとえば、UniRepLKNet-XL は ImageNet の 88% の精度を達成し、DeiT III-L よりも 3 倍高速です。小型の UniRepLKNet には、FastViT などの特別に設計された軽量モデルに比べて明らかな利点もあります。 写真 COCO ターゲット検出タスクでは、UniRepLKNet の最も強力な競合相手は InternImage です。 UniRepLKNet-L は COCO 上では InternImage-L より劣りますが、UniRepLKnet-XL は InternImage-XL を上回ります。 オブジェクト検出の分野における InternImage チームの深い蓄積を考慮すると、この効果を達成するのは容易ではありません。 ADE20K セマンティック セグメンテーションでは、UniRepLKNet が大きな優位性を発揮し、最大 mIoU が 55.6 に達します。これは ConvNeXt-XL の完全な 1.6 改善です。 UniRepLKNet の時系列データ処理能力を検証するために、本論文では、非常に大規模なデータ規模を持つ自然レベルのタスク、すなわち地球温度と風速の予測に挑戦します。 UniRepLKNet はもともと画像指向のタスク用に設計されましたが、このタスク用に設計された CorrFormer (旧 SOTA) よりも優れたパフォーマンスを発揮します。 この発見は特に興味深いものです。なぜなら、この超大規模な時系列予測タスクは LSTM、GNN、Transformer に適しているように思われるのですが、今回は CNN がそれを「盗んだ」からです。 この記事の最小限の処理方法は、オーディオ、ビデオ、ポイント クラウドのタスクでも非常に効果的です。 もう一つこの論文で報告された調査結果は、画像に関する非常に強力なバックボーンを提案するだけでなく、大規模カーネル CNN の潜在能力がまだ十分に活用されていないことを示しているようです。 Transformer の理論的な強みである「大規模な統合モデリング機能」に関しても、ビッグコア CNN は私たちが想像していた以上に強力です。 この論文では関連する証拠も報告されています。カーネル サイズを 13 から 11 に減らすと、4 つのモダリティすべてでパフォーマンスが大幅に低下します。 さらに、作者はすべてのコードを公開し、すべてのモデルと実験スクリプトをオープンソースにしました。 論文の宛先: オリジナルリンク: https://mp.weixin.qq.com/s/Y1rGsy4zK78T14YSy-GtQw |
<<: ChatGPT を成功させるための 26 のスーパーヒント
>>: データクローズドループ! DrivingGaussian: リアルなサラウンドビューデータ、運転シーンの再構成SOTA
この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...
ローズブラットは 1950 年代にパーセプトロンを提案し、多層ニューラル ネットワークの BP アル...
Tech Planetによると、アリババ副社長兼DAMOアカデミー副会長のJin Rong氏は最近...
機械が人間の想像力を持てるようにするために、深層生成モデルは大きな進歩を遂げました。これらのモデルは...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
トレーニング データは必要ありません。「宿題をしているバナナマン」などの文をモデルに説明するだけです...
OpenAI 初の春祭りガラ、スタートアップ企業にとっての殺戮の夜。サム・アルトマンはこう言います。...
業界ではデザインやスキンケアに AI 技術が活用されています。一部の企業は、生成ツールを超えて、コン...
インテリジェントロボットはインテリジェント製品の代表的なものです。知能ロボットには、少なくとも以下の...