中国科学技術大学が提案したCNNとTransformerのデュアルネットワークモデルの精度は84.1%にも達する

中国科学技術大学が提案したCNNとTransformerのデュアルネットワークモデルの精度は84.1%にも達する

[[416636]]

Transformer と CNN はどちらも独自の利点を持ち、視覚表現を処理する際に避けられない問題がいくつかあります。そこで、中国科学技術大学、彭城研究所、ファーウェイの研究者らは初めてこの2つを統合し、計算量を大幅に増やすことなく基本ネットワーク特性評価機能を大幅に向上できる新しいコンフォーマーモデルを提案した。この論文はICCV 2021に採択されました。

畳み込み演算は局所的な特徴を抽出するのには適していますが、全体的な表現を抽出する機能はありません。

画像の全体的な情報を認識するために、CNN は積み重ねられた畳み込み層に依存し、プーリング操作を使用して受容野を拡大する必要があります。

Visual Transformer の導入により、視覚表現における CNN の独占が打ち破られました。

自己注意メカニズムのおかげで、Visual Transformer (ViT、Deit) はグローバルかつ動的な受容野の機能を備え、画像認識タスクでより良い結果を達成しました。

ただし、計算が複雑なため、Transformer では入力解像度を下げてダウンサンプリングのステップ サイズを大きくする必要があり、パッチ分割段階で画像の詳細情報が失われます。

そこで、中国科学院大学彭城研究所とファーウェイは共同で、TransformerとCNNを統合したConformerベースのネットワークモデルを提案しました。

Conformer モデルは、計算量を大幅に増やすことなく、基本ネットワーク表現機能を大幅に向上させることができます。現在、この論文はICCV 2021に採択されています。

論文アドレス: https://arxiv.org/abs/2105.03889

プロジェクトアドレス: https://github.com/pengzhiliang/Conformer

さらに、Conformer には並列 CNN ブランチと Transformer ブランチが含まれており、機能結合モジュールを通じてローカル機能とグローバル機能を融合し、画像の詳細を失うことなくグローバルな画像情報を取得することを目指しています。

特徴マップの視覚化

比較的複雑な背景を持つ画像の特徴を視覚化して、Conformer がローカル情報とグローバル情報をキャプチャする機能を示します。

  1. 浅い Transformer (DeiT) 特徴マップ (列 c) は ResNet (列 a) と比較して多くの詳細情報を失いますが、Conformer の Transformer ブランチ特徴マップ (列 d) はローカル特徴をより適切に保持します。
  2. ディープ フィーチャ マップから見ると、DeiT フィーチャ マップ (列 g) は ResNet (列 e) と比較してグローバル フィーチャ情報を保持していますが、ノイズは少し大きくなっています。
  3. Transformer ブランチによって提供されるグローバル機能のおかげで、Conformer CNN ブランチ機能マップ (列 f) は (列 e と比較して) より完全な機能を保持します。
  4. DeiT (列 g) と比較すると、Transformer ブランチ機能マップ (列 h) はより詳細な情報を保持し、ノイズを抑制します。

ネットワーク構造

Conformer は並列デュアルネットワーク構造であり、CNN ブランチは ResNet 構造を採用し、Transformer ブランチは ViT 構造を採用しています。

ネットワーク構造図

(c) は Conformer のサムネイルを示しています。標準的な ResNet ステム構造、2 つの並列ブランチ、および 2 つの分類器です。

(b) は、各ブロックにおける Trans と Conv の接続関係を示しています。2 つのボトルネックを例にとると、最初のボトルネックの 3x3 畳み込み後のローカル特徴は、特徴結合モジュール (FCU) を介して Transformer ブロックに渡されます。

Transformer ブロックは、このローカル機能を前の Trans ブロックのグローバル機能に追加し、現在の Trans ブロックに渡します。操作が完了すると、結果は FCU モジュールを介して Conv ブロックに返されます。

Conv ブロックの最後のボトルネックでは、1x1 畳み込みの後にローカル特徴に追加し、それらを一緒に 3x3 畳み込みに入力します。

Transformer ブロックが 2 つの 3x3 畳み込みの間に挟まれている理由は 2 つあります。

  1. ボトルネックの 3x3 畳み込みのチャネル数は比較的少ないため、FCU の fc 層のパラメータはそれほど大きくなりません。
  2. 3x3 畳み込みには強力な位置事前情報があり、位置エンコーディングを削除した後のパフォーマンスを保証します。

実験結果

Conformer ネットワークは、ImageNet での分類実験に使用され、MSCOCO でのオブジェクト検出およびインスタンス分割実験用の事前トレーニング済みモデルとして使用されました。

分類精度の比較

3770 万のパラメータと 10.6GFlops の計算能力を持つ Conformer-S は、8660 万のパラメータと 17.6GFlops の計算能力を持つ DeiT-B を約 1.6% 上回る精度を達成しました。

Conformer-S がパラメータ数を 83.3M に増やすと、精度は 84.1% に達します。

異なるベースネットワークの分類速度と精度の比較:

オブジェクト検出とインスタンスセグメンテーションの結果の比較

実行中のフレーム レートは次のとおりです。

オブジェクト検出とインスタンスセグメンテーションのフレームレート比較

FPN + Faster Mask R-CNN フレームワークを使用する場合、Conformer-S/32 は、同等のフレーム レート、パラメーター、計算複雑度で、オブジェクト検出精度で Faster RCNN を 3.7%、インスタンス セグメンテーションで Mask R-CNN を 3.6% 上回ります。

分析の概要

Conformer は、初の並列 CNN と Transformer のハイブリッド ネットワークです。提案された機能結合モジュール FCU を通じて、各ステージのローカル機能とグローバル機能が相互作用し、Conformer は両方の利点を活用できるようになります。

分類に関しては、より小さなパラメータと計算量でより高い精度を達成することができ、ターゲットとインスタンスのセグメンテーションにおいても大幅な改善を達成することができます。

現在、Conformer は ImageNet1K データセットでのみトレーニングされています。より大きな事前トレーニングデータセット (ImageNet21K など) と組み合わせると、非常に有望なベースネットワーク構造になります。

著者について

中国科学院大学修士課程の彭志良さんと黄偉さん

彭城研究所のエンジニア、顧山志氏

彭城研究所研究員 王耀偉

ファーウェイの研究員、謝玲希氏

中国科学院大学教授の焦建斌氏と葉其祥氏

<<:  5G、AI、クラウドコンピューティング…東京五輪の裏側にある「ブラックテクノロジー」を徹底検証

>>:  最高裁判所も顔認識の乱用に対して行動を起こした。

ブログ    

推薦する

Google Bard が中国語をサポートするようになりました!レベル10をクリアして、ミームを理解し、無料で試してみましょう

数日前、ChatGPTの最も強力なライバルであるClaudeが第2世代にアップグレードされ、Goog...

Googleの人工知能学習により低ピクセル画像も鮮明に

【環球網智能報記者張洋】過去2年間で、人工知能技術が次のホットスポットとなり、多くの有名なテクノロジ...

...

インテリジェント交通の時代に踏み出すには、これら 3 つのことをうまく行う必要があります。

[[438413]]都市の生命線であり動脈である交通の発展は極めて重要です。しかし、近年、都市化が...

初心者のためのホームオートメーション完全ガイド

スマートホームはテクノロジーを活用して、居住者にさらなる利便性、節約、快適性、セキュリティを提供しま...

GitHub Wanxing リソース: 強化学習アルゴリズムの実装、チュートリアル コード学習計画

[[273322]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

...

チューリング賞受賞者のジュディア・パールが語る「データだけに頼るな」

[[412443]]現在の人工知能研究コミュニティでは、データ中心の方法が絶対的に優勢であり、その...

...

Microsoft Copilot Pro が登場: 個人ユーザーも Word で GPT-4 を使用可能、月額 20 ドル

個人ユーザー向けの Microsoft Copilot メンバーシップ バージョンはここにあります。...

一般的な視覚的推論が出現、カリフォルニア大学バークレー校が単一の純粋なCV大規模モデルを改良、3人の上級学者が参加

最近では、GPT や LLaMA などの大規模言語モデル (LLM) が世界中で人気になっています。...

YOLOプロジェクト復活!マスターが後を継ぎ、YOLOの父が2か月間引退し、v4バージョンが正式にリリースされました

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

スマートシティにおける低リスクの AI 応用分野 3 つ

スマート シティでは、一部の AI 駆動型システムは統合にコストがかかったり、実装前に複数の規制に準...