Transformer と CNN はどちらも独自の利点を持ち、視覚表現を処理する際に避けられない問題がいくつかあります。そこで、中国科学技術大学、彭城研究所、ファーウェイの研究者らは初めてこの2つを統合し、計算量を大幅に増やすことなく基本ネットワーク特性評価機能を大幅に向上できる新しいコンフォーマーモデルを提案した。この論文はICCV 2021に採択されました。 畳み込み演算は局所的な特徴を抽出するのには適していますが、全体的な表現を抽出する機能はありません。 画像の全体的な情報を認識するために、CNN は積み重ねられた畳み込み層に依存し、プーリング操作を使用して受容野を拡大する必要があります。 Visual Transformer の導入により、視覚表現における CNN の独占が打ち破られました。 自己注意メカニズムのおかげで、Visual Transformer (ViT、Deit) はグローバルかつ動的な受容野の機能を備え、画像認識タスクでより良い結果を達成しました。 ただし、計算が複雑なため、Transformer では入力解像度を下げてダウンサンプリングのステップ サイズを大きくする必要があり、パッチ分割段階で画像の詳細情報が失われます。 そこで、中国科学院大学彭城研究所とファーウェイは共同で、TransformerとCNNを統合したConformerベースのネットワークモデルを提案しました。 Conformer モデルは、計算量を大幅に増やすことなく、基本ネットワーク表現機能を大幅に向上させることができます。現在、この論文はICCV 2021に採択されています。 論文アドレス: https://arxiv.org/abs/2105.03889 プロジェクトアドレス: https://github.com/pengzhiliang/Conformer さらに、Conformer には並列 CNN ブランチと Transformer ブランチが含まれており、機能結合モジュールを通じてローカル機能とグローバル機能を融合し、画像の詳細を失うことなくグローバルな画像情報を取得することを目指しています。 特徴マップの視覚化 比較的複雑な背景を持つ画像の特徴を視覚化して、Conformer がローカル情報とグローバル情報をキャプチャする機能を示します。
ネットワーク構造Conformer は並列デュアルネットワーク構造であり、CNN ブランチは ResNet 構造を採用し、Transformer ブランチは ViT 構造を採用しています。 ネットワーク構造図 (c) は Conformer のサムネイルを示しています。標準的な ResNet ステム構造、2 つの並列ブランチ、および 2 つの分類器です。 (b) は、各ブロックにおける Trans と Conv の接続関係を示しています。2 つのボトルネックを例にとると、最初のボトルネックの 3x3 畳み込み後のローカル特徴は、特徴結合モジュール (FCU) を介して Transformer ブロックに渡されます。 Transformer ブロックは、このローカル機能を前の Trans ブロックのグローバル機能に追加し、現在の Trans ブロックに渡します。操作が完了すると、結果は FCU モジュールを介して Conv ブロックに返されます。 Conv ブロックの最後のボトルネックでは、1x1 畳み込みの後にローカル特徴に追加し、それらを一緒に 3x3 畳み込みに入力します。 Transformer ブロックが 2 つの 3x3 畳み込みの間に挟まれている理由は 2 つあります。
実験結果Conformer ネットワークは、ImageNet での分類実験に使用され、MSCOCO でのオブジェクト検出およびインスタンス分割実験用の事前トレーニング済みモデルとして使用されました。 分類精度の比較 3770 万のパラメータと 10.6GFlops の計算能力を持つ Conformer-S は、8660 万のパラメータと 17.6GFlops の計算能力を持つ DeiT-B を約 1.6% 上回る精度を達成しました。 Conformer-S がパラメータ数を 83.3M に増やすと、精度は 84.1% に達します。 異なるベースネットワークの分類速度と精度の比較: オブジェクト検出とインスタンスセグメンテーションの結果の比較 実行中のフレーム レートは次のとおりです。 オブジェクト検出とインスタンスセグメンテーションのフレームレート比較 FPN + Faster Mask R-CNN フレームワークを使用する場合、Conformer-S/32 は、同等のフレーム レート、パラメーター、計算複雑度で、オブジェクト検出精度で Faster RCNN を 3.7%、インスタンス セグメンテーションで Mask R-CNN を 3.6% 上回ります。 分析の概要Conformer は、初の並列 CNN と Transformer のハイブリッド ネットワークです。提案された機能結合モジュール FCU を通じて、各ステージのローカル機能とグローバル機能が相互作用し、Conformer は両方の利点を活用できるようになります。 分類に関しては、より小さなパラメータと計算量でより高い精度を達成することができ、ターゲットとインスタンスのセグメンテーションにおいても大幅な改善を達成することができます。 現在、Conformer は ImageNet1K データセットでのみトレーニングされています。より大きな事前トレーニングデータセット (ImageNet21K など) と組み合わせると、非常に有望なベースネットワーク構造になります。 著者について中国科学院大学修士課程の彭志良さんと黄偉さん 彭城研究所のエンジニア、顧山志氏 彭城研究所研究員 王耀偉 ファーウェイの研究員、謝玲希氏 中国科学院大学教授の焦建斌氏と葉其祥氏 |
<<: 5G、AI、クラウドコンピューティング…東京五輪の裏側にある「ブラックテクノロジー」を徹底検証
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
みなさんこんにちは。私の名前はティムです。 GPT モデルの誕生以来、そのパラメータスケールは継続的...
[[183486]]医療、金融、交通、教育、公安、小売、商業サービスなどの業界は、電子データの度合...
業界をリードするモノのインターネット(IoT)人工知能サービス企業であるUnisoundは、約3年間...
クラスの不均衡: 希少疾患の機械学習データセット(陽性が約 8%)があるとします。この場合、トレーニ...
あらゆる種類の機械学習 (ML) の問題に取り組む場合、選択できるさまざまなアルゴリズムがあります。...
近年、人工知能の進歩により、私たちのコミュニティの安全性は大幅に向上しました。この技術は、緊急管理者...
人工知能により、認知能力は高いが表現能力が限られている人でも、自分の考えを表現したり、物語を創作した...
顔認識は皆さんもよくご存知だと思います。過去2年間、顔認識技術の急速な発展に伴い、「顔スキャン」は徐...
IoT テクノロジーは、精神疾患に苦しむ患者の健康状態を改善する専門家の支援を補完することができます...
現在、デジタル変革の潮流に直面し、ビッグデータ、クラウドコンピューティング、ブロックチェーン、Dev...
[51CTO.comからのオリジナル記事] 2018年、人工知能は人類が未来を創造するための最も輝か...