MLP は視覚研究に潜在的な驚きをもたらすでしょうか?最近のMLP画像分類作業の概要と分析

MLP は視覚研究に潜在的な驚きをもたらすでしょうか?最近のMLP画像分類作業の概要と分析

画像分類は、コンピューター ビジョン研究において常に非常に基本的で重要なタスクです。過去 10 年間はディープラーニングが主流でしたが、一般的な畳み込みニューラル ネットワーク (CNN) の基本パラダイムは一般的に継承されてきました。ほとんどのアイデアは、さまざまなネットワーク モデルの設計とモジュールの革新に焦点を当てており、畳み込みニューラル ネットワーク自体の確立されたフレームワークを直接破壊する研究はほとんどありません。自然言語処理タスクにおける Transformer の成功に続いて、注目メカニズムも視覚タスクで多くの注目を集めて応用されており、その作業のほとんどはパフォーマンス向上の非常に効果的な部分であると考えられています。

しかし最近、Google Brain、オックスフォード、清華大学などの研究機関が、視覚分類における多層パーセプトロン (MLP) の役割に関する独自の再配置を発表し、幅広い学術的思考を呼び起こしました。ディープラーニング ネットワークは、CNN から始まる一連のバックボーンの変更を経て、通常の単純な多層 MLP パラダイムに再び収束したのでしょうか? MLP フレームワークは普遍的でしょうか? その潜在的な科学的研究価値と商業的価値はどれほど高いのでしょうか?新しいフレームワークは、将来の視覚研究と技術アプリケーションにどのような潜在的な可能性と革新的なインスピレーションをもたらすでしょうか?

上記の問題に基づき、著者が最近読んだ 3 つの MLP 論文と組み合わせて、本稿ではニューラル ネットワーク モデルに関連する画像分類タスクの簡単な開発レビューを行います。次に、最近提案された 3 つの論文について、それらで言及されている方法を要約して見解を洗練し、そのような研究の重要性と将来の可能性をまとめようとします。

0. ニューラルネットワーク画像分類の開発に関する簡単な紹介

実際、20世紀初頭には、Neocognitron、ConvNet、LeNetなど、画像分類にニューラルネットワークを使用する初期のプロトタイプがありました。たとえば、LeNetはデジタル認識に限定されたタスクを非常に効果的に完了し、畳み込みの概念も早くから登場しました。しかし、コンピュータの計算能力が不十分だったため、長い間それ以上の進歩はありませんでした。

2012 年に AlexNet が GPU を使用して、その年の Visual Image Classification Challenge (ImageNet) で驚異的なトップ 1 の精度を達成したという事実は、ほとんどの人にとって馴染み深いものです。その後、畳み込みニューラル ネットワーク (CNN) の畳み込み層パラダイムに基づいて、さまざまな古典的なモデルが開発されました。

2014 年から 2017 年にかけて、Inception、ResNet、VGG などのモデルはすべて非常に優れた SOTA パフォーマンスを達成しました。これらのモデルで設計された小さな畳み込みカーネル受容フィールド、マルチパス クロスレイヤー リンク、その他のモジュール設計は非常に効果的であることが証明されています。長い間、CNN はディープ ビジョン タスクを処理するためのバックボーンとして唯一の選択肢でした。さまざまな古典的な CNN ネットワーク モデルの提案と進化については、次の図を参照してください。

その後、2017 年頃に、注目メカニズムが視覚的特徴の抽出を捉えて強化するのにも非常に効果的であることが発見され、それを試すための小規模な作業が行われました。 2018年頃、もともと自然言語処理に使われていたTransformerが、視覚分類などのタスクに非常に強い転移性を持つことが判明しました。その結果、Transformerは過去2年間で視覚研究のホットトピックになりました。人々は画像のローカルブロック間の文脈関係に前例のない注目を払い、畳み込みネットワーク時代の受容野学習をさらに改善して、特徴間または画像ブロック間の関連学習へと発展させました。注意関連の研究も爆発的な成長を遂げています。例えば、Vit[9]とDeit[10]はTransformerの概念を効果的に統合した最初の研究です。DeepViT[11]は複数の注意モジュールを混合することを試みました(注意ヘッドミキシング)。CaiT[12]は、元のTransformerの注意層を学習のために2段階に分割しました。CrossViT[13]、PiT[14]、LeViT[15]、CvT[16]などの関連研究では、グローバルな長期依存関係を捉えるというTransformerの利点をさらに発展させ、プーリングなど、以前のCNNで非常に効果的であることが証明されているモジュールと組み合わせることを試み、CNNに続く新たなモデル革新につながりました。

1. 注意は分類パフォーマンスの保証となるか?

注意は必要か?フィードフォワード層のスタックはImageNetで驚くほど優れたパフォーマンスを発揮する

現在、激しい議論が交わされている MLP-Mixer モデルを紹介する前に、まずはオックスフォード大学の 4 ページにわたる研究レポートを見てみましょう。このレポートでは、「注意メカニズムは画像分類タスクのパフォーマンスを保証する鍵となるのか?」という疑問に、ある程度簡潔に答えています。 Transformer が視覚タスクに実行可能であることが証明されて以来、多くの視覚関連タスクでもこのパラダイムが適用され、一般的にパフォーマンスの向上は注意メカニズムによるものとされ、注意メカニズムはネットワークにグローバル受容野を導入し、さまざまな作業で注意モジュールの効率と有効性の向上に取り組んでいると主張しています。そこで、この論文では、ImageNetデータセットに対して「厳密に制御された変数」の画像分類実験を実施しました。注意分類ネットワークの他の構造やパラメータ設定を変更せずに、各注意ネットワーク層を単純なフィードフォワード層に置き換えました。このようにして、元のTransformerモデルは、左下の図に示すように、複数の層のフィードフォワードネットワーク層で構成されたMLP階層ネットワークと見なすことができます。

実験部分では、著者らは、Transformer分類器の現在の代表的な研究であるViTとDeiTを採用し、そのモデル構造とハイパーパラメータ設定をすべて継承し、ViTとDeitのTiny、Base、Largeネットワーク構造に基づいて、ImageNetデータセットで3つのフィードフォワードのみのモデル(FFのみ)をトレーニングしました。右上の図のトレーニング結果を参照すると、パラメータ数が多い場合、Tiny ネットワークの FF のみのモデルのパフォーマンスは、注意モデルのパフォーマンスよりも優れていません。しかし、モデルをBaseやLargeに拡大すると、フォワードパス層のみのFFのパフォーマンスは非常に驚くべきものになります。パラメータ数が比較的少ない場合、純粋なフォワードパス層のみで構成されたMLPモデルFFは、ほぼ同じかそれ以上のTop-1分類精度を達成します。これは、 MLPモデルがより複雑で大規模なネットワークで優れた表現能力を持っていることも間接的に示しています。

より公平な比較を行うために、著者らは、すべてのフォワード レイヤーを注意レイヤーに置き換え、注意のみのモデルを類推的に実装して、注意メカニズムの表現力をさらに調査しようとしました。ただし、小さなモデルで注意ネットワークを 100 エポックトレーニングした後、トップ 1 の精度は 28.2% しか達成できませんでした。上記の実験から、著者らは、優れた Transformer 分類器は、パフォーマンスを確保するために必ずしも注意モジュールを必要としないと推測しています。優れたパフォーマンスを確保するのは、画像ブロックの埋め込みか、Transformer 独自の自己完結型トレーニング プロセスである可能性があります。

下の図は、FF のみのモデルでアテンション モジュールを置き換える線形フォワード モジュールを示しています。実装が直感的でシンプルであることがわかります。興味のある読者は、これに基づいて、さらにスケーラビリティの調査や実験を行うこともできます。

全体として、この記事で提起された疑問は非常に明確であり、議論のプロセス自体も非常に興味深いものです。実験設定は比較的限定的ですが、冒頭の疑問にもある程度答えています。特定のアテンション モジュールは必ずしもパフォーマンスを保証するものではありません。同時に、この記事の非常に魅力的な点は、業界にとっての可能性を指摘している点です。実験における MLP モデルの表現力に基づいて、より大きなモデルの必要性に直面した場合、パフォーマンスを節約しながらパフォーマンスを保証する優れた代替手段になる可能性が非常に高いということです。

2. MLPは新たな視覚パラダイムとなることが期待されている

MLP-Mixer: ビジョンのためのオールMLPアーキテクチャ

オックスフォード大学の論文を通じて、多層パーセプトロン(MLP)は性能が良く、ビジュアルトランスフォーマーモデルのアテンションモジュールを置き換えた後も優れた分類性能を達成できることが分かりました。しかし、長い間注目されてきたアテンションモジュールは、単独では自立できないようです。高精度モデルをサポートする新しいコンピューティングパラダイムとして単独で存在する場合、それ自体は依然として優れたバックボーンモデルに大きく依存しています。 Google Brain が最近提案した MLP-Mixer はさらに一歩進んで、MLP モデルが従来の畳み込みネットワーク (CNN) と Transformer に続く次の視覚研究パラダイムになる可能性が高いことを示しています。

ディープラーニングの台頭以来​​、ディープラーニングは、特徴の構築や帰納的バイアスの設定を可能な限り避け、必要な視覚的特徴を生データから直接学習する傾向にあります。この学習アイデアでは、CNN は常にデフォルトの標準でした。1、2 年前、ビジュアル Transformer が SOTA 結果を達成し、別の選択肢になりました。前の 2 つとは異なり、Google が提案した MLP-Mixer 構造では、畳み込みやアテンション メカニズムが完全に廃止されています。これは完全に多層パーセプトロン構造に基づいており、基本的な行列乗算のみを使用して、空間特徴やチャネル特徴を繰り返し計算して抽出します。

MLP-Mixer の構造を下図に示します。

まず、サイズ HxW の入力画像を S 個の重複しない小さな正方形 (パッチ) にカットします。各正方形の解像度は PxP です。次に、すべての画像の正方形を、統一された線形マッピングによって、隠れた次元 C を持つテンソルに変換します。MLP-Mixer に入力されたデータは、次元 SxC の 2 次元行列テーブル X に変換されます。X は、後続の計算プロセスで複数の Mixer レイヤーを通過します。これには、a. トークン混合 MLP と b. チャネル混合 MLP の 2 種類の MLP 計算レイヤーが含まれます。X は、まずトークン混合 MLP を介して異なる正方形テンソル間の接続を計算して特徴 U を取得し、次にチャネル混合 MLP を通過してチャネル間の特徴 Y を計算します。

モデルの最後に、MLP-Mixer は共通の完全接続分類モジュールにも接続され、最終的なカテゴリ予測が完了します。また、MLP-MixerはトークンミキシングMLPを採用しているため、画像の位置エンコーディング情報を入力する必要がなく、各画像ブロックの位置に対して一定の感度を持っています。同時に、MLP-Mixerが採用しているパラメータバインディング(パラメータタイイング)により、パラメータ量を大幅に削減することができます。

実験では、ベース (B)、ラージ (L)、および巨大 (H) の 3 つのモデル サイズを使用しました。対応する MLP-Mixer モデルは、ImageNet や JFT-300M などの大規模なデータセットで事前トレーニングされただけでなく、小規模および中規模のデータセットで微調整され、MLP-Mixer の転移学習能力をさらにテストしました。一方、MLP-Mixerと比較されるモデルは、HaloNetやViTなど、CNNカテゴリやTransformerカテゴリでSOTA性能を達成しているモデルばかりです。

実験結果のまとめから、事前トレーニングであれ、微調整転送であれ、MLP-Mixer は SOTA 精度を達成していないものの、あらゆる面で現在主流の 2 つの SOTA モデルに匹敵し、効率とスループットの面でも優れた利点があることもわかります。

さらに、記事では各入力画像ブロックの重みを視覚化しており、粗いものから細かいものへ、アウトラインから徐々に具体化していく進化のプロセスが、実は CNN で視覚的特徴を抽出するプロセスと似ていることがわかります。

全体として、この記事は非常に斬新でありながら効果的なネットワーク構造を提案しています。関連する方法論は複雑ではなく、モデル構造は直感的です。実験は包括的かつ詳細です。これは、MLP 分類における非常に刺激的な先駆的な研究です。特に注目すべきは、MLP-Mixer の構造的説明において、各 MLP モジュールの順序を設定する方法や、非常に古典的なスキップ接続構造の使用を含む画像マッピングを実行する方法などが、ある側面から最初の論文でのみ FF が推測したいくつかの点を反映しているということです。つまり、特徴を埋め込んでマッピングする方法と、合理的なトレーニングと計算プロセスが、高精度モデルを支える基盤となる可能性があるということです。

学術研究の観点から見ると、MLP-Mixer の導入により、MLP ネットワーク構造が CNN と Transformer に続く第 3 のパラダイムになる可能性を秘めていることに、より多くの学者が注目するようになりました。より高度で効果的なネットワーク構造や、微調整の拡張機能も引き続き登場し、この研究分野の向上に貢献するでしょう。産業展開の観点から見ると、MLP モデルは、パフォーマンスと効率のトレードオフに苦労している多くの企業やエンジニアに新しいアイデアを提供します。現在の MLP-Mixer は最高の精度を備えたソリューションではありませんが、アテンション メカニズムに基づく Transformer よりも、効率利用やメモリ節約の点で想像力を働かせる余地があるようです。

MLP-Mixerの計算の詳細についてさらに知りたい読者は、以前の論文[7]、[8]を参照してください。

3. MLPとCNNの組み合わせ

RepMLP: 画像認識のための畳み込みを完全接続層に再パラメータ化する

清華大学の RepMLP は、MLP と CNN を組み合わせた新しい試みです。それぞれのネットワーク モジュールの利点を組み合わせて、パフォーマンスの向上を図ろうとしています。分類に限定されず、複数の視覚タスクに新たなインスピレーションを与えてくれます。完全に接続されたレイヤーは、一般的に、特徴間の長期的な依存関係や空間的な関係を確立するのに優れていますが、ローカルな特徴やパターン認識を捉えるのには向いていないことが知られています。これは、ViT などのモデルが、ローカルな特徴を確立する際に同様の問題を抱える、より大きなトレーニング セットや十分なデータ拡張を必要とする理由もある程度説明しています。そこで、本論文ではRepMLPを提案します。モデルの本体は、多層ニューラルネットワークを使用して長期的な依存関係と空間情報を抽出します。同時に、構造化された再パラメータ化を使用して、ネットワークトレーニング中に複数の畳み込みモジュールと完全な接続を並列化し、対応するローカル事前知識を抽出し、最終的に情報の融合と要約を実行します。さらに、RepMLP は再パラメータ化を巧みに使用して、推論およびトレーニング中に使用されるパラメータを再度変換し、推論モデルを合理化します。

RepMLP モデルは一般的に複雑ではありません。その構造図は次のとおりです。

<<:  AIは単細胞生物が脳なしで意図した方向に移動する仕組みを説明するのに役立つ

>>:  機械学習における次元削減とは何ですか?

ブログ    
ブログ    

推薦する

...

大企業面接のための iAsk の「スケジュール アルゴリズム」、写真 20 枚が当たる

[[341122]]この記事はWeChatの公開アカウント「Xiao Lin Coding」から転載...

Google のアルゴリズムの背後: 検索リクエストは平均 2,400 キロメートルの往復を移動する

3月12日の朝、Googleが検索リクエストを完了するのにかかった時間は1秒未満でしたが、平均往復距...

北京の平昌冬季オリンピック閉会式にAIとモバイクの自転車シェアリングが8分間強制的に介入

「人工知能、ユニークだと思います」。2月24日、北京8分監督のチャン・イーモウ氏が公演のハイライトを...

あなたが知らないかもしれないゲームにおける AI に関する 5 つの予測

コンピュータービジョン技術の急速な発展に伴い、機械学習はビデオゲーム業界、特に仮想現実の分野で広く使...

アルゴリズム | ダブルポインタはリンクリストを破る優れた魔法の武器です

今は少し理解できました。面接の過程で、面接官が私たちにコードを手書きで書くように頼むことがあります。...

人工知能はサーバーを冷却するために大量の水を必要とする

あらゆる計算集約型のアクティビティと同様に、ChatGPT のような AI システムでは大量の処理と...

RFID技術によるスマート製造

RFID 技術は、識別距離が長く、速度が速く、干渉に対する耐性が強く、複数のターゲットを同時に識別で...

平安生命保険の謝家彪氏: ビッグデータでの機械学習に Microsoft R Server を使用する

[51CTO.comより引用] 2017年12月1日~2日、51CTO主催のWOTDグローバルソフト...

...

...

ロボティック・プロセス・オートメーションは小売業界の運営と成長にどのように役立ちますか?

利益率が圧迫されている中、ロボティック・プロセス・オートメーション (RPA) を導入することでコス...

人工知能は爆発的に発展しないので、バブルには注意が必要

2016年頃から、中国では人工知能への注目が高まり続けた。インターネット大手のテンセントは同年にAI...