フィードフォワードネットワーク + 線形相互作用層 = 残差 MLP、Facebook の純粋な MLP 画像分類アーキテクチャが市場に参入

[[398872]]

最近では、多層パーセプトロン (MLP) が CV 分野の重要な研究テーマとなっています。Google、清華大学などの研究者は、MLP と新しい注意メカニズムのみで構築された視覚アーキテクチャを次々と提案しています。これらの研究により、CV 研究の焦点は MLP に向けられました。最近、Facebook は、データ効率の高いトレーニングによる画像分類用の純粋な MLP アーキテクチャである ResMLP を提案しました。最新のトレーニング方法を使用すると、このアーキテクチャは ImageNet データセットで比較的良好なパフォーマンスを実現します。

数日前、Google が提案した MLP-Mixer が CV 界で大騒ぎになりました。畳み込みやアテンションメカニズムは必要なく、MLP のみで CNN や ViT に匹敵するパフォーマンスを実現できます。

同様に、清華大学の Jittor チームは、「外部注意」と呼ばれる新しい注意メカニズムを提案しました。これは、2 つの外部の小さな学習可能な共有メモリに基づいています。これは、既存の一般的な学習アーキテクチャの「自己注意」を、2 つのカスケード線形層と正規化層のみで置き換えることができ、線形層と注意メカニズムの関係をさらに明らかにしました。さらに、清華大学の Ding Guiguang のチームは、MLP を畳み込みネットワークの一般的なコンポーネントとして使用して、複数のタスクのパフォーマンスを向上させました。

MLP->CNN->Transformer->MLP という流れがトレンドになっているようです。

最近、Facebook の研究者は、画像分類用の純粋な多層パーセプトロン (MLP) アーキテクチャである ResMLP (Residual Multi-Layer Perceptron) を提案することで、この傾向をさらに推進しました。

論文リンク: https://arxiv.org/pdf/2105.03404.pdf

アーキテクチャは非常にシンプルです。平坦化された画像パッチを入力として受け取り、それを線形層に投影し、次に 2 つの残差操作 ((i) すべてのチャネルに対して独立した単純な線形パッチ相互作用層、および (ii) すべてのパッチに対して独立した単一の隠し層を持つ MLP) を使用して投影された特徴を更新します。ネットワークの最後では、これらのパッチが平均的にプールされ、線形分類器に送られます。

このアーキテクチャは ViT にヒントを得ていますが、よりシンプルです。いかなる形式の注意メカニズムも使用せず、GELU 非線形アクティベーション関数を備えた線形レイヤーのみが含まれています。このアーキテクチャは、Transformer トレーニングよりも安定しており、特定のバッチまたはクロスチャネル正規化 (Batch-Norm、GroupNorm、LayerNorm など) を必要としません。トレーニングプロセスは基本的に DeiT と CaiT のトレーニング方法を継続します。

ResMLP の線形特性により、モデル内のパッチの相互作用は簡単に視覚化および解釈できます。最初の層で学習された相互作用パターンは小さな畳み込みフィルターと非常に似ていますが、研究者はより深い層のパッチ間のより微妙な相互作用を観察しました。これには、特定の形式の軸フィルターと、ネットワークの初期の長期的な相互作用が含まれます。

建築的アプローチ

ResMLP の具体的なアーキテクチャは、以下の図 1 に示されており、パス平坦化構造を採用しています。

全体的なプロセス

ResMLP は、N×N の重複しないパッチのグリッドを入力として受け取ります。ここで、N は通常 16 です。これらの重複しないパッチは、独立して線形層を通過し、N^2 d 次元埋め込みを形成します。次に、生成された N^2 d 次元埋め込みが残差 MLP レイヤーのシーケンスに入力され、N^2 d 次元出力埋め込みが生成されます。これらの出力埋め込みは、画像を表す d 次元ベクトルに再び平均化され、線形分類器に送られて、画像に関連付けられたラベルを予測します。トレーニングではクロスエントロピー損失が使用されます。

残留マルチセンサー層

ネットワークシーケンス内のすべてのレイヤーは、線形サブレイヤー + フィードフォワードサブレイヤーという同じ構造を持ちます。 Transformer レイヤーと同様に、各サブレイヤーはスキップ接続で並列化されます。研究者らは、式（１）のアフィン変換を用いると、層の正規化がなくても訓練が安定するため、層の正規化を使用しなかった。

研究者らは、残差ブロックごとに 2 つのアフィン変換を使用しました。事前正規化として、Aff はレイヤー正規化を置き換え、チャネルごとの統計を使用しなくなりました。残差ブロックの後処理として、Affはレイヤースケーリング（LayerScale）を実装しており、後正規化中に[50]と同じ小さな値の初期化を使用することができます。両方の変換は推論時に線形レイヤーに統合されます。

さらに、研究者らはフィードフォワードサブレイヤーにTransformerと同じ構造を採用し、ReLU非線形性の代わりにGELU関数のみを使用しました。

Transformerレイヤーとの主な違いは、研究者が自己注意を次の式(2)で定義される線形相互作用に置き換えた点である。

ViTとの関係

ResMLP は ViT モデルを大幅に簡略化したものですが、次のような違いがあります。

ResMLP は自己注意ブロックを使用せず、非線形性を備えた線形パッチ相互作用層を使用します。
ResMLP は追加の「クラス」トークンを使用せず、代わりに平均プーリングのみを使用します。
ResMLP は位置埋め込みを一切使用しません。これは、パッチ間の線形通信モジュールがパッチの位置を考慮するため必要ありません。
ResMLP はプレレイヤー正規化を採用せず、代わりに単純な学習可能なアフィン変換を使用するため、バッチレベルおよびチャネルレベルの統計を一切使用しません。

実験結果

研究者らは、1,000 個のオブジェクトカテゴリに均等に分散された 120 万枚の画像を含む ImageNet-1k データセットでモデルをトレーニングしました。彼らは実験で、教師あり学習と知識蒸留という 2 つのトレーニングパラダイムを採用しました。

まず、研究者らは、教師あり学習フレームワークにおいて ResMLP を Transformer および convnet と比較しました。下の表 1 に示すように、ResMLP は比較的良好な Top-1 精度を達成しました。

次に、知識蒸留を使用してモデルの収束性を改善します。結果を以下の表 2 に示します。 DeiT モデルと同様に、ResMLP は convnet 蒸留から大きなメリットを得ることができます。

実験では、転移学習における ResMLP のパフォーマンスも評価します。以下の表 3 は、さまざまな画像ベンチマークにおけるさまざまなネットワークアーキテクチャのパフォーマンスを示しています。使用されたデータセットは、CIFAR-10、CIFAR100、Flowers-1022、Stanford Cars、iNaturalist です。

重量スパース性の測定も研究者の関心事の一つです。下の図 2 の ResMLP-24 の線形層の視覚化は、線形通信層がスパースであることを示しており、より詳細な定量分析は下の図 3 に示されています。結果は、3 つのマトリックスすべてがスパースであり、パッチ通信を実装するレイヤーは大幅にスパースであることを示しています。

最後に、研究者らは MLP の過剰適合制御を調査し、下の図 4 の制御実験における一般化の問題を調査しました。

<<: 自動運転競争が熱を帯び、実用化への道が始まろうとしている

>>: ドローンを使って「国勢調査」を実施？人だけでなく動物も！