フィードフォワードネットワーク + 線形相互作用層 = 残差 MLP、Facebook の純粋な MLP 画像分類アーキテクチャが市場に参入

フィードフォワードネットワーク + 線形相互作用層 = 残差 MLP、Facebook の純粋な MLP 画像分類アーキテクチャが市場に参入

[[398872]]

最近では、多層パーセプトロン (MLP) が CV 分野の重要な研究テーマとなっています。Google、清華大学などの研究者は、MLP と新しい注意メカニズムのみで構築された視覚アーキテクチャを次々と提案しています。これらの研究により、CV 研究の焦点は MLP に向けられました。最近、Facebook は、データ効率の高いトレーニングによる画像分類用の純粋な MLP アーキテクチャである ResMLP を提案しました。最新のトレーニング方法を使用すると、このアーキテクチャは ImageNet データセットで比較的良好なパフォーマンスを実現します。

数日前、Google が提案した MLP-Mixer が CV 界で大騒ぎになりました。畳み込みやアテンション メカニズムは必要なく、MLP のみで CNN や ViT に匹敵するパフォーマンスを実現できます。

同様に、清華大学の Jittor チームは、「外部注意」と呼ばれる新しい注意メカニズムを提案しました。これは、2 つの外部の小さな学習可能な共有メモリに基づいています。これは、既存の一般的な学習アーキテクチャの「自己注意」を、2 つのカスケード線形層と正規化層のみで置き換えることができ、線形層と注意メカニズムの関係をさらに明らかにしました。さらに、清華大学の Ding Guiguang のチームは、MLP を畳み込みネットワークの一般的なコンポーネントとして使用して、複数のタスクのパフォーマンスを向上させました。

MLP->CNN->Transformer->MLP という流れがトレンドになっているようです。

最近、Facebook の研究者は、画像分類用の純粋な多層パーセプトロン (MLP) アーキテクチャである ResMLP (Residual Multi-Layer Perceptron) を提案することで、この傾向をさらに推進しました。

論文リンク: https://arxiv.org/pdf/2105.03404.pdf

アーキテクチャは非常にシンプルです。平坦化された画像パッチを入力として受け取り、それを線形層に投影し、次に 2 つの残差操作 ((i) すべてのチャネルに対して独立した単純な線形パッチ相互作用層、および (ii) すべてのパッチに対して独立した単一の隠し層を持つ MLP) を使用して投影された特徴を更新します。ネットワークの最後では、これらのパッチが平均的にプールされ、線形分類器に送られます。

このアーキテクチャは ViT にヒントを得ていますが、よりシンプルです。いかなる形式の注意メカニズムも使用せず、GELU 非線形アクティベーション関数を備えた線形レイヤーのみが含まれています。このアーキテクチャは、Transformer トレーニングよりも安定しており、特定のバッチまたはクロスチャネル正規化 (Batch-Norm、GroupNorm、LayerNorm など) を必要としません。トレーニング プロセスは基本的に DeiT と CaiT のトレーニング方法を継続します。

ResMLP の線形特性により、モデル内のパッチの相互作用は簡単に視覚化および解釈できます。最初の層で学習された相互作用パターンは小さな畳み込みフィルターと非常に似ていますが、研究者はより深い層のパッチ間のより微妙な相互作用を観察しました。これには、特定の形式の軸フィルターと、ネットワークの初期の長期的な相互作用が含まれます。

建築的アプローチ

ResMLP の具体的なアーキテクチャは、以下の図 1 に示されており、パス平坦化構造を採用しています。

全体的なプロセス

ResMLP は、N×N の重複しないパッチのグリッドを入力として受け取ります。ここで、N は通常 16 です。これらの重複しないパッチは、独立して線形層を通過し、N^2 d 次元埋め込みを形成します。次に、生成された N^2 d 次元埋め込みが残差 MLP レイヤーのシーケンスに入力され、N^2 d 次元出力埋め込みが生成されます。これらの出力埋め込みは、画像を表す d 次元ベクトルに再び平均化され、線形分類器に送られて、画像に関連付けられたラベルを予測します。トレーニングではクロスエントロピー損失が使用されます。

残留マルチセンサー層

ネットワーク シーケンス内のすべてのレイヤーは、線形サブレイヤー + フィードフォワード サブレイヤーという同じ構造を持ちます。 Transformer レイヤーと同様に、各サブレイヤーはスキップ接続で並列化されます。研究者らは、式(1)のアフィン変換を用いると、層の正規化がなくても訓練が安定するため、層の正規化を使用しなかった。

研究者らは、残差ブロックごとに 2 つのアフィン変換を使用しました。事前正規化として、Aff はレイヤー正規化を置き換え、チャネルごとの統計を使用しなくなりました。残差ブロックの後処理として、Affはレイヤースケーリング(LayerScale)を実装しており、後正規化中に[50]と同じ小さな値の初期化を使用することができます。両方の変換は推論時に線形レイヤーに統合されます。

さらに、研究者らはフィードフォワードサブレイヤーにTransformerと同じ構造を採用し、ReLU非線形性の代わりにGELU関数のみを使用しました。

Transformerレイヤーとの主な違いは、研究者が自己注意を次の式(2)で定義される線形相互作用に置き換えた点である。

ViTとの関係

ResMLP は ViT モデルを大幅に簡略化したものですが、次のような違いがあります。

  • ResMLP は自己注意ブロックを使用せず、非線形性を備えた線形パッチ相互作用層を使用します。
  • ResMLP は追加の「クラス」トークンを使用せず、代わりに平均プーリングのみを使用します。
  • ResMLP は位置埋め込みを一切使用しません。これは、パッチ間の線形通信モジュールがパッチの位置を考慮するため必要ありません。
  • ResMLP はプレレイヤー正規化を採用せず、代わりに単純な学習可能なアフィン変換を使用するため、バッチレベルおよびチャネルレベルの統計を一切使用しません。

実験結果

研究者らは、1,000 個のオブジェクト カテゴリに均等に分散された 120 万枚の画像を含む ImageNet-1k データセットでモデルをトレーニングしました。彼らは実験で、教師あり学習と知識蒸留という 2 つのトレーニング パラダイムを採用しました。

まず、研究者らは、教師あり学習フレームワークにおいて ResMLP を Transformer および convnet と比較しました。下の表 1 に示すように、ResMLP は比較的良好な Top-1 精度を達成しました。

次に、知識蒸留を使用してモデルの収束性を改善します。結果を以下の表 2 に示します。 DeiT モデルと同様に、ResMLP は convnet 蒸留から大きなメリットを得ることができます。

実験では、転移学習における ResMLP のパフォーマンスも評価します。以下の表 3 は、さまざまな画像ベンチマークにおけるさまざまなネットワーク アーキテクチャのパフォーマンスを示しています。使用されたデータセットは、CIFAR-10、CIFAR100、Flowers-1022、Stanford Cars、iNaturalist です。

重量スパース性の測定も研究者の関心事の一つです。下の図 2 の ResMLP-24 の線形層の視覚化は、線形通信層がスパースであることを示しており、より詳細な定量分析は下の図 3 に示されています。結果は、3 つのマトリックスすべてがスパースであり、パッチ通信を実装するレイヤーは大幅にスパースであることを示しています。

最後に、研究者らは MLP の過剰適合制御を調査し、下の図 4 の制御実験における一般化の問題を調査しました。

<<:  自動運転競争が熱を帯び、実用化への道が始まろうとしている

>>:  ドローンを使って「国勢調査」を実施?人だけでなく動物も!

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

人工知能はあなたよりも多くの XXX スターを知っている

[[206395]]さまざまな興味の組み合わせに応じて必要な動画を検索できるのは、毎日無数の動画コン...

仕事の未来: 2030 年までに消滅する仕事はどれでしょうか?

[[397136]]自動化と人工知能が急速に進歩する時代において、2030年までに仕事は消滅するで...

...

GPT-4/Gemini は惨敗、旅行ガイド作成の成功率は ≈ 0% です!復旦大学OSUと他の中国チーム:エージェントは複雑なタスクを計画できない

AI エージェントは現在、学界で注目の話題であり、多くの専門家によって大規模モデルの開発における次の...

優秀な AI 技術者が不足しています。学生たちはこの波にまだ追いつくことができるでしょうか?

ディープラーニングは、機械学習の最も重要な分野の 1 つとして、近年急速に発展しています。膨大なデー...

ヘルスケア市場における人工知能の急速な発展を理解する

COVID19パンデミックにより、医療機関は効果的な結果を達成するために人工知能(AI)ベースのソリ...

よく使われる4つの推奨アルゴリズムの一覧

[[416976]]この記事はWeChatの公開アカウント「Big Data DT」から転載したもの...

...

生成された分子は、逆分子設計の誘導拡散モデリングに対してほぼ100%有効です。

「デノボ分子設計」は材料科学の「聖杯」です。生成的ディープラーニングの導入により、この方向は大きく...

機械学習でデータを実用的な洞察に変換する

ビジネスが今やデータ主導型になっていることは誰もが知っています。データ収集の増加に伴い、分析はビジネ...

業界最高品質の AI データを作成するにはどうすればよいでしょうか?クラウドデータの成功の秘密を明かす

[[344160]] AIの実装が加速する中、AIデータのラベリングは人工知能産業の実装における重要...

推論性能はH100の10倍! 21歳の中国人男性がハーバード大学を中退しAI加速チップ「Sohu」を開発、2人の会社の価値は3400万ドル

ピカのような神レベルの起業家物語が再び起こるでしょうか?ハーバード大学を中退した2人の若者が、大規模...

...

転移学習の魔法:ディープラーニングは誰でも利用できるようになる

1 年前、私は数人の友人と機械学習 API を構築するためのオープンソース プラットフォームである ...

2025年までに機械学習市場は967億ドルに達する

4月7日、PR Newswireによると、市場調査会社Grand View Researchが最近発...