最近では、多層パーセプトロン (MLP) が CV 分野の重要な研究テーマとなっています。Google、清華大学などの研究者は、MLP と新しい注意メカニズムのみで構築された視覚アーキテクチャを次々と提案しています。これらの研究により、CV 研究の焦点は MLP に向けられました。最近、Facebook は、データ効率の高いトレーニングによる画像分類用の純粋な MLP アーキテクチャである ResMLP を提案しました。最新のトレーニング方法を使用すると、このアーキテクチャは ImageNet データセットで比較的良好なパフォーマンスを実現します。 数日前、Google が提案した MLP-Mixer が CV 界で大騒ぎになりました。畳み込みやアテンション メカニズムは必要なく、MLP のみで CNN や ViT に匹敵するパフォーマンスを実現できます。 同様に、清華大学の Jittor チームは、「外部注意」と呼ばれる新しい注意メカニズムを提案しました。これは、2 つの外部の小さな学習可能な共有メモリに基づいています。これは、既存の一般的な学習アーキテクチャの「自己注意」を、2 つのカスケード線形層と正規化層のみで置き換えることができ、線形層と注意メカニズムの関係をさらに明らかにしました。さらに、清華大学の Ding Guiguang のチームは、MLP を畳み込みネットワークの一般的なコンポーネントとして使用して、複数のタスクのパフォーマンスを向上させました。 MLP->CNN->Transformer->MLP という流れがトレンドになっているようです。 最近、Facebook の研究者は、画像分類用の純粋な多層パーセプトロン (MLP) アーキテクチャである ResMLP (Residual Multi-Layer Perceptron) を提案することで、この傾向をさらに推進しました。 論文リンク: https://arxiv.org/pdf/2105.03404.pdf アーキテクチャは非常にシンプルです。平坦化された画像パッチを入力として受け取り、それを線形層に投影し、次に 2 つの残差操作 ((i) すべてのチャネルに対して独立した単純な線形パッチ相互作用層、および (ii) すべてのパッチに対して独立した単一の隠し層を持つ MLP) を使用して投影された特徴を更新します。ネットワークの最後では、これらのパッチが平均的にプールされ、線形分類器に送られます。 このアーキテクチャは ViT にヒントを得ていますが、よりシンプルです。いかなる形式の注意メカニズムも使用せず、GELU 非線形アクティベーション関数を備えた線形レイヤーのみが含まれています。このアーキテクチャは、Transformer トレーニングよりも安定しており、特定のバッチまたはクロスチャネル正規化 (Batch-Norm、GroupNorm、LayerNorm など) を必要としません。トレーニング プロセスは基本的に DeiT と CaiT のトレーニング方法を継続します。 ResMLP の線形特性により、モデル内のパッチの相互作用は簡単に視覚化および解釈できます。最初の層で学習された相互作用パターンは小さな畳み込みフィルターと非常に似ていますが、研究者はより深い層のパッチ間のより微妙な相互作用を観察しました。これには、特定の形式の軸フィルターと、ネットワークの初期の長期的な相互作用が含まれます。 建築的アプローチResMLP の具体的なアーキテクチャは、以下の図 1 に示されており、パス平坦化構造を採用しています。 全体的なプロセスResMLP は、N×N の重複しないパッチのグリッドを入力として受け取ります。ここで、N は通常 16 です。これらの重複しないパッチは、独立して線形層を通過し、N^2 d 次元埋め込みを形成します。次に、生成された N^2 d 次元埋め込みが残差 MLP レイヤーのシーケンスに入力され、N^2 d 次元出力埋め込みが生成されます。これらの出力埋め込みは、画像を表す d 次元ベクトルに再び平均化され、線形分類器に送られて、画像に関連付けられたラベルを予測します。トレーニングではクロスエントロピー損失が使用されます。 残留マルチセンサー層 ネットワーク シーケンス内のすべてのレイヤーは、線形サブレイヤー + フィードフォワード サブレイヤーという同じ構造を持ちます。 Transformer レイヤーと同様に、各サブレイヤーはスキップ接続で並列化されます。研究者らは、式(1)のアフィン変換を用いると、層の正規化がなくても訓練が安定するため、層の正規化を使用しなかった。 研究者らは、残差ブロックごとに 2 つのアフィン変換を使用しました。事前正規化として、Aff はレイヤー正規化を置き換え、チャネルごとの統計を使用しなくなりました。残差ブロックの後処理として、Affはレイヤースケーリング(LayerScale)を実装しており、後正規化中に[50]と同じ小さな値の初期化を使用することができます。両方の変換は推論時に線形レイヤーに統合されます。 さらに、研究者らはフィードフォワードサブレイヤーにTransformerと同じ構造を採用し、ReLU非線形性の代わりにGELU関数のみを使用しました。 Transformerレイヤーとの主な違いは、研究者が自己注意を次の式(2)で定義される線形相互作用に置き換えた点である。 ViTとの関係ResMLP は ViT モデルを大幅に簡略化したものですが、次のような違いがあります。
実験結果研究者らは、1,000 個のオブジェクト カテゴリに均等に分散された 120 万枚の画像を含む ImageNet-1k データセットでモデルをトレーニングしました。彼らは実験で、教師あり学習と知識蒸留という 2 つのトレーニング パラダイムを採用しました。 まず、研究者らは、教師あり学習フレームワークにおいて ResMLP を Transformer および convnet と比較しました。下の表 1 に示すように、ResMLP は比較的良好な Top-1 精度を達成しました。 次に、知識蒸留を使用してモデルの収束性を改善します。結果を以下の表 2 に示します。 DeiT モデルと同様に、ResMLP は convnet 蒸留から大きなメリットを得ることができます。 実験では、転移学習における ResMLP のパフォーマンスも評価します。以下の表 3 は、さまざまな画像ベンチマークにおけるさまざまなネットワーク アーキテクチャのパフォーマンスを示しています。使用されたデータセットは、CIFAR-10、CIFAR100、Flowers-1022、Stanford Cars、iNaturalist です。 重量スパース性の測定も研究者の関心事の一つです。下の図 2 の ResMLP-24 の線形層の視覚化は、線形通信層がスパースであることを示しており、より詳細な定量分析は下の図 3 に示されています。結果は、3 つのマトリックスすべてがスパースであり、パッチ通信を実装するレイヤーは大幅にスパースであることを示しています。 最後に、研究者らは MLP の過剰適合制御を調査し、下の図 4 の制御実験における一般化の問題を調査しました。 |
<<: 自動運転競争が熱を帯び、実用化への道が始まろうとしている
>>: ドローンを使って「国勢調査」を実施?人だけでなく動物も!
7月12日、XiaoIce社は新たな超自然音声技術をリリースした。この技術により、AI 音声の自然さ...
米国のハーバード大学とエモリー大学の研究者らが協力し、ヒト幹細胞から抽出した心筋細胞を使った「人工魚...
2017年杭州雲奇大会が11日、杭州で開催されました。8年前のアリババクラウド開発者会議から8年後...
生成 AI により、機械はコンテンツを作成し、人間の行動を模倣し、創造的な仕事に貢献できるようになり...
教師あり学習とは何ですか?教師あり学習は機械学習のサブセットであり、機械学習モデルの入力データにラベ...
IDC によると、世界のデータ量は 2018 年の 33ZB から 2025 年には 175ZB に...
[[420938]]現在、人工知能や5Gなどの技術の助けを借りて、我が国のドローン開発は急速な成長の...
[[437857]]ガートナーは、世界の人工知能(AI)ソフトウェアの収益が2022年に625億米...
過去数年間、テクノロジー業界は半導体サプライチェーンにおける前例のない混乱の影響を感じてきました。研...
クイズ番組「ジェパディ」の優勝者や囲碁の名人から、広告に関連した不名誉な人種プロファイリングまで、私...
昨日、配達員の動画がインターネット上で話題になった。動画では、ハミングバードデリバリーの配達員がテイ...
編集者注: ブロックチェーンと AI は、今日最もホットな 2 つの技術方向であると言えます。一般の...
プラスチック廃棄物が海洋生物にとって常に恐ろしい脅威となっていることは誰もが知っているはずです。しか...