この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 トランスフォーマーはビジョンにおいて大きな成功を収め、その主要な派生型は頻繁にチャートのトップにランクインしています。最も強いのはどれでしょうか? 初期の頃は、注意メカニズムが最も大きな貢献をしたと考えられており、注意モジュールに多くの改良が加えられました。 その後の研究では、注意を空間 MLPに置き換えることもうまく機能し、フーリエ変換モジュールを使用してもパフォーマンスの 97% を維持できることがわかりました。 論争の真っ只中、ヤン・シュイチェン氏のチームによる最新の論文は、異なる見解を示している。
彼らは、Transformer の attention モジュールを単純な空間プーリング演算子に置き換え、新しいモデルをPoolFormerと名付けました。 ここでの元の発言は非常に興味深いです。「恥ずかしいほど単純です」... テスト結果では、PoolFormer は ImageNet-1K で82.1% のトップ 1 精度を達成しました。 (PyTorch バージョンのコードは論文とともに GitHub で公開されており、アドレスはこのツイートの最後で入手できます。) 同じパラメータ サイズの場合、単純なプーリング モデルは、アテンション (DeiT など) または MLP モジュール (ResMLP など) を使用した適切に調整されたモデルよりも優れています。 この結果を見て、見ていた CV ユーザーの中にはびっくりする人もいました。 とても興味があるのですが、モデルが恥ずかしくなるにはどれくらいシンプルである必要があるのでしょうか? プールフォーマー全体的な構造は他のモデルと似ていますが、PoolFormer ではトークン ミキサー部分のみが変更されています。 主な目的は視覚タスクの検証であるため、入力データの形式はチャネルファーストであると想定し、プーリング演算子は次のように記述されます。 PyTorch スタイルの疑似コードはおそらく次のようになります。 プーリング演算子の複雑さは、自己注意や空間 MLP よりも小さく、処理されるシーケンスの長さに線形に関係します。 学習可能なパラメータがないため、従来の CNN と同様の段階的なアプローチを使用してパフォーマンスを最大限に活用できます。このモデルは4 つのステージに分かれています。 合計で L 個の PoolFormer ブロックがあると仮定すると、4 つのステージは L/6、L/6、L/2、および L/6 として割り当てられます。 各ステージの具体的なパラメータは次のとおりです。 PoolFormer の基本を紹介したので、他のモデルとパフォーマンスを比較してみましょう。 1 つ目は画像分類タスクです。比較モデルは 3 つのカテゴリに分かれています。
ImageNet-1K では、PoolFormer は累積乗算加算演算 (MAC) とパラメータ サイズの両方において、同様のサイズの他のモデルよりも優れています。 COCO データセットは、ターゲット検出とインスタンス セグメンテーションのタスクに使用されました。両方のタスクにおいて、PoolFormer はより少ないパラメータで ResNet よりも高いパフォーマンスを達成しました。 △ターゲット検出 △インスタンスセグメンテーション 最後に、ADE20Kセマンティック セグメンテーションタスクでは、PoolFormer は ResNet、ResNeXt、PVT よりも優れたパフォーマンスを発揮しました。 アブレーション実験上記のように、PoolFormer はいくつかの主要な視覚タスクで競争力のある結果を達成しました。 しかし、これは本論文の冒頭で述べた点を裏付けるには不十分です。 全体的なアーキテクチャは重要ですか?それとも、PoolFormer のプーリング モジュールは、シンプルだが効果的なトークン ミキサーなのでしょうか? チームの検証方法は、プーリング モジュールをアイデンティティ マッピングに直接置き換えることです。 結果は驚くべきもので、置換後、ImageNet-1K では 74.3% の Top-1 精度が維持されました。 これを踏まえると、プーリングカーネルのサイズ、正規化方法、および活性化関数を変更してもほとんど影響はありません。 最も重要なのは、4 つのステージで注意や空間完全接続層などのメカニズムを混合しても、パフォーマンスに大きな影響を与えないことです。 特に、最初の 2 つのステージでのプーリングと最後の 2 つのステージでの注意の組み合わせが優れたパフォーマンスを発揮することが観察されています。 この構成では、スケールをわずかに増やすだけで 81% の精度を達成できます。比較すると、ResMLP-B24 モデルでは、同じパフォーマンスを実現するために、パラメーター スケールを 7 倍、累積乗算と加算を 8.5 倍必要とします。 最後に、アブレーション実験の結果は、Transformer のトークン ミキサー部分に関しては、使用される特定の方法は重要ではないことを示しています。 モデルのサイズを大きくせずにパフォーマンスを向上させるには、ネットワークの全体的な構造が最も重要です。 この全体的な構造はチームによって改良され、 MetaFormerと名付けられました。 NLP でもそれは当てはまるでしょうか?この研究は、ヤン・シュイチェン氏が率いるSea AI Labとシンガポール国立大学のメンバーによって実施された。
△ ヤン・シュイチェン 論文の最後で、研究チームは次の研究の方向性として、自己教師学習や転移学習など、より多くのシナリオで検証を続けることを挙げた。 視覚的なタスクに加えて、結論が NLP タスクにも有効かどうかを確認する必要があります。 この論文を発表するもう一つの目的があります。
論文の宛先: GitHub リポジトリ: |
<<: Googleの華博士がICCV2021で新モデルを発表、卵を泡立てるだけでパンケーキを作りたいかどうかがわかる
現在、莫大な研究開発費と長い研究開発サイクルが、製薬会社の研究開発とイノベーションにおける「障害」に...
[[248203]]バイオテクノロジーの進歩により、人間の寿命は今後も延び続け、社会の家族構成、結婚...
1. はじめにインターネットに溢れる AI 関連の情報の大半は、一般の人向けに進歩を説明するものと、...
噂は本当で、Microsoft は大規模な言語モデルのトレーニングに使用できるカスタム AI チップ...
[[408894]]河南省鄭州市では7月1日、鄭東新区で自動運転バスと自動運転乗用車が運用開始され、...
これらの AI 搭載ガジェットはあなたの家をスマートにします。 『2001年宇宙の旅』の全知全能のH...
周知のとおり、宣伝されている ChatGPT は Python や Java を含む複数の言語でコー...
1. 世界モデル「世界モデル」という用語は認知科学に由来しており、認知科学ではメンタルモデルと呼ばれ...
[[191977]]現在、機械学習のトレンドは、従来の方法のシンプルなモデル + 少量データ (手動...
[[386945]]私はかつて「ウォーリーと一緒に星を見上げる」というタイトルの記事を書き、ビッグ...
ほとんどの人にとって、あるオブジェクトを別のオブジェクトの上に重ねることは簡単な作業です。しかし、最...