100,000 台以上の Vision Transformer を一度にトレーニングするにはどうすればよいでしょうか?

[[413052]]

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

長い待ち時間の後、ついに ICCV 2021 の結果が発表されます!

ICCVはTwitterで公式にこのニュースを発表し、今年は6,236件の投稿があり、最終的に1,617件の論文が採択され、採択率は25.9%で、2017年（約29%）と比較して2019年と同様に比較的低い水準にとどまったと述べました。

応募作品数は年々大幅に増加しており、2017年の2,143作品から2019年には4,328作品、そして現在は前回より約50%多い6,236作品となっています。

メールを読むときにこんな表情をしますか？

[[413053]]

正直に言うと、この役人はいたずらに関しては本当に現実的で心が痛む人です、ハハハ～

論文 ID アドレス: https://docs.google.com/spreadsheets/u/1/d/e/2PACX-1vRfaTmsNweuaA0Gjyu58H_Cx56pGwFhcTYII0u1pg0U7MbhlgY0R6Y-BbK3xFhAiwGZ26u3TAtN5MnS/pubhtml

ちょうど今日、AI Technology Review は、一度に 100,000 個の ViT をトレーニングできるという非常に印象的な研究を発見し、その論文が ICCV に受理されたばかりです。

最近、Vision Transformer (ViT) モデルは、多くの視覚タスクにおいて優れた表現力と可能性を示しています。

ストーニーブルック大学とマイクロソフトリサーチアジアの研究者は、最適な ViT モデル構造を自動的に探索する新しいネットワーク構造探索方法 AutoFormer を提案しました。

AutoFormer は、異なる構造を持つ多数の ViT モデルを一度にトレーニングし、それらのパフォーマンスを収束させることができます。

検索された構造は、手動で設計された ViT モデルと比較して、パフォーマンスが明らかに向上しています。

方法のハイライト:

多数の Vision Transformers モデルを同時にトレーニングし、個別にトレーニングした場合に近いパフォーマンスを実現します。
シンプルで効果的であり、Vision Transformer のバリアント検索に柔軟に適用できます。
ViTやDeiTなどのモデルと比較してパフォーマンスが大幅に向上します。

論文アドレス: https://arxiv.org/abs/2107.00651

コードアドレス: https://github.com/microsoft/AutoML/tree/main/AutoFormer

1. はじめに

最近の研究では、ViT は画像から強力な視覚表現を学習でき、複数の視覚タスク (分類、検出、セグメンテーションなど) で優れた能力を発揮することがわかりました。

しかし、Vision Transformer モデルの構造設計は依然として困難です。たとえば、マルチヘッドアテンションで最適なネットワークの深さ、幅、ヘッドの数を選択するにはどうすればよいでしょうか。

著者の実験により、これらの要因はモデルの最終的なパフォーマンスに密接に関連していることがわかりました。しかし、探索空間が非常に大きいため、それらの最適な組み合わせを人工的に見つけることは困難です。

図1: さまざまな検索次元の変更はモデルのパフォーマンスに大きな影響を与える可能性があります

この論文の著者らは、Vision Transformer 構造に特化した新しい Neural Architecture Search (NAS) 手法 AutoFormer を提案しています。 AutoFormer は、構造を手動で設計するコストを大幅に節約し、さまざまなコンピューティング制約の下で ViT モデルのさまざまな次元の最適な組み合わせを自動的かつ迅速に検索できるため、さまざまな展開シナリオでのモデル設計が簡単になります。

図 2: AutoFormer の構造の概略図。トレーニングの各反復で、スーパーネットは対応する部分重みを動的に変更し、更新します。

2. 方法

一般的なワンショットNAS法[1, 2, 3]では、通常、計算オーバーヘッドを節約するために重み共有アプローチを採用しています。探索空間は重み共有スーパーネットにエンコードされ、スーパーネットの重みは探索空間の構造重みの推定値として使用されます。具体的な検索プロセスは 2 つのステップに分けられます。最初のステップは、次の式に示すように、スーパーネットの重みを更新することです。

2 番目のステップは、トレーニングされたスーパーネットの重みを使用して、検索空間内の構造を検索することです。

実験中、著者らは、古典的なワンショット NAS 法の重み共有法を Vision Transformer の構造検索に効果的に適用することが難しいことを発見しました。これは、従来の方法では通常、構造間で重みを共有するだけで、同じレイヤー内の異なる演算子の重みを分離するためです。

図 3 に示すように、Vision Transformer の検索空間では、この従来の戦略では収束が遅く、パフォーマンスが低下します。

図 3. 重みエンタングルメントと従来の重み共有のトレーニングとテストの比較。

OFA [4]、BigNAS [5]、Slimmableネットワーク[6、7]などの研究に触発され、著者らは新しい重み共有方法である重みエンタングルメントを提案した。

図 4 に示すように、重みエンタングルメントは異なる構造間で重みをさらに共有し、同じレイヤー内の異なる演算子が互いに影響を及ぼし、更新できるようにします。実験では、従来の重み共有方法と比較して、重みエンタングルメントにはビデオメモリの使用量が少なく、スーパーネットの収束が速く、スーパーネットのパフォーマンスが向上するという利点があることが示されています。

同時に、重みの絡み合いにより、さまざまな演算子をより完全にトレーニングできるため、AutoFormer は一度に多数の ViT モデルをトレーニングし、それらを収束に近づけることができます。（詳細は実験セクションを参照）

図4 重みエンタングルメントと重み共有の比較図

3. 実験

著者らは、1.7x10^17を超える代替構造を持つ巨大な検索空間を設計しました。検索次元には、ViT モデルの5 つの主要な変数要素、つまり幅 (埋め込み次元)、QKV 次元 (QKV 次元)、ヘッド数 (ヘッド数)、MLP 比率 (MLP 比率)、ネットワーク深度 (ネットワーク深度) が含まれます。詳細については、表 1 を参照してください。

表1: AutoFormerの探索空間

この方法の有効性を検証するために、著者らは、AutoFormer によって検索された構造を、最近提案された ViT モデルおよび ImageNet 上の従来の CNN モデルと比較しました。

トレーニングプロセスでは、著者らはDeiT [8]に類似したMixup、Cutmix、RandAugmentなどのデータ拡張手法を採用した。スーパーネットの具体的なトレーニングパラメータを表2に示す。すべてのモデルは 16 個の Tesla V100 GPU でトレーニングおよびテストされています。

表2. スーパーネットのトレーニングパラメータ

図 5 と表 3 に示すように、検索された構造は、ImageNet データセット上の既存の ViT モデルよりも大幅に優れています。

表3: ImageNetテストセットにおける各モデルの結果

表 4 からわかるように、下流タスクでは、AutoFormer は依然として優れたパフォーマンスを発揮し、計算労力のわずか 25% で既存の ViT モデルおよび DeiT モデルを上回り、その強力な一般化能力を実証しています。

表4: 下流分類タスクの転移学習の結果

同時に、図 5 に示すように、重みエンタングルメントを使用することで、AutoFormer は数千の Vision Transformers モデルを同時に適切にトレーニングできます (青い点は、検索空間から選択された 1,000 のより優れた構造を表します)。

検索後に構造を再トレーニングする必要がなくなり、検索時間が節約されるだけでなく、さまざまなコンピューティングリソースの制約下で最適な構造を迅速に検索できるようになります。

図 5: 左: AutoFormer は多数の構造を同時にトレーニングし、収束に近づけることができます。青い点は、検索空間から選択された 1000 個の最良の構造を表します。右: ImageNet 上のモデルの比較

4. 結論

この論文では、Vision Transformer 構造検索に特化した新しいワンショット NAS メソッド AutoFormer を提案します。 AutoFormer には、Weight Engtanglement という新しい重量共有メカニズムが搭載されています。このメカニズムにより、検索空間内のネットワーク構造をほぼ完全にトレーニングできるため、構造検索後の再トレーニングの時間が節約されます。広範囲にわたる実験により、提案されたアルゴリズムはスーパーネットのソート能力を向上させ、高性能な構造を見つけることができることが示されています。記事の最後で、著者はこの記事を通じて手動の ViT 構造設計と NAS+Vision Transformer へのインスピレーションを提供したいと考えています。今後の研究では、著者らは探索空間をさらに充実させ、重みエンタングルメントの理論的分析を行う予定です。

<<: サイバーセキュリティにおける AI と機械学習の 7 つのプラスとマイナスの影響

>>: CPP アルゴリズム問題のための共通コンテナ技術