100,000 台以上の Vision Transformer を一度にトレーニングするにはどうすればよいでしょうか?

100,000 台以上の Vision Transformer を一度にトレーニングするにはどうすればよいでしょうか?

[[413052]]

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

長い待ち時間の後、ついに ICCV 2021 の結果が発表されます!

ICCVはTwitterで公式にこのニュースを発表し、今年は6,236件の投稿があり、最終的に1,617件の論文が採択され、採択率は25.9%で、2017年(約29%)と比較して2019年と同様に比較的低い水準にとどまったと述べました。

応募作品数は年々大幅に増加しており、2017年の2,143作品から2019年には4,328作品、そして現在は前回より約50%多い6,236作品となっています。

メールを読むときにこんな表情をしますか?

[[413053]]

正直に言うと、この役人はいたずらに関しては本当に現実的で心が痛む人です、ハハハ~

論文 ID アドレス: https://docs.google.com/spreadsheets/u/1/d/e/2PACX-1vRfaTmsNweuaA0Gjyu58H_Cx56pGwFhcTYII0u1pg0U7MbhlgY0R6Y-BbK3xFhAiwGZ26u3TAtN5MnS/pubhtml

ちょうど今日、AI Technology Review は、一度に 100,000 個の ViT をトレーニングできるという非常に印象的な研究を発見し、その論文が ICCV に受理されたばかりです。

最近、Vision Transformer (ViT) モデルは、多くの視覚タスクにおいて優れた表現力と可能性を示しています。

ストーニーブルック大学とマイクロソフトリサーチアジアの研究者は、最適な ViT モデル構造を自動的に探索する新しいネットワーク構造探索方法 AutoFormer を提案しました。

AutoFormer は、異なる構造を持つ多数の ViT モデルを一度にトレーニングし、それらのパフォーマンスを収束させることができます。

検索された構造は、手動で設計された ViT モデルと比較して、パフォーマンスが明らかに向上しています。

方法のハイライト:

  • 多数の Vision Transformers モデルを同時にトレーニングし、個別にトレーニングした場合に近いパフォーマンスを実現します。

  • シンプルで効果的であり、Vision Transformer のバリアント検索に柔軟に適用できます。

  • ViTやDeiTなどのモデルと比較してパフォーマンスが大幅に向上します。

論文アドレス: https://arxiv.org/abs/2107.00651

コードアドレス: https://github.com/microsoft/AutoML/tree/main/AutoFormer

1. はじめに

最近の研究では、ViT は画像から強力な視覚表現を学習でき、複数の視覚タスク (分類、検出、セグメンテーションなど) で優れた能力を発揮することがわかりました。

しかし、Vision Transformer モデルの構造設計は依然として困難です。たとえば、マルチヘッドアテンションで最適なネットワークの深さ、幅、ヘッドの数を選択するにはどうすればよいでしょうか。

著者の実験により、これらの要因はモデルの最終的なパフォーマンスに密接に関連していることがわかりました。しかし、探索空間が非常に大きいため、それらの最適な組み合わせを人工的に見つけることは困難です。

図1: さまざまな検索次元の変更はモデルのパフォーマンスに大きな影響を与える可能性があります

この論文の著者らは、Vision Transformer 構造に特化した新しい Neural Architecture Search (NAS) 手法 AutoFormer を提案しています。 AutoFormer は、構造を手動で設計するコストを大幅に節約し、さまざまなコンピューティング制約の下で ViT モデルのさまざまな次元の最適な組み合わせを自動的かつ迅速に検索できるため、さまざまな展開シナリオでのモデル設計が簡単になります。

図 2: AutoFormer の構造の概略図。トレーニングの各反復で、スーパーネットは対応する部分重みを動的に変更し、更新します。

2. 方法

一般的なワンショットNAS法[1, 2, 3]では、通常、計算オーバーヘッドを節約するために重み共有アプローチを採用しています。探索空間は重み共有スーパーネットにエンコードされ、スーパーネットの重みは探索空間の構造重みの推定値として使用されます。具体的な検索プロセスは 2 つのステップに分けられます。最初のステップは、次の式に示すように、スーパーネットの重みを更新することです。

2 番目のステップは、トレーニングされたスーパーネットの重みを使用して、検索空間内の構造を検索することです。

実験中、著者らは、古典的なワンショット NAS 法の重み共有法を Vision Transformer の構造検索に効果的に適用することが難しいことを発見しました。これは、従来の方法では通常、構造間で重みを共有するだけで、同じレイヤー内の異なる演算子の重みを分離するためです。

図 3 に示すように、Vision Transformer の検索空間では、この従来の戦略では収束が遅く、パフォーマンスが低下します。

図 3. 重みエンタングルメントと従来の重み共有のトレーニングとテストの比較。

OFA [4]、BigNAS [5]、Slimmableネットワーク[6、7]などの研究に触発され、著者らは新しい重み共有方法である重みエンタングルメントを提案した。

図 4 に示すように、重みエンタングルメントは異なる構造間で重みをさらに共有し、同じレイヤー内の異なる演算子が互いに影響を及ぼし、更新できるようにします。実験では、従来の重み共有方法と比較して、重みエンタングルメントにはビデオ メモリの使用量が少なく、スーパーネットの収束が速く、スーパーネットのパフォーマンスが向上するという利点があることが示されています。

同時に、重みの絡み合いにより、さまざまな演算子をより完全にトレーニングできるため、AutoFormer は一度に多数の ViT モデルをトレーニングし、それらを収束に近づけることができます。 (詳細は実験セクションを参照)

図4 重みエンタングルメントと重み共有の比較図

3. 実験

著者らは、1.7x10^17を超える代替構造を持つ巨大な検索空間を設計しました。検索次元には、ViT モデルの5 つの主要な変数要素、つまり幅 (埋め込み次元)、QKV 次元 (QKV 次元)、ヘッド数 (ヘッド数)、MLP 比率 (MLP 比率)、ネットワーク深度 (ネットワーク深度) が含まれます。詳細については、表 1 を参照してください。

表1: AutoFormerの探索空間

この方法の有効性を検証するために、著者らは、AutoFormer によって検索された構造を、最近提案された ViT モデルおよび ImageNet 上の従来の CNN モデルと比較しました。

トレーニングプロセスでは、著者らはDeiT [8]に類似したMixup、Cutmix、RandAugmentなどのデータ拡張手法を採用した。スーパーネットの具体的なトレーニングパラメータを表2に示す。すべてのモデルは 16 個の Tesla V100 GPU でトレーニングおよびテストされています。

表2. スーパーネットのトレーニングパラメータ

図 5 と表 3 に示すように、検索された構造は、ImageNet データセット上の既存の ViT モデルよりも大幅に優れています。

表3: ImageNetテストセットにおける各モデルの結果

表 4 からわかるように、下流タスクでは、AutoFormer は依然として優れたパフォーマンスを発揮し、計算労力のわずか 25% で既存の ViT モデルおよび DeiT モデルを上回り、その強力な一般化能力を実証しています。

表4: 下流分類タスクの転移学習の結果

同時に、図 5 に示すように、重みエンタングルメントを使用することで、AutoFormer は数千の Vision Transformers モデルを同時に適切にトレーニングできます (青い点は、検索空間から選択された 1,000 のより優れた構造を表します)。

検索後に構造を再トレーニングする必要がなくなり、検索時間が節約されるだけでなく、さまざまなコンピューティング リソースの制約下で最適な構造を迅速に検索できるようになります。

図 5: 左: AutoFormer は多数の構造を同時にトレーニングし、収束に近づけることができます。青い点は、検索空間から選択された 1000 個の最良の構造を表します。右: ImageNet 上のモデルの比較

4. 結論

この論文では、Vision Transformer 構造検索に特化した新しいワンショット NAS メソッド AutoFormer を提案します。 AutoFormer には、Weight Engtanglement という新しい重量共有メカニズムが搭載されています。このメカニズムにより、検索空間内のネットワーク構造をほぼ完全にトレーニングできるため、構造検索後の再トレーニングの時間が節約されます。広範囲にわたる実験により、提案されたアルゴリズムはスーパーネットのソート能力を向上させ、高性能な構造を見つけることができることが示されています。記事の最後で、著者はこの記事を通じて手動の ViT 構造設計と NAS+Vision Transformer へのインスピレーションを提供したいと考えています。今後の研究では、著者らは探索空間をさらに充実させ、重みエンタングルメントの理論的分析を行う予定です。

<<:  サイバーセキュリティにおける AI と機械学習の 7 つのプラスとマイナスの影響

>>:  CPP アルゴリズム問題のための共通コンテナ技術

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

AIの最高峰:自然言語処理

近年、世界中でますます多くの政府や企業組織が人工知能の経済的、戦略的重要性を徐々に認識し、国家戦略や...

学者がインテリジェンス、モデルとデータAI、デジタルトランスフォーメーションについて語る。このAIイベントには技術的な内容が含まれている。

2022年、学者たちは人工知能の将来の発展をどのように見ているのでしょうか?将来、AI はモデル駆...

午後を費やしてラベルのない画像10万枚にラベルを付け、上司の費用を3万ドル節約しました

[51CTO.com オリジナル記事] 上司がラベルのない写真 10 万枚を渡して、サンダル、パンツ...

デザイナーが危険にさらされています! AI広告デザイン分野におけるSuningの探求と実践

[51CTO.comより引用] 人工知能時代の到来とともに、商業デザイン分野における芸術と技術の競争...

人気は高まり続け、医療AIは業界の爆発的な成長の重要なポイントに達している

現在、世界の注目は5Gに集中しているが、人工知能の発展も軽視できない。わが国では、継続的な優遇政策の...

Googleの創設者が個人的にGeminiのコードを書いたが、これは非常に核心的なものだ

純資産が1,050 億ドルあるにもかかわらず、彼は今でも毎日自分でコードを書いています。 ?彼の名前...

AI で非構造化データの力を引き出す方法

ほぼすべての業界がデジタル化しており、「データは新たな石油である」とよく言われます。しかし、十分に認...

蘇州の路上には自動運転バスが走っている。これは試験運行ではない。市民は無料で乗車できる。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

第 4 次小売革命を経て、WOT の 3 人の専門家が真のスマート小売とは何かを語ります。

[51CTO.comよりオリジナル記事] 6月21日、WOT2019グローバル人工知能技術サミット...

機械学習を活用して人事部門の時間を節約する方法

導入履歴書データベースに「ソフトウェア エンジニア」という名前の履歴書が 10,000 件あるとしま...

AIはIoTベースのDDoS攻撃を阻止できる

研究者らによると、人工知能はインターネットサービスプロバイダー(IPS)がDDoS攻撃に先手を打つの...

ソラを批判した後、ルカン氏は「視覚世界モデル」と題した論文を発表し、AIが物理世界を学習するための鍵を明らかにした。

ソラの登場はAI界全体に熱狂を巻き起こしたが、ルカンは例外だった。 OpenAI による Sora ...

インテリジェントな排便・排尿ケアロボットが4400万人の障害を持つ高齢者の介護問題を解決

データによれば、わが国には60歳以上の高齢者が2億6,400万人以上おり、そのうち1億8,000万人...

TCP輻輳制御アルゴリズムについての簡単な説明

最近、TCP/IP プロトコルの学習に時間を費やしました。主な理由は、TCP/IP に関する私の理解...