何開明のMAE制限が破られ、Swin Transformerと組み合わせることで、トレーニング速度が向上しました

何開明のMAE制限が破られ、Swin Transformerと組み合わせることで、トレーニング速度が向上しました

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

何開明のMAEの登場以来、自己教師あり事前トレーニング表現MIM (マスク画像モデリング)はますます注目を集めています。

しかし同時に、研究者はその限界についても考える必要があります。

MAE 論文では、オリジナルの ViT アーキテクチャをエンコーダーとして使用することのみを試みていますが、より優れたパフォーマンスを備えた階層設計構造(Swin Transformer によって表される)では MAE メソッドを直接使用することはできません。

こうして、研究チーム内で統合的なパラダイムが生まれました。

代表的な研究の 1 つは、清華大学、Microsoft Research Asia、西安交通大学が提案したSimMIMであり、MIM における Swin Transformer の応用を研究しています。

しかし、MAE と比較すると、可視パッチとマスクされたパッチの両方で動作し、計算量が大きすぎます。一部の研究者は、SimMIM の基本サイズのモデルでさえ、8 つの 32GB GPU を搭載したマシンではトレーニングできないことを発見しました。

このような背景を踏まえ、東京大学、センスタイム、シドニー大学の研究者らが新たなアイデアを提案した。

Swin Transformer を MAE フレームワークに統合するだけでなく、計算効率とパフォーマンスを確保しながら SimMIM と同等のタスク パフォーマンスも実現します。

レイヤーごとの ViT のトレーニングを 2.7 倍高速化し、GPU メモリ使用量を 70% 削減します。

これはどのような研究なのか見に来てください。

階層的設計でMAEを導入すると

この論文では、MIM 用のグリーン階層型ビジュアル トランスフォーマーを提案します。

つまり、階層型 ViT はマスク タイルを破棄し、表示されているタイルのみを操作することができます。

具体的な実装は 2 つの主要な部分で構成されます。

まず、分割統治戦略に基づくグループ ウィンドウ アテンション スキームを設計します。

可視パッチの数が異なるローカル ウィンドウは、同じサイズの複数のグループにクラスター化され、各グループ内でマスクされた自己注意が実行されます。

次に、上記のグループ化タスクは制約付き動的計画問題とみなされ、貪欲アルゴリズムにヒントを得たグループ化アルゴリズムが提案されます。

最適なグループ化サイズを適応的に選択し、ローカル ウィンドウを最小のグ​​ループに分割することで、グループ化されたタイルの全体的な計算コストを最小限に抑えることができます。

同等のパフォーマンス、トレーニング時間を大幅に短縮

結果によると、ImageNet-1K および MS-COCO データセットでの実験評価では、パフォーマンスはベースライン SimMIM に匹敵しますが、効率は 2 倍以上向上しています。

SimMIM と比較すると、この方法では必要なトレーニング時間が大幅に短縮され、GPU メモリの消費量も大幅に削減されます。具体的には、同じトレーニング回数で、Swin-B では速度が 2 倍になり、メモリ使用量が 60% 削減されます。

研究チームが 8 台の 32GB V100 GPU を搭載した 1 台のマシンで評価を実行したのに対し、SimMIM は 2 台または 4 台のマシンで評価されたことは注目に値します。

研究者らはまた、Swin-L が大きくなるにつれて効率性の向上が大きくなり、たとえば SimMIM192 と比較して 2.7 倍の速度向上が得られることも発見しました。

実験の最後に、アルゴリズムの限界について言及されました。その 1 つは、最適な効率を実現するために階層的なマスクが必要であり、これにより幅広いアプリケーションが制限されることです。この点は今後の研究に委ねられます。

この研究の影響について研究者らは、主にMIMの計算負荷が軽減され、MIMの効率と有効性が向上すると述べました。

ご興味がございましたら、下のリンクをクリックして詳細をご覧ください〜

論文リンク:

https://arxiv.org/abs/2205.13515

GitHub リンク:

https://github.com/LayneH/GreenMIM

SimMIM 論文リンク:

https://arxiv.org/abs/2111.09886

<<:  人工知能がデータセンターのネットゼロカーボン達成を支援

>>:  Unity Greater China プラットフォーム テクノロジー ディレクター Yang Dong: メタバースでのデジタル ヒューマンの旅の始まり

ブログ    
ブログ    

推薦する

OpenAIはAPIのアップグレードと価格引き下げでメジャーアップデートを実施

6月14日、OpenAIは生成型人工知能の分野での競争上の優位性を維持するため、テキスト生成モデルを...

最適化問題におけるステップサイズが大きいほど、収束速度が速くなり、数十年にわたる勾配降下法アルゴリズムの従来の考え方を覆すものとなった。

機械学習の世界では、最適化問題は非常に重要であり、世界をより良い方向に変える可能性があります。最適化...

...

分散トレーニング入門: PyTorch を使用してマルチ GPU 分散トレーニングを実装する方法

具体的には、この記事ではまず、分散コンピューティングの基本概念と、分散コンピューティングがディープラ...

RangePerception: Range View3D 検出への新しいアプローチ!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...

Ruan Yifeng: ガウスぼかしアルゴリズム

通常、画像処理ソフトウェアには、画像にぼかし効果を加えるための「ぼかし」フィルターが用意されています...

...

...

自律飛行ロボットが浙江大学から集団で飛び立ち、サイエンス誌の表紙に登場

最近、浙江省安吉市の竹林で、一群の超小型知能ドローンが集団で派遣され、ジャングルの中を楽々と移動した...

NVIDIA の最も強力な汎用大型モデル Nemotron-4 が登場! 15Bが62Bに勝ち、ターゲットはA100/H100です。

最近、NVIDIA チームは、8T トークンでトレーニングされた 150 億のパラメータを持つ新しい...

人工知能がスマートな警察活動を可能にする

[[257520]]都市化と経済発展の加速に伴い、我が国の社会保障を構成する要素が拡大し、公安機関の...

2024年のAIソフトウェアテストの主なトレンド

AI ソフトウェア テストの分野では、将来的に複数の開発トレンドに直面する可能性があり、そのいくつか...

スマートビルディングにおけるAIの活用

[[428910]]人工知能は、スマートビルディングパズルの最も重要なピースの 1 つです。これがな...

...