この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 何開明のMAEの登場以来、自己教師あり事前トレーニング表現MIM (マスク画像モデリング)はますます注目を集めています。 しかし同時に、研究者はその限界についても考える必要があります。 MAE 論文では、オリジナルの ViT アーキテクチャをエンコーダーとして使用することのみを試みていますが、より優れたパフォーマンスを備えた階層設計構造(Swin Transformer によって表される)では MAE メソッドを直接使用することはできません。 こうして、研究チーム内で統合的なパラダイムが生まれました。 代表的な研究の 1 つは、清華大学、Microsoft Research Asia、西安交通大学が提案したSimMIMであり、MIM における Swin Transformer の応用を研究しています。 しかし、MAE と比較すると、可視パッチとマスクされたパッチの両方で動作し、計算量が大きすぎます。一部の研究者は、SimMIM の基本サイズのモデルでさえ、8 つの 32GB GPU を搭載したマシンではトレーニングできないことを発見しました。 このような背景を踏まえ、東京大学、センスタイム、シドニー大学の研究者らが新たなアイデアを提案した。 Swin Transformer を MAE フレームワークに統合するだけでなく、計算効率とパフォーマンスを確保しながら SimMIM と同等のタスク パフォーマンスも実現します。 レイヤーごとの ViT のトレーニングを 2.7 倍高速化し、GPU メモリ使用量を 70% 削減します。 これはどのような研究なのか見に来てください。 階層的設計でMAEを導入するとこの論文では、MIM 用のグリーン階層型ビジュアル トランスフォーマーを提案します。 つまり、階層型 ViT はマスク タイルを破棄し、表示されているタイルのみを操作することができます。 具体的な実装は 2 つの主要な部分で構成されます。 まず、分割統治戦略に基づくグループ ウィンドウ アテンション スキームを設計します。 可視パッチの数が異なるローカル ウィンドウは、同じサイズの複数のグループにクラスター化され、各グループ内でマスクされた自己注意が実行されます。 次に、上記のグループ化タスクは制約付き動的計画問題とみなされ、貪欲アルゴリズムにヒントを得たグループ化アルゴリズムが提案されます。 最適なグループ化サイズを適応的に選択し、ローカル ウィンドウを最小のグループに分割することで、グループ化されたタイルの全体的な計算コストを最小限に抑えることができます。 同等のパフォーマンス、トレーニング時間を大幅に短縮結果によると、ImageNet-1K および MS-COCO データセットでの実験評価では、パフォーマンスはベースライン SimMIM に匹敵しますが、効率は 2 倍以上向上しています。 SimMIM と比較すると、この方法では必要なトレーニング時間が大幅に短縮され、GPU メモリの消費量も大幅に削減されます。具体的には、同じトレーニング回数で、Swin-B では速度が 2 倍になり、メモリ使用量が 60% 削減されます。 研究チームが 8 台の 32GB V100 GPU を搭載した 1 台のマシンで評価を実行したのに対し、SimMIM は 2 台または 4 台のマシンで評価されたことは注目に値します。 研究者らはまた、Swin-L が大きくなるにつれて効率性の向上が大きくなり、たとえば SimMIM192 と比較して 2.7 倍の速度向上が得られることも発見しました。 実験の最後に、アルゴリズムの限界について言及されました。その 1 つは、最適な効率を実現するために階層的なマスクが必要であり、これにより幅広いアプリケーションが制限されることです。この点は今後の研究に委ねられます。 この研究の影響について研究者らは、主にMIMの計算負荷が軽減され、MIMの効率と有効性が向上すると述べました。 ご興味がございましたら、下のリンクをクリックして詳細をご覧ください〜 論文リンク: https://arxiv.org/abs/2205.13515 GitHub リンク: https://github.com/LayneH/GreenMIM SimMIM 論文リンク: https://arxiv.org/abs/2111.09886 |
<<: 人工知能がデータセンターのネットゼロカーボン達成を支援
>>: Unity Greater China プラットフォーム テクノロジー ディレクター Yang Dong: メタバースでのデジタル ヒューマンの旅の始まり
(1)要素が0から65535までの任意の数値であり、同じ値が繰り返し出現しない整数列。 0 は例外で...
私: 「アレクサ、2019年に何が起こるか教えてください。」 Amazon AI: 「『この日の歴史...
世界中で白熱した議論を巻き起こしたLK-99論争が終結した後、ネイチャー誌の見出しに再び「室温超伝導...
システムのスケーラビリティは、分散システムの調整、フェイルオーバー、リソース管理、その他多くの機能を...
Google、スタンフォード大学、カリフォルニア大学バークレー校、OpenAI の研究者が論文「AI...
[[426899]]ニューラル ネットワーク モデルとトレーニング データのサイズが大きくなるにつ...
これは歴史上最も急速に成長している新技術です。生成 AI は世界を変え、画像、ビデオ、オーディオ、テ...
機械学習エンジニアチームの責任者であり、Looker の最高製品責任者でもある彼は、10 年を超える...
急速に変化する今日のテクノロジーの世界では、人工知能 (AI)、機械学習 (ML)、ディープラーニン...
デジタル時代の到来により前例のない進歩がもたらされ、人工知能(AI)はさまざまな業界でイノベーション...
この段階では、人工知能の応用シナリオが増加し、市場規模が拡大しており、機械学習の価値がますます顕著に...
移動ロボットは、環境認識、動的意思決定と計画、行動制御と実行などの複数の機能を統合した総合システムで...
Amazon Alexaのような音声アシスタントの台頭にもかかわらず、人々は本物そっくりのAIに不安...
人工知能 (AI) は急速に現代生活に欠かせないものとなり、産業を変革し、私たちの生活、仕事、コミュ...
業界では、人工知能はこれまで2世代を経てきたと一般的に考えられています。第一世代の人工知能は知識主導...