フーリエ演算子効率トークンミキサー: 軽量ビジュアルネットワークの新しいバックボーン

フーリエ演算子効率トークンミキサー: 軽量ビジュアルネットワークの新しいバックボーン

1. 背景

近年、Transformer、Large-kernel CNN、MLP に基づく 3 つのビジュアル バックボーン ネットワークは、世界規模での効率的な情報融合機能により、幅広い CV タスクで目覚ましい成功を収めています。

既存の主流ニューラル ネットワークである Transformer、CNN、MLP は、それぞれ独自の方法でグローバル トークンの融合を実現します。その中で、Transformer ネットワークの自己注意メカニズムは、クエリとキーのペアの関連性をトークン融合の重みとして使用します。 CNN はカーネル サイズを大きくすることでトランスフォーマーと同様のパフォーマンスを実現します。 MLP は、すべてのトークン間の完全な接続を通じて、もう 1 つの強力なパラダイムを実装します。これらの方法はすべて効果的ですが、計算の複雑度が高く (O (N^2))、ストレージと計算能力が限られているデバイスに展開するのが難しいため、多くのモデルの適用範囲が制限されます。

2. AFFトークンミキサー:軽量、グローバル、適応型

計算コストのかかる問題を解決するために、研究者らは適応型フーリエフィルタ (AFF) と呼ばれる効率的なグローバル トークン融合演算子を構築しました。フーリエ変換によりトークンセットを周波数領域に変換し、周波数領域でコンテンツ適応型フィルタマスクを学習して、周波数領域空間に変換されたトークンセットに対して適応型フィルタリング操作を実行します。

論文: 効率的なグローバル トークン ミキサーとしての適応型周波数フィルタ

リンク: https://arxiv.org/abs/2307.14008

周波数領域畳み込み定理によれば、元の領域での畳み込み演算は、フーリエ領域での対応するアダマール積演算と数学的に同等です。これにより、本研究で提案された AFF トークン ミキサーは、トークン セットのサイズと同じ空間解像度を持つ動的畳み込みカーネルを使用して元のドメインでトークン フュージョンを実行することと数学的に同等になり (下の右側のサブ図を参照)、グローバル スケールでコンテンツ適応型トークン フュージョンを実行する機能を備えています。

周知のとおり、動的畳み込みには高い計算オーバーヘッドが伴い、大きな空間解像度を持つ動的畳み込みカーネルを使用するオーバーヘッドは、効率的で軽量なネットワーク設計にとってさらに受け入れがたいものと思われます。ただし、この記事で提案されている AFF トークン ミキサーは、上記の利点を同時に満たす低電力の同等の実装として使用でき、複雑さが O (N^2) から O (N log N) に削減され、計算効率が大幅に向上します。

図 1: AFF モジュールと AFFNet ネットワークの概略図。

3. AFFNet: 新しい軽量ビジュアルネットワークバックボーン

研究者らは、AFF Token Mixer をメインのニューラル ネットワーク オペレーターとして使用し、AFFNet と呼ばれる軽量ニューラル ネットワークを構築しました。広範囲にわたる実験により、AFF Token Mixer は、視覚的意味認識や高密度予測タスクを含む幅広い視覚タスクにおいて、優れた精度と効率のトレードオフを実現することが示されています。

4. 実験結果

研究者らは、提案されたAFFトークンミキサーとAFFNetを、視覚的意味認識、セグメンテーション、検出などの複数の視覚タスクで評価し、現在の研究分野における最先端の軽量ビジュアルバックボーンネットワークと比較しました。実験結果は、本研究で提案されたモデル設計が幅広い視覚タスクで優れたパフォーマンスを発揮することを示しており、提案された AFF トークン ミキサーが軽量で効率的な新世代のトークン融合演算子として潜在的可能性を検証しています。

図 2: ImageNet-1K データセットの Acc-Param、Acc-FLOPs 曲線と SOTA との比較。

表1: ImageNet-1KデータセットにおけるSOTAとの比較

表 2: 下流タスク (視覚検出とセグメンテーション) と SOTA の比較。

5. 結論

この研究結果は、潜在空間における周波数領域変換が、ニューラルネットワークにおけるグローバル適応トークン融合の効率的かつ低電力の同等の実装であるグローバル適応トークン融合の役割を果たすことができることを数学的に証明しています。これにより、ニューラル ネットワークにおけるトークン融合演算子の設計に関する新しい研究アイデアが生まれ、また、ストレージと計算能力が限られたエッジ デバイス上にニューラル ネットワーク モデルを展開するための新しい開発スペースも生まれます。

<<:  マルチモーダル世界モデルで未来を予測!カリフォルニア大学バークレー校の新しいAIエージェントは人間の言語を正確に理解し、SOTAを刷新する

>>: 

ブログ    
ブログ    
ブログ    

推薦する

データサイエンスについて知っておくべきこと: 10 の重要な概念 + 22 のグラフ

01 バイアスと分散のトレードオフこれは、機械学習における最も重要な理論の中で常に上位にランクされ...

エンタープライズ ナレッジ グラフが直面している機会、課題、解決策

[51CTO.com クイック翻訳]企業の業務効率と事業部門の競争力を向上させるための重要なツールと...

...

人工知能の時代において、あなたの子供は15年後にどんな職業に就くことができるでしょうか?

12年後の2030年、現在の小中学生が就職を控える頃の世界は、1.現在の職業の多くが消滅し、2.2...

...

...

アリババ副社長でDAMOアカデミーの自動運転部門責任者の王剛氏が辞任し、自身のビジネスを立ち上げる予定

マシンハートは、アリババの副社長であり、DAMOアカデミーの自動運転研究所の所長である王剛氏が最近辞...

2022年のデータサイエンスとAIの予測

2021 年には技術変化のペースが加速し、歴史が示すように、2022 年もそのペースは加速し続けるで...

人工知能の進化の限界は肉体にある

[[233888]] AIの未来は私たち自身のニューラルネットワークを複製することにある私たちは、チ...

作業の重複をなくしましょう! 30分で独自のディープラーニングマシンを作成する方法を教えます

[[327809]]画像ソース: unsplash繰り返し作業はいつも面倒です。新しいプロジェクトを...

致命的な幻覚問題、GPU 代替品の開発、大規模モデルが直面するその他の 10 の課題

ChatGPT、GPT-4などのリリースにより、大規模モデル(LLM)の魅力が明らかになった一方で、...

これはボストンダイナミクスのロボット犬の父親でしょうか?米陸軍の1980年代のロボット犬「考古学」

この高さ3メートルの巨大ロボットは、ボストン・ダイナミクスのロボット犬より20年以上も前の1980年...

...

ディープラーニングの「記憶喪失」に応えて、科学者たちは類似性に基づく重み付けインターリーブ学習を提案し、PNASに掲載された。

人間とは異なり、人工ニューラル ネットワークは新しいことを学習するときに以前に学習した情報をすぐに忘...