FacebookはCNN Transformerの利点を組み合わせ、誘導バイアスを柔軟に利用するConViTを提案している

FacebookはCNN Transformerの利点を組み合わせ、誘導バイアスを柔軟に利用するConViTを提案している

[[411034]]

AI 研究者は、新しい機械学習モデルを構築し、パラダイムをトレーニングする際に、モデルがより少ないデータからより一般的なソリューションを学習できるようにするために、帰納的バイアスと呼ばれる特定の一連の仮定を使用することが多いです。過去 10 年間のディープラーニングの大きな成功は、強い帰納的バイアスに一部起因しています。その畳み込みアーキテクチャは、視覚タスクで非常に効果的であることが証明されています。強い帰納的バイアスにより、サンプル効率の高い学習が可能になりますが、パフォーマンスの上限が低くなる可能性が伴います。 Visual Transformer (ViT など) は、より柔軟な自己注意レイヤーに依存しており、最近ではいくつかの画像分類タスクで CNN を上回りましたが、ViT ではサンプルに対する需要がより高くなります。

Facebook の研究者は、広く使用されている 2 つの AI アーキテクチャである畳み込みニューラル ネットワーク (CNN) と Transformer を組み合わせた、ConViT と呼ばれる新しいコンピューター ビジョン モデルを提案しました。このモデルは、それぞれの長所を活用し、CNN と Transformer 自体のいくつかの制限を克服します。同時に、両方のアーキテクチャの利点を活用することで、このビジュアル Transformer ベースのモデルは、特に小規模データの場合には既存のアーキテクチャよりも優れたパフォーマンスを発揮し、大規模データの場合にも同様の優れたパフォーマンスを実現します。

  • 論文アドレス: https://arxiv.org/pdf/2103.10697.pdf
  • GitHub アドレス: https://github.com/facebookresearch/convit

視覚タスクで非常に成功している CNN は、アーキテクチャ自体に組み込まれた 2 つの誘導バイアスに依存しています。ローカル相関 (近くのピクセルは相関関係にある) と重み共有 (画像の異なる部分は、その絶対位置に関係なく、同じように扱われる必要がある) です。

対照的に、DeiT や DETR などの自己注意ベースの視覚モデルは、誘導バイアスを最小限に抑えます。大規模なデータセットでトレーニングした場合、これらのモデルは CNN と同等かそれ以上のパフォーマンスを発揮することが示されています。しかし、小さなデータセットでトレーニングすると、意味のある表現を学習するのが困難になることがよくあります。

ここではトレードオフがあります。CNN の強い帰納的バイアスにより、データが非常に少ない場合でも高いパフォーマンスが得られますが、データが多い場合は、これらの帰納的バイアスによってモデルが制限される可能性があります。対照的に、Transformer は誘導バイアスが最も小さく、小規模なデータ設定では制限があることを示していますが、同時にこの柔軟性により、Transformer はビッグデータで CNN を上回るパフォーマンスを発揮します。

このため、Facebook が提案した ConViT モデルはソフト畳み込み誘導バイアスで初期化され、必要に応じてこれらのバイアスを無視するようにモデルが学習できます。

ソフト誘導バイアスは、モデルが制約なしに学習するのに役立ちます。 CNN のアーキテクチャ上の制約などのハードな帰納的バイアスは、学習のサンプル効率を大幅に向上させることができますが、データセットのサイズが不確実な場合は制約になる可能性があります。 ConViT のソフト誘導バイアスは、モデルの制約を避けるために必要ない場合は無視できます。

ConViTの仕組み

ConViT は、ソフト畳み込み誘導バイアスを利用してネットワークが畳み込み演算を実行するように促す Vision Transformer の適応版です。最も重要なのは、ConViT により、畳み込みを保持するかどうかをモデルが自ら決定できるようになることです。このソフトな誘導バイアスを利用するために、研究者らは、ゲーテッド位置自己注意 (GPSA) と呼ばれる位置自己注意の形式を導入しました。このモデルのゲーティング パラメーター ラムダは、コンテンツ ベースの自己注意と畳み込み初期化位置自己注意のバランスを取るために使用されます。

上の図に示すように、ConViT (左) は、ViT に基づいて、一部の自己注意 (SA) レイヤーをゲート位置自己注意レイヤー (GPSA、右) に置き換えます。 GPSA レイヤーには位置情報が含まれるため、クラス トークンは最後の GPSA レイヤーの後の非表示表現に関連付けられます。

GPSA レイヤーを追加することで、ConViT は昨年 Facebook が提案した DeiT モデルよりも優れたパフォーマンスを発揮します。たとえば、ConViT-S+ のパフォーマンスは DeiT-B よりもわずかに優れています (82.2% 対 81.8%)。一方、ConViT-S+ は DeiT-B の約半分の数のパラメータしか使用しません (48M 対 86M)。 ConViT の最大の改善点は、ソフト畳み込み誘導バイアスが限られたデータ範囲内で重要な役割を果たすことです。たとえば、トレーニング データの 5% のみを使用する場合、ConViT は DeiT よりも大幅に優れたパフォーマンスを発揮します (47.8% 対 34.8%)。

さらに、ConViT はサンプル効率とパラメータ効率の両方において DeiT よりも優れています。上図に示すように、左の図は ConViT-S と DeiT-S のサンプル効率比較結果です。これら 2 つのモデルは同じハイパーパラメータを持ち、ImageNet-1k のサブセットでトレーニングされています。図の緑の線は、ConViT が DeiT よりも優れている点です。研究者らは、上図の右側に示すように、ImageNet-1k 上で ConViT モデルのトップ 1 精度を他の ViT および CNN と比較しました。

ConViT のパフォーマンス上の利点に加えて、ゲーティング パラメーターは、モデルのトレーニング後に各レイヤーでの畳み込みの度合いを理解する簡単な方法を提供します。研究者たちは、すべてのレイヤーを調べたところ、ConViT はトレーニング中に畳み込み位置に徐々に注意を払わなくなっていることを発見しました。後の層では、ゲーティング パラメーターは最終的に 0 に近づき、畳み込み誘導バイアスが事実上無視されることを示します。ただし、開始レイヤーでは、多くのアテンション ヘッドが高いゲーティング値を維持しており、これは、ネットワークが初期レイヤーの畳み込み誘導バイアスを利用してトレーニングを支援していることを示唆しています。

上の図は、DeiT (b) と ConViT (c) の注意マップのいくつかの例を示しています。 σ(λ)は学習可能なゲーティングパラメータを表します。 1 に近い値は畳み込み初期化が使用されていることを示し、0 に近い値はコンテンツベースの注意のみが使用されていることを示します。初期の ConViT レイヤーは畳み込み初期化を部分的に維持しますが、後続のレイヤーは完全にコンテンツベースであることに注意してください。

テストは知識蒸留なしで ImageNet-1K で実施され、結果は次のとおりです。

AI モデルのパフォーマンスは、トレーニングに使用されるデータの種類とサイズに大きく依存します。学術研究や実際のアプリケーションでは、モデルは利用可能なデータによって制限されることがよくあります。 ConViT が提案するソフトな誘導バイアスは、適切な場合には無視できます。この独創的なアイデアは、より柔軟な人工知能システムの構築に向けた一歩前進です。

<<:  GPT-4 パラメータは 10 兆に達します!この表は、新しい言語モデルのパラメータが GPT-3 の 57 倍になると予測しています。

>>:  ドローンによる食品配達が到来、こうした問題が注目を集めている

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

ニューラルネットワークの背後にあるシンプルな数学

[[376715]] > Unsplash の Alina Grubnyak による画像ニュー...

...

人工知能はこれら12の分野に混乱をもたらし、ホワイトカラー労働者も職を失うことになるだろう

[[192649]]人工知能 (AI) は、今日最もエキサイティングで将来有望な最先端技術の 1 つ...

星が輝くとき - WOT グローバル テクノロジー イノベーション カンファレンス 2021 が間もなく開催されます

【51CTO.comオリジナル記事】​​​ 100年前、シュテファン・ツヴァイクは彼の有名な著作「星...

中国の教授が犯罪認識率97%の人工知能「検察官」を開発、現在テスト中

[[442697]]最近、「中国の教授らが人工知能検察官を開発中」というニュースが多くの海外ネットユ...

専門家が最もよく使う機械学習ツール 15 選

[[323871]]画像ソース: unsplash機械学習は素晴らしい技術ですが、その可能性を実現す...

持続可能なテクノロジー: 2024 年のテクノロジートレンドにおけるグリーンイノベーション

急速に進化するテクノロジーの世界では、イノベーションこそが私たちを持続可能な未来へと導く原動力となり...

ニューラル ネットワーク モデルの構築に適した最適化アルゴリズムはどれですか? 35,000件の検査でわかる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

史上最大のチューリングテスト実験が完了! 150万人が1000万回の会話に参加し、相手が人間かAIかを判断した。

史上最大のチューリングテストの予備結果が出ました!今年 4 月中旬、AI 21 Lab は楽しいソー...

コンテキストの長さを 256k に拡張すると、LongLLaMA の無限コンテキスト バージョンが登場しますか?

今年2月、MetaはLLaMA大規模言語モデルシリーズをリリースし、オープンソースチャットボットの開...

AIがあらゆるところに存在している世界を想像してみてください

[[360153]]あなたをモデルに、考え、反応し、行動するように訓練されたロボットを想像してみてく...

インテルがモービルアイを買収、自動運転市場は3社間の競争の幕開けか

[51CTO.comより引用] 先日、インテルは、自動運転プラットフォームプロバイダーのMobile...

この AI ツールは最近、大騒ぎになっています!試してみますか?

Stable Diffusionをプレイしたことがある人は多いと思います。この製品はmjdjour...

自動運転競争が熱を帯び、実用化への道が始まろうとしている

科学技術の継続的な発展に伴い、人工知能、5Gネットワ​​ーク、生体認証、ロボットなどのインテリジェン...