テンセント・ユートゥと厦門大学は、トレーニングを必要としないViT構造検索アルゴリズムを提案した。

テンセント・ユートゥと厦門大学は、トレーニングを必要としないViT構造検索アルゴリズムを提案した。

最近、ViT はコンピューター ビジョンの分野で強力な競争力を発揮し、複数のタスクで驚くべき進歩を遂げました。人工的に設計された多くの ViT 構造 (Swin-Transformer、PVT、XCiT など) の出現により、ViT 指向構造検索 (TAS) がますます注目を集めるようになりました。 TAS は、ViT 検索空間でより優れたネットワーク構造 (MSA のヘッド数やチャネル比など) を自動的に見つけることを目指しています。ワンショット NAS ベースのソリューション (AutoFormer、GLiT など) は初期の進歩を遂げていますが、依然として高い計算コスト (24 GPU 日以上など) が必要です。主な理由は2つあります。

1. 空間的複雑さの点では、ViT 探索空間 (例: GLiT 空間は約 10^30 のオーダー) は CNN 探索空間 (例: DARTS 空間は約 10^18 のオーダー) をはるかに上回ります。

2. ViT モデルでは通常、対応する効果を知るために、より多くのトレーニング サイクル (300 エポックなど) が必要です。

最近の論文「トレーニング不要のトランスフォーマーアーキテクチャ検索」では、テンセントYoutuラボ、厦門大学、彭城ラボなどの研究者が近年のNAS分野の進歩をレビューし、検索効率を向上させるために、研究コミュニティがいくつかのゼロコストのプロキシ評価指標(GraSP、TEスコア、NASWOTなど)を提案していることを指摘しました。これらの方法により、トレーニングなしでさまざまな CNN 構造の順序関係を評価できるため、計算コストが大幅に節約されます。

  • 論文アドレス: https://arxiv.org/pdf/2203.12217.pdf
  • プロジェクトアドレス: https://github.com/decemberzhou/TF_TAS

技術的に言えば、一般的な CNN モデルは主に畳み込みモジュールで構成されていますが、ViT モデルは主にマルチヘッド アテンション モジュール (MSA) と多層パーセプトロン モジュール (MLP) で構成されています。このネットワーク構造の違いは、CNN 検索空間で有効性が証明されている既存のゼロコスト プロキシが、ViT 検索空間でのモデル評価効果を保証できないことを意味します (下の図 1 を参照)。

したがって、ViT 構造の評価に適しており、TAS トレーニングの効率に有益なゼロコストのプロキシ指標を研究することが必要であり、検討する価値があります。この問題は、研究者が ViT 構造をさらに研究して理解を深め、効果的でトレーニング不要の TAS 検索アルゴリズムを設計する動機にもなります。

図1. (a) 研究者がサンプリングした1000個のViTモデルのパラメータサイズと効果分布。 (be) CNN 検索空間でうまく機能するゼロコスト プロキシ メソッドは、ViT 検索空間には適用できません。 (f)DSS指標は、さまざまなViTモデルを評価するのに適しています。

メソッド本体

この目標を達成するために、研究者らは、ViT ネットワークを効果的に評価するための定量化可能な特性を見つけることを期待して、MSA モジュールと MLP モジュールの理論的分析を実施しました。

定量的な結果に基づいて、ViT では、MSA と MLP がモデル効果を明らかにするのに適した独自の特性を持っていることが観察されました。研究者たちは、次のような定義を持っています: MSA のランク複雑度を測定し、それをシナプス多様性としてカウントします。MLP 内の重要なパラメータの数を推定し、それをシナプス顕著性としてカウントします。 MSA のシナプス多様性が高い場合、または MLP のシナプス重要性が高い場合、対応する ViT モデルのパフォーマンスは常に向上します。

この重要な結果に基づいて、研究者は効果的かつ効率的なゼロコストの代理評価指標 DSS 指標 (下の図 2) を設計し、これに基づいてモジュール戦略を備えた未訓練の Transformer Architecture Search アルゴリズム (TF-TAS) を設計しました。

図2. 方法の全体的な枠組み。

具体的には、DSS インジケーターは、MSA のシナプス多様性と MLP のシナプス有意性を計算することで、ViT 構造の評価スコアを取得します。学術界がViT構造を評価するための代理評価指標として、MSAに基づくシナプス多様性とMLPに基づくシナプス重要性を提案したのは今回が初めてです。また、TF-TAS は検索空間の設計と重み共有戦略とは直交していることに注意することが重要です。したがって、TF-TAS は他の ViT 検索空間または TAS 方法と柔軟に組み合わせることができ、検索効率をさらに向上させることができます。

手動で設計されたViTと自動的に検索されたViTを比較すると、研究者らは  TF-TAS は、検索プロセスを 24 GPU 日から 0.5 GPU 日未満に短縮し、約 48 倍高速化することで、競争力のある結果を達成しました。

MSA におけるシナプスの多様性

MSA は ViT 構造の基本的な構成要素であり、その多様性は ViT 効果にとって重要です。既存の研究に基づいて、MSA モジュールによって学習された特徴表現はランク崩壊の影響を受けることがわかっています。入力がネットワーク内を前方に伝播し、深さが増加し続けると、ViT の MSA の出力は徐々にランク 1 に収束し、最終的にランク 1 の行列に退化します (各行の値は変更されず、多様性がスパースになります)。ランクの崩壊は、ViT モデルのパフォーマンスが低いことを意味します。したがって、順位崩壊の度合いを推定することで、ViT モデルの効果を推測することができます。

ただし、高次元空間でのランク崩壊を推定するには、大量の計算が必要です。実際、マトリックスのランクには、特徴の情報の多様性に関する代表的な手がかりが含まれていることが示されています。これらの理解に基づいて、MSA モジュールの重みパラメータのランクは、ViT 構造を評価するための指標として使用できます。

MSA モジュールの場合、重み行列のランクを直接測定すると、計算量が膨大になるという問題があります。計算を高速化するために、研究者らはMSA重み行列の核ノルムを使用して、多様性指標としてのランクを近似しました。理論的には、重み行列のフロベニウスノルム(Fノルム)が特定の条件を満たす場合、重み行列の核ノルムはそのランクの同等の代替としてみなすことができます。具体的には、研究者らはMSAモジュールの重みパラメータ行列を次のように表現した。

。 m は MSA の m 番目の線形層を表します。したがって、

の F ノルムは次のように定義できます。

で、

急行

のi行j列目の要素は、算術平均と幾何平均の不等式に従って、

の上限は次のとおりです。

上記の式は

上限は

線形独立ベクトルの最大数は行列のランクです。ランダムに与えられた

2つのベクトル

。いつ

独立すると、

の値もそれに応じて大きくなります。これは次のことを示しています:

Fノルムが大きいほど、

ランクが近いほど

多様性。いつ

時間、

核の規範は

ランクのおおよその値。フォーマル、

の核ノルムは次のように定義されます。

で、

は対応する行列のトレースを表すので、簡単に得ることができます。

。したがって、

の順位は次のように近似できる。

。理論的には、

そして

これはまた、使用される核基準が測定可能であることを示している。

多様性。ランダムに初期化された重みを持つViTネットワーク内のMSAモジュールのシナプス多様性をより正確に推定するために、研究者らは各MSAモジュールの勾配行列を使用した。

(L は損失関数です) 上記の手順をさらに検討してみましょう。

一般的に、研究者は、l 番目の MSA モジュールの重みパラメータのシナプス多様性を次のように定義しました。

MSA のシナプス多様性と特定の ViT アーキテクチャのテスト精度との間の正の相関関係を検証するために、研究者らは AutoFormer 検索空間からサンプリングされた 200 個の ViT ネットワークを完全にトレーニングし、対応する MSA モジュールの分類効果とシナプス多様性を取得しました。下の図 3a に示すように、それらの間の Kentall の τ 相関係数は 0.65 です。これは、MSA のシナプス多様性と各入力 ViT アーキテクチャの効果の間に正の相関関係があることを示唆しています。

図 3. (a) MSA によるシナプス多様性 (赤) と MLP によるシナプス有意性 (青) の評価効果。(bc) MSA と MLP は剪定感度が異なります。

MLP のシナプス顕著性

モデルプルーニングは CNN 分野で大きな進歩を遂げており、Transformer にも適用され始めています。初期のトレーニング段階でモデルの重みの重要性を測定するために、いくつかの効果的な CNN プルーニング方法が提案されています。主なアプローチは 2 つあります。

  1. CNN モデルの剪定のための初期状態のシナプスの重要性を測定する。
  2. Transformer 内の異なるモジュールは初期化フェーズ中に異なるレベルの冗長性を持つため、異なるサイズの Transformer を削減することが可能です。

プルーニングと同様に、TAS は主に、アテンション ヘッドの数、MSA および MLP 比率など、いくつかの重要な次元を検索します。これらの剪定方法にヒントを得て、研究者たちはシナプスの顕著性を利用してさまざまな ViT を評価しようとしました。ただし、MSA と MLP の構造はかなり異なるため、メトリック ViT のさまざまなモジュールに対するプルーニング感度の影響を分析する必要があります。

MSA と MLP の剪定に対する異なる感度が ViT モデルの評価に与える影響をさらに分析するために、研究者らは剪定感度実験を通じていくつかの定量的な結果を示しました。図 3b に示すように、AutoFormer 検索空間から 5 つの ViT アーキテクチャをランダムにサンプリングし、MSA と MLP のプルーニングに対する感度を分析しました。結果は、MLP が MSA よりも剪定に対して敏感であることを示しています。彼らはまた、PiT検索空間を分析し、同様の観察結果を得ました(図3c)。

さらに、研究者らは、MSA モジュールと MLP モジュールのシナプスの重要性をプロキシとして使用し、プロキシ ViT ベンチマークでそれぞれ Kendall の τ 相関係数を計算しました。最終結果では、MLP におけるシナプス有意性の Kendall τ は 0.47 であり、MSA (0.24)、MLP、MSA (0.41) よりも優れていることが示されました。

シナプスの重要性は通常、合計として計算されるため、冗長な重みは多くの場合、負の累積効果をもたらします。 MSA モジュールはプルーニングに対して敏感ではないため、MSA の重みパラメータには高い冗長性があることがわかります。プルーニングの分野では、冗長な重みパラメータの値が非冗長な重みパラメータの値よりもはるかに小さいことが証明されています。これらの冗長性パラメータの値は比較的小さいですが、50% を超える冗長性は、特に類似した ViT 構造を区別する場合に、大きな累積効果を生み出す傾向があります。

累積効果に関しては、MSA の冗長な重みパラメータは、有意性を測定するために一般的なゼロコストプロキシで無差別に考慮され、対応するゼロコストプロキシで加算形式で MSA の累積効果が存在することになります。累積的な効果により、ゼロコストのプロキシが貧弱なネットワークのランクを高くする可能性があります。同時に、重みの冗長性は MLP モジュールのシナプスの重要性にほとんど影響を与えないため、MLP モジュールの重みランクの複雑さを評価する指標として使用でき、モデルの品質を一面から示すことができます。

ViT における MLP を評価するために、研究者らはシナプスの重要性に基づいた代理指標を設計しました。モデルの重みの重要性は、ネットワークの剪定において広く研究されてきました。ニューラル ネットワークは主に畳み込み層で構成されているため、ニューラル ネットワークのシナプス顕著性を直接測定するために使用できる、刈り込みベースのゼロコスト プロキシがいくつかあります。一方、ViT アーキテクチャは主に MLP モジュールと MSA モジュールで構成されており、それぞれ異なるプルーニング特性を持っています。 MSAとMLPモジュールの剪定感度分析を通じて、彼らは  MLP モジュールはプルーニングに対してより敏感です。したがって、シナプスの顕著性は、MLP モジュールの重みの重要性の違いをより適切に反映できます。対照的に、MSA モジュールは刈り込みに対して比較的鈍感であり、そのシナプスの顕著性は冗長な重みによって影響を受けることが多いです。

MLP の剪定感度に基づいて、シナプスの顕著性をモジュール方式で測定することを提案します。具体的には、提案されたモジュール戦略は、ViT 構造の重要な部分である MLP のシナプス顕著性を測定します。 ViT アーキテクチャの場合、l 番目の MLP モジュールの有意スコアは次のようになります。

ここで、n は指定された ViT ネットワーク内の l 番目の MLP の線形層の数であり、通常は 2 に設定されます。図3aは、検証するための定性的な結果を示している。

ViT フレームワークの評価における有効性。

訓練なしのTAS

上記の分析に基づいて、研究者らは、TAS の検索効率を向上させるためのモジュール戦略に基づくトレーニング不要の TAS (TF-TAS) を設計しました。次の式に示すように、DSS インジケーターは、MSA のシナプス多様性と MLP のシナプス重要性の両方を考慮してモデルにスコアを付けます。

一般に、DSS インジケーターは、各 ViT 構造を 2 つの異なる次元から評価します。 TF-TAS は、入力モデルが順方向伝播と逆方向更新を経た後に計算されます。

対応する ViT モデルの代理スコアとして。研究者たちは、入力データが重みの計算に与える影響を排除するために、モデルの入力データの各ピクセルを 1 に維持しました。したがって、

これはランダムシードに対して不変であり、実際の画像入力データとは関係ありません。

実験結果

1. イメージネット

研究者らはまず ImageNet データセットで検索効果をテストし、その結果を以下に示します。 3 つのパラメータ レベルすべてにおいて、研究者は、ワンショット NAS に基づく TAS 法と同等かそれ以上のモデル結果を見つけることができました。さらに、必要な時間 (0.5 GPU 日) は、既存の TAS 方法で必要な計算コスト (24 GPU 日以上) よりもはるかに短くなります。

2. 移住実験

検索されたモデルの有効性をさらに検証するために、研究者らは CIFAR-10 および CIFAR-100 データセットでのその転送可能性を検証しました。 AutoFormer の論文によると、サイズ 384 x 384 の画像でモデルを最適化し、その結果を以下に示します。 DSS インジケーターに基づいて見つかったモデルは、転移可能性の点でワンショット NAS に基づいて見つかったモデルに匹敵します。

3. 他のViT検索スペースでの検索結果

さらに、研究者らはPiT検索空間での検索テストも実施し、論文の設定に従って、検索されたモデル結果に対応する検出効果をCOCOデータセットでテストしました。結果は下の表に示されています。検索によって発見された PiT モデル TF-TAS-Ti、TF-TAS-XS、TF-TAS-S は、手動で設計された PiT に匹敵し、ランダム検索のモデル結果よりもはるかに優れています。また、検出効果の点でも、研究者らの方法には一定の利点がある。これらの結果は、この方法の有効性と普遍性を検証しています。

<<:  自動運転バスが路上でテスト可能:北京が政策発表で主導権を握り、最初の8台の車両がまもなく運行開始

>>:  人工知能やその他の科学研究には「越えてはならない一線」があり、5つの原則が倫理的な最低ラインを示している

ブログ    

推薦する

目標を達成するために、Google AI は自身の体をこのように変形させました...

[[246219]]強化学習 AI がゲームをプレイすることは珍しくありません。インテリジェントエ...

MLOps の定義、重要性、実装

MLOps の定義と成功する実装戦略に関する有益なブログを読んで、AI と機械学習における MLOp...

AIの背後にあるエンジンを理解する、テクノロジー愛好家が知っておくべき4つの機械学習アルゴリズム

人工知能は、車の運転、バーでのミキシング、戦争など、驚くべきことを行っていますが、ロボットマスクが脚...

年次指数レポートではAIが「産業化」しているが、より優れた指標とテストが必要とされている

海外メディアVentureBeatによると、中国は人工知能の研究論文の総数で米国を上回り、資金提供を...

...

Hubo Technologyが「2019年グローバルフィンテックイノベーションTOP50」に選出されました

最近、世界をリードするインテリジェント金融検索エンジンであるHubo Technologyが「201...

...

Meta AI が 3 つのテキストレス NLP 論文を連続して公開: 音声生成に対する究極の答えか?

日常のコミュニケーションでは、対話の効果を高めるために、口調、感情表現、間、アクセント、リズムなどの...

機械学習が将来の雇用市場にどのような影響を与えるか

機械学習は、あらゆる業界、特に雇用と求人市場に変革をもたらし、エントリーレベルの職からトップレベルの...

人材獲得におけるAIの台頭

[[405721]]過去 10 年間で採用手法が進化するにつれ、人材獲得における人工知能の活用がます...

...

詳細レポート: ビッグモデルが AI を全面的に加速させます!黄金の10年が始まる

過去70年間に「3つの上昇と2つの下降」を経験した後、基盤となるチップ、コンピューティングパワー、デ...

顔認識はどのように実現されるのでしょうか? コンピューターはカメラを通じてどのように私たちの身元を識別するのでしょうか?

携帯電話を使って顔をスキャンして支払いをするとき、会社の入退室管理を通過するとき、あるいは道路を運転...

...