すべての画像が16x16ワードの価値があるわけではない。清華大学とファーウェイは動的ViTを提案した

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

NLP では、Transformer は自己注意モデルメカニズムを魔法の武器として使用し、画像認識の問題で幅広い成功を収めています。

特に、ViT は大規模な画像ネットワークで優れたパフォーマンスを発揮するため、広く使用されています。

ただし、データセットのサイズが大きくなるにつれて、計算コストが大幅に増加し、自己注意内のトークンの数も徐々に増加します。

最近、清華大学自動化学部の黄高助教授の研究チームとファーウェイの研究者は、異なるアプローチを採用し、入力画像ごとに適切な数のトークンを自動的に構成し、冗長な計算を減らして効率を大幅に向上させることができるダイナミックビジョントランスフォーマー（DVT）を提案しました。

「すべての画像が 16x16 ワードの価値があるわけではない: 適応型シーケンス長を備えたダイナミックビジョントランスフォーマー」と題された論文が arXiv で公開されました。

ダイナミック ViT

明らかに、現在の ViT は計算コストとトークン数の点で困難に直面しています。

精度と速度の最適なバランスを実現するために、トークンの数は通常 14x14/16x16 になります。

研究チームは次のことを観察しました。

一般的に、サンプルには 4x4 ラベルで正確に予測できる「単純な」画像が多くあります。現在の計算コスト (14x14) は 8.5 倍の増加に相当しますが、より洗練された表現を必要とする「難しい」画像はごくわずかです。

トークンの数を動的に調整することで、計算効率が「簡単な」サンプルと「難しい」サンプルの間で均等に分散されず、効率を向上させる余地が大きく残ります。

これを基に研究チームは、各画像に調整されたトークンの数を自動的に構成して高い計算効率を実現することを目的とした新しい動的ViT（DVT）フレームワークを提案しました。

この DVT は一般的なフレームワークとして設計されています。

テスト時には、これらのモデルは、より少ないトークンから順番にアクティブ化されます。

十分に信頼性の高い予測が生成されるとすぐに推論プロセスは終了します。

モデルの主なアーキテクチャは、ViT、DeiT、T2T-ViT などの最先端の画像認識トランスフォーマーを採用しており、効率を向上させることができます。

このアプローチも非常に柔軟です。

DVT の計算量は、単純な早期終了基準によって調整できるためです。

この機能により、DVT は、利用可能なコンピューティングリソースが動的に変化する状況や、最小限の電力消費で所定のパフォーマンスを達成できる状況に適しています。

これら両方の状況は、検索エンジンやモバイルアプリケーションなどの実際のアプリケーションでは一般的です。

上記のフローチャートによれば、注意深い読者は次のことも発見するでしょう。

上流から下流への計算が失敗すると、以前の情報または上流情報を再利用する方法が採用され、さらなるデータトレーニングが実現されます。

これを基に研究チームはさらに、特徴再利用メカニズムと関係再利用メカニズムを提案しました。どちらも計算コストを最小限に抑えて冗長な計算を減らすことで、テストの精度を大幅に向上させることができます。

前者は、以前に抽出された深層特徴に基づいて下流のデータをトレーニングすることを可能にし、後者は既存の上流の自己注意モデルを活用して、より正確な注意を学習することができます。

「簡単」と「難しい」を動的に割り当てるこの方法の実際的な効果は、下の図の例で説明できます。

それでは、これら 2 つのメカニズムがどのように機能するかを見てみましょう。

機能再利用メカニズム

DVT のすべてのトランスフォーマーには、正確な認識のために特徴信号を抽出するという共通の目標があります。

したがって、下流モデルは、最初から特徴を抽出するのではなく、以前に取得した深層特徴に基づいて学習する必要があります。

上流モデルで実行される計算は、そのモデル自体と後続のモデルの両方に貢献し、モデルの効率を高めます。

このアイデアを実現するために、研究チームは機能再利用メカニズムを提案しました。

簡単に言えば、上流の Transformer の最後のレイヤーによって出力された画像トークンは、レイヤーごとのコンテキスト埋め込みを学習するために使用され、下流の各 Transformer の MLP ブロックに統合されます。

関係再利用メカニズム

Transformer の優れた利点の 1 つは次のとおりです。

自己注意ブロックは、画像全体からの情報を統合し、データ内の長期的な依存関係を効果的にモデル化することができます。

通常、モデルはトークン間の関係を記述するために、各レイヤーで一連の注意マップを学習する必要があります。

上記のディープフィーチャに加えて、ダウンストリームモデルは、前のモデルによって生成された自己注意マップも取得できます。

研究チームは、これらの学習した関係は、特に対数加算演算を使用することで、下流のトランスフォーマー学習を促進するために再利用できるとも考えています。

パフォーマンスはどうですか?

これ以上言う意味はありません。実際の結果を見てみましょう。

ImageNet における Top-1 精度と計算量の関係を次の図に示します。

DVT は DeiT や T2T-VIT よりも大幅に効率的であることがわかります。

計算オーバーヘッドが 0.5～2 GFLOP 以内の場合、DVT の計算量は同じパフォーマンスの T2T-ViT の 1.7～1.9 倍少なくなります。

さらに、このアプローチは柔軟性が高く、DVT の信頼しきい値を 1 回だけ調整することで、各曲線上のすべてのポイントに到達できます。

CIFAR のトップ 1 精度と GFLOP の比較を以下に示します。

ImageNet における Top-1 精度とスループットの関係を次の表に示します。

DVT では、「簡単」と「難しい」の視覚化サンプルを以下に示します。

上記の ImageNet、CIFAR-10、CIFAR-100 に関する多数の実証結果は次のことを示しています。

DVT 法は、理論的な計算効率と実際の推論速度の点で他の方法よりも大幅に優れています。

こんなに美しい結果を見ると感動しませんか？

興味のある方はぜひ原文を読んでみてください〜

ポータル

論文の宛先:

https://arxiv.org/abs/2105.15075

研究チーム

黄高

現在33歳で、清華大学オートメーション学部の助教授および博士課程の指導者を務めています。

2020年アリババDAMOアカデミーYoung Orange Awardを受賞。研究分野は機械学習、ディープラーニング、コンピュータービジョン、強化学習など。

<<: バーチャル試着室テクノロジーの仕組み

>>: 「ロボットが私にそうさせた」：ロボットは人々にリスクを取るよう促すことができると研究で判明

AIコンピューティングのトレンド分析：4年後には、次のAlphaGoをプレイできる人は誰もいない

すべての画像が16x16ワードの価値があるわけではない。清華大学とファーウェイは動的ViTを提案した

ダイナミック ViT

機能再利用メカニズム

関係再利用メカニズム

パフォーマンスはどうですか?

ポータル

研究チーム

AIコンピューティングのトレンド分析：4年後には、次のAlphaGoをプレイできる人は誰もいない

LEACHプロトコルのアルゴリズムと特徴

インテリジェンスの時代: 新たな進歩、新たな傾向、新たな取り組み。第 2 回世界インテリジェンス会議が来月開催されます。

フィンテック企業はリスク管理に AI をどのように活用しているのでしょうか?

最もわかりやすいAIチップレポート！才能とテクノロジーのトレンドがすべてここにあります

Stack OverflowがAI搭載製品「OverflowAI」を発表

Appleとオレゴン州立大学がAutoFocusFormerを提案: 従来のグリッドを廃止し、適応型ダウンサンプリング画像セグメンテーションを使用

人工知能の実装によるIoTセキュリティの最適化

推薦する

5300億！巨大言語モデルのパラメータは毎年10倍に増加。新たな「ムーアの法則」が到来か？

人工知能はどのようにして自分自身に目標を設定するのでしょうか?

2021年に機械学習を始めるためのガイド

超人工知能は人類を滅ぼすのか？

スーパーライティングAIがチェスと作曲を学習。言語モデルの国境を越えた運用が白熱した議論を引き起こし、人々はオンラインでマッチングを求めている

ロボット開発者イノベーションデー | Horizon RDK と NodeHub の新製品

やめる！ Google は米国国防総省の 100 億ドルの契約への入札を断念しました。

将来、人工知能は人間の意思決定に取って代わることができるでしょうか?

GPT-4 の推論はより人間的です!中国科学院は「思考コミュニケーション」を提唱、類推思考はCoT、プラグアンドプレイよりも優れている

DeepFakeの頭部置換技術がアップグレード：浙江大学の新モデル、GANが美しい髪の頭部を生成

ディープラーニング入門

完全なルーティングアルゴリズムの設計目標の分析