すべての画像が16x16ワードの価値があるわけではない。清華大学とファーウェイは動的ViTを提案した

すべての画像が16x16ワードの価値があるわけではない。清華大学とファーウェイは動的ViTを提案した

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

NLP では、Transformer は自己注意モデル メカニズムを魔法の武器として使用し、画像認識の問題で幅広い成功を収めています。

特に、ViT は大規模な画像ネットワークで優れたパフォーマンスを発揮するため、広く使用されています。

ただし、データセットのサイズが大きくなるにつれて、計算コストが大幅に増加し、自己注意内のトークンの数も徐々に増加します。

最近、清華大学自動化学部の黄高助教授の研究チームとファーウェイの研究者は、異なるアプローチを採用し、入力画像ごとに適切な数のトークンを自動的に構成し、冗長な計算を減らして効率を大幅に向上させることができるダイナミックビジョントランスフォーマー(DVT)を提案しました。

「すべての画像が 16x16 ワードの価値があるわけではない: 適応型シーケンス長を備えたダイナミック ビジョン トランスフォーマー」と題された論文が arXiv で公開されました。

ダイナミック ViT

明らかに、現在の ViT は計算コストとトークン数の点で困難に直面しています。

精度と速度の最適なバランスを実現するために、トークンの数は通常 14x14/16x16 になります。

研究チームは次のことを観察しました。

一般的に、サンプルには 4x4 ラベルで正確に予測できる「単純な」画像が多くあります。現在の計算コスト (14x14) は 8.5 倍の増加に相当しますが、より洗練された表現を必要とする「難しい」画像はごくわずかです。

トークンの数を動的に調整することで、計算効率が「簡単な」サンプルと「難しい」サンプルの間で均等に分散されず、効率を向上させる余地が大きく残ります。

これを基に研究チームは、各画像に調整されたトークンの数を自動的に構成して高い計算効率を実現することを目的とした新しい動的ViT(DVT)フレームワークを提案しました。

この DVT は一般的なフレームワークとして設計されています。

テスト時には、これらのモデルは、より少ないトークンから順番にアクティブ化されます。

十分に信頼性の高い予測が生成されるとすぐに推論プロセスは終了します。

モデルの主なアーキテクチャは、ViT、DeiT、T2T-ViT などの最先端の画像認識トランスフォーマーを採用しており、効率を向上させることができます。

このアプローチも非常に柔軟です。

DVT の計算量は、単純な早期終了基準によって調整できるためです。

この機能により、DVT は、利用可能なコンピューティング リソースが動的に変化する状況や、最小限の電力消費で所定のパフォーマンスを達成できる状況に適しています。

これら両方の状況は、検索エンジンやモバイル アプリケーションなどの実際のアプリケーションでは一般的です。

上記のフローチャートによれば、注意深い読者は次のことも発見するでしょう。

上流から下流への計算が失敗すると、以前の情報または上流情報を再利用する方法が採用され、さらなるデータトレーニングが実現されます。

これを基に研究チームはさらに、特徴再利用メカニズム関係再利用メカニズムを提案しました。どちらも計算コストを最小限に抑えて冗長な計算を減らすことで、テストの精度を大幅に向上させることができます。

前者は、以前に抽出された深層特徴に基づいて下流のデータをトレーニングすることを可能にし、後者は既存の上流の自己注意モデルを活用して、より正確な注意を学習することができます。

「簡単」と「難しい」を動的に割り当てるこの方法の実際的な効果は、下の図の例で説明できます。

それでは、これら 2 つのメカニズムがどのように機能するかを見てみましょう。

機能再利用メカニズム

DVT のすべてのトランスフォーマーには、正確な認識のために特徴信号を抽出するという共通の目標があります。

したがって、下流モデルは、最初から特徴を抽出するのではなく、以前に取得した深層特徴に基づいて学習する必要があります。

上流モデルで実行される計算は、そのモデル自体と後続のモデルの両方に貢献し、モデルの効率を高めます。

このアイデアを実現するために、研究チームは機能再利用メカニズムを提案しました。

簡単に言えば、上流の Transformer の最後のレイヤーによって出力された画像トークンは、レイヤーごとのコンテキスト埋め込みを学習するために使用され、下流の各 Transformer の MLP ブロックに統合されます。

関係再利用メカニズム

Transformer の優れた利点の 1 つは次のとおりです。

自己注意ブロックは、画像全体からの情報を統合し、データ内の長期的な依存関係を効果的にモデル化することができます。

通常、モデルはトークン間の関係を記述するために、各レイヤーで一連の注意マップを学習する必要があります。

上記のディープ フィーチャに加えて、ダウンストリーム モデルは、前のモデルによって生成された自己注意マップも取得できます。

研究チームは、これらの学習した関係は、特に対数加算演算を使用することで、下流のトランスフォーマー学習を促進するために再利用できるとも考えています。

パフォーマンスはどうですか?

これ以上言う意味はありません。実際の結果を見てみましょう。

ImageNet における Top-1 精度と計算量の関係を次の図に示します。

DVT は DeiT や T2T-VIT よりも大幅に効率的であることがわかります。

計算オーバーヘッドが 0.5~2 GFLOP 以内の場合、DVT の計算量は同じパフォーマンスの T2T-ViT の 1.7~1.9 倍少なくなります。

さらに、このアプローチは柔軟性が高く、DVT の信頼しきい値を 1 回だけ調整することで、各曲線上のすべてのポイントに到達できます。

CIFAR のトップ 1 精度と GFLOP の比較を以下に示します。

ImageNet における Top-1 精度とスループットの関係を次の表に示します。

DVT では、「簡単」と「難しい」の視覚化サンプルを以下に示します。

上記の ImageNet、CIFAR-10、CIFAR-100 に関する多数の実証結果は次のことを示しています。

DVT 法は、理論的な計算効率と実際の推論速度の点で他の方法よりも大幅に優れています。

こんなに美しい結果を見ると感動しませんか?

興味のある方はぜひ原文を読んでみてください〜

ポータル

論文の宛先:

https://arxiv.org/abs/2105.15075

研究チーム

[[404097]]

黄高

現在33歳で、清華大学オートメーション学部の助教授および博士課程の指導者を務めています。

2020年アリババDAMOアカデミーYoung Orange Awardを受賞。研究分野は機械学習、ディープラーニング、コンピュータービジョン、強化学習など。

<<:  バーチャル試着室テクノロジーの仕組み

>>:  「ロボットが私にそうさせた」:ロボットは人々にリスクを取るよう促すことができると研究で判明

ブログ    
ブログ    
ブログ    

推薦する

...

...

サッカーボールとハゲ頭の区別がつかないAIがプレミアリーグのファンにまたもや嫌われる

スポーツにおける AI はどの程度信頼できないのでしょうか?先月、スコットランドサッカー選手権の試合...

Yann LeCun 氏は衝撃的な発言をしました。「ディープラーニングは死んだ、微分可能プログラミング万歳!」

ディープラーニングの分野で最も有名な学者の一人であるヤン・ルカン氏が本日、自身のFacebookに投...

目に見えないものが見えるようになる!メタマテリアルとAIが融合し音像を解読

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

2000年以降の大学生が伝染病と戦うロボットを設計

「私たちのロボット戦車は防疫ロボットに転用できるだろうか?」疫病流行の期間中、山東科技大学の学生たち...

作業の重複をなくしましょう! 30分で独自のディープラーニングマシンを作成する方法を教えます

[[327809]]画像ソース: unsplash繰り返し作業はいつも面倒です。新しいプロジェクトを...

llama.cppを勉強した後、携帯電話で大規模なモデルを実行するのはとても簡単だと分かりました

最近、オープンソース コミュニティでは、大規模モデルの最適化手法を模索する人が増えています。 LLa...

AIの威力を改めて見せつける! Baidu Map 20分間のカスタマイズされたパーソナル音声パッケージ

百度地図は9月19日、「あなたのための『音声』、そして『AI』」記者会見で「音声カスタマイズ機能」を...

深層強化学習とは:次世代のAIと深層学習

[51CTO.com クイック翻訳] 強化学習は自律的な意思決定を実現するのに非常に適しています。対...

...

人工知能ネットワークが教育に与える影響を探る

教育業界は、テクノロジーの継続的な進歩によって大きなパラダイムシフトを経験しています。人工知能(AI...

韓信は本当に数学の達人なのでしょうか?古代中国の数学にヒントを得たコンピュータ暗号化アルゴリズム

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

2022年の銀行業界における人工知能の応用

人工知能はあらゆる分野に革命をもたらしており、銀行業も例外ではありません。 調査によると、世界の人工...

製薬会社はAIと遺伝子配列に基づいて菌類のさらなる薬効を発見している

[[342573]]研究室の菌類1928 年、スコットランドの研究者アレクサンダー・フレミングが休暇...