すべての画像が16x16ワードの価値があるわけではない。清華大学とファーウェイは動的ViTを提案した

すべての画像が16x16ワードの価値があるわけではない。清華大学とファーウェイは動的ViTを提案した

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

NLP では、Transformer は自己注意モデル メカニズムを魔法の武器として使用し、画像認識の問題で幅広い成功を収めています。

特に、ViT は大規模な画像ネットワークで優れたパフォーマンスを発揮するため、広く使用されています。

ただし、データセットのサイズが大きくなるにつれて、計算コストが大幅に増加し、自己注意内のトークンの数も徐々に増加します。

最近、清華大学自動化学部の黄高助教授の研究チームとファーウェイの研究者は、異なるアプローチを採用し、入力画像ごとに適切な数のトークンを自動的に構成し、冗長な計算を減らして効率を大幅に向上させることができるダイナミックビジョントランスフォーマー(DVT)を提案しました。

「すべての画像が 16x16 ワードの価値があるわけではない: 適応型シーケンス長を備えたダイナミック ビジョン トランスフォーマー」と題された論文が arXiv で公開されました。

ダイナミック ViT

明らかに、現在の ViT は計算コストとトークン数の点で困難に直面しています。

精度と速度の最適なバランスを実現するために、トークンの数は通常 14x14/16x16 になります。

研究チームは次のことを観察しました。

一般的に、サンプルには 4x4 ラベルで正確に予測できる「単純な」画像が多くあります。現在の計算コスト (14x14) は 8.5 倍の増加に相当しますが、より洗練された表現を必要とする「難しい」画像はごくわずかです。

トークンの数を動的に調整することで、計算効率が「簡単な」サンプルと「難しい」サンプルの間で均等に分散されず、効率を向上させる余地が大きく残ります。

これを基に研究チームは、各画像に調整されたトークンの数を自動的に構成して高い計算効率を実現することを目的とした新しい動的ViT(DVT)フレームワークを提案しました。

この DVT は一般的なフレームワークとして設計されています。

テスト時には、これらのモデルは、より少ないトークンから順番にアクティブ化されます。

十分に信頼性の高い予測が生成されるとすぐに推論プロセスは終了します。

モデルの主なアーキテクチャは、ViT、DeiT、T2T-ViT などの最先端の画像認識トランスフォーマーを採用しており、効率を向上させることができます。

このアプローチも非常に柔軟です。

DVT の計算量は、単純な早期終了基準によって調整できるためです。

この機能により、DVT は、利用可能なコンピューティング リソースが動的に変化する状況や、最小限の電力消費で所定のパフォーマンスを達成できる状況に適しています。

これら両方の状況は、検索エンジンやモバイル アプリケーションなどの実際のアプリケーションでは一般的です。

上記のフローチャートによれば、注意深い読者は次のことも発見するでしょう。

上流から下流への計算が失敗すると、以前の情報または上流情報を再利用する方法が採用され、さらなるデータトレーニングが実現されます。

これを基に研究チームはさらに、特徴再利用メカニズム関係再利用メカニズムを提案しました。どちらも計算コストを最小限に抑えて冗長な計算を減らすことで、テストの精度を大幅に向上させることができます。

前者は、以前に抽出された深層特徴に基づいて下流のデータをトレーニングすることを可能にし、後者は既存の上流の自己注意モデルを活用して、より正確な注意を学習することができます。

「簡単」と「難しい」を動的に割り当てるこの方法の実際的な効果は、下の図の例で説明できます。

それでは、これら 2 つのメカニズムがどのように機能するかを見てみましょう。

機能再利用メカニズム

DVT のすべてのトランスフォーマーには、正確な認識のために特徴信号を抽出するという共通の目標があります。

したがって、下流モデルは、最初から特徴を抽出するのではなく、以前に取得した深層特徴に基づいて学習する必要があります。

上流モデルで実行される計算は、そのモデル自体と後続のモデルの両方に貢献し、モデルの効率を高めます。

このアイデアを実現するために、研究チームは機能再利用メカニズムを提案しました。

簡単に言えば、上流の Transformer の最後のレイヤーによって出力された画像トークンは、レイヤーごとのコンテキスト埋め込みを学習するために使用され、下流の各 Transformer の MLP ブロックに統合されます。

関係再利用メカニズム

Transformer の優れた利点の 1 つは次のとおりです。

自己注意ブロックは、画像全体からの情報を統合し、データ内の長期的な依存関係を効果的にモデル化することができます。

通常、モデルはトークン間の関係を記述するために、各レイヤーで一連の注意マップを学習する必要があります。

上記のディープ フィーチャに加えて、ダウンストリーム モデルは、前のモデルによって生成された自己注意マップも取得できます。

研究チームは、これらの学習した関係は、特に対数加算演算を使用することで、下流のトランスフォーマー学習を促進するために再利用できるとも考えています。

パフォーマンスはどうですか?

これ以上言う意味はありません。実際の結果を見てみましょう。

ImageNet における Top-1 精度と計算量の関係を次の図に示します。

DVT は DeiT や T2T-VIT よりも大幅に効率的であることがわかります。

計算オーバーヘッドが 0.5~2 GFLOP 以内の場合、DVT の計算量は同じパフォーマンスの T2T-ViT の 1.7~1.9 倍少なくなります。

さらに、このアプローチは柔軟性が高く、DVT の信頼しきい値を 1 回だけ調整することで、各曲線上のすべてのポイントに到達できます。

CIFAR のトップ 1 精度と GFLOP の比較を以下に示します。

ImageNet における Top-1 精度とスループットの関係を次の表に示します。

DVT では、「簡単」と「難しい」の視覚化サンプルを以下に示します。

上記の ImageNet、CIFAR-10、CIFAR-100 に関する多数の実証結果は次のことを示しています。

DVT 法は、理論的な計算効率と実際の推論速度の点で他の方法よりも大幅に優れています。

こんなに美しい結果を見ると感動しませんか?

興味のある方はぜひ原文を読んでみてください〜

ポータル

論文の宛先:

https://arxiv.org/abs/2105.15075

研究チーム

[[404097]]

黄高

現在33歳で、清華大学オートメーション学部の助教授および博士課程の指導者を務めています。

2020年アリババDAMOアカデミーYoung Orange Awardを受賞。研究分野は機械学習、ディープラーニング、コンピュータービジョン、強化学習など。

<<:  バーチャル試着室テクノロジーの仕組み

>>:  「ロボットが私にそうさせた」:ロボットは人々にリスクを取るよう促すことができると研究で判明

ブログ    
ブログ    

推薦する

スタンフォード大学:大きなモデルは間違った方向に「転がっている」のか?コンテキスト ウィンドウが長くなるほど、モデルは愚かになります。

言語モデルでは、コンテキスト ウィンドウは、特定のコンテキストに関連するテキストを理解して生成するた...

Sogouの技術者が在宅勤務中にサーバーを誤操作し、誤って「マグニチュード12の地震警報」を発令した。

2月3日午前11時頃、捜狗入力法の一部のユーザーは、河北省興隆市でマグニチュード12の地震が発生し...

ベセット氏との対話:自動運転車が人間の信頼を勝ち取るのはいつでしょうか?

[[257915]]編集者注:自動運転車が私たちの信頼を得られるのはいつでしょうか? 「十分に安全...

クロスカメラトラッキングと「スマート」な眼認識技術戦略の研究と実装

ラボガイド現在、公共の場や個人の応用場面に設置されている監視カメラの総数は1億7500万台を超えてい...

...

アリババには、1秒間に8人の弁護士を打ち負かした新しい技術者がいる

[[231585]] Alimeiの紹介:エッセイの添削、同時通訳、ポスター作成…人工知能技術は私た...

百度グループ副社長ウー・ティエン氏:文心ビッグモデル3.5は機能面でChatGPT3.5を上回った

7月19日、「新バージョンの文心易言の性能はChatGPT 3.5を上回り、これは我が国の関連技術作...

ヘルスケアにおける人工知能の課題にどう対処するか

[[384554]]人工知能は、人類がより早く、より効果的に病気と闘い、より健康的な生活を送るのに役...

自動運転車にロボットが殺される、これは今後ますます増えるかもしれない

CES ではさまざまな新技術が注目を集めようと競い合っていたが、同じ場所で悲劇が起きた。自動運転モー...

マイクロソフトのXiaoIceが第5世代の歌唱システムにアップグレード:人間のアイドルを超える

人工知能が歌うことは珍しくないが、本当に人間の声に近い、あるいは本物と偽物の区別がつかないような「機...

マイクロソフトは財務部門向けに特化されたAIツールをカスタマイズ

3月1日木曜日の米国時間のニュースで、マイクロソフトは企業顧客の財務部門向けの人工知能ツールを披露し...

...

韓国チームはサンプルの引き渡しを拒否し、2本目のLK-99サスペンションビデオを公開しました! HUSTの新論文が初めて反磁性を証明

昨夜、「LK-99は韓国当局により偽物と摘発され、常温超伝導体ではない」というニュースがインターネッ...

中間レビュー: 2021 年注目のデータサイエンスおよび機械学習スタートアップ 10 社

今日の企業は、競争上の優位性を獲得するために、増え続けるデータを活用し、データ サイエンス、人工知能...

人工知能は破壊をもたらすのか? 「人工知能破壊論」への疑問と考察

映画『エイリアン:コヴェナント』では、マイケル・ファスベンダーが演じるバイオニックマンのデイビッドは...