この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 NLP では、Transformer は自己注意モデル メカニズムを魔法の武器として使用し、画像認識の問題で幅広い成功を収めています。 特に、ViT は大規模な画像ネットワークで優れたパフォーマンスを発揮するため、広く使用されています。 ただし、データセットのサイズが大きくなるにつれて、計算コストが大幅に増加し、自己注意内のトークンの数も徐々に増加します。 最近、清華大学自動化学部の黄高助教授の研究チームとファーウェイの研究者は、異なるアプローチを採用し、入力画像ごとに適切な数のトークンを自動的に構成し、冗長な計算を減らして効率を大幅に向上させることができるダイナミックビジョントランスフォーマー(DVT)を提案しました。 「すべての画像が 16x16 ワードの価値があるわけではない: 適応型シーケンス長を備えたダイナミック ビジョン トランスフォーマー」と題された論文が arXiv で公開されました。 ダイナミック ViT明らかに、現在の ViT は計算コストとトークン数の点で困難に直面しています。 精度と速度の最適なバランスを実現するために、トークンの数は通常 14x14/16x16 になります。 研究チームは次のことを観察しました。
トークンの数を動的に調整することで、計算効率が「簡単な」サンプルと「難しい」サンプルの間で均等に分散されず、効率を向上させる余地が大きく残ります。 これを基に研究チームは、各画像に調整されたトークンの数を自動的に構成して高い計算効率を実現することを目的とした新しい動的ViT(DVT)フレームワークを提案しました。 この DVT は一般的なフレームワークとして設計されています。 テスト時には、これらのモデルは、より少ないトークンから順番にアクティブ化されます。 十分に信頼性の高い予測が生成されるとすぐに推論プロセスは終了します。 モデルの主なアーキテクチャは、ViT、DeiT、T2T-ViT などの最先端の画像認識トランスフォーマーを採用しており、効率を向上させることができます。 このアプローチも非常に柔軟です。 DVT の計算量は、単純な早期終了基準によって調整できるためです。 この機能により、DVT は、利用可能なコンピューティング リソースが動的に変化する状況や、最小限の電力消費で所定のパフォーマンスを達成できる状況に適しています。 これら両方の状況は、検索エンジンやモバイル アプリケーションなどの実際のアプリケーションでは一般的です。 上記のフローチャートによれば、注意深い読者は次のことも発見するでしょう。 上流から下流への計算が失敗すると、以前の情報または上流情報を再利用する方法が採用され、さらなるデータトレーニングが実現されます。 これを基に研究チームはさらに、特徴再利用メカニズムと関係再利用メカニズムを提案しました。どちらも計算コストを最小限に抑えて冗長な計算を減らすことで、テストの精度を大幅に向上させることができます。 前者は、以前に抽出された深層特徴に基づいて下流のデータをトレーニングすることを可能にし、後者は既存の上流の自己注意モデルを活用して、より正確な注意を学習することができます。 「簡単」と「難しい」を動的に割り当てるこの方法の実際的な効果は、下の図の例で説明できます。 それでは、これら 2 つのメカニズムがどのように機能するかを見てみましょう。 機能再利用メカニズムDVT のすべてのトランスフォーマーには、正確な認識のために特徴信号を抽出するという共通の目標があります。 したがって、下流モデルは、最初から特徴を抽出するのではなく、以前に取得した深層特徴に基づいて学習する必要があります。 上流モデルで実行される計算は、そのモデル自体と後続のモデルの両方に貢献し、モデルの効率を高めます。 このアイデアを実現するために、研究チームは機能再利用メカニズムを提案しました。 簡単に言えば、上流の Transformer の最後のレイヤーによって出力された画像トークンは、レイヤーごとのコンテキスト埋め込みを学習するために使用され、下流の各 Transformer の MLP ブロックに統合されます。 関係再利用メカニズムTransformer の優れた利点の 1 つは次のとおりです。
通常、モデルはトークン間の関係を記述するために、各レイヤーで一連の注意マップを学習する必要があります。 上記のディープ フィーチャに加えて、ダウンストリーム モデルは、前のモデルによって生成された自己注意マップも取得できます。 研究チームは、これらの学習した関係は、特に対数加算演算を使用することで、下流のトランスフォーマー学習を促進するために再利用できるとも考えています。 パフォーマンスはどうですか?これ以上言う意味はありません。実際の結果を見てみましょう。 ImageNet における Top-1 精度と計算量の関係を次の図に示します。 DVT は DeiT や T2T-VIT よりも大幅に効率的であることがわかります。
さらに、このアプローチは柔軟性が高く、DVT の信頼しきい値を 1 回だけ調整することで、各曲線上のすべてのポイントに到達できます。 CIFAR のトップ 1 精度と GFLOP の比較を以下に示します。 ImageNet における Top-1 精度とスループットの関係を次の表に示します。 DVT では、「簡単」と「難しい」の視覚化サンプルを以下に示します。 上記の ImageNet、CIFAR-10、CIFAR-100 に関する多数の実証結果は次のことを示しています。
こんなに美しい結果を見ると感動しませんか? 興味のある方はぜひ原文を読んでみてください〜 ポータル論文の宛先: https://arxiv.org/abs/2105.15075 研究チーム黄高 現在33歳で、清華大学オートメーション学部の助教授および博士課程の指導者を務めています。 2020年アリババDAMOアカデミーYoung Orange Awardを受賞。研究分野は機械学習、ディープラーニング、コンピュータービジョン、強化学習など。 |
>>: 「ロボットが私にそうさせた」:ロボットは人々にリスクを取るよう促すことができると研究で判明
言語モデルでは、コンテキスト ウィンドウは、特定のコンテキストに関連するテキストを理解して生成するた...
2月3日午前11時頃、捜狗入力法の一部のユーザーは、河北省興隆市でマグニチュード12の地震が発生し...
[[257915]]編集者注:自動運転車が私たちの信頼を得られるのはいつでしょうか? 「十分に安全...
ラボガイド現在、公共の場や個人の応用場面に設置されている監視カメラの総数は1億7500万台を超えてい...
[[231585]] Alimeiの紹介:エッセイの添削、同時通訳、ポスター作成…人工知能技術は私た...
7月19日、「新バージョンの文心易言の性能はChatGPT 3.5を上回り、これは我が国の関連技術作...
[[384554]]人工知能は、人類がより早く、より効果的に病気と闘い、より健康的な生活を送るのに役...
CES ではさまざまな新技術が注目を集めようと競い合っていたが、同じ場所で悲劇が起きた。自動運転モー...
人工知能が歌うことは珍しくないが、本当に人間の声に近い、あるいは本物と偽物の区別がつかないような「機...
3月1日木曜日の米国時間のニュースで、マイクロソフトは企業顧客の財務部門向けの人工知能ツールを披露し...
昨夜、「LK-99は韓国当局により偽物と摘発され、常温超伝導体ではない」というニュースがインターネッ...
今日の企業は、競争上の優位性を獲得するために、増え続けるデータを活用し、データ サイエンス、人工知能...
映画『エイリアン:コヴェナント』では、マイケル・ファスベンダーが演じるバイオニックマンのデイビッドは...