何開明のMAEが人気になってから、ビジュアルトランスフォーマーを整理したいですか?この記事は100以上の

何開明のMAEが人気になってから、ビジュアルトランスフォーマーを整理したいですか?この記事は100以上の

[[436989]]

コンピュータービジョン界は最近非常に活発です。まず、He Kaiming 氏らは、シンプルなマスクオートエンコーダ (MAE) を使用して、Transformer を大規模な CV モデルに拡張する明るい見通しを証明しました。その後、ByteDance は、いくつかの指標で MAE を上回った新しい手法である iBOT を発表し、12 を超える視覚タスクの SOTA を一歩前進させました。これらの進歩はこの分野の研究者に大きな励みをもたらしました。

この時点で、CV 分野における Transformer モデルのこれまでの進歩を整理し、その中での貴重な経験を探求する必要があります。そこで、中国科学院計算技術研究所などが最近発表したレビュー論文を見つけました。この論文では、Yang Liuと他の研究者が、3つの基本的なCVタスク(分類、検出、セグメンテーション)に使用される100を超えるビジュアルトランスフォーマーを包括的にレビューし、ビジュアルトランスフォーマーに関連するいくつかの重要な問題と潜在的な研究方向について議論しました。これは、ビジュアルトランスフォーマーを研究するための詳細な文書です。

論文リンク: https://arxiv.org/pdf/2111.06091.pdf

この記事はこのレビューの簡単な紹介です。

論文概要

Transformer は、シーケンス モデリングや機械翻訳などのタスクで驚くべき可能性を示している注目度ベースのアーキテクチャです。下の図 1 に示すように、Transformer は徐々に NLP 分野の主要なディープラーニング モデルになってきました。最近人気のTransformerモデルは、十分なデータで事前学習され、その後特定の下流タスクに合わせて微調整された自己教師あり事前学習モデルです[2]-[9]。生成的事前学習済みトランスフォーマー(GPT)ファミリー[2]-[4]は、トランスフォーマーデコーダーを活用して自己回帰言語モデリングタスクを実行します。一方、双方向トランスフォーマーとエンコーダー(BERT)[5]とそのバリエーション[6]、[7]は、トランスフォーマーエンコーダー上に構築されたオートエンコーダー言語モデルです。

コンピュータービジョンの分野では、畳み込みニューラルネットワーク (CNN) が主流となっています。 NLP分野における自己注意メカニズムの成功に触発されて、一部のCNNベースのモデルは、空間[14]-[16]またはチャネル[17]-[19]レベルでの追加の自己注意レイヤーを通じて長距離依存性を捉えようとし始めており、他のモデルは、従来の畳み込みをグローバル[20]またはローカル自己注意ブロック[21]-[25]に完全に置き換えようと試みている。 Cordonnierらは理論的には自己注意ブロックの有効性を実証したが[26]、これらの純粋な注意モデルは主流のベンチマークでは現在のSOTA CNNモデルよりも劣っている。

前述のように、バニラ Transformer は NLP の分野で大きな成功を収めていますが、視覚認識の分野では注意ベースのモデルも大きな注目を集めています。最近、Transformer を CV タスクに移植する研究が盛んに行われ、非常に競争力のある結果が得られています。例えば、Dosovitskiyら[27]は、画像分類の入力として画像パッチを使用する純粋なTransformerを提案し、多くの画像分類ベンチマークでSOTAを達成しました。さらに、ビジュアルトランスフォーマーは、検出[28]、セグメンテーション[29]、追跡[30]、画像生成[31]、強化[32]などの他のCVタスクでも優れたパフォーマンスを達成しています。

図1に示すように、[27]、[28]に従って、研究者は様々な分野向けに数百のTransformerベースの視覚モデルを提案してきました。したがって、これらのモデルを整理するための体系的な記事が緊急に必要であり、それがこのレビューが誕生した背景です。読者がさまざまな分野から来る可能性があることを考慮して、レビューの著者は分類、検出、セグメンテーションという 3 つの基本的な視覚タスクを含めました。

下の図 2 に示すように、このレビューでは、3 つの基本的な CV タスク (分類、検出、セグメンテーション) に対する 100 を超える視覚的 Transformer メソッドを、タスク、動機、構造的特性に応じて複数のグループに分類しています。もちろん、これらのグループ間に重複がある可能性もあります。たとえば、これらの進歩のいくつかは、画像分類バックボーンのパフォーマンスを向上させるだけでなく、検出およびセグメンテーションタスクで優れた結果を達成するのにも役立つ可能性があります。

図2: ビジュアルトランスフォーマーの分類

トレーニング設定と方向付けタスクは異なるため、便利で直感的な比較のために、さまざまな構成でこれらの変換も評価しました。さらに、ビジュアル Transformer とシーケンス Transformer の間のギャップを埋める、緩和された高レベルのセマンティック埋め込みなど、Transformer を多くのアーキテクチャから際立たせる可能性のある、重要でありながらまだ調査されていない一連の機能も明らかにしています。最後に、彼らはいくつかの有望な研究の方向性を提案しました。

分類のためのビジュアルトランスフォーマー

NLPにおけるTransformerの成功[2]-[5]、[8]に触発され、多くの研究者がTransformerを画像分類タスクに導入しようと試みてきました。 Vision Transformer(ViT)[27]は、主流の分類ベンチマークで従来のCNNに匹敵する性能を達成した最初のものでした。論文の第3章では、研究者らは2021年6月以前にリリースされた40以上のTransformerバックボーンを包括的にレビューし、以下の図5に示すように、動機と実装に基づいて6つのカテゴリに分類しました。

この分類に基づいて、研究者は最初に画像分類用のオリジナル Visual Transformer である ViT を導入しました。次に、Transformer を活用して CNN バックボーンの長距離依存性を強化する Transformer Enhanced CNN 手法について説明しました。 Transformer はグローバル モデリングに優れていますが、初期段階ではローカル情報を無視します。したがって、CNN 強化トランスフォーマー法では、適切な畳み込み誘導バイアスを使用してトランスフォーマーを強化し、ローカル アテンション強化トランスフォーマー法では、パッチ パーティショニングとアテンション ブロックを再設計して、トランスフォーマーの局所性を強化し、畳み込みのないアーキテクチャを維持します。

さらに、CNNは階層化された深い構造により、パフォーマンスと計算効率の両方の面でメリットを得ています[93]。これに触発されて、研究者は階層型トランスフォーマー法とディープトランスフォーマー法を提案しました。前者は固定解像度の柱状構造をピラミッドの幹に置き換え、後者は注目マップが滑らかになりすぎないようにし、より深い層での多様性を高めます。さらに、現在利用可能な自己教師あり学習法についてもレビューします。

以下の表 I は、主流の分類ベンチマークにおける上記の Transformer モデルのパフォーマンスをまとめたものです。

この分野における進歩を検討した後、研究者たちは次のような結論に達しました。

分類タスクの場合、深い階層型Transformerバックボーンは計算の複雑さを効果的に低減し[39]、深い層での特徴の過剰な平滑化を回避することができます[35]、[40]、[59]、[60]。同時に、早期畳み込み[37]は低レベルの特徴を捉えるのに十分であり、それによって浅い層の堅牢性が大幅に向上し、計算の複雑さが軽減されます。さらに、畳み込み投影[46]、[47]と局所注意機構[33]、[42]はTransformerの局所性を向上させることができる。

検出用ビジュアルトランスフォーマー

第 4 章では、研究者らが物体検出のための視覚的トランスフォーマーについて詳しく紹介しています。これらのモデルは、ネックとしてのトランスフォーマーとバックボーンとしてのトランスフォーマーの 2 つのカテゴリに分けられます。ネック検出器は主に、Transformer アーキテクチャ用に指定されたオブジェクト クエリと呼ばれる新しい表現に基づいています。これは、グローバル機能を均等に集約する学習済みパラメーターのセットです。彼らは、収束の加速やパフォーマンスの向上の観点から、最適な融合パラダイムに取り組もうとしています。検出タスク専用に設計されたさまざまなネックに加えて、一定の割合のバックボーン検出器では特定の戦略も考慮されます。最後に、著者らは表 II と表 III でそれらのパフォーマンスを比較し、トランスフォーマー検出器の潜在的な改善点をいくつか分析します。

この分野における進歩を検討した後、研究者たちは次のような結論に達しました。

検出タスクの場合、Transformer ネックではエンコーダーとデコーダーの構造が活用され、エンコーダーのみを使用する Transformer 検出器よりも計算負荷が低くなります。そのためデコーダーは必要であるが、その収束が遅いため[72]、必要なスタックは非常に少ない[70]。さらに、スパースアテンション[67]は計算の複雑さを軽減し、Transformerの収束を加速するのに役立ちます。一方、空間事前分布[67]、[69]、[71]はTransformerのパフォーマンスを向上させ、収束速度をわずかに向上させます。

セグメンテーションのためのビジュアルトランスフォーマー

この論文の第 5 章では、主にセグメンテーション用の Transformer について説明します。さまざまなセグメンテーション方法に応じて、これらのトランスフォーマーは、パッチベースのトランスフォーマーとクエリベースのトランスフォーマーの 2 つのカテゴリに分類できます。後者はさらに、オブジェクト クエリを使用した Transformer とマスク埋め込みを使用した Transformer に分解できます。次の表は、これらのトランスフォーマーのパフォーマンス データを示しています。

この分野における進歩を検討した後、研究者たちは次のような結論に達しました。

セグメンテーションタスクでは、エンコーダー-デコーダーTransformerモデルは、一連の学習可能なマスク埋め込み[29]、[84]、[137]を通じて、3つのセグメンテーションサブタスクをマスク予測問題に統合することができます。このボックスフリーアプローチは、複数のベンチマークで最先端の結果を達成しています[137]。さらに、ボックスベースの Transformer の特定の混合タスク カスケード モデルは、インスタンス セグメンテーション タスクでより高いパフォーマンスを実現することが示されています。

ビジュアルトランスフォーマーに関するいくつかの重要な問題

Transformer は言語と視覚をどのように結び付けるのでしょうか?

Transformer はもともと機械翻訳タスク用に設計されました。言語モデルでは、文中の各単語は、高レベルかつ高次元の意味情報を表す基本単位と見なされます。これらの単語は、単語埋め込みと呼ばれる低次元ベクトル空間表現に埋め込むことができます。視覚タスクでは、画像の各ピクセルに、埋め込まれた特徴と一致しない低レベル、低次元の意味情報が含まれています。したがって、視覚タスクで Transformer を使用するための鍵は、画像の特性を維持しながら、画像からベクトルへの変換を確立することです。例えば、ViT[27]は強い緩和条件を利用して画像を複数の低レベル情報を含むパッチ埋め込みに変換し、Early Conv.[50]とCoAtNet[37]は畳み込みを使用してパッチの冗長な特徴を減らしながら高レベル情報を抽出します。

Transformer、Self-Attention、CNNの関係

畳み込みの観点から見ると、その帰納的バイアスは主に局所性、変換不変性、重み共有、およびスパース接続に現れます。このタイプの単純な畳み込みカーネルはテンプレート マッチングを効果的に実行できますが、強い誘導バイアスのため、その上限は Transformer よりも低くなります。

自己注意メカニズムの観点から見ると、理論的には、十分な数のヘッドが与えられれば、任意の畳み込み層を表すことができます。この完全な注意操作では、ローカル レベルの注意とグローバル レベルの注意を交互に組み合わせ、特徴間の関係に応じて注意の重みを動的に生成できます。それにもかかわらず、精度が低く、計算の複雑さが高いため、実用性は依然として SOTA CNN に劣ります。

Transformer の観点から、Dong らは、短い接続や FFN のない深い層でトレーニングすると、自己注意層が強い「トークンの均一性」誘導バイアスを示すことを実証しました。結果は、Transformer が 2 つの主要な部分、つまりトークン間の関係を集約する自己注意レイヤーと、入力機能を抽出する位置ごとの FFN で構成されていることを示しています。 Transformerは強力なグローバルモデリング機能を備えていますが、畳み込みにより低レベルの特徴を効果的に処理し[37]、[50]、Transformerの局所性を高め[45]、[70]、パディングを通じて位置的な特徴を付加することができます[48]、[49]、[102]。

さまざまな視覚タスクのための学習可能な埋め込み

Transformer モデルは、学習可能な埋め込みを利用してさまざまな視覚タスクを実行します。教師ありタスクの観点から見ると、これらの埋め込みは、クラス トークン、オブジェクト、クエリ、およびマスクの埋め込みに分類できます。構造的な観点から見ると、それらの間には本質的なつながりがあります。最近の Transformer アプローチでは、主にエンコーダーのみの構造とエンコーダー/デコーダーの構造という 2 つの異なるモードが採用されています。各構造は、下の図 16 に示すように、3 つのレベルの組み込みアプリケーションで構成されます。

位置の観点から見ると、エンコーダのみのトランスフォーマーで学習された埋め込みの適用は、初期トークンとそれ以降のトークンに分解され、学習された位置エンコーディングと学習されたデコーダー入力埋め込みは、エンコーダー-デコーダー構造で使用されます。定量的な観点から見ると、エンコーダーの設計のみが異なる数のトークンを適用します。例えば、ViT[27]、[38]シリーズやYOLOS[73]は初期層に異なる数値トークンを追加しますが、CaiT[40]やSegmenter[84]はこれらのトークンを利用して、異なるタスクの最後の数層の特徴を表現します。エンコーダー-デコーダーアーキテクチャでは、学習されたデコーダーの位置エンコーディング(オブジェクトクエリ[28]、[70]またはマスク埋め込み[137])がデコーダー入力に明示的に[28]、[137]または暗黙的に[69]、[70]追加されます。定数入力とは異なり、Deformable DETR [67]は学習した埋め込みを入力として受け取り、エンコーダ出力に焦点を当てます。

マルチヘッドアテンション設計にヒントを得たマルチイニシャルトークン戦略は、分類パフォーマンスをさらに向上させると考えられています。しかし、DeiT[38]は、これらの追加トークンは同じ結果に収束することを示しており、ViTには何の利益ももたらさない。別の観点から見ると、YOLOS[73]は複数の初期トークンを使用して分類と検出を統合するパラダイムを提供しますが、このエンコーダのみの設計は計算の複雑さが増します。 CaiT[40]の観察によると、後者のクラスのトークンはTransformerのFLOPをわずかに削減し、パフォーマンスをわずかに向上させることができる(79.9%から80.5%)。セグメンター[84]もこの戦略がセグメンテーションタスクにおいて効率的であることを示した。

エンコーダーのみを使用する Transformer の複数の遅延トークンと比較すると、エンコーダー - デコーダー構造では計算量がさらに節約されます。これは、少数のオブジェクトクエリ(マスク埋め込み)を使用して、検出[28]およびセグメンテーション[137]ドメインにおけるTransformerメソッドを標準化します。複数の後期トークンとオブジェクトクエリ(マスクされた埋め込み)を組み合わせることで、Deformable DETR [67](オブジェクトクエリと学習可能なデコーダー埋め込みを入力として受け取る)のようなアーキテクチャは、さまざまなタスクに基づく学習可能な埋め込みをTransformerエンコーダーデコーダーに統合することができます。

今後の研究の方向性

Visual Transformer メソッドは大きな進歩を遂げ、複数のベンチマークで SOTA CNN メソッドの記録に近づいたりそれを上回ったりするなど、有望な結果を示しました。しかし、この技術はまだ成熟しておらず、CV 分野における畳み込みの優位性を揺るがすことはできません。論文内のいくつかの分析に基づいて、著者はビジュアル Transformer の潜在的な開発方向をいくつか指摘しています。

アンサンブル予測

論文でも述べられているように、損失関数の勾配は同じなので、追加のクラストークンは常に収束します[38]。バイナリ損失関数を用いたアンサンブル予測戦略は、多くの密な予測タスクにおける視覚的トランスフォーマーで広く使用されている[28]、[137]。前述のように、分類タスクではアンサンブル予測設計を考慮するのが自然であり、例えば、マルチクラストークントランスフォーマーはアンサンブル予測で混合パッチ画像を予測しますが、これはLVViT [41]のデータ拡張戦略に似ています。さらに、アンサンブル予測戦略における 1 対 1 のラベル割り当てにより、初期プロセスでのトレーニングが不安定になり、最終結果の精度が低下する可能性があります。他のラベル割り当てと損失を使用してアンサンブル予測を改善することは、新しい検出フレームワークに役立つ可能性があります。

自己教師学習

自己教師ありTransformer事前学習はNLP分野の標準となり、様々なアプリケーションで大きな成功を収めています[2]、[5]。 CV における自己教師ありパラダイムとして、畳み込みツイン ネットワークは、NLP におけるマスクされたオートエンコーダーとは異なる、自己教師あり事前トレーニングに対照学習を使用します。最近、視覚と言語の間の前処理方法のギャップを埋めるために、自己教師ありの視覚トランスフォーマーを設計しようとする研究がいくつか行われています。それらのほとんどは、NLP のマスクされたオートエンコーダーまたは CV の対照学習スキームを継承しています。しかし、現在、NLP で GPT-3 と同じ革新的な結果を達成できるビジュアル Transformer の教師あり手法は存在しません。論文で説明されているように、エンコーダー-デコーダー構造は、デコーダーの埋め込みと位置エンコーディングを学習することによって視覚タスクを統合する可能性があります。自己教師学習用のエンコーダー-デコーダー Transformer は、さらに研究する価値があります。

<<:  「Nuwa」のAIバージョンが登場!テキストから画像とビデオの生成: 8 つのタスクに 1 つのモデル

>>:  ウォータールー大学はヒートマップ回帰を放棄し、複数人の姿勢推定のための新しい方法を提案した。

ブログ    

推薦する

AI 音声ジェネレーターとは何ですか? どのように機能しますか?

近年、AI 音声ジェネレーターは、人々が機械と対話し、デジタル コンテンツを受け取る方法を変える強力...

...

人工知能によって人々の仕事が失われることは確実だが、仕事がなくなることはないと言われているのはなぜでしょうか。

1956年に人工知能の概念が提案されて以来、人工知能と労働市場の関係については議論されてきました。...

AutoGPTオープンソースAIエージェントを理解する

こんにちは、ルガです。今日も引き続き、人工知能 (AI) エコシステムに関連するテクノロジーである ...

将来的には映画の吹き替えにも人工知能が使われるようになるのでしょうか?

英国人映画監督が人工知能(AI)を使って外国映画の鑑賞方法に革命をもたらそうとしている。俳優の顔をデ...

...

Googleの研究は数学の問題をコードに変換することで、機械証明の精度を大幅に向上させた。

コンピュータは以前から数学の証明を検証するために使用されてきましたが、特別に設計された証明言語を使用...

産業用拡張現実(AR)は、機器のメンテナンス、現場サービス、従業員のトレーニングを容易にします。

拡張現実技術の可能性は、小売、エンターテインメント、教育などのクリエイティブ産業を超えて広がります。...

...

...

機械学習の時代に神経科学者はいかにして人間の思考を読み取り解読できるか

[[408373]]この記事では主に機械学習 (ML) と機能的磁気共鳴画像法 (fMRI) の応用...

今後数年間の AI テクノロジーの分野で最も注目される新しい方向性は何でしょうか?

近年、AI の分野を調査しているうちに、世界中の研究者の視野の中に敵対的攻撃という概念が徐々に現れて...

...

Adobeが次世代Photoshop機械学習機能を発表、ワンクリックで画像を切り抜くことが可能に

Adobeは月曜日、ビデオを通じて次世代Photoshop CCのいくつかの新機能を発表した。ビデオ...

2020年Qizhi開発者会議が北京で盛大に開幕、第一弾の1000万インセンティブボーナスが発表された

2020年12月2日午前9時、知恵とリソースを集めることを目的とした2日間のOpenI/O 2020...