注意ベースのエンコーダー/デコーダー アーキテクチャである Transformer は、自然言語処理 (NLP) の分野に革命をもたらしただけでなく、コンピューター ビジョン (CV) の分野でも先駆的な成果を上げています。 Visual Transformer (ViT) は、畳み込みニューラル ネットワーク (CNN) と比較して、優れたモデリング機能を利用して、ImageNet、COCO、ADE20k などの複数のベンチマークで優れたパフォーマンスを実現しています。 最近、Nikolas Adaloglou というブロガーが、ViT の分野における進歩と ViT と他の分野との相互応用についてレビューした長いブログ記事を書きました。 この記事はNikolas Adaloglouによって書かれました。 Nikolas Adaloglou 氏は、AI 関連の 3D 医療用画像処理、画像およびビデオ分析、グラフベースのディープラーニング モデル、生成型ディープラーニングに興味を持つ機械学習エンジニアです。機械学習を活用して医療工学の発展を促進することに尽力しています。 以下は元のブログ投稿です: ViT は、単語の埋め込みをパッチの埋め込みに置き換える自然言語処理の自己注意メカニズムにヒントを得ています。 適切な規模でのViTのトレーニング知識の蒸留Kaggleなどのディープラーニングのコンテストでは、アンサンブルは非常に人気のある手法です。アンサンブルとは、一般的に、複数のトレーニング済みモデルの出力を平均して予測を行うことを指します。このシンプルなアプローチはテスト時のパフォーマンスを向上させるのに最適ですが、推論中は N 倍遅くなります (N はモデルの数)。これは、組み込みデバイスにこのようなニューラル ネットワークを導入する場合に厄介な問題になります。この問題を解決するための一般的な方法は、知識の蒸留です。 知識蒸留では、通常、小さなモデル(生徒モデル)が大きなモデル(教師モデル)によって監視されます。アルゴリズムの鍵となるのは、教師モデルの知識を生徒モデルに転送する方法です。 十分な理論的裏付けがないにもかかわらず、知識蒸留は非常に効果的な手法であることが示されています。アンサンブルの出力分布がアンサンブルに匹敵するテスト パフォーマンスを提供する理由はまだ解明されていません。真のラベルと比較して、アンサンブルの出力 (わずかに偏りのある平滑化されたラベル) を使用するとパフォーマンスが向上するという事実は、さらに不思議です。 DeiT モデルは、注意と蒸留を介してデータ効率の高い画像変換器をトレーニングします。これにより、外部データなしで ImageNet のみで ViT をトレーニングできることがわかります。この研究では、Resnet からトレーニングされた CNN モデルを単一の教師モデルとして使用しました。直感的に、強力なデータ仮定 (帰納的バイアス) により、CNN は ViT よりも優れた教師ネットワークになります。 自己蒸留驚くべきことに、同じアーキテクチャの単一モデル (教師ネットワーク) に対して知識蒸留を実行することによっても同様のアプローチを実現できることがわかりました。このプロセスは自己蒸留と呼ばれ、Zhang らによる 2019 年の論文「Be Your Own Teacher: Improve the Performance of Convolutional Neural Networks via Self Distillation」に由来しています。自己蒸留は、N=1 の知識蒸留の一種です。自己蒸留 (同じアーキテクチャを持つ単一のトレーニング済みモデルを使用) により、テストの精度も向上します。 ViTのハードラベル蒸留:DeiTトレーニング戦略このアプローチでは、追加の学習可能なグローバル トークン、つまり蒸留トークンが ViT のパッチ埋め込みと連結されます。最も重要なのは、抽出されたトークンが、十分に訓練された教師の CNN バックボーン ネットワークから提供されることです。研究者らは、CNN 機能を Transformer の自己注意層に融合することで、Imagenet の 100 万データで DeiT をトレーニングしました。 DeiT モデルの概要。 DeiT は次の損失関数を使用してトレーニングされます。 ここで、CE はクロスエントロピー損失関数であり、σ はソフトマックス関数です。 Z_cls と Z_distill は、それぞれクラス トークンと蒸留トークンからの学生モデルの出力であり、ytrue と yteacher は、それぞれグラウンド トゥルースと教師モデルの出力です。 この蒸留技術により、モデルはより少ないデータでスーパーデータ拡張を実現できますが、不正確なグラウンドトゥルースラベルにつながる可能性があります。この場合、教師ネットワークはより適切なラベルを生成するようです。結果として得られるモデル ファミリである Data Efficient Image Transformers (DeiT) は、精度/ステップ時間の点で EfficientNet に匹敵しますが、精度/パラメータ効率の点ではまだ遅れをとっています。 蒸留に加えて、利用可能な追加データの不足を補うために、画像拡張を広範に活用した研究もあります。さらに、DeiT は確率的深度などのデータ正規化技術に依存しています。最後に、強力な拡張と正規化により、小規模データ領域での ViT の過剰適合傾向が制限されます。 ピラミッドビジュアルトランスフォーマーPyramid Visual Transformer (PVT) の全体的なアーキテクチャ。 注意メカニズムの二次複雑性を克服するために、Pyramid Visual Transformer (PVT) は、空間縮小注意 (SRA) と呼ばれる自己注意の変形を採用しています。これは、NLP 分野の Linformer の注目点と同様に、キーと値のためのスペースが削減されている点が特徴です。 SRA を適用することで、モデル全体の特徴空間の次元が徐々に削減され、すべてのトランスフォーマー ブロックに位置埋め込みを適用することで順序の概念が強化されます。 PVT は、高解像度画像を処理するためのオブジェクト検出とセマンティックセグメンテーションのバックボーン ネットワークとして使用されてきました。 その後、研究チームは、次のような大きな改良を加えた PVT-v2 の改良版をリリースしました。
パッチのオーバーラップは、特にセマンティックセグメンテーションなどの高密度タスクの場合、ViT を改善するためのシンプルで一般的なアイデアです。重複する領域/パッチを活用することで、PVT-v2 は画像表現のよりローカルな連続性を実現できます。 完全に接続された (FC) レイヤー間の畳み込みにより、各レイヤーで固定サイズの位置エンコーディングが不要になります。ゼロパディング (p=1) を使用した 3x3 の深さ方向畳み込み (p=1) は、モデル内の位置エンコーディングの削除を補うことを目的としています (位置エンコーディングは入力にのみ存在しますが、まだ存在します)。このプロセスは、複数の画像解像度をより柔軟に処理します。 最後に、キーと値のプーリング (p = 7) を使用すると、自己注意層の複雑さは CNN と同程度にまで軽減されます。 スウィントランスフォーマー:シフトウィンドウを使用した階層型ビジュアルトランスフォーマーSwin Transformer は、標準的な NLP Transformer の局所性、つまりローカルまたはウィンドウ化された注意の概念に基づいて構築することを目的としています。 Swin Transformer では、重複しないウィンドウにローカル セルフ アテンションが使用されます。次のレイヤーのウィンドウ間の通信により、ウィンドウが徐々にマージされ、階層的な表現が生成されます。 上の図に示すように、左側は最初のレイヤーの通常のウィンドウ分割スキームであり、各ウィンドウ内で自己注意が計算されます。右側の 2 番目のレイヤーのウィンドウ パーティションは 2 つのイメージ パッチだけシフトされ、前のウィンドウの境界を越えることになります。 ローカル自己注意は、シーケンス長 N とウィンドウ サイズ M の場合、O(N^2) ではなく画像サイズ O(M*N) に比例してスケーリングされます。 多数のローカル レイヤーをマージして追加することで、グローバルな表現が実現します。さらに、特徴マップの空間次元が大幅に削減されました。著者らは、ImageNet-1K と ImageNet-21K の両方で有望な結果が得られたと主張しています。 視覚トランスフォーマーの自己教師付きトレーニング: DINOFacebook AI の研究では、大規模な視覚データのトレーニングのための強力なフレームワークが提案されています。提案された自己教師ありシステムは非常に強力な表現を作成するため、その上の線形レイヤーを微調整する必要さえありません。これは、データセットの固定されたトレーニング機能に K 近傍法 (NN) を適用することによって観察されます。著者らは、十分に訓練された ViT はラベルなしで ImageNet で 78.3% のトップ 1 精度を達成できることを発見しました。 自己教師ありフレームワークを下の図に示します。 他の自己教師ありモデルとは対照的に、彼らは典型的な自己蒸留シナリオで行われるように、クロスエントロピー損失を使用しました。ただし、ここでの教師モデルはランダムに初期化され、そのパラメータは生徒パラメータの指数移動平均に従って更新されます。これを実現するために、研究者は温度パラメータを持つソフトマックスを、異なる温度の教師モデルと生徒モデルに適用しました。具体的には、教師モデルはより小さな温度パラメータを取得し、より正確な予測が可能になります。最も重要なのは、SWAV から取得したマルチクロッピング アプローチを使用して、より良い結果が得られたことです。このアプローチでは、教師はグローバル ビューのみを表示し、生徒は変換された入力画像のグローバル ビューとローカル ビューの両方にアクセスできます。 CNN アーキテクチャの場合、このフレームワークはビジュアル トランスフォーマーほど有益ではありません。では、画像から特徴をどのように抽出するのでしょうか? 著者らは、訓練された VIT の自己注意ヘッド出力を視覚化します。これらの注意マップは、モデルがクラス固有の特徴を自動的に学習し、前景と背景などの教師なしのオブジェクト分割につながることを示しています。 この特性は、自己教師型の事前トレーニング済み畳み込みニューラル ネットワークにも現れますが、特徴を視覚化するには特別な方法が必要です。さらに重要なのは、セルフアテンションヘッドが補完的な情報を学習し、各ヘッドに異なる色を使用してそれを示すことです。デフォルトでは、これは自己注意ではまったく得られません。 DINO マルチアテンションヘッドの視覚化。 ビジュアルトランスフォーマーのスケーリングディープラーニングとスケールは関連しています。実際、規模は多くの SOTA の成果における重要な要素です。この研究では、Google Brain Research の著者らが、わずかに改良した ViT モデルを 20 億のパラメータでトレーニングし、ImageNet で 90.45% のトップ 1 精度を達成しました。この過剰パラメータ化された一般化モデルは、クラスごとに 10 個の例のみを使用した少数ショット学習でテストされました。 ImageNet ではトップ 1 の精度 84.86% が達成されました。
この論文の主な貢献と主な結果は次のとおりです。
上の図は、3 億枚の画像データセット (JFT-300M) から 30 億枚の画像 (JFT-3B) に、それ以上スケーリングせずに切り替えた場合の効果を示しています。中規模 (B/32) モデルと大規模 (L/16) モデルはどちらも、ほぼ一定の係数でデータの追加によるメリットを得ています。結果は、トレーニング全体を通じて少数ショット(線形)評価を使用して得られます。
これはおそらく、事前トレーニング ViT に広く適用できる最も興味深い発見です。 彼らは、トレーニングの開始時にウォームアップ フェーズを使用し、トレーニングの終了時にクールダウン フェーズを使用し、学習率が線形にゼロに調整されました。さらに、従来の Adam と比較して 50% のメモリ オーバーヘッドを持つ Adafactor オプティマイザーを使用しました。 同じ波長で、別の大規模な研究を見つけることができます: ViT をトレーニングする方法? ViT をトレーニングする方法? Vision Transformers におけるデータ、拡張、正規化 自己注意の代替: 独立したトークン + チャネルミキシング自己注意が高速重みを持つ情報ルーティング メカニズムとして機能できることはよく知られています。これまでのところ、同じことを述べている論文が 3 つあります。自己注意を 2 つの情報混合レイヤーに置き換えます。1 つはトークン (投影されたパッチ ベクトル) を混合するためのもので、もう 1 つはチャネル/機能情報を混合するためのものです。 MLPミキサーMLP-Mixer は 2 つの MLP レイヤーで構成されています。最初のレイヤーは画像パッチに独立して適用され (つまり、各位置で特徴を「混合」)、もう 1 つはパッチ全体に適用されます (つまり、空間情報を「混合」)。 MLP-Mixer アーキテクチャ。 XCiT: 相互共分散画像変換もう 1 つは、ViT のコア構成要素であるトークン次元に適用される自己注意を変更することを目的とした、より新しいアーキテクチャ XCiT です。 XCiT アーキテクチャ。 XCA: 情報混合のために、著者らはトークン自体ではなくトークンの特徴次元に対して動作する相互共分散アテンション (XCA) 関数を提案しました。重要なのは、この方法はクエリ、キー、値のセットの L2 正規化に対してのみ機能することです。 L2 ノルムは、K と Q の文字の上にある帽子で表されます。乗算の結果もソフトマックスの前に [-1,1] に正規化されます。 ローカル パッチ相互作用: パッチ間の明示的な通信を可能にするために、研究者は、その間にバッチ正規化と GELU 非線形性を備えた 2 つの深さ方向の 3×3 畳み込み層を追加しました。深さ方向の畳み込みは、各チャネル (ここではパッチ) に個別に適用されます。 ConvMixer (リンクを追加: パッチは必要なものすべてになりましたか? ViT と MLP-Mixer に挑戦するシンプルなモデルはここにあります) 自己注意と MLP は、より大きな受容野とコンテンツ認識型の動作を可能にするため、理論的にはより一般的なモデリング メカニズムです。それにもかかわらず、畳み込みの帰納的バイアスは、コンピューター ビジョンのタスクにおいて間違いなく成功していることが証明されています。 これに触発されて、研究者たちは畳み込みネットワークに基づく別の変種である ConvMixer を提案しました。主なアイデアは、入力として与えられたパッチに対して直接操作し、空間次元とチャネル次元の混合を分離し、ネットワーク全体で同じサイズと解像度を維持することです。 具体的には、深さ方向の畳み込みは空間位置のブレンドを担当し、ポイント方向の畳み込み (1x1x チャネル カーネル) はチャネル位置のブレンドに使用されます (次の図を参照)。 より大きなカーネル サイズを選択してより大きな受容フィールドを作成することにより、離れた空間位置の混合を実現できます。 マルチスケールビジュアルトランスフォーマーCNN バックボーン アーキテクチャは、特徴マップの空間次元を削減しながら、チャネルを段階的に増加させることでメリットを得られます。同様に、マルチスケール ビジュアル トランスフォーマー (MViT) は、マルチスケール機能階層とビジュアル トランスフォーマー モデルを組み合わせるというアイデアを活用します。実際には、著者らは 3 チャネルの初期画像サイズから始めて、空間解像度を下げながらチャネル容量を徐々に (レイヤーごとに) 拡張していきます。 したがって、マルチスケールの特徴ピラミッドが作成されます。直感的に言えば、初期の層は高次元で単純な低レベルの視覚情報を学習し、より深い層は複雑な高次元の特徴を担当します。 ビデオカテゴリー: Timesformer画像タスクが成功した後、ビジュアルトランスフォーマーがビデオ認識に適用されました。アーキテクチャには 2 つあります。 ビデオ認識のためのブロックベースとアーキテクチャベース/モジュールベースの時空間注意アーキテクチャ。
機能の視覚化には Timesformer t-SNE を使用します。
セマンティックセグメンテーションにおけるViT: SegFormerNvidia は、SegFormer と呼ばれる適切に構成されたセットアップを考案しました。 SegFormer の設計コンポーネントは興味深いです。まず、マルチスケールの特徴を出力する階層型 Transformer エンコーダーで構成されます。 2 番目に、位置エンコーディングを必要としないため、テスト解像度がトレーニングと異なる場合にパフォーマンスが低下します。 SegFormer は、非常にシンプルな MLP デコーダーを使用して、エンコーダーからのマルチスケール機能を集約します。 ViT とは異なり、SegFormer は 4 x 4 などの小さな画像パッチを使用します。これは、高密度予測タスクに効果的であることが知られています。提案されたTransformerエンコーダーは、マルチレベルの特徴を持つ元の画像解像度の1/4、1/8、1/16、1/32を出力します。これらのマルチレベルの特徴は、セグメンテーション マスクを予測するために MLP デコーダーに送られます。 Mix-FFN: 位置エンコーディングの影響を軽減するために、研究者はゼロパディングされた 3 × 3 畳み込み層を使用して位置情報を漏らします。 Mix-FFN は次のように表現できます。 PVT では、削減率を使用してシーケンスの長さを削減する効率的な自己注意が提案されています。有効受容野 (ERF) を視覚化することで、結果を定性的に測定できます。
医療画像におけるビジュアルトランスフォーマー: Unet + ViT = UNETR医療用画像診断には他の試みもありましたが、UNETR は最も説得力のある結果をもたらします。このアプローチでは、ViT を 3D 医療画像のセグメンテーションに適用します。いくつかの 3D セグメンテーション タスクのベースラインを改善するには、単純な適応で十分であることを示します。 基本的に、UNETR は Transformer をエンコーダーとして使用し、入力オーディオのシーケンス表現を学習します。 Unet モデルと同様に、グローバルなマルチスケール情報を効果的にキャプチャし、長い残差接続を介してデコーダーに渡し、さまざまな解像度で残差接続を形成して、最終的なセマンティック セグメンテーション出力を計算することを目的としています。 UNETR アーキテクチャ。 論文からのセグメンテーション結果をいくつか紹介します。 |
<<: デジタル変革時代の産業用ロボットの5つの大きなトレンド
>>: 自動運転車は複雑な相互作用の問題をどのように解決するのでしょうか?清華大学とMITが共同でM2Iソリューションを提案
論文リンク: https://arxiv.org/pdf/2303.08134.pdfコードアドレス...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
スタンフォード大学のAI 100のAI Indexプロジェクトは、人工知能の活動と進歩を追跡し、人工...
[[435016]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitA...
世界経済の礎である製造業は、人工知能 (AI) が推進する技術革命の最前線にあります。この記事では、...
ヘルスケア業界の成長は驚異的ですが、欠点がないわけではありません。医師や研究者は、一般的な病気や珍し...
[[339715]]テキスト分割、品詞タグ付け、固有表現認識は、自然言語処理の分野では非常に基本的な...
多くの小売業者にとって、2020年のコロナウイルスの流行は、その存続と運営に深刻な影響を及ぼしました...
[[442548]]世界中でロボティックプロセスオートメーション (RPA) が使用され、ビジネスの...
量子コンピューティングは、常に次の産業革命の原動力と考えられてきました。さまざまな国やテクノロジー企...
[51CTO.comよりオリジナル記事] 8月15日、マイクロソフト(アジア)インターネットエンジニ...
COVID-19の流行、メンタルヘルスの危機、医療費の高騰、人口の高齢化により、業界のリーダーたちは...
プラットフォーム経済の急速な発展に伴い、オンラインショッピング、交通、旅行宿泊、食品配達、オンライン...