ビジュアルTransformer BERTの事前トレーニングのための新しい方法：USTC、MSRAなどが提案したPeCo

[[438709]]

大規模なコーパスでトレーニングされた Transformer モデルは、自然言語処理で大きな成功を収めています。Transformer の構成要素である自己注意は、コンピュータービジョンのタスクを大きく変えました。 NLP の成功は、Transformer の計算効率とスケーラビリティだけでなく、大量のテキストに対する自己教師学習にも依存します。現在、NLP 分野では、自己回帰言語モデルに基づく GPT とマスク言語モデルに基づく BERT という 2 つの主流の学習パラダイムがあります。どちらも、大規模なネットワーク画像を最大限に活用できるようにコンピュータービジョンの分野で再設計されています。

しかし、視覚タスクで同様のスタイルを持つターゲットを設計することは困難です。なぜなら、高次元で冗長なモダリティである画像は、テキストとは 2 つの点で異なるからです。第 1 に、テキストは離散的な文字で構成されていますが、画像は色空間で連続的な値を表します。第 2 に、テキスト内の離散的なトークンには高レベルの意味論的意味が含まれますが、離散化された画像にはピクセルおよびパッチレベルで多数の冗長なトークンが含まれます。

したがって、画像の事前トレーニングを容易にする知覚的な個別の視覚トークンを学習する方法があるかどうかを尋ねずにはいられません。

上記の観察に基づいて、中国科学技術大学、マイクロソフトリサーチアジアなどの研究機関の研究者は、ビジュアルトランスフォーマーの BERT 事前トレーニング用に知覚コードブック (PeCo) を学習することを提案しました。現在、BEiT は BERT 事前トレーニングを NLP 分野から視覚分野に移行することに成功しています。 BEiT モデルは、単純な離散 VAE を視覚トークナイザーとして直接使用しますが、視覚トークンのセマンティックレベルは考慮しません。対照的に、NLP 分野の離散トークンは高度な意味を持ちます。この違いが研究者たちに知覚コードブックの学習を始める動機となり、研究者たちは dVAE トレーニング中に知覚の類似性を強化するシンプルかつ効果的な方法を発見しました。

この研究は、PeCo によって生成された視覚トークンがより優れたセマンティクスを表現し、事前トレーニング済みモデルがさまざまな下流タスクでより優れた移行パフォーマンスを達成するのに役立つことを証明しています。たとえば、この研究では、ViT-B バックボーンを使用して ImageNet-1K で 84.5% の Top-1 精度を達成しました。これは、同じ事前トレーニングエポックでの BEiT よりも 1.3 高い精度です。さらに、この方法により、COCO val でのオブジェクト検出タスクとセグメンテーションタスクのパフォーマンスがそれぞれ +1.3 ボックス AP と +1.0 マスク AP 向上し、ADE20k でのセマンティックセグメンテーションタスクが +1.0 mIoU 向上します。

論文アドレス: https://arxiv.org/pdf/2111.12710v1.pdf

方法

自然言語では、単語は高レベルの意味情報を含む個別のトークンです。対照的に、視覚信号は連続的であり、冗長な低レベルの情報を持っています。このセクションでは、まず VQ-VAE の離散表現学習について簡単に説明し、次に知覚コードブックの学習プロセスを紹介し、最後に知覚視覚トークンの学習のための BERT 事前トレーニングを実行します。

視覚化のための離散コードブックの学習

この研究では、VQ-VAE を使用して連続画像コンテンツを離散トークン形式に変換します。画像はx∈R^H×W×3として表現され、VQ-VAEは離散ビジュアルコードブックを使用して画像を表します。つまり、

その中で、VQ-VAE は、エンコーダー、量子化器、デコーダーの 3 つの主要部分で構成されています。エンコーダは、入力画像を中間ポテンシャルベクトル z = Enc(x) にマッピングする役割を担い、量子化器は、位置 (i, j) のベクトルを、最近傍割り当て原則に従ってコードブックの対応するコードワードに量子化する役割を担います。

すると次の式が得られます。

ここで、q はベクトルをコードブックインデックスにマッピングする量子化エンコーダーであり、r はインデックスからベクトルを再構築する量子化デコーダーです。量子化されたコードワード z_q に基づいて、デコーダーは入力画像 x を再構築することを目指します。 VQ-VAE のトレーニング目標は次のように定義されます。

ビジュアルコンテンツのための PeCo の学習

この研究では、ピクセル単位の損失を含めずに、モデル上の元の画像と再構成された画像間の知覚的類似性を強化することを提案します。知覚的類似性は、ピクセル間の違いに基づくのではなく、事前にトレーニングされたディープニューラルネットワークから抽出された高レベルの画像特徴表現間の違いに基づいています。この研究では、特徴ごとの損失によって知覚の違いをより適切に捉え、低レベルの変化に対する不変性を提供できることを期待しています。次の図は、画像再構成の観点から異なる損失を使用したモデルの比較を示しており、結果から、ピクセル単位の損失が低い場合、画像が知覚的に類似していない可能性があることがわかります。

図 1. 異なる損失下での画像再構成の比較。各例には、入力 (左)、ピクセル単位の損失を使用して再構成された画像 (中央)、ピクセル単位の損失と特徴単位の損失を使用して再構成された画像 (右) の 3 つの画像が含まれています。右側の画像は、中央の画像よりも知覚的に入力に似ています。

正式には、入力画像xと再構成画像

の知覚的測定基準は次のように表現できます。

ここで、S は特徴を抽出するためのレイヤーの数を表し、全体的な目的関数は次のようになります。

BERT目標はマスクされた画像モデリングを実行する

この研究では、BERT 目標を使用して、個別の視覚トークンに対して BEiT などのマスク画像モデリングタスクを実行します。与えられた画像xに対して、入力トークンは重複しない画像パッチであり、出力トークンは式(5)を学習することによって得られる離散的な知覚視覚単語である。入力が{x_1, x_2, · · · , x_N}で、真の値の出力が

。マスクされた画像モデリングの目的は、入力トークンの一部がマスクされているマスクされた入力から、対応する視覚トークンを回復することです。具体的には、Mをマスクインデックスの集合とし、マスク入力を

次のように表現されます。

ここで、m はマスクされていないトークンと同じ次元の学習可能なマスクされたトークンです。マスクされた入力トークンはL層のビジュアルトランスフォーマーに送られ、最後の層の隠し出力は{h^1, h^2, · · ·, h^N}として表されます。

実験

この研究では、ImageNet-1K 分類、COCO オブジェクト検出、ADE20k セグメンテーションなど、さまざまな下流タスクに事前トレーニング済みモデルを適用しました。

SOTAモデルとの比較

まず、この研究では PeCo と SOTA 研究を比較します。研究者らはViT-Bをバックボーンとして使用し、300エポックのImageNet-1Kで事前トレーニングしました。

画像分類タスク: ImageNet 1K での分類タスクのトップ 1 精度を表 1 に示します。 PeCo は最初からトレーニングされたモデルと比較してパフォーマンスが大幅に向上していることがわかります。これは事前トレーニングの有効性を示しています。さらに重要なことは、PeCo モデルは、以前の自己教師型の事前トレーニング済みモデルと比較して最高のパフォーマンスを実現することです。 800 エポックの BEiT 事前トレーニングと比較すると、PeCo はわずか 300 エポックで 0.9% の改善を達成し、1600 エポックの MAE 事前トレーニングと比較して 0.5% の改善を達成したことは注目に値します。これにより、PeCo が事前トレーニングに確かに有益であることが証明されます。

セマンティックセグメンテーションタスク：この研究では、PeCo を 1) ImageNet-1K の教師あり事前トレーニングと 2) BEiT (SOTA パフォーマンス自己教師あり学習モデル) と比較します。評価指標は mIoU です。結果を表 2 に示します。結果から、PeCo は事前トレーニング中にラベル情報を一切使用しないにもかかわらず、教師あり事前トレーニングよりも優れたパフォーマンスを達成していることがわかります。さらに、自己教師あり BEiT と比較して、PeCo モデルはより優れたパフォーマンスを達成し、PeCo の有効性がさらに検証されました。

オブジェクトの検出とセグメンテーション: 表 3 に示すように、PeCo はこのタスクで最高のパフォーマンスを達成します。

知覚コードブック分析

コードワードの意味論: 学習された知覚コードワードには (より多くの) 意味論的意味がありますか?この質問に答えるために、本研究では視覚的かつ定量的な結果を提供する実験を設計しました。

まず、この研究では、同じコードワードに対応する画像パッチを視覚化し、2 億 5000 万のプライベートデータでトレーニングされた DALL-E コードブックと、知覚の類似性を使用しない PeCo モデルのバリアントの 2 つのベースラインと比較します。結果は図 3 に示されています。この研究のコードワードは、図に示されているホイールのように、セマンティクスと高い相関関係にあることがわかります。ベースラインのコードワードは通常、低レベルの情報 (テクスチャ、色、エッジなど) に関連しています。

さらに、この研究では知覚的類似性を使用しない変種との比較も実施しました。表 4 に示すように、知覚コードワードは線形評価と再構成画像分類において高い精度を達成していることがわかります。これは、知覚コードブックがより意味的な意味を持ち、画像再構成プロセスに有益であることを示しています。

下の図は、BEiT と PeCo を使用して ImageNet-1k でタスクを再構築する例を示しています。各サンプルについて、最初のものは元の画像、2 番目は対応するマスク画像、3 番目は BEiT 再構成画像、最後のものは知覚コードブック (PeCo) から再構成された画像です。知覚コードブックの助けを借りて、PeCo はマスク領域についてより詳細な意味予測を行うことができます。

<<: ロボット・アメカは「魂」の束縛から解放され覚醒するのか？邪悪な笑顔は一瞬で恐ろしい

>>: Nvidiaは写真編集ソフトウェアGANを