ビジュアルTransformer BERTの事前トレーニングのための新しい方法:USTC、MSRAなどが提案したPeCo

ビジュアルTransformer BERTの事前トレーニングのための新しい方法:USTC、MSRAなどが提案したPeCo

[[438709]]

大規模なコーパスでトレーニングされた Transformer モデルは、自然言語処理で大きな成功を収めています。Transformer の構成要素である自己注意は、コンピューター ビジョンのタスクを大きく変えました。 NLP の成功は、Transformer の計算効率とスケーラビリティだけでなく、大量のテキストに対する自己教師学習にも依存します。現在、NLP 分野では、自己回帰言語モデルに基づく GPT とマスク言語モデルに基づく BERT という 2 つの主流の学習パラダイムがあります。どちらも、大規模なネットワーク画像を最大限に活用できるようにコンピューター ビジョンの分野で再設計されています。

しかし、視覚タスクで同様のスタイルを持つターゲットを設計することは困難です。なぜなら、高次元で冗長なモダリティである画像は、テキストとは 2 つの点で異なるからです。第 1 に、テキストは離散的な文字で構成されていますが、画像は色空間で連続的な値を表します。第 2 に、テキスト内の離散的なトークンには高レベルの意味論的意味が含まれますが、離散化された画像にはピクセルおよびパッチ レベルで多数の冗長なトークンが含まれます。

したがって、画像の事前トレーニングを容易にする知覚的な個別の視覚トークンを学習する方法があるかどうかを尋ねずにはいられません。

上記の観察に基づいて、中国科学技術大学、マイクロソフト リサーチ アジアなどの研究機関の研究者は、ビジュアル トランスフォーマーの BERT 事前トレーニング用に知覚コードブック (PeCo) を学習することを提案しました。現在、BEiT は BERT 事前トレーニングを NLP 分野から視覚分野に移行することに成功しています。 BEiT モデルは、単純な離散 VAE を視覚トークナイザーとして直接使用しますが、視覚トークンのセマンティック レベルは考慮しません。対照的に、NLP 分野の離散トークンは高度な意味を持ちます。この違いが研究者たちに知覚コードブックの学習を始める動機となり、研究者たちは dVAE トレーニング中に知覚の類似性を強化するシンプルかつ効果的な方法を発見しました。

この研究は、PeCo によって生成された視覚トークンがより優れたセマンティクスを表現し、事前トレーニング済みモデルがさまざまな下流タスクでより優れた移行パフォーマンスを達成するのに役立つことを証明しています。たとえば、この研究では、ViT-B バックボーンを使用して ImageNet-1K で 84.5% の Top-1 精度を達成しました。これは、同じ事前トレーニング エポックでの BEiT よりも 1.3 高い精度です。さらに、この方法により、COCO val でのオブジェクト検出タスクとセグメンテーションタスクのパフォーマンスがそれぞれ +1.3 ボックス AP と +1.0 マスク AP 向上し、ADE20k でのセマンティックセグメンテーションタスクが +1.0 mIoU 向上します。

論文アドレス: https://arxiv.org/pdf/2111.12710v1.pdf

方法

自然言語では、単語は高レベルの意味情報を含む個別のトークンです。対照的に、視覚信号は連続的であり、冗長な低レベルの情報を持っています。このセクションでは、まず VQ-VAE の離散表現学習について簡単に説明し、次に知覚コードブックの学習プロセスを紹介し、最後に知覚視覚トークンの学習のための BERT 事前トレーニングを実行します。

視覚化のための離散コードブックの学習

この研究では、VQ-VAE を使用して連続画像コンテンツを離散トークン形式に変換します。画像はx∈R^H×W×3として表現され、VQ-VAEは離散ビジュアルコードブ​​ックを使用して画像を表します。つまり、

その中で、VQ-VAE は、エンコーダー、量子化器、デコーダーの 3 つの主要部分で構成されています。エンコーダは、入力画像を中間ポテンシャルベクトル z = Enc(x) にマッピングする役割を担い、量子化器は、位置 (i, j) のベクトルを、最近傍割り当て原則に従ってコードブックの対応するコードワードに量子化する役割を担います。

すると次の式が得られます。

ここで、q はベクトルをコードブック インデックスにマッピングする量子化エンコーダーであり、r はインデックスからベクトルを再構築する量子化デコーダーです。量子化されたコードワード z_q に基づいて、デコーダーは入力画像 x を再構築することを目指します。 VQ-VAE のトレーニング目標は次のように定義されます。

ビジュアルコンテンツのための PeCo の学習

この研究では、ピクセル単位の損失を含めずに、モデル上の元の画像と再構成された画像間の知覚的類似性を強化することを提案します。知覚的類似性は、ピクセル間の違いに基づくのではなく、事前にトレーニングされたディープ ニューラル ネットワークから抽出された高レベルの画像特徴表現間の違いに基づいています。この研究では、特徴ごとの損失によって知覚の違いをより適切に捉え、低レベルの変化に対する不変性を提供できることを期待しています。次の図は、画像再構成の観点から異なる損失を使用したモデルの比較を示しており、結果から、ピクセル単位の損失が低い場合、画像が知覚的に類似していない可能性があることがわかります。

図 1. 異なる損失下での画像再構成の比較。各例には、入力 (左)、ピクセル単位の損失を使用して再構成された画像 (中央)、ピクセル単位の損失と特徴単位の損失を使用して再構成された画像 (右) の 3 つの画像が含まれています。右側の画像は、中央の画像よりも知覚的に入力に似ています。

正式には、入力画像xと再構成画像

の知覚的測定基準は次のように表現できます。

ここで、S は特徴を抽出するためのレイヤーの数を表し、全体的な目的関数は次のようになります。

BERT目標はマスクされた画像モデリングを実行する

この研究では、BERT 目標を使用して、個別の視覚トークンに対して BEiT などのマスク画像モデリング タスクを実行します。与えられた画像xに対して、入力トークンは重複しない画像パッチであり、出力トークンは式(5)を学習することによって得られる離散的な知覚視覚単語である。入力が{x_1, x_2, · · · , x_N}で、真の値の出力が

。 マスクされた画像モデリングの目的は、入力トークンの一部がマスクされているマスクされた入力から、対応する視覚トークンを回復することです。具体的には、Mをマスクインデックスの集合とし、マスク入力を

次のように表現されます。

ここで、m はマスクされていないトークンと同じ次元の学習可能なマスクされたトークンです。マスクされた入力トークンはL層のビジュアルトランスフォーマーに送られ、最後の層の隠し出力は{h^1, h^2, · · ·, h^N}として表されます。

実験

この研究では、ImageNet-1K 分類、COCO オブジェクト検出、ADE20k セグメンテーションなど、さまざまな下流タスクに事前トレーニング済みモデルを適用しました。

SOTAモデルとの比較

まず、この研究では PeCo と SOTA 研究を比較します。研究者らはViT-Bをバックボーンとして使用し、300エポックのImageNet-1Kで事前トレーニングしました。

画像分類タスク: ImageNet 1K での分類タスクのトップ 1 精度を表 1 に示します。 PeCo は最初からトレーニングされたモデルと比較してパフォーマンスが大幅に向上していることがわかります。これは事前トレーニングの有効性を示しています。さらに重要なことは、PeCo モデルは、以前の自己教師型の事前トレーニング済みモデルと比較して最高のパフォーマンスを実現することです。 800 エポックの BEiT 事前トレーニングと比較すると、PeCo はわずか 300 エポックで 0.9% の改善を達成し、1600 エポックの MAE 事前トレーニングと比較して 0.5% の改善を達成したことは注目に値します。これにより、PeCo が事前トレーニングに確かに有益であることが証明されます。

セマンティックセグメンテーションタスク:この研究では、PeCo を 1) ImageNet-1K の教師あり事前トレーニングと 2) BEiT (SOTA パフォーマンス自己教師あり学習モデル) と比較します。評価指標は mIoU です。結果を表 2 に示します。結果から、PeCo は事前トレーニング中にラベル情報を一切使用しないにもかかわらず、教師あり事前トレーニングよりも優れたパフォーマンスを達成していることがわかります。さらに、自己教師あり BEiT と比較して、PeCo モデルはより優れたパフォーマンスを達成し、PeCo の有効性がさらに検証されました。

オブジェクトの検出とセグメンテーション: 表 3 に示すように、PeCo はこのタスクで最高のパフォーマンスを達成します。

知覚コードブック分析

コードワードの意味論: 学習された知覚コードワードには (より多くの) 意味論的意味がありますか?この質問に答えるために、本研究では視覚的かつ定量的な結果を提供する実験を設計しました。

まず、この研究では、同じコードワードに対応する画像パッチを視覚化し、2 億 5000 万のプライベート データでトレーニングされた DALL-E コードブックと、知覚の類似性を使用しない PeCo モデルのバリアントの 2 つのベースラインと比較します。結果は図 3 に示されています。この研究のコードワードは、図に示されているホイールのように、セマンティクスと高い相関関係にあることがわかります。ベースラインのコードワードは通常、低レベルの情報 (テクスチャ、色、エッジなど) に関連しています。

さらに、この研究では知覚的類似性を使用しない変種との比較も実施しました。表 4 に示すように、知覚コードワードは線形評価と再構成画像分類において高い精度を達成していることがわかります。これは、知覚コードブックがより意味的な意味を持ち、画像再構成プロセスに有益であることを示しています。

下の図は、BEiT と PeCo を使用して ImageNet-1k でタスクを再構築する例を示しています。各サンプルについて、最初のものは元の画像、2 番目は対応するマスク画像、3 番目は BEiT 再構成画像、最後のものは知覚コードブック (PeCo) から再構成された画像です。知覚コードブックの助けを借りて、PeCo はマスク領域についてより詳細な意味予測を行うことができます。

<<:  ロボット・アメカは「魂」の束縛から解放され覚醒するのか?邪悪な笑顔は一瞬で恐ろしい

>>:  Nvidiaは写真編集ソフトウェアGANを

ブログ    
ブログ    
ブログ    

推薦する

市場動向 | 人工知能が光接続の需要を急増させる

世界のデジタル経済が急速に発展するにつれ、クラウド コンピューティングによってデータ転送速度に対する...

...

自動運転の未来 - 4Dミリ波レーダー

現在、自動運転車の知覚の実現は、車両に搭載されたレーザーレーダー、車載カメラ、ミリ波レーダーなどのセ...

人工知能と遠隔監視:宇宙でのマッチング

データ センターが地球外の人々の長期的なコンピューティング ニーズを満たすことは避けられないと思われ...

人工知能を活用してビジネスを成長させ、企業価値を創造する方法

組織は、全員を関与させれば、AI を活用してビジネスを成長させることができます。人工知能への投資は、...

世界の技術大国の人工知能+インテリジェント製造戦略の展開を振り返る

1. アメリカ合衆国2016 年 10 月、米国政府は「人工知能の未来への準備」と「国家人工知能研究...

機械学習エンジニアとデータサイエンティストの戦い

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

Google Gemini がゲームを逆転!マルチモーダル機能は GPT-4V と同等 | 香港中国語 128 ページの総合評価レポート

Google がゲームを撤回しました! Gemini が API を公開してから1 週間も経たないう...

医療AIの将来に注目すべき3つのトレンド

COVID-19の流行、メンタルヘルスの危機、医療費の高騰、人口の高齢化により、業界のリーダーたちは...

生成 AI とビッグモデルの違いと関連性は何ですか?

近年、ChatGPT、GPT-4、BARD、Claudeなどの大規模モデルが急速かつ大幅な進歩を遂げ...

...

まだ人工知能を理解していないのですね?チューリングに「直接」説明してもらってはいかがでしょうか?

[[335755]]タイムトラベルの超能力を与えられたら、どの歴史上の人物と話をして過去に戻りたい...

...

Keras でカスタム損失関数を作成する方法は?

[[284375]] UnsplashのDhruv Deshmukhによる写真損失関数を使用して、...

CNNを知っておくべきだ

CNN というと、最初は特定のテレビ局を思い浮かべる人が多かったのですが、数年後にはディープラーニン...