ビジュアルTransformer BERTの事前トレーニングのための新しい方法:USTC、MSRAなどが提案したPeCo

ビジュアルTransformer BERTの事前トレーニングのための新しい方法:USTC、MSRAなどが提案したPeCo

[[438709]]

大規模なコーパスでトレーニングされた Transformer モデルは、自然言語処理で大きな成功を収めています。Transformer の構成要素である自己注意は、コンピューター ビジョンのタスクを大きく変えました。 NLP の成功は、Transformer の計算効率とスケーラビリティだけでなく、大量のテキストに対する自己教師学習にも依存します。現在、NLP 分野では、自己回帰言語モデルに基づく GPT とマスク言語モデルに基づく BERT という 2 つの主流の学習パラダイムがあります。どちらも、大規模なネットワーク画像を最大限に活用できるようにコンピューター ビジョンの分野で再設計されています。

しかし、視覚タスクで同様のスタイルを持つターゲットを設計することは困難です。なぜなら、高次元で冗長なモダリティである画像は、テキストとは 2 つの点で異なるからです。第 1 に、テキストは離散的な文字で構成されていますが、画像は色空間で連続的な値を表します。第 2 に、テキスト内の離散的なトークンには高レベルの意味論的意味が含まれますが、離散化された画像にはピクセルおよびパッチ レベルで多数の冗長なトークンが含まれます。

したがって、画像の事前トレーニングを容易にする知覚的な個別の視覚トークンを学習する方法があるかどうかを尋ねずにはいられません。

上記の観察に基づいて、中国科学技術大学、マイクロソフト リサーチ アジアなどの研究機関の研究者は、ビジュアル トランスフォーマーの BERT 事前トレーニング用に知覚コードブック (PeCo) を学習することを提案しました。現在、BEiT は BERT 事前トレーニングを NLP 分野から視覚分野に移行することに成功しています。 BEiT モデルは、単純な離散 VAE を視覚トークナイザーとして直接使用しますが、視覚トークンのセマンティック レベルは考慮しません。対照的に、NLP 分野の離散トークンは高度な意味を持ちます。この違いが研究者たちに知覚コードブックの学習を始める動機となり、研究者たちは dVAE トレーニング中に知覚の類似性を強化するシンプルかつ効果的な方法を発見しました。

この研究は、PeCo によって生成された視覚トークンがより優れたセマンティクスを表現し、事前トレーニング済みモデルがさまざまな下流タスクでより優れた移行パフォーマンスを達成するのに役立つことを証明しています。たとえば、この研究では、ViT-B バックボーンを使用して ImageNet-1K で 84.5% の Top-1 精度を達成しました。これは、同じ事前トレーニング エポックでの BEiT よりも 1.3 高い精度です。さらに、この方法により、COCO val でのオブジェクト検出タスクとセグメンテーションタスクのパフォーマンスがそれぞれ +1.3 ボックス AP と +1.0 マスク AP 向上し、ADE20k でのセマンティックセグメンテーションタスクが +1.0 mIoU 向上します。

論文アドレス: https://arxiv.org/pdf/2111.12710v1.pdf

方法

自然言語では、単語は高レベルの意味情報を含む個別のトークンです。対照的に、視覚信号は連続的であり、冗長な低レベルの情報を持っています。このセクションでは、まず VQ-VAE の離散表現学習について簡単に説明し、次に知覚コードブックの学習プロセスを紹介し、最後に知覚視覚トークンの学習のための BERT 事前トレーニングを実行します。

視覚化のための離散コードブックの学習

この研究では、VQ-VAE を使用して連続画像コンテンツを離散トークン形式に変換します。画像はx∈R^H×W×3として表現され、VQ-VAEは離散ビジュアルコードブ​​ックを使用して画像を表します。つまり、

その中で、VQ-VAE は、エンコーダー、量子化器、デコーダーの 3 つの主要部分で構成されています。エンコーダは、入力画像を中間ポテンシャルベクトル z = Enc(x) にマッピングする役割を担い、量子化器は、位置 (i, j) のベクトルを、最近傍割り当て原則に従ってコードブックの対応するコードワードに量子化する役割を担います。

すると次の式が得られます。

ここで、q はベクトルをコードブック インデックスにマッピングする量子化エンコーダーであり、r はインデックスからベクトルを再構築する量子化デコーダーです。量子化されたコードワード z_q に基づいて、デコーダーは入力画像 x を再構築することを目指します。 VQ-VAE のトレーニング目標は次のように定義されます。

ビジュアルコンテンツのための PeCo の学習

この研究では、ピクセル単位の損失を含めずに、モデル上の元の画像と再構成された画像間の知覚的類似性を強化することを提案します。知覚的類似性は、ピクセル間の違いに基づくのではなく、事前にトレーニングされたディープ ニューラル ネットワークから抽出された高レベルの画像特徴表現間の違いに基づいています。この研究では、特徴ごとの損失によって知覚の違いをより適切に捉え、低レベルの変化に対する不変性を提供できることを期待しています。次の図は、画像再構成の観点から異なる損失を使用したモデルの比較を示しており、結果から、ピクセル単位の損失が低い場合、画像が知覚的に類似していない可能性があることがわかります。

図 1. 異なる損失下での画像再構成の比較。各例には、入力 (左)、ピクセル単位の損失を使用して再構成された画像 (中央)、ピクセル単位の損失と特徴単位の損失を使用して再構成された画像 (右) の 3 つの画像が含まれています。右側の画像は、中央の画像よりも知覚的に入力に似ています。

正式には、入力画像xと再構成画像

の知覚的測定基準は次のように表現できます。

ここで、S は特徴を抽出するためのレイヤーの数を表し、全体的な目的関数は次のようになります。

BERT目標はマスクされた画像モデリングを実行する

この研究では、BERT 目標を使用して、個別の視覚トークンに対して BEiT などのマスク画像モデリング タスクを実行します。与えられた画像xに対して、入力トークンは重複しない画像パッチであり、出力トークンは式(5)を学習することによって得られる離散的な知覚視覚単語である。入力が{x_1, x_2, · · · , x_N}で、真の値の出力が

。 マスクされた画像モデリングの目的は、入力トークンの一部がマスクされているマスクされた入力から、対応する視覚トークンを回復することです。具体的には、Mをマスクインデックスの集合とし、マスク入力を

次のように表現されます。

ここで、m はマスクされていないトークンと同じ次元の学習可能なマスクされたトークンです。マスクされた入力トークンはL層のビジュアルトランスフォーマーに送られ、最後の層の隠し出力は{h^1, h^2, · · ·, h^N}として表されます。

実験

この研究では、ImageNet-1K 分類、COCO オブジェクト検出、ADE20k セグメンテーションなど、さまざまな下流タスクに事前トレーニング済みモデルを適用しました。

SOTAモデルとの比較

まず、この研究では PeCo と SOTA 研究を比較します。研究者らはViT-Bをバックボーンとして使用し、300エポックのImageNet-1Kで事前トレーニングしました。

画像分類タスク: ImageNet 1K での分類タスクのトップ 1 精度を表 1 に示します。 PeCo は最初からトレーニングされたモデルと比較してパフォーマンスが大幅に向上していることがわかります。これは事前トレーニングの有効性を示しています。さらに重要なことは、PeCo モデルは、以前の自己教師型の事前トレーニング済みモデルと比較して最高のパフォーマンスを実現することです。 800 エポックの BEiT 事前トレーニングと比較すると、PeCo はわずか 300 エポックで 0.9% の改善を達成し、1600 エポックの MAE 事前トレーニングと比較して 0.5% の改善を達成したことは注目に値します。これにより、PeCo が事前トレーニングに確かに有益であることが証明されます。

セマンティックセグメンテーションタスク:この研究では、PeCo を 1) ImageNet-1K の教師あり事前トレーニングと 2) BEiT (SOTA パフォーマンス自己教師あり学習モデル) と比較します。評価指標は mIoU です。結果を表 2 に示します。結果から、PeCo は事前トレーニング中にラベル情報を一切使用しないにもかかわらず、教師あり事前トレーニングよりも優れたパフォーマンスを達成していることがわかります。さらに、自己教師あり BEiT と比較して、PeCo モデルはより優れたパフォーマンスを達成し、PeCo の有効性がさらに検証されました。

オブジェクトの検出とセグメンテーション: 表 3 に示すように、PeCo はこのタスクで最高のパフォーマンスを達成します。

知覚コードブック分析

コードワードの意味論: 学習された知覚コードワードには (より多くの) 意味論的意味がありますか?この質問に答えるために、本研究では視覚的かつ定量的な結果を提供する実験を設計しました。

まず、この研究では、同じコードワードに対応する画像パッチを視覚化し、2 億 5000 万のプライベート データでトレーニングされた DALL-E コードブックと、知覚の類似性を使用しない PeCo モデルのバリアントの 2 つのベースラインと比較します。結果は図 3 に示されています。この研究のコードワードは、図に示されているホイールのように、セマンティクスと高い相関関係にあることがわかります。ベースラインのコードワードは通常、低レベルの情報 (テクスチャ、色、エッジなど) に関連しています。

さらに、この研究では知覚的類似性を使用しない変種との比較も実施しました。表 4 に示すように、知覚コードワードは線形評価と再構成画像分類において高い精度を達成していることがわかります。これは、知覚コードブックがより意味的な意味を持ち、画像再構成プロセスに有益であることを示しています。

下の図は、BEiT と PeCo を使用して ImageNet-1k でタスクを再構築する例を示しています。各サンプルについて、最初のものは元の画像、2 番目は対応するマスク画像、3 番目は BEiT 再構成画像、最後のものは知覚コードブック (PeCo) から再構成された画像です。知覚コードブックの助けを借りて、PeCo はマスク領域についてより詳細な意味予測を行うことができます。

<<:  ロボット・アメカは「魂」の束縛から解放され覚醒するのか?邪悪な笑顔は一瞬で恐ろしい

>>:  Nvidiaは写真編集ソフトウェアGANを

ブログ    
ブログ    

推薦する

数秒で AI を学ぶ - ディープラーニングの一般的な 4 つの活性化関数: シグモイド、Tanh、ReLU、Softmax

ディープラーニングにおける活性化関数は、ニューラル ネットワークの重要なコンポーネントです。活性化関...

ビデオ会議に最適な AI アプリケーション

人工知能はさまざまな方法でビジネスを支援しています。 COVID-19パンデミックの間、多くの企業は...

アプリランキング操作の水軍が復活:Appleのアルゴリズムを破るために5倍のコストを費やす

[「今回の調整は、主にユーザーのアクティベーション率、アプリの使用頻度、評価など総合的に考慮して行う...

顔認識の歴史的な禁止が導入され、警察は犯罪者を捕まえるために顔認識を使用できなくなった

サンフランシスコは前例のない措置として、政府による顔認識技術の使用を禁止する規則を発布した。悪者を捕...

ChatGPTから何を学びましたか?

GPTとはGPT は「Generative Pre-Training」の略で、画像とテキストの入力...

モデル圧縮率95%、MIT Han Songらが新しいLite Transformerを提案

Transformer の高性能は非常に高い計算能力に依存しており、モバイル NLP に大きな制限が...

ソフトウェア開発における AI と機械学習の応用: 将来の動向と課題

人工知能 (AI) と機械学習 (ML) は、現代のソフトウェア開発の重要な部分になりつつあります。...

速報です!李菲菲の一番弟子カルパシーが辞任、テスラの自動運転は危機に瀕しているのか?

たった今、テスラはまた別の技術専門家を失いました!テスラAIのシニアディレクターであり、自動運転ビジ...

...

Huawei のフルシナリオ AI コンピューティング フレームワーク MindSpore がオープン ソースになりました。

Huawei の Mindspore AI コンピューティング フレームワークの公式オープン ソー...

自由に歩き回るロボット掃除機は密かにあなたを監視しているかもしれない

一日中懸命に働いた労働者たちは、疲れた体を引きずりながら家に戻り、ついに「解放された農奴が歌う」生活...

次世代の AI 人材をどう育成するか?

AI 人材とプロジェクト パイプラインを構築するには、教育的価値だけでなく技術的価値も必要です。そ...

科学者たちは、脳波を3%という低いエラー率で直接テキストに変換する「心を読む」方法を開発した。

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

収穫作業員は月に10万ドルを稼ぐが、誰も雇ってくれないため、英国とオーストラリアの農場はAIに助けを求めている

[[345762]]秋は収穫の季節だが、英国やオーストラリアなどの果樹農家は不安を抱いている。畑では...

自然言語処理のためのニューラルネットワークモデルに関する予備的研究

ディープラーニング技術は、自然言語処理 (NLP) の分野に大きな影響を与えます。しかし、初心者の場...