NLP/CVモデルは国境を越えて、ビジュアルトランスフォーマーはCNNを超えるのか?

NLP/CVモデルは国境を越えて、ビジュアルトランスフォーマーはCNNを超えるのか?

コンピュータービジョンの分野では、畳み込みニューラルネットワーク (CNN) が常に市場を支配してきました。しかし、研究者たちはNLP分野でTransformerに関する国境を越えた研究を試みており、かなり良い結果を達成している人もいます。最近、匿名の ICLR 2021 提出論文では、標準の Transformer を画像に直接適用し、新しい Vision Transformer モデルを提案し、複数の画像認識ベンチマークで現在の SOTA 方式に近いかそれ以上のパフォーマンスを達成しました。

10月2日、ディープラーニング分野のトップカンファレンス「ICLR 2021」の論文投稿が終了。Transformerを画像認識に応用した論文が注目を集めた。

テスラAIの責任者、アンドレイ・カルパシー氏はこの論文をリツイートし、「コンピュータービジョンとNLP分野の統合が進んでいることを嬉しく思う」と述べた。

これまで、Facebook は Transformer をターゲット検出タスクに適用し、OpenAI は画像分類に GPT-2 の使用を試みてきました。この「国境を越えた」論文はどのような新しい試みなのでしょうか。

Transformer アーキテクチャは、自然言語処理タスクでは長い間広く使用されてきましたが、コンピューター ビジョンの分野では依然として限られた範囲にとどまっています。コンピューター ビジョンの分野では、アテンションは畳み込みネットワークと組み合わせて使用​​されるか、畳み込みネットワークの全体的なアーキテクチャを変更せずに特定のコンポーネントを置き換えるために使用されます。

この研究では、CNN への依存は必要ではなく、画像パッチのシーケンスに直接適用すると、トランスフォーマーが画像分類タスクで優れたパフォーマンスを発揮できることが示されています。この研究では、大量のデータに基づいてモデルを事前トレーニングし、それを複数の画像認識ベンチマークデータセット(ImageNet、CIFAR-100、VTABなど)に移行しました。その結果、Vision Transformer(ViT)モデルは、トレーニングに必要なコンピューティングリソースを大幅に削減しながら、現在の最適な畳み込みネットワークに匹敵する結果を達成できることが示されました。

NLP におけるトランスフォーマーとコンピュータビジョンにおける CNN

自己注意ベースのアーキテクチャ、特に Transformer は、NLP の分野で選択されるモデルになっています。主流のアプローチは、大規模なテキストコーパスで事前トレーニングし、その後、より小さなタスク固有のデータセットで微調整することです。 Transformer の計算効率とスケーラビリティにより、1000 億を超えるパラメータを持つモデルも Transformer に基づいてトレーニングできます。モデルとデータセットが増えても、パフォーマンスが飽和する兆候は見られません。

しかし、コンピューター ビジョンでは、畳み込みアーキテクチャが依然として主流です。 NLP の成功に触発されて、多くのコンピューター ビジョン研究では CNN のようなアーキテクチャと自己注意を組み合わせることが試みられ、畳み込みを完全に置き換えた研究もあります。後者は理論的には効果的ですが、特殊なアテンション モデルを使用しているため、最新のハードウェア アクセラレータではまだ効果的に拡張されていません。したがって、大規模な画像認識タスクでは、古典的な ResNet のようなアーキテクチャが最先端のままです

トランスフォーマーの視覚分野への国境を越えた統合

この研究では、NLP 分野における Transformer スケーリングの成功に触発され、できるだけ変更を加えずに標準の Transformer を画像に直接適用することを試みます。この目的のために、この研究では画像を複数のパッチに分割し、これらのパッチの線形埋め込みシーケンスを Transformer の入力として使用しました。次に、画像ブロックは NLP 分野のトークンと同じ方法で処理され、画像分類モデルが教師あり方式でトレーニングされます。

ImageNet などの中規模のデータセットでトレーニングした場合、このようなモデルは最適ではない結果を生み出し、同じサイズの ResNet よりも精度が数パーセント低くなります。この一見気が滅入る結果は予想通りです。Transformer には、翻訳の等価性や局所性など、CNN に固有の誘導バイアスの一部が欠けており、そのため不十分なデータでトレーニングするとうまく一般化されません。

ただし、モデルが大規模なデータセット (1400 万〜 3 億枚の画像) でトレーニングされる場合、状況は大きく異なります。この研究では、大規模なトレーニングが帰納的バイアスよりも優れていることが判明しました。十分に大きなデータ規模で事前トレーニングし、データポイントの少ないタスクに転送すると、Transformer は優れた結果を達成できます。

本研究で提案された Vision Transformer は、JFT-300M データセットで事前トレーニングされており、複数の画像認識ベンチマークで SOTA レベルに近づくかそれを上回り、ImageNet で 88.36%、ImageNet ReaL で 90.77%、CIFAR-100 で 94.55%、VTAB ベンチマークの 19 のタスクで 77.16% の精度を達成しました。

モデルと方法

研究者たちは、オリジナルのトランスフォーマーの設計を可能な限り忠実に再現しました。この意図的にシンプルなセットアップの利点は、スケーラブルな NLP Transformer アーキテクチャとそれに対応する効率的な実装が、ほとんどすぐに使用できることです。研究者たちは、適切にスケールすれば、彼らのアプローチが最先端の畳み込みニューラルネットワークよりも優れた性能を発揮できることを示したかったのです。

ビジョントランスフォーマー(ViT)

この研究で提案された Vision Transformer アーキテクチャは、オリジナルの Transformer アーキテクチャに準拠しています。下の図 1 はモデル アーキテクチャの図です。

標準の Transformer は、トークン埋め込みの 1D シーケンスを入力として受け取ります。 2D画像を処理するために、研究者らは画像x∈R^H×W×Cを一連の平坦化された2Dパッチx_p∈R^N×(P^2·C)に変形しました。ここで、(H, W)は元の画像の解像度を表し、(P, P)は各画像パッチの解像度を表します。そして、N = HW/P^2がVision Transformerの有効シーケンス長になります。

Vision Transformer はすべてのレイヤーで同じ幅を使用するため、トレーニング可能な線形投影によって各ベクトル化されたパッチがモデル次元 D (式 1) にマッピングされ、対応する出力はパッチ埋め込みと呼ばれます。

BERTの[class]トークンと同様に、学習可能な埋め込みを埋め込みパッチのシーケンス(z_0^0 = x_class)の先頭に追加します。Transformerエンコーダの出力(z_0^L)の状態は、画像表現y(式4)として使用できます。事前トレーニングと微調整中、分類ヘッドは z_L^0 に接続されます。

位置情報を保持するために、位置埋め込みがパッチ埋め込みに追加されます。研究者たちは、位置埋め込みのさまざまな 2D 対応バリアントを試しましたが、標準的な 1D 位置埋め込みと比較して大きな効果は見られませんでした。したがって、エンコーダーはジョイント埋め込みを入力として受け取ります。

Transformer エンコーダーは、マルチヘッド セルフアテンション (MSA) と MLP ブロック (式 2、3) の複数の相互作用層で構成されています。 Layernorm (LN) は各ブロックの前に適用され、残余接続は各ブロックの後に適用されます。 MLP は、GELU 非線形性を示す 2 つのレイヤーで構成されています。

画像をパッチに分割する代わりに、出力シーケンスは ResNet の中間特徴マップによって形成されます。このハイブリッドモデルでは、パッチ埋め込み投影(式1)が初期段階でResNetに置き換えられます。 ResNet の中間 2D 特徴マップの 1 つがシーケンスに平坦化され、Transformer ディメンションにマッピングされてから、入力シーケンスとして Transformer に送られます。最後に、上記のように、カテゴリ入力埋め込みと位置埋め込みが Transformer 入力に追加されます。

微調整と高解像度

研究者らは、大規模なデータセットで ViT モデルを事前トレーニングし、より小規模な下流タスク向けにモデルを微調整しました。この目的のために、研究者らは事前トレーニング済みの予測ヘッドを削除し、ゼロ初期化された D × K フィードフォワード層を追加しました。ここで、K は下流のクラスの数を表します。事前トレーニングよりも、より高い解像度で微調整する方が有益な場合がよくあります。研究者は、より高解像度の画像を入力する際に​​パッチのサイズを変更せず、結果として有効なシーケンス長を大きくしました。

ViT モデルは任意のシーケンス長を処理できます (メモリ制約の影響を受けます) が、事前にトレーニングされた位置埋め込みは意味をなさなくなる可能性があります。そこで研究者らは、元の画像内の位置に基づいて、事前にトレーニングされた位置埋め込みに対して 2D 補間操作を実行しました。 2D 画像の誘導バイアスは、解像度調整とパッチ抽出中にのみ手動で ViT モデルに注入できることに注意することが重要です。

実験

この研究では多数の実験を実施し、複数の ViT モデルバリアントを使用しました。以下の表 1 を参照してください。

SOTAモデルとのパフォーマンス比較

研究者らはまず、最大の ViT モデル (JFT-300M データセットで事前トレーニングされた ViT-H/14 および ViT-L/16) と SOTA CNN モデルを比較しました。結果を下の表 2 に示します。

表 2: 一般的な画像分類ベンチマーク データセットにおける ViT モデルと SOTA モデルのパフォーマンス比較。

上記の表からわかるように、より小型の ViT-L/16 モデルは、すべてのデータセットで BiT-L と同等かそれ以上のパフォーマンスを発揮しますが、必要な計算能力ははるかに少なくなります。より大きな ViTH-14 モデルにより、特に ImageNet、CIFAR-100、VTAB などのより困難なデータセットでのパフォーマンスがさらに向上します。 ViTH-14 モデルは、すべてのデータセットで SOTA のパフォーマンスに匹敵するかそれを上回り、場合によっては SOTA モデルを大幅に上回ります (CIFAR-100 データセットで 1% 高いパフォーマンスなど)。 ImageNet データセットでは、ViT モデルのパフォーマンスは Noisy Student モデルよりも約 0.1% 低くなりますが、よりクリーンな ReaL ラベルを持つ ImageNet データセットでは、ViT は SOTA モデルよりも優れています。

下の図 2 は、VTAB タスクを複数のグループに分割し、ViT のパフォーマンスを BiT、VIVI、S4L などの SOTA 方式と比較しています。

自然タスクでは、ViT-H/14 のパフォーマンスは BiT-R152x4 よりもわずかに低くなりますが、特殊タスクでは、ViT は BiT や他の方法よりも優れており、構造化タスクでは、ViT は他の方法よりも大幅に優れています。

事前トレーニングデータ要件

Vision Transformer は、大規模な JFT-300M データセットで事前トレーニングした後、優れたパフォーマンスを示します。 ViT の誘導バイアスが ResNet よりも少ない場合、データセットのサイズはどの程度重要ですか?この研究ではいくつかの実験が行われた。

まず、ViT モデルは、サイズが増加するデータセット (ImageNet、ImageNet-21k、JFT300M) で事前トレーニングされます。下の図 3 は、ImageNet データセットにおけるモデルのパフォーマンスを示しています。

以下の表 3 は、ImageNet、ImageNet-21k、JFT300M データセットにおけるモデルのパフォーマンス比較を示しています。最初の 2 つの小さいデータセットでは、ViT-Large モデルのパフォーマンスは ViT-Base ほど良くありませんが、より大きな JFT300M データセットでは、大規模モデルの方が有利です。これは、データセットのサイズが大きくなるにつれて、より大きな ViT モデルバリアントの方がより小さなモデルよりも優れていることを示唆しています。

次に、研究者らは、JFT300Mデータセットと完全なデータセットの900万、3000万、9000万のランダムなサブセットでモデルをトレーニングしました。結果は下の図 4 に示されています。

図から、データセットが小さく、計算コストが同じ場合、Vision Transformer は ResNet よりも過剰適合していることがわかります。この結果は、畳み込み帰納的バイアスは小規模なデータセットには有効であるが、大規模なデータセットの場合は、関連するパターンを学習するだけで十分であるか、さらに効果的であるという考えを補強します。

スケーラビリティ調査

研究者らは、さまざまなモデルに対して制御されたスケーリング研究を実施しました。下の図 5 は、さまざまな事前トレーニング計算コストでのモデルの移行パフォーマンスを示しています。

実験結果は次のことを示しています。

Vision Transformer は、パフォーマンスと計算能力のトレードオフにおいて ResNet を大幅に上回ります。

ハイブリッド モデルは、計算コストが低い場合、ViT よりもわずかに優れたパフォーマンスを発揮しますが、計算コストが高くなると、このパフォーマンスは失われます。結果は驚くべきものでした。

Vision Transformer は、実験で試みられた計算能力の範囲内では飽和していないようで、将来的にはさらにスケーラビリティの研究が行われる可能性があります。

ViT は画像データをどのように処理しますか?

ViT が画像データを処理する仕組みを理解するために、研究者らはその内部表現を分析しました。

ViT の最初のレイヤーは、平坦化された画像パッチを低次元空間に線形投影します (式 1)。下の図 (左) は、学習された埋め込みフィルタの主なコンポーネントを示しています。投影後、学習された位置埋め込みが画像パッチ表現に追加されます。下の図 (中央) は、モデルが画像内の距離をエンコードすることを学習していることを示しており、より近い画像パッチにはより類似した位置埋め込みがある可能性が高いことを示しています。自己注意により、ViT は最低レベルでも画像全体の情報を統合できます。研究者らは、ViT ネットワークがこの機能をどのように活用しているかを調査しました。具体的には、この研究では、右下の図に示すように、画像空間内の平均距離(注意の重みに基づく)を計算しました。 「注意距離」は、CNN の受容野サイズに似ています。

ViT モデルは、分類に意味的に関連する画像領域に焦点を当てています (図 6 を参照)。

Zhihu の「ICLR 2021 で注目すべき投稿はありますか?」という質問では、複数の回答でこの論文が言及されており、解釈と苦情の両方が寄せられています。一部のネットユーザーは、「私たちは大きなモデル変更の前夜に立っており、ニューラルネットワークの可能性はまだまだ尽きていない。CVとAIの世界全体を覆すのに十分な強力な新しいモデルが氷山の一角を明らかにしたばかりで、今にも全力で襲来しそうだ」とさえ言っている。

参考リンク:

https://openreview.net/pdf?id=YicbFdNTTy

https://www.zhihu.com/question/423975807

タスクの要件に応じて適切なタイプのデータベースを選択するにはどうすればよいでしょうか?

AWS が公開したホワイトペーパー「特化データベースの時代へ」では、リレーショナル、キーバリュー、ドキュメント、インメモリ、グラフ、時系列、台帳、ドメインワイドカラムの 8 種類のデータベースが紹介され、それぞれの利点、課題、主なユースケースが一つずつ分析されています。

<<:  中国 NeurIPS の著者の 54% が米国へ:ケンブリッジ AI パノラマ レポートが発表

>>:  Microsoft AI が IMO コンテストに参加します!小さな目標:数学の金メダル

ブログ    
ブログ    

推薦する

...

...

「ドメイン外」テキストは不要、Microsoft: NLP はターゲットを絞った方法で事前トレーニングする必要がある

[[337084]]バイオメディカルなどの専門分野では、NLP モデルのトレーニングには、特定のデー...

AIとIoTの相互運用性に対する需要は2021年も増加し続ける

[[390687]]画像ソース: https://pixabay.com/images/id-440...

WPS AI公式サイトがオンラインになりました: 経験者資格の申請、WindowsとAndroidのダウンロードをサポート

写真1 ▲WPS AI公式サイトのスクリーンショット7月6日、Kingsoft OfficeはWPS...

...

OpenGL ES 入門: 組み込み 3D グラフィックス アルゴリズム標準

OpenGL とは何ですか? OpenGL (正式名称は Open Graphics Library...

テスラがFSDベータ版のメジャーアップデートをリリース、完全自動運転に近づく

テスラは2020年10月からFSDベータ版を徐々に展開しており、選ばれた自動車所有者のグループでテス...

デジタルセンサーを使用してピンホールカメラを作るにはどうすればいいですか?

ビッグデータダイジェスト制作出典: IEEE近年、ピンホール写真に対する人々の関心は年々高まり、関連...

...

...

自動運転にはバブルが必要

業界に「金儲けの見込み」があれば、必然的に「混乱」が起こります。 10年前はスマートフォンでしたが、...

データセンター冷却のための人工知能: 単なる夢物語ではない

現在、AI はデータセンターのあらゆる場所に存在し、ネットワークの管理と保護、アラートのフィルタリン...

自然言語処理ライブラリ - Snownlp

[[399217]]この記事はWeChatの公開アカウント「Zhibin's Python...

AIが高度な数学の核心を突破、微分方程式と不定積分を1秒以内に解き、その性能はMatlabをはるかに上回る

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...