特徴検出器からビジュアルトランスフォーマーへ: これは畳み込みニューラルネットワーク時代の終焉か?

この記事は、公開アカウント「Reading the Core」（ID: AI_Discovery）から転載したものです。

過去 10 年間、畳み込みニューラルネットワークは世界中のコンピュータービジョン研究の分野で主導的な役割を果たしてきました。しかし研究者たちは、トランスフォーマーの力を活用して画像に深い意味を与える新しいアプローチを提案している。

トランスフォーマーはもともと、ニューラル機械翻訳に重点を置いた自然言語処理タスク用に設計されました。その後、Google Research の Alexey Dosovitskiy、Lucas Beyer らは、「画像は 16x16 文字の価値を持つ: 画像認識のための大規模トランスフォーマー」と題する論文を執筆し、トランスフォーマーを通じて画像データを処理できる Visual Transformer (ViT) と呼ばれるアーキテクチャを提案しました。

[[359923]]

畳み込みニューラルネットワーク (CNN) の問題

Vision Transformer の動作を詳しく説明する前に、畳み込みニューラルネットワークの欠点と根本的な欠陥を理解することが重要です。まず、畳み込みニューラルネットワークは相対的な空間情報をエンコードできません。つまり、特定の特徴の検出にのみ焦点を当て、相対的な空間位置は無視されます。

畳み込みニューラルネットワークは、入力画像に特定の特徴が存在するかどうかにのみ焦点を当て、それらの相対的な位置を無視するため、上記の両方の画像は顔として認識されます。

畳み込みニューラルネットワークのもう一つの大きな欠点はプーリング層です。プーリング層では、最もアクティブな特徴検出器の正確な位置など、多くの有用な情報が失われます。つまり、特定の特徴を検出することはできますが、画像内での正確な位置を伝えることはできません。

コンバータの紹介

本質的に、Transformer は自己注意の概念を適用します。この概念は、自己と注意の 2 つの部分に分けることができます。注意は、入力文のさまざまな部分の重要性をモデル化するトレーニング可能な重みのみを指します。

文が入力されると、文中の各単語を調べ、その単語の文中の位置を、同じ文中のすべての単語（その単語を含む）の位置と比較します。そこで、トランスフォーマーは自己注意の概念を適用します。トランスフォーマーは、これらの位置の手がかりに基づいてスコアを計算し、これらの手がかりを使用して文のセマンティクス、つまり意味をより適切にエンコードします。

上記の例から、トランスフォーマーのアテンションユニットが「it」という単語の位置を、文中の「it」を含む他のすべての単語と比較していることがわかります。異なる色は、これらの接続におけるさまざまなパターンを発見することを目的として、独立して同時に動作する複数の注意ユニットを表します。

上記の比較を通じてスコアが計算されると、それらはフィードフォワードニューロンの単純な層に送信され、最終的に正規化されます。トレーニング中に、Transformer はこれらの注意ベクトルを学習します。

モデルアーキテクチャ

通常のトランスフォーマーが単語を通じて文章を学習するのと同様に、ビジュアルトランスフォーマーはピクセルを通じて画像に対して同様の結果を実現します。しかし、ここには問題があります。テキストとは異なり、単一のピクセルだけでは意味を伝えることができません。これが、ピクセルのグループに対して動作する畳み込みフィルターを使用する理由の 1 つです。

画像全体を小さな画像または単語の塊に分割します。すべてのパッチは線形投影マトリックスを使用して平坦化され、画像内の位置とともにトランスフォーマーに送られます (上図を参照)。このプロセスで、研究者は 16 x 16 サイズの小さな画像を選択したため、この研究タイトルは詩的なものとなりました。

次に、これらの埋め込まれたパッチは、通常のトランスフォーマーと同様の、多面的な自己注意、多層パーセプトロン (フィードフォワードニューロンの単純な層)、および正規化層の交互の層を通過します。分類ヘッドは、最終的な分類を予測するために、トランスフォーマーエンコーダーの最後にインストールされます。他の畳み込みモデルと同様に、事前トレーニング済みのエンコーダーのライブラリとカスタム MLP レイヤーを使用して、分類タスクに合わせてモデルを微調整できます。

要点

著者らは、ImageNet、CIFAR-10/100、JFT-300M（高解像度画像3億枚を含むGoogleの非公開データセット）など、さまざまな注釈付きデータセットでモデルをトレーニングしました。精度の点では、彼らのモデルは他の最先端の畳み込みモデルとほぼ同等の精度（多くの場合、さらに精度が高い）ですが、トレーニングにかかる時間が大幅に短縮（約 75% 短縮）され、使用するハードウェアリソースも少なくなります。

Visual Transformer のもう 1 つの利点は、ローカルアテンションではなくグローバルアテンションを使用するため、より高レベルの関係を非常に早い段階で学習できることです。最初は、畳み込みニューラルネットワークから遠く離れたものにも気づくことができます。 Visual Transformers は、トレーニング中に効率的であるだけでなく、トレーニングデータが増えるほど性能も向上します。

画像ソース: unsplash

これは、畳み込みニューラルネットワークが時代遅れになり、ビジュアルトランスフォーマーが新たな標準になったことを意味するのでしょうか?

もちろん違います! 畳み込みニューラルネットワークには欠点もありますが、それでも物体検出や画像分類などのタスクでは非常に効果的です。最も先進的な畳み込みアーキテクチャである ResNet と EfficientNet は、依然としてこのようなタスクの処理を支配しています。しかし、トランスフォーマーは言語翻訳などの自然言語処理タスクにおいて画期的な進歩を遂げており、コンピュータービジョンの分野で大きな可能性を示しています。

この進化する研究分野の将来はどうなるのでしょうか? それは時が経てばわかるでしょう。

<<: RSA という高度な暗号化アルゴリズムをご存知ですか?

>>: 【人工知能】人間と機械の対決知能技術の総合レビュー