特徴検出器からビジュアルトランスフォーマーへ: これは畳み込みニューラルネットワーク時代の終焉か?

特徴検出器からビジュアルトランスフォーマーへ: これは畳み込みニューラルネットワーク時代の終焉か?

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)から転載したものです。

過去 10 年間、畳み込みニューラル ネットワークは世界中のコンピューター ビジョン研究の分野で主導的な役割を果たしてきました。しかし研究者たちは、トランスフォーマーの力を活用して画像に深い意味を与える新しいアプローチを提案している。

トランスフォーマーはもともと、ニューラル機械翻訳に重点を置いた自然言語処理タスク用に設計されました。その後、Google Research の Alexey Dosovitskiy、Lucas Beyer らは、「画像は 16x16 文字の価値を持つ: 画像認識のための大規模トランスフォーマー」と題する論文を執筆し、トランスフォーマーを通じて画像データを処理できる Visual Transformer (ViT) と呼ばれるアーキテクチャを提案しました。

[[359923]]

畳み込みニューラルネットワーク (CNN) の問題

Vision Transformer の動作を詳しく説明する前に、畳み込みニューラル ネットワークの欠点と根本的な欠陥を理解することが重要です。まず、畳み込みニューラル ネットワークは相対的な空間情報をエンコードできません。つまり、特定の特徴の検出にのみ焦点を当て、相対的な空間位置は無視されます。

畳み込みニューラル ネットワークは、入力画像に特定の特徴が存在するかどうかにのみ焦点を当て、それらの相対的な位置を無視するため、上記の両方の画像は顔として認識されます。

畳み込みニューラル ネットワークのもう一つの大きな欠点はプーリング層です。プーリング層では、最もアクティブな特徴検出器の正確な位置など、多くの有用な情報が失われます。つまり、特定の特徴を検出することはできますが、画像内での正確な位置を伝えることはできません。

コンバータの紹介

本質的に、Transformer は自己注意の概念を適用します。この概念は、自己と注意の 2 つの部分に分けることができます。注意は、入力文のさまざまな部分の重要性をモデル化するトレーニング可能な重みのみを指します。

文が入力されると、文中の各単語を調べ、その単語の文中の位置を、同じ文中のすべての単語(その単語を含む)の位置と比較します。そこで、トランスフォーマーは自己注意の概念を適用します。トランスフォーマーは、これらの位置の手がかりに基づいてスコアを計算し、これらの手がかりを使用して文のセマンティクス、つまり意味をより適切にエンコードします。

上記の例から、トランスフォーマーのアテンション ユニットが「it」という単語の位置を、文中の「it」を含む他のすべての単語と比較していることがわかります。異なる色は、これらの接続におけるさまざまなパターンを発見することを目的として、独立して同時に動作する複数の注意ユニットを表します。

上記の比較を通じてスコアが計算されると、それらはフィードフォワードニューロンの単純な層に送信され、最終的に正規化されます。トレーニング中に、Transformer はこれらの注意ベクトルを学習します。

モデルアーキテクチャ

通常のトランスフォーマーが単語を通じて文章を学習するのと同様に、ビジュアルトランスフォーマーはピクセルを通じて画像に対して同様の結果を実現します。しかし、ここには問題があります。テキストとは異なり、単一のピクセルだけでは意味を伝えることができません。これが、ピクセルのグループに対して動作する畳み込みフィルターを使用する理由の 1 つです。

画像全体を小さな画像または単語の塊に分割します。すべてのパッチは線形投影マトリックスを使用して平坦化され、画像内の位置とともにトランスフォーマーに送られます (上図を参照)。このプロセスで、研究者は 16 x 16 サイズの小さな画像を選択したため、この研究タイトルは詩的なものとなりました。

次に、これらの埋め込まれたパッチは、通常のトランスフォーマーと同様の、多面的な自己注意、多層パーセプトロン (フィードフォワード ニューロンの単純な層)、および正規化層の交互の層を通過します。分類ヘッドは、最終的な分類を予測するために、トランスフォーマー エンコーダーの最後にインストールされます。他の畳み込みモデルと同様に、事前トレーニング済みのエンコーダーのライブラリとカスタム MLP レイヤーを使用して、分類タスクに合わせてモデルを微調整できます。

要点

著者らは、ImageNet、CIFAR-10/100、JFT-300M(高解像度画像3億枚を含むGoogleの非公開データセット)など、さまざまな注釈付きデータセットでモデルをトレーニングしました。精度の点では、彼らのモデルは他の最先端の畳み込みモデルとほぼ同等の精度(多くの場合、さらに精度が高い)ですが、トレーニングにかかる​​時間が大幅に短縮(約 75% 短縮)され、使用するハードウェア リソースも少なくなります。

Visual Transformer のもう 1 つの利点は、ローカル アテンションではなくグローバル アテンションを使用するため、より高レベルの関係を非常に早い段階で学習できることです。最初は、畳み込みニューラル ネットワークから遠く離れたものにも気づくことができます。 Visual Transformers は、トレーニング中に効率的であるだけでなく、トレーニング データが増えるほど性能も向上します。

画像ソース: unsplash

これは、畳み込みニューラル ネットワークが時代遅れになり、ビジュアル トランスフォーマーが新たな標準になったことを意味するのでしょうか?

もちろん違います! 畳み込みニューラル ネットワークには欠点もありますが、それでも物体検出や画像分類などのタスクでは非常に効果的です。最も先進的な畳み込みアーキテクチャである ResNet と EfficientNet は、依然としてこのようなタスクの処理を支配しています。しかし、トランスフォーマーは言語翻訳などの自然言語処理タスクにおいて画期的な進歩を遂げており、コンピュータービジョンの分野で大きな可能性を示しています。

この進化する研究分野の将来はどうなるのでしょうか? それは時が経てばわかるでしょう。

<<:  RSA という高度な暗号化アルゴリズムをご存知ですか?

>>:  【人工知能】人間と機械の対決知能技術の総合レビュー

ブログ    

推薦する

日本は人間支援ロボットの世界標準を確立したいと考えている

日本は人間支援ロボットの規格策定に向け、国際標準化機構(ISO)と協議を行っている。ロボット工学に対...

陳丹奇チームの新しい研究: Llama-2 コンテキストが 128k に拡張され、メモリが 1/6 でスループットが 10 倍に

Chen Danqi のチームは、新しい LLMコンテキスト ウィンドウ拡張メソッドをリリースしまし...

...

...

MIT、物体を拾うための「最強のアシスタント」を発表、少量のトレーニングサンプルで自然言語制御を実現

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

...

人工知能の時代において、結核を根絶するまでにどれくらい時間がかかるのでしょうか?

結核は古代の呼吸器感染症として人類の歴史を通じて存在し、何億人もの命を奪い、「白ペスト」として知られ...

ナレッジグラフの紹介と応用

[[376661]]人間は知識を獲得する過程で、物事の本質にますます注意を払うようになります。人工知...

完璧な意思決定ツリーを作成する方法

[51CTO.com クイック翻訳] ご存知のとおり、決定木は実生活で多くの実用的なシナリオで利用さ...

アルゴリズムのインテリジェントなアップグレードにより、将来のデジタルライフはより明るくなります

[[120716]]研究者たちは現在、検索結果の改善、自動運転車、スマート携帯電話のアップグレード、...

ゲイリー・マーカスはヒントンとマスクを公然と非難した。「ディープラーニングは壁にぶつかった。10万ドル賭けるよ」

「もし誰かが(ディープラーニングが)壁にぶつかったと言うなら、ディープラーニングではできないことの...

ChatGPT Plusアカウント登録が停止されました!ネットユーザーは激怒、アカウントの売買やレンタルがネットワーク全体で高騰中

ちょうど今、サム・アルトマンがXで衝撃的なニュースを発表しました—— ChatGPT Plusアカウ...

...