特徴検出器からビジュアルトランスフォーマーへ: これは畳み込みニューラルネットワーク時代の終焉か?

特徴検出器からビジュアルトランスフォーマーへ: これは畳み込みニューラルネットワーク時代の終焉か?

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)から転載したものです。

過去 10 年間、畳み込みニューラル ネットワークは世界中のコンピューター ビジョン研究の分野で主導的な役割を果たしてきました。しかし研究者たちは、トランスフォーマーの力を活用して画像に深い意味を与える新しいアプローチを提案している。

トランスフォーマーはもともと、ニューラル機械翻訳に重点を置いた自然言語処理タスク用に設計されました。その後、Google Research の Alexey Dosovitskiy、Lucas Beyer らは、「画像は 16x16 文字の価値を持つ: 画像認識のための大規模トランスフォーマー」と題する論文を執筆し、トランスフォーマーを通じて画像データを処理できる Visual Transformer (ViT) と呼ばれるアーキテクチャを提案しました。

[[359923]]

畳み込みニューラルネットワーク (CNN) の問題

Vision Transformer の動作を詳しく説明する前に、畳み込みニューラル ネットワークの欠点と根本的な欠陥を理解することが重要です。まず、畳み込みニューラル ネットワークは相対的な空間情報をエンコードできません。つまり、特定の特徴の検出にのみ焦点を当て、相対的な空間位置は無視されます。

畳み込みニューラル ネットワークは、入力画像に特定の特徴が存在するかどうかにのみ焦点を当て、それらの相対的な位置を無視するため、上記の両方の画像は顔として認識されます。

畳み込みニューラル ネットワークのもう一つの大きな欠点はプーリング層です。プーリング層では、最もアクティブな特徴検出器の正確な位置など、多くの有用な情報が失われます。つまり、特定の特徴を検出することはできますが、画像内での正確な位置を伝えることはできません。

コンバータの紹介

本質的に、Transformer は自己注意の概念を適用します。この概念は、自己と注意の 2 つの部分に分けることができます。注意は、入力文のさまざまな部分の重要性をモデル化するトレーニング可能な重みのみを指します。

文が入力されると、文中の各単語を調べ、その単語の文中の位置を、同じ文中のすべての単語(その単語を含む)の位置と比較します。そこで、トランスフォーマーは自己注意の概念を適用します。トランスフォーマーは、これらの位置の手がかりに基づいてスコアを計算し、これらの手がかりを使用して文のセマンティクス、つまり意味をより適切にエンコードします。

上記の例から、トランスフォーマーのアテンション ユニットが「it」という単語の位置を、文中の「it」を含む他のすべての単語と比較していることがわかります。異なる色は、これらの接続におけるさまざまなパターンを発見することを目的として、独立して同時に動作する複数の注意ユニットを表します。

上記の比較を通じてスコアが計算されると、それらはフィードフォワードニューロンの単純な層に送信され、最終的に正規化されます。トレーニング中に、Transformer はこれらの注意ベクトルを学習します。

モデルアーキテクチャ

通常のトランスフォーマーが単語を通じて文章を学習するのと同様に、ビジュアルトランスフォーマーはピクセルを通じて画像に対して同様の結果を実現します。しかし、ここには問題があります。テキストとは異なり、単一のピクセルだけでは意味を伝えることができません。これが、ピクセルのグループに対して動作する畳み込みフィルターを使用する理由の 1 つです。

画像全体を小さな画像または単語の塊に分割します。すべてのパッチは線形投影マトリックスを使用して平坦化され、画像内の位置とともにトランスフォーマーに送られます (上図を参照)。このプロセスで、研究者は 16 x 16 サイズの小さな画像を選択したため、この研究タイトルは詩的なものとなりました。

次に、これらの埋め込まれたパッチは、通常のトランスフォーマーと同様の、多面的な自己注意、多層パーセプトロン (フィードフォワード ニューロンの単純な層)、および正規化層の交互の層を通過します。分類ヘッドは、最終的な分類を予測するために、トランスフォーマー エンコーダーの最後にインストールされます。他の畳み込みモデルと同様に、事前トレーニング済みのエンコーダーのライブラリとカスタム MLP レイヤーを使用して、分類タスクに合わせてモデルを微調整できます。

要点

著者らは、ImageNet、CIFAR-10/100、JFT-300M(高解像度画像3億枚を含むGoogleの非公開データセット)など、さまざまな注釈付きデータセットでモデルをトレーニングしました。精度の点では、彼らのモデルは他の最先端の畳み込みモデルとほぼ同等の精度(多くの場合、さらに精度が高い)ですが、トレーニングにかかる​​時間が大幅に短縮(約 75% 短縮)され、使用するハードウェア リソースも少なくなります。

Visual Transformer のもう 1 つの利点は、ローカル アテンションではなくグローバル アテンションを使用するため、より高レベルの関係を非常に早い段階で学習できることです。最初は、畳み込みニューラル ネットワークから遠く離れたものにも気づくことができます。 Visual Transformers は、トレーニング中に効率的であるだけでなく、トレーニング データが増えるほど性能も向上します。

画像ソース: unsplash

これは、畳み込みニューラル ネットワークが時代遅れになり、ビジュアル トランスフォーマーが新たな標準になったことを意味するのでしょうか?

もちろん違います! 畳み込みニューラル ネットワークには欠点もありますが、それでも物体検出や画像分類などのタスクでは非常に効果的です。最も先進的な畳み込みアーキテクチャである ResNet と EfficientNet は、依然としてこのようなタスクの処理を支配しています。しかし、トランスフォーマーは言語翻訳などの自然言語処理タスクにおいて画期的な進歩を遂げており、コンピュータービジョンの分野で大きな可能性を示しています。

この進化する研究分野の将来はどうなるのでしょうか? それは時が経てばわかるでしょう。

<<:  RSA という高度な暗号化アルゴリズムをご存知ですか?

>>:  【人工知能】人間と機械の対決知能技術の総合レビュー

ブログ    
ブログ    

推薦する

2020年が到来。人工知能について知っておくべきこと

新年を迎え、皆様にお楽しみいただいている「まとめ記事」が今年も登場です! 2020年に人工知能が大き...

...

2030年「メタバース」就職ガイド! CSは依然として非常に人気があり、博士号取得者の需要は衰えていません。

2016年にポケモンGOが世界を席巻したときのことを覚えていますか?当時、多くの人々は、拡張現実革...

AIがオペレーターにできること、できないこと

人工知能は重要な戦略的基盤技術として、政府、産業界、社会から高い注目を集めています。第19回党大会報...

2021 年にセキュリティ ビデオ分析に影響を与える新しいテクノロジーとトレンドは何でしょうか?

[[398643]]ビデオ分析のトピックは何十年も議論されてきましたが、物理セキュリティ業界におけ...

次世代ビジネスインテリジェンスのトレンドと機会

ビジネス成果を明確に定義するために、多くの企業は分析にビジネス インテリジェンス ソフトウェアを活用...

アルゴリズムの時間計算量分析: Big O 表記

[[354643]]開発の際、アルゴリズムの品質をどのように評価し、アルゴリズムの効率をどのように説...

恒生電子と恒生巨源が共同で新たなデジタル金融商品を発売、金融ビジネスにおける大規模モデル技術の応用に重点

恒生銀行とその子会社である恒生聚源は6月28日、金融インテリジェントアシスタントPhotonや新しく...

未来を変える5つのAIトレンド

人工知能は、今の世代で最も話題になっているトピックです。人工知能は、20年後の世界がどのように発展す...

大規模ウェブサイトのアルゴリズムとアーキテクチャに関する簡単な説明

順序先月、上司が「大規模ウェブサイトのアルゴリズムとアーキテクチャに関する簡単な説明」という講義をし...

IEEE: 新たな AI サイバーセキュリティの課題と解決策

人工知能はさまざまな課題に直面しており、IEEE の専門家は対応する解決策を提案しています。合成現実...

マルチモーダル生成AIの深掘り

マルチモーダル生成型人工知能 (GenAI) は、汎用人工知能の実現に向けた次の大きな進歩と言えます...

エッジコンピューティングと人工知能について知っておくべき7つのこと

エッジ コンピューティングと AI はどのように連携するのでしょうか? エッジ コンピューティングが...

ドローンの墜落を防ぐにはどうすればいいですか?

「墜落」とは模型飛行機の用語です。簡単に言うと、模型飛行機が不適切な操作や機械の故障により異常に地...

在庫 | 2019 年に最も注目された人工知能と機械学習のスタートアップ 10 社

ベンチャーキャピタル投資に関する最新データが示すところによれば、投資家は人工知能や機械学習のスタート...