ディープ CNN アーキテクチャの革新の 7 つのカテゴリのレビュー

ディープ CNN アーキテクチャの革新の 7 つのカテゴリのレビュー

ディープ畳み込みニューラル ネットワーク (CNN) は、さまざまな競合ベンチマークで最先端の結果を示した特殊なタイプのニューラル ネットワークです。困難なベンチマークタスクにおいてディープ CNN アーキテクチャによって達成された高いパフォーマンスは、革新的なアーキテクチャ コンセプトとパラメータの最適化によって、さまざまな視覚関連タスクにおける CNN のパフォーマンスを向上できることを示しています。このレビューでは、スペース利用、深さ、マルチパス、幅、特徴マップ利用、チャネルブースティング、および注目度に基づいて、最近の CNN アーキテクチャの革新を 7 つの異なるカテゴリに分類します。

[[256799]]

導入

CNN が初めて注目を集めたのは、1989 年に LeCun がグリッド トポロジカル データ (画像と時系列データ) の処理に関する研究を行ったことによります。 CNN は、画像コンテンツを理解するための最も先進的な技術の 1 つとみなされており、画像認識、セグメンテーション、検出、および検索関連のタスクにおいて最先端のパフォーマンスを実証しています。 CNNの成功は学界以外でも注目を集めている。業界では、Google、Microsoft、AT&T、NEC、Facebook などの企業が CNN の新しいアーキテクチャを研究するための研究チームを設立しています。現在、画像処理コンテストのリーダーのほとんどは、ディープ CNN ベースのモデルを使用しています。

2012 年以降、CNN アーキテクチャにおけるさまざまな革新が提案されてきました。これらの革新は、パラメータの最適化、正規化、構造の再編成などに分類できます。ただし、CNN ネットワークのパフォーマンスの向上は、主に処理ユニットの再構築と新しいモジュールの設計に起因すると考えられます。 AlexNet が ImageNet データセットで並外れたパフォーマンスを発揮して以来、CNN ベースのアプリケーションの人気が高まっています。同様に、Zeiler と Fergus は特徴の階層的視覚化の概念を導入し、単純な低空間解像度で特徴を抽出するために深いアーキテクチャ (VGG など) を使用する傾向を変えました。現在、ほとんどの新しいアーキテクチャは、VGG によって導入されたシンプルな原則と均質なトポロジに基づいて構築されています。

一方、Google チームは、Inception モジュールと呼ばれる、分割、変換、マージという非常に有名な概念を導入しました。インセプション ブロックは、まずレイヤー内ブランチの概念を使用して、さまざまな空間スケールで特徴を抽出できるようにします。 2015 年に、Resnet によってディープ CNN のトレーニング用に導入された残差接続の概念が有名になり、Inception-ResNet、WideResNet、ResNext などの後続のネットワークのほとんどでそれが使用されています。同様に、WideResnet、Pyramidal Nets、Xception などの一部のアーキテクチャでは、追加の基数と幅の増加によって実現される複数レイヤーの変換の概念が導入されています。そのため、研究の焦点はパラメータの最適化や接続の再調整から、ネットワークアーキテクチャの設計(レイヤー構造)に移りました。これにより、チャネル リフティング、空間およびチャネルの利用、注意に基づく情報処理など、多くの新しいアーキテクチャの概念が生まれました。

この記事は次のように構成されています。

図1: 記事の構造

図2

図 2: 一般的なパターン認識 (OR) システムの基本レイアウト。 PR システムは 3 つのフェーズに分かれています。フェーズ 1 はデータ マイニングに関連し、フェーズ 2 は前処理と機能選択を実行し、フェーズ 3 はモデル選択、パラメータ調整、および分析に基づいています。 CNN は優れた特徴抽出能力と強力な識別能力を備えているため、PR システムでは、特徴抽出/生成段階とモデル選択段階の両方で使用できます。

CNN におけるアーキテクチャの革新

1989 年以来、CNN アーキテクチャにはさまざまな改良が加えられてきました。 CNN におけるすべての革新は、深さと空間を組み合わせることによって実現されます。アーキテクチャの変更の種類に基づいて、CNN は、空間利用、深度、マルチパス、幅、チャネル拡張、特徴マップ利用、および注意に基づく CNN の 7 つのカテゴリに大まかに分類できます。ディープ CNN アーキテクチャの分類を図 3 に示します。

図3: ディープCNNアーキテクチャの分類

1. 空間利用に基づくCNN

CNN には、処理ユニット (ニューロン) の数、レイヤーの数、フィルター サイズ、ストライド、学習率、活性化関数など、多数のパラメーターがあります。 CNN は入力ピクセルの近傍 (局所性) を考慮するため、さまざまなサイズのフィルターを使用してさまざまなレベルの相関関係を調べることができます。そのため、2000 年代初頭、研究者は空間変換を使用してパフォーマンスを向上させ、さまざまなフィルター サイズがネットワークの学習率に与える影響も評価しました。異なるサイズのフィルターは異なる粒度レベルをカプセル化します。通常、小さいフィルターは細かい粒度の情報を抽出し、大きいフィルターは粗い粒度の情報を抽出します。このように、フィルター サイズを調整することで、CNN は粗粒度の詳細と細粒度の詳細の両方で優れたパフォーマンスを発揮できます。

2. 深度ベースのCNN

ディープ CNN アーキテクチャは、深度が増すにつれて、ネットワークが多数の非線形マッピングと改善された特徴表現を通じてターゲット関数をより適切に近似できるという仮定に基づいています。ネットワークの深さは、教師あり学習の成功に重要な役割を果たします。理論的研究により、深いネットワークは浅いネットワークよりも指数関数的に効率的に特定の 20 種類の機能を表現できることが示されています。 2001 年に Csáji は普遍近似定理を定式化し、単一の隠れ層で任意の関数を近似するのに十分であるが、これには指数関数的な数のニューロンが必要であり、一般的に計算上実行不可能であると述べました。この点に関して、ベンジオとエラローは、より深いネットワークはより少ないコストでネットワークの表現力を維持する可能性があると主張しています。 2013 年、Bengio らは、複雑なタスクに対して深層ネットワークが計算的および統計的に効率的であることを経験的に実証しました。 2014-ILSVR コンテストで最高の成績を収めた Inception と VGG は、深さがネットワークの学習能力を調整する上で重要な次元であることをさらに実証しました。

特徴が抽出されると、そのおおよその位置が保持されている限り、他の位置に対するその特徴の位置は重要ではなくなります。プーリングまたはダウンサンプリング(畳み込みなど)は興味深いローカル操作です。受容野付近の類似情報を要約し、この局所領域の主な応答を出力します。畳み込み演算の出力として、特徴的なパターンが画像内のさまざまな場所に現れることがあります。

3. マルチパスベースのCNN

ディープ ネットワークのトレーニングは困難であり、ディープ ネットワークに関する最近の多くの研究の対象となっています。ディープ CNN は、複雑なタスクに対して効率的な計算と統計を提供します。ただし、ネットワークが深くなると、パフォーマンスの低下や勾配消失/爆発の問題が発生する可能性があります。これは通常、過剰適合ではなく深さの増加によって引き起こされます。勾配消失問題は、テスト エラーの増加につながるだけでなく、トレーニング エラーも増加させます。より深いネットワークをトレーニングするために、マルチパスまたはクロスレイヤー接続の概念が提案されました。マルチパスまたはショートカット接続は、中間層の一部をスキップして層をまたいで特定の情報の流れを可能にすることで、ある層を別の層に体系的に接続できます。クロスレイヤー接続はネットワークを複数の部分に分割します。これらのパスは、勾配を下位層からアクセス可能にすることで、勾配消失問題にも対処しようとします。この目的のために、ゼロパディング、投影ベース、ドロップアウト、1x1 接続など、さまざまなタイプのショートカット接続が使用されます。

活性化関数は、複雑なパターンの学習に役立つ決定関数です。適切な活性化関数を選択すると、学習プロセスを高速化できます。畳み込み特徴マップの活性化関数は式(3)のように定義される。

4. 幅ベースのマルチ接続CNN

2012 年から 2015 年にかけて、ネットワーク アーキテクチャの焦点は、深さの力と、ネットワーク正規化におけるマルチチャネル監視接続の重要性に置かれました。ただし、ネットワークの幅は深さと同じくらい重要です。レイヤー内で複数の処理ユニットを並列に使用することにより、多層パーセプトロンは複雑な関数をパーセプトロンにマッピングできるという利点が得られます。これは、学習の原則を定義する上で、幅が深さと同じくらい重要なパラメータであることを示唆しています。 Lu らおよび Hanin と Sellke は最近、線形正規化活性化関数を持つニューラル ネットワークは、深さが増しても一般的な近似特性を維持できるほど十分に広くする必要があることを示しました。さらに、ネットワークの最大幅が入力次元より大きくない場合、コンパクト セット上の連続関数のクラスは、任意の深さのネットワークでは適切に近似できません。したがって、複数のレイヤーを積み重ねる(レイヤーを追加する)ことで、ニューラル ネットワークの表現力が向上しない可能性があります。ディープアーキテクチャに関連する重要な問題は、一部のレイヤーまたは処理ユニットが有用な機能を学習できない可能性があることです。この問題に対処するために、研究の焦点は、深くて狭いアーキテクチャから、浅くて広いアーキテクチャへと移行しました。

5. 特徴マップ(チャネル特徴マップ)に基づいて開発されたCNN

CNN は、レイヤーごとの学習と自動特徴抽出機能により、MV タスクでよく知られています。特徴選択は、分類、セグメンテーション、検出モジュールのパフォーマンスを決定する上で重要な役割を果たします。従来の特徴抽出技術における分類モジュールのパフォーマンスは、特徴の単一性によって制限されます。従来の技術と比較して、CNN は多段階の特徴抽出を使用して、割り当てられた入力に基づいてさまざまな種類の特徴 (CNN では特徴マップと呼ばれる) を抽出します。ただし、一部の特徴マップには、オブジェクト識別効果がほとんどないか、まったくありません。巨大な特徴セットはノイズ効果をもたらし、ネットワークの過剰適合を引き起こす可能性があります。これは、ネットワーク エンジニアリングに加えて、カテゴリ固有の特徴マップの選択がネットワークの一般化パフォーマンスを向上させるために重要であることを示唆しています。このセクションでは、多くの研究者が特徴マップの代わりにチャネルという言葉を使用しているため、特徴マップとチャネルは同じ意味で使用されます。

6. チャネル(入力チャネル)利用率に基づくCNN

画像表現は、画像処理アルゴリズムのパフォーマンスを決定する上で重要な役割を果たします。画像の適切な表現により、コンパクトなコードから画像の顕著な特徴を定義できます。さまざまな研究では、さまざまな種類の従来のフィルターを使用して、単一の種類の画像からさまざまなレベルの情報を抽出しています。これらのさまざまな表現は、パフォーマンスを向上させるためにモデルへの入力として使用されます。 CNN は、質問に基づいて識別的な特徴を自動的に抽出できる優れた特徴学習器です。ただし、CNN の学習は入力表現に依存します。入力に多様性とクラス定義情報が不足している場合、識別器としての CNN のパフォーマンスは低下します。この目的のために、ネットワークの入力表現を改善するために、補助学習者の概念が CNN に導入されました。

7. 注意ベースのCNN

異なる抽象化レベルは、ニューラル ネットワークの識別力を定義する上で重要な役割を果たします。さらに、コンテキスト関連の特徴を選択することも、画像の位置特定と認識にとって重要です。人間の視覚システムでは、この現象は注意と呼ばれます。人間は、一目見てシーンを観察し、文脈上関連する部分に気づきます。このプロセスでは、人間は選択された領域に注意を払うだけでなく、その場所にある物体についてさまざまな解釈を推測します。したがって、人間が視覚的な構造をより良く把握するのに役立ちます。同様の解釈可能性が、RNN や LSTM などのニューラル ネットワークにも追加されています。上記のネットワークは、アテンション モジュールを使用してシーケンス データを生成し、以前の反復での出現に応じて新しいサンプルに重み付けします。さまざまな研究者が、表現を改善し、データの計算上の制限を克服するために、CNN に注目の概念を追加してきました。注意の概念は CNN をよりスマートにし、雑然とした背景や複雑なシーンでもオブジェクトを認識できるようにします。

論文: 深層畳み込みニューラルネットワークの最新アーキテクチャの調査

論文アドレス: https://arxiv.org/abs/1901.06032

概要: ディープ畳み込みニューラル ネットワーク (CNN) は、さまざまな競合ベンチマークで最先端の結果を示している特殊なタイプのニューラル ネットワークです。ディープ CNN の強力な学習能力は、主に、データから階層的表現を自動的に学習できる複数の非線形特徴抽出ステージを使用することで実現されます。大量のデータが利用可能になり、ハードウェア処理ユニットが改善されたことで CNN の研究が加速し、最近では非常に興味深いディープ CNN アーキテクチャが報告されています。難しいベンチマークタスクでディープ CNN アーキテクチャによって達成された最近の高いパフォーマンスは、革新的なアーキテクチャ コンセプトとパラメーターの最適化によって、さまざまな視覚関連タスクでの CNN のパフォーマンスを向上できることを示しています。これを考慮して、異なる活性化関数と損失関数の使用、パラメータの最適化、正規化、処理ユニットの再構築など、CNN 設計に関するさまざまなアイデアが検討されてきました。ただし、表現能力の主な改善は、処理ユニットを再構成することによって実現されます。特に、構造単位としてレイヤーではなくブロックを使用するというアイデアは高く評価されました。このレビューでは、最近の CNN アーキテクチャの革新を 7 つのカテゴリに分類しています。 7 つのカテゴリは、それぞれ空間利用、深度、マルチパス、幅、特徴マップ利用、チャネル ブースティング、および注目に基づいています。さらに、この論文では、CNN のコンポーネントの基本的な理解について説明し、CNN とそのアプリケーションの現在の課題を明らかにします。

[この記事は51CTOコラム「Machine Heart」、WeChatパブリックアカウント「Machine Heart(id:almosthuman2014)」によるオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<:  強化学習のフレームワークは AI 開発に新たなアイデアを生み出すでしょうか?

>>:  紆余曲折の続く教育+AI。舞台裏へのシフトは、巨大企業の拡大に向けた「新たな春」となるのか?

ブログ    
ブログ    

推薦する

食品産業における人工知能:農家の意思決定を支援する

人工知能は食品システムを最適化できると思いますか? 精密農業からパーソナライズされた栄養管理まで、農...

政府における人工知能の積極的な役割

近年、政府の間ではAIへの関心が高まっており、さまざまなAIベースのアプリケーションのパイロットプロ...

人間とコンピュータのインタラクション技術の現状と進化 将来、私たちはどのように機械とコミュニケーションをとるのでしょうか

コンピューターやその他の機械は、生産性を高め、より多くのことを学び、お互いのつながりを保つことを可能...

2022 年に予測されるロボット技術のトレンド トップ 10

COVID-19パンデミックは、物流やスーパーマーケットなどの分野に問題と機会の両方をもたらしまし...

スウェット物流からスマート物流へ、物流業界はよりスマートになっている

2020年は異例の年です。新型コロナウイルスの世界的な蔓延は人々の生活や仕事に多くの不便をもたらし、...

ソニーはプレイヤーの感情を感知できるコンパニオンロボットを開発中

過去数年間、多くのゲーム機はアクセサリを導入することでゲーム体験を向上させることに重点を置いてきまし...

マイクロソフトは、劣化が著しい古い写真を復元できる新しいアルゴリズムを開発した。

海外メディアの報道によると、マイクロソフト研究チームのZiyu Wan氏、Zhang Bo氏らは、デ...

...

人工知能やロボットが新たなスターとなった分野はどこでしょうか?

[[252297]] 8月15日から19日まで、世界ロボット会議が北京市宜荘で成功裏に終了しました...

IBM WatsonX: AIを企業の生産性の中核に

「象は踊れるの?」もちろん踊れますよ!かつての人々の考え方では、伝統的な大企業は、組織の肥大化や閉鎖...

...

合成データは AI/ML トレーニングの未来を推進するでしょうか?

人工知能や機械学習 (AI/ML) をトレーニングするために現実世界のデータを収集することは、時間が...

量子人工知能研究における課題と機会

量子コンピューティングと人工知能の融合により、大きな期待と可能性を秘めた研究の最前線である量子人工知...

...