自動運転マシンビジョンの4つの基本タスクを理解するための1万語

ディープラーニングは、機械学習の中で最も急速に成長し、最もエキサイティングな分野の 1 つになりました。多くの優れた論文が発表されており、高品質のオープンソースディープラーニングフレームワークも数多く提供されています。しかし、論文は通常非常に簡潔で、読者がすでにディープラーニングについて十分な理解を持っていることを前提としているため、初心者はいくつかの概念を理解するのに苦労し、論文を読むのが非常に困難になることがよくあります。一方、たとえ使いやすいディープラーニングフレームワークを使用していても、ディープラーニングの共通概念や基本的な考え方を理解していなければ、実際のタスクに直面したときにネットワークをどのように設計、診断、デバッグすればよいか分からず、最終的には無力になってしまいます。

本稿は、ディープラーニングのさまざまな分野における共通の概念と基本的な考え方を直感的かつ体系的に整理し、読者がディープラーニングの重要な概念と考え方を直感的に理解し、「それが何であるか、なぜそれがあるのか」を知ることで、その後の論文の理解と実際の応用の難しさを軽減することを目的としています。この一連の記事では、数式や複雑な詳細を避け、簡潔な言葉で説明するように努めています。この記事は、分類 (図 a)、位置特定、検出 (図 b)、セマンティックセグメンテーション (図 c)、インスタンスセグメンテーション (図 d) を含む、コンピュータービジョン分野の 4 つの基本タスクにおけるディープラーニングの応用を紹介することを目的とした一連の記事の 2 番目です。以降の記事では、コンピュータービジョン、自然言語処理、音声認識の分野における他のタスクへのディープラーニングの応用に焦点を当てます。

写真

01 コンピュータビジョン入門

コンピュータービジョンは、画像やビデオの内容を認識して理解することを目的としています。 1966年にMIT AIグループの「サマービジョンプロジェクト」から誕生しました。当時、人工知能の他の分野の研究では、すでにいくつかの予備的な結果が得られていました。人間は視覚認知を簡単に行うことができるため、MITの教授たちは夏のプロジェクトを通じてコンピュータービジョンの問題を解決したいと考えています。もちろん、コンピュータービジョンの問題は 1 回の夏休みで解決されたわけではありませんが、50 年以上の開発を経て、コンピュータービジョンは非常に活発な研究分野になりました。現在、インターネット上のデータの70％以上は画像・動画であり、世界中の監視カメラの数は人口を超え、毎日8億時間以上の監視動画データが生成されています。このような膨大な量のデータには、自動化された視覚的理解と分析技術が緊急に必要です。

コンピュータービジョンの難しさは、意味のギャップにあります。この現象は、コンピュータービジョンの分野だけでなく、モラベックのパラドックスでも発生します。モラベックのパラドックスでは、高レベルの推論にはほとんど計算リソースが必要ないのに対し、外界の低レベルの認識には膨大な計算リソースが必要であることが示されています。コンピュータに大人のようにチェスをプレイさせることは比較的簡単ですが、コンピュータに 1 歳児の知覚能力と行動能力を持たせることは非常に困難であり、不可能でさえあります。

意味のギャップ: 人間は画像から物体を簡単に識別できますが、コンピューターは画像を 0 から 255 までの整数の集合としてしか認識しません。

コンピュータービジョンタスクにおけるその他の困難としては、撮影の視点の変化、画像に占めるターゲットの割合の変化、照明の変化、背景の融合、ターゲットの変形、遮蔽などが挙げられます。

コンピュータービジョンに関するトップカンファレンスとジャーナルトップカンファレンスには、CVPR、ICCV、ECCV などがあります。さらに、ICLR にもコンピュータービジョンに関する論文が多数掲載されています。トップジャーナルにはIJCVやTPAMIなどがあります。コンピュータビジョンの分野は非常に急速に発展しているため、学界であろうと産業界であろうと、トップレベルの会議やジャーナル論文を読んで、コンピュータビジョンの最新の研究結果を理解することが必要です。

02 畳み込みニューラルネットワーク（CNN）

従来の多層パーセプトロンは、一連の完全接続層で構成されています。完全接続層に加えて、畳み込みニューラルネットワークには畳み込み層とプーリング層もあります。

（１）畳み込み層

畳み込み層を使用する理由入力画像は通常、非常に高次元です。たとえば、1,000×1,000 のカラー画像は、300 万次元の特徴に相当します。したがって、多層パーセプトロンの全結合層を引き続き使用すると、パラメータの数が膨大になります。パラメータの数が多いと計算量が多くなり、さらに重要なことに、パラメータの数が多いと過剰適合のリスクが高くなります。畳み込みは、完全に接続された層のローカル接続されたパラメータ共有バージョンです。これら 2 つの機能により、パラメータの数が大幅に削減されます。畳み込み層の重みは通常、フィルターまたは畳み込みカーネルと呼ばれます。

写真

ローカル接続

完全に接続された層では、各出力は重みを介してすべての入力に接続されます。視覚認識では、画像の主要な特徴、エッジ、コーナーなどは画像全体のごく一部を占めるだけであり、画像内で離れた 2 つのピクセル間の相互影響の可能性は非常に小さいです。したがって、畳み込み層では、各出力ニューロンはチャネル方向には完全に接続されたままですが、空間方向には少数の入力ニューロンにのみ接続されます。

共有パラメータ

重みのセットが画像の 1 つの領域で有効な表現を抽出できる場合、画像の他の領域でも有効な表現を抽出できます。つまり、パターンが画像のある領域に現れる場合、そのパターンは画像の他の領域にも現れる可能性があります。したがって、畳み込み層内の異なる空間位置にあるニューロンは重みを共有し、画像内の異なる空間位置にあるパターンを検出するために使用されます。パラメータの共有はディープラーニングにおける重要な考え方であり、高いネットワーク容量を維持しながらネットワークパラメータを削減することができます。畳み込み層は空間方向のパラメータを共有しますが、再帰型ニューラルネットワークは時間方向のパラメータを共有します。

畳み込み層の役割

畳み込みを通じて、画像のローカル情報を取得できます。複数の畳み込み層を積み重ねることで、各層で抽出される特徴は、エッジ、テクスチャ、方向などの低レベルの特徴から、テキスト、ホイール、顔などの高レベルの特徴へと徐々に移行します。

畳み込み層における畳み込みと数学の教科書における畳み込みにはどのような関係があるのでしょうか?

基本的には何の関係もありません。畳み込み層における畳み込みは、実際には入力と重みの相互相関関数であり、数学の教科書にある畳み込みではありません。

畳み込みを記述する4つの量

畳み込み層の構成は、次の 4 つの量によって決まります。 1. フィルターの数。入力をフィルターで畳み込むと、2 次元の特徴マップが生成されます。複数のフィルターを使用して入力を畳み込み、複数の特徴マップを取得できます。 2. 受容野 F は、フィルター空間内のローカル接続のサイズです。 3. ゼロパディング P。畳み込みが進むにつれて、画像のサイズは縮小し、画像の端の情報は徐々に失われます。したがって、畳み込みの前に、出力特徴マップのサイズを制御できるように、画像の上部、下部、左側、右側にゼロを埋め込みます。 4. ストライドSフィルターは、入力が移動する S 位置ごとに 1 つの出力ニューロンを計算します。

畳み込み入力と出力の大きさの関係

入力の高さと幅を H と W、出力の高さと幅を H' と W' とすると、H'=(H-F+2P)/S+1、W'=(W-F+2P)/S+1 となります。S=1 の場合、P=(F-1)/2 と設定することで、入力と出力の空間サイズが同じになることが保証されます。たとえば、3*3 畳み込みでは、入力スペースと出力スペースのサイズが変更されないようにピクセルをパディングする必要があります。

どのサイズのフィルターを使用すればよいですか?

3×3 畳み込みなどの小さなフィルターを使用するようにしてください。 3×3 畳み込みを複数層重ねることで、大きなフィルターと同じ受容野が得られます。例えば、3×3 畳み込みを 3 層重ねると、7×7 畳み込みを 1 層重ねた場合の受容野と同等になります。しかし、小さなフィルターを使用すると、次の 2 つの利点があります。 1. パラメータが少ない。チャネル数を D とすると、3×3 畳み込みの 3 層のパラメータ数は 3×(D×D×3×3)=27D^2 ですが、7×7 畳み込みの 1 層のパラメータ数は D×D×7×7=49D^2 です。2. 非線形性が高くなります。各畳み込み層の後には非線形活性化関数があるため、3×3 畳み込みの 3 つの層は非線形活性化関数を合計 3 回通過しますが、7×7 畳み込みの 1 つの層は非線形活性化関数を 1 回だけ通過します。

1×1畳み込み

目的は、各空間位置で D 次元ベクトルに対して同じ線形変換を実行することです。これは通常、非線形性を高めたり次元を減らしたりするために使用され、チャネル数の方向への圧縮に相当します。 1×1 畳み込みは、ネットワークの計算とパラメータを削減するための重要な方法です。

畳み込み層は全結合層に相当する

全結合層と畳み込み層はどちらも点乗算を実行するため、これら 2 つの操作は互いに同等です。完全接続層に相当する畳み込み層では、畳み込み層の 4 つの量を設定するだけで済みます。フィルターの数は元の完全接続層の出力ニューロンの数に等しく、受容野は入力の空間サイズに等しく、ゼロパディングはなく、ステップサイズは 1 です。

なぜ全結合層は畳み込み層と同等なのでしょうか?

完全接続層は固定サイズの入力のみを処理できますが、畳み込み層は任意のサイズの入力を処理できます。トレーニング画像のサイズが 224×224、テスト画像のサイズが 256×256 であると仮定します。完全に接続された層と同等の畳み込みを実行しない場合は、テスト画像から複数の 224×224 領域を切り取り、それらを個別にネットワークに入力する必要があります。同等の畳み込み層を実行した後、224×224 領域の複数のフィードフォワードの効果を得るには、フィードフォワードネットワークに 256×256 を 1 回入力するだけで済みます。

畳み込み結果の2つの視点

畳み込みの結果は、D×H×W の 3 次元テンソルです。これは D 個のチャネルを持つものと考えることができます。各チャネルは、入力から特定の特徴をキャプチャする 2 次元の特徴マップです。また、H×W の空間位置を持つと考えることもできます。各位置は、受容野に対応する画像の局所領域の意味的特徴を記述する D 次元の記述ベクトルです。

畳み込み結果の分散表現

畳み込み結果のチャネルは独立していません。畳み込み結果の各チャネルのニューロンと意味概念の間には「多対多」のマッピングが存在します。つまり、各意味概念は複数のチャネルニューロンによって表され、各ニューロンは同時に複数の意味概念に参加します。さらに、ニューロンの応答はスパースです。つまり、ニューロンの出力のほとんどは 0 です。

畳み込み演算の実装

基本的な考え方はいくつかあります。 1. 高速フーリエ変換（FFT）。周波数領域に変換することで、畳み込み演算は通常の行列乗算になります。実際には、フィルタサイズが大きい場合に効果は良好ですが、一般的に使用される 1×1 および 3×3 畳み込みの場合、速度の向上は明らかではありません。 2. im2col（画像を列に） im2col は、各出力ニューロンに接続されたローカル入力領域を列ベクトルに拡張し、結果のすべてのベクトルを行列に連結します。このように、畳み込み演算は行列乗算を使用して実装できます。 im2col の利点は、行列乗算の効率的な実装を利用できることですが、欠点は、生成された行列に入力要素が複数回出現するため、大量のストレージを占有することです。さらに、Strassen 行列乗算や Winograd もよく使用されます。 MKL や cuDNN などの既存のコンピューティングライブラリは、フィルターサイズに基づいて適切なアルゴリズムを選択します。

（２）収束層

プーリング層は、特徴マップ上のローカル統計情報に基づいてダウンサンプリングを実行し、有用な情報を保持しながら特徴マップのサイズを縮小します。畳み込み層とは異なり、プーリング層には学習する必要のあるパラメータは含まれません。最大プーリングはローカルエリアの最大値を出力として選択し、平均プーリングはローカルエリアの平均値を出力として計算します。ローカルエリアプーリングでは最大プーリングがより頻繁に使用されますが、グローバル平均プーリングはより一般的に使用されるグローバルプーリング方法です。

写真

合流層の役割

合流層には主に以下の3つの機能があります。 1. 特徴変換の不変性を高める。マージにより、ネットワークの小さな変位に対する許容度が向上します。 2. 特徴マップのサイズを縮小します。プーリング層は空間のローカル領域をダウンサンプリングし、次の層に必要なパラメータと計算の数を減らし、過剰適合のリスクを軽減します。 3. 最大収束は非線形性をもたらす可能性があります。これが、最大合流が現在より一般的に使用されている理由の 1 つです。近年、プーリング層の代わりにストライド 2 の畳み込み層を使用する人もいます。生成モデルでは、合流層を使用しないとネットワークのトレーニングが容易になることが研究でわかっています。

03 画像分類

入力画像が与えられた場合、画像分類タスクは、画像が属するカテゴリを決定することを目的としています。

（１）画像分類によく使われるデータセット

以下は、難易度順に一般的に使用される分類データセットです。 rodrigob.github.io/are_ には、各データセットにおける各アルゴリズムのパフォーマンスランキングがリストされています。

MNIST

トレーニング画像 60,000 枚、テスト画像 10,000 枚、カテゴリ 10 個、画像サイズ 1×28×28、コンテンツは手書きの数字 0 ～ 9 です。

CIFAR-10

トレーニング画像 50,000 枚、テスト画像 10,000 枚、カテゴリ 10 個、画像サイズ 3×32×32。

CIFAR-100

トレーニング画像 50,000 枚、テスト画像 10,000 枚、カテゴリ 100 個、画像サイズ 3×32×32。

イメージネット

120 万枚のトレーニング画像、5 万枚の検証画像、1,000 個のカテゴリ。 2017年以前は、ImageNetデータセットをベースにしたILSVRCコンテストが毎年開催されており、これはコンピュータービジョン分野のオリンピックに相当します。

（２）画像分類のための典型的なネットワーク構造

基本的なアーキテクチャ

畳み込み層を表すために conv を使用し、バッチ正規化層を表すために bn を使用し、プーリング層を表すために pool を使用します。最も一般的なネットワーク構造の順序は、conv -> bn -> relu -> pool です。ここで、畳み込み層は特徴の抽出に使用され、プーリング層は空間サイズを縮小するために使用されます。ネットワークが深くなるにつれて、画像の空間サイズはどんどん小さくなり、チャネルの数はどんどん大きくなります。

タスク用のネットワークをどのように設計しますか?

実際のタスクに直面したとき、新しいアルゴリズムを発明することではなくタスクを解決することが目標である場合は、まったく新しいネットワーク構造を自分で設計したり、既存のネットワーク構造を最初から再現したりしないでください。公開されている実装と事前トレーニング済みのモデルを見つけて、微調整します。最後の完全接続レイヤーと対応するソフトマックスを削除し、タスクに対応する完全接続レイヤーとソフトマックスを追加してから、以前のレイヤーを修正し、追加された部分のみをトレーニングします。トレーニングデータがさらにある場合は、さらに多くのレイヤー、またはすべてのレイヤーを微調整できます。

レネット5

60k パラメータ。基本的なネットワークアーキテクチャは、conv1 (6) -> pool1 -> conv2 (16) -> pool2 -> fc3 (120) -> fc4 (84) -> fc5 (10) -> softmax です。括弧内の数字はチャネル数を表し、ネットワーク名の 5 は 5 つの conv/fc レイヤーがあることを意味します。当時、LeNet-5 は ATM で小切手内の手書きの数字を認識するために使用されていました。 LeNet は、その作成者である LeCun にちなんで名付けられました。

写真

アレックスネット

60M パラメータ、ILSVRC 2012 のチャンピオンネットワーク。基本的なネットワークアーキテクチャは次のとおりです: conv1 (96) -> pool1 -> conv2 (256) -> pool2 -> conv3 (384) -> conv4 (384) -> conv5 (256) -> pool5 -> fc6 (4096) -> fc7 (4096) -> fc8 (1000) -> softmax。 AlexNet は LeNet-5 と似たネットワーク構造を持ちますが、より深く、より多くのパラメータを持っています。 Conv1 は、ストライド 4 の 11×11 フィルターを使用して、空間サイズをすばやく縮小します (227×227 -> 55×55)。 AlexNetの重要なポイントは次のとおりです。(1) ReLU活性化関数を使用して、より優れた勾配特性とより高速なトレーニングを実現します。（２）ランダムドロップアウト法を採用した。（３）データ拡張技術の積極的な活用AlexNet の重要性は、その年の ILSVRC コンテストで 2 位より 10% 高いパフォーマンスで優勝し、畳み込みニューラルネットワークの利点を人々に認識させたことです。さらに、AlexNet により、GPU を使用して畳み込みニューラルネットワークのトレーニングを加速できることも認識されました。 AlexNet は、その作成者である Alex にちなんで名付けられました。

写真

VGG-16/VGG-19

138M パラメータ、ILSVRC 2014 の準優勝ネットワーク。 VGG-16 の基本アーキテクチャは次のとおりです: conv1^2 (64) -> pool1 -> conv2^2 (128) -> pool2 -> conv3^3 (256) -> pool3 -> conv4^3 (512) -> pool4 -> conv5^3 (512) -> pool5 -> fc6 (4096) -> fc7 (4096) -> fc8 (1000) -> softmax。 ^3は3回繰り返すことを意味します。 VGG ネットワークの重要なポイントは次のとおりです。

（１）構造はシンプルで、３×３畳み込みと２×２合流の２つの構成のみであり、同じモジュールの組み合わせを繰り返し積み重ねている。畳み込み層では空間サイズは変化せず、合流層を通過するたびに空間サイズが半分になります。

（２）パラメータ数が多く、そのほとんどが全結合層に集中している。ネットワーク名の 16 は、16 個の conv/fc レイヤーがあることを示します。

（３）適切なネットワーク初期化とバッチ正規化層の使用は、深層ネットワークの訓練にとって重要である。元の論文では、深層 VGG ネットワークを直接トレーニングすることはできないため、最初に浅いネットワークをトレーニングし、その浅いネットワークを使用して深層ネットワークを初期化します。 BN の登場後、他のテクノロジーとともに、後に提案されたディープネットワークを直接トレーニングできるようになりました。 VGG-19 の構造は VGG-16 と似ており、パフォーマンスは VGG-16 よりわずかに優れていますが、VGG-19 はより多くのリソースを消費するため、実際には VGG-16 の方が多く使用されます。 VGG-16 ネットワーク構造は非常にシンプルで転移学習に非常に適しているため、VGG-16 は現在でも広く使用されています。 VGG-16 と VGG-19 の名前は、著者の研究グループ (Visual Geometry Group) の名前に由来しています。

写真

グーグルネット

5Mパラメータ、ILSVRC 2014のチャンピオンネットワーク。 GoogLeNet は、ネットワークを設計するときに、畳み込み層またはプーリング層のどのサイズを選択すべきかという疑問に答えようとします。 Inception モジュールを提案し、1×1、3×3、5×5 畳み込みと 3×3 合流を使用し、すべての結果を保持します。基本的なネットワークアーキテクチャは次のとおりです: conv1 (64) -> pool1 -> conv2^2 (64, 192) -> pool2 -> inc3 (256, 480) -> pool3 -> inc4^5 (512, 512, 512, 528, 832) -> pool4 -> inc5^2 (832, 1024) -> pool5 -> fc (1000)。 GoogLeNet の主なポイントは次のとおりです。

（１）複数の分岐が別々に処理され、結果がカスケードされる。

（２）計算量を削減するために、次元削減には1×1畳み込みが用いられる。 GoogLeNet は、完全接続層の代わりにグローバル平均プーリングを使用するため、ネットワークパラメータが大幅に削減されます。 GoogLeNet は、著者の所属部署 (Google) にちなんで名付けられ、大文字の L は LeNet への敬意を表しています。一方、Inception は、Inception の「we need to go further (さらに深く掘り下げる必要がある)」というフレーズにちなんで名付けられました。

写真

インセプション v3/v4

パラメータは、GoogLeNet に基づいてさらに削減されます。 GoogLeNet と同様の Inception モジュールを備えていますが、7×7 および 5×5 畳み込みをいくつかの同等の 3×3 畳み込みに分解し、ネットワークの後半部分で 3×3 畳み込みを 1×3 および 3×1 畳み込みに分解します。これにより、同様のネットワークパラメータを持つネットワークを最大 42 層まで展開できるようになります。さらに、Inception v3 はバッチ正規化レイヤーを使用します。 Inception v3 は GoogLeNet の 2.5 倍の計算能力を備えていますが、エラー率は後者よりも 3% 低くなっています。 Inception v4 は、Inception モジュールに基づいて残差モジュール (以下を参照) を組み合わせ、エラー率をさらに 0.4% 削減します。

ResNet ILSVRC

2015 チャンピオンネットワーク。 ResNet は、ネットワークが深くなるにつれてトレーニングが困難になるという問題を解決することを目的としています。これは、2 つの 3×3 畳み込みと短絡接続で構成される残差モジュールを提案します (左の画像)。短絡接続は、バックプロパゲーション中に過度の深さによって引き起こされる勾配消失現象を効果的に緩和し、ネットワークが深くなってもパフォーマンスが低下しないことを保証します。短絡接続はディープラーニングにおけるもう一つの重要な考え方です。短絡接続はコンピュータービジョンだけでなく、機械翻訳や音声認識/合成の分野でも使用されています。さらに、短絡接続を備えた ResNet は、深さが異なり、パラメータを共有する多くのネットワークの統合と見なすことができ、ネットワークの数は層の数に応じて指数関数的に増加します。 ResNet の重要なポイントは次のとおりです。

（１）短絡接続を利用して、深いネットワークのトレーニングを容易にし、同じモジュールの組み合わせを繰り返し積み重ねる。

（２）ResNetはバッチ正規化を多用する。

（３）非常に深いネットワーク（５０層以上）の場合、ResNetはより効率的なボトルネック構造を使用する（右図）。 ResNet は ImageNet で人間よりも高い精度を達成しました。

写真

下の図は上記のネットワーク構造を比較したものです。

写真

プレResNet

ResNet の改良。 preResNet は残差モジュール内のレイヤーの順序を調整します。従来の残差モジュール (a) と比較すると、(b) BN を共有すると、情報の短絡伝播にさらに影響し、ネットワークのトレーニングが難しくなり、パフォーマンスが低下します。(c) ReLU を BN に直接移動すると、このブランチの出力は常に非負になり、ネットワークの表現能力が低下します。(d) ReLU は (e) の非負問題を事前に解決しますが、ReLU は BN の効果を享受できません。(e) ReLU と BN はどちらも (d) の問題を事前に解決します。 preResNetの短絡接続（e）は情報をより直接的に伝送できるため、ResNetよりも優れたパフォーマンスを実現します。

写真

レスネクスト

ResNet のもう一つの改良点。従来の方法では、パフォーマンスを向上させるためにネットワークを深くしたり広くしたりすることが一般的ですが、計算オーバーヘッドも増加します。 ResNeXt は、モデルの複雑さを変えずにパフォーマンスを向上させることを目指しています。簡潔で効率的な Inception モジュールにヒントを得た ResNeXt は、ResNet の非短絡分岐を複数の分岐に変換します。 Inception とは異なり、各ブランチの構造は同じです。 ResNeXt の主なポイントは次のとおりです。

（１）ResNetの短絡接続を利用し、同じモジュールの組み合わせを繰り返し積み重ねる。

（２）複数のブランチは別々に処理される。

（３）1×1畳み込みを使用して計算量を削減する。 ResNet と Inception の利点を組み合わせたものです。さらに、ResNeXt は実装にグループ畳み込みを巧みに使用します。 ResNeXt は、ネットワークのパフォーマンスを向上させるには、ネットワークを深くしたり広くしたりするよりも、ブランチの数を増やす方が効果的であることを発見しました。 ResNeXt という名前は、これが ResNet の次世代であることを示すことを目的としています。

写真

ランダム深度

ResNet の改良。勾配消失を軽減し、トレーニングを高速化することを目的としています。ランダム非アクティブ化（ドロップアウト）と同様に、一定の確率で残りのモジュールをランダムに非アクティブ化します。非アクティブ化されたモジュールは、パラメータ付きブランチを通過せずに、短絡ブランチから直接出力されます。テスト中、フィードフォワードはすべてのモジュールを通過します。ランダム深度は、残差モジュールに情報の冗長性があることを示しています。

写真

デンスネット

その目的は、勾配の消失を避けることでもあります。残余モジュールとは異なり、高密度モジュールでは任意の 2 つの層間に短絡接続が存在します。つまり、各レイヤーの入力には、連結を通じて前のすべてのレイヤーの結果が含まれており、つまり、低レベルから高レベルまでのすべてのレベルの特徴が含まれています。従来の方法とは異なり、DenseNet の畳み込み層のフィルターの数は非常に少なくなっています。 DenseNet は、ResNet の半分のパラメータで ResNet のパフォーマンスを実現できます。実装に関しては、著者らは会議レポートの中で、出力を直接カスケードすると大量の GPU ストレージが消費されると指摘しました。その後、共有ストレージを通じて、同じ GPU ストレージリソースでより深い DenseNet をトレーニングできます。ただし、この実装では、一部の中間結果を再計算する必要があるため、トレーニング時間が長くなります。

写真

SENet ILSVRC

2017年のチャンピオンネットワーク。 SENet は追加のブランチ (gap-fc-fc-sigm) を使用して各チャネルの [0, 1] 重みを取得し、各チャネルの元のアクティベーション値応答を適応的に修正します。有用なチャネル応答を強化し、現在のタスクにあまり役に立たないチャネル応答を抑制します。

写真

04 オブジェクトの位置特定

画像分類に基づいて、通常は境界ボックスの形式で、画像内のターゲットの特定の位置も知りたいと考えます。

基本的な考え方

マルチタスク学習、2 つの出力ブランチを持つネットワーク。画像分類には 1 つのブランチ、つまりフル接続 + ソフトマックスを使用してターゲットカテゴリを決定します。単純な画像分類との違いは、ここでは「背景」クラスも必要になることです。もう 1 つのブランチは、ターゲットの位置を決定するために使用され、つまり、回帰タスクを完了し、デジタルでマークされた 4 つの境界ボックスの位置 (中心点の水平座標と垂直座標、境界ボックスの長さと幅など) を出力します。このブランチの出力結果は、分類ブランチによって「背景」ではないと判断された場合にのみ使用されます。

人体の位置・顔の位置

ターゲット位置決めの考え方は、人体の姿勢の位置決めや顔の位置決めにも使用できます。どちらの場合も、人体の一連の関節や顔の重要なポイントを退行させる必要があります。

弱教師付きローカリゼーション

ターゲットの位置特定は比較的単純なタスクであるため、最近の研究のホットスポットでは、ラベル付けされた情報のみを使用したターゲットの位置特定に焦点が当てられています。基本的な考え方は、畳み込み結果からより高い応答を示す重要な領域を見つけ、この領域が画像内のターゲットに対応すると判断することです。

05 物体検出

ターゲットの位置特定では通常、ターゲットは 1 つまたは固定数のみですが、ターゲットの検出はより一般的であり、画像に表示されるターゲットの種類と数は固定されていません。したがって、物体検出は物体の位置特定よりも難しいタスクです。

（１）ターゲット検出によく使われるデータセット

パスカルVOC

20 のカテゴリが含まれます。通常、トレーニングには VOC07 と VOC12 の trainval ユニオンが使用され、テストには VOC07 のテストセットが使用されます。

MSココ

COCOはVOCよりも難しいです。 COCO には、80,000 枚のトレーニング画像、40,000 枚の検証画像、20,000 枚のラベルなしテスト画像 (test-dev)、80 個のカテゴリ、および画像あたり平均 7.2 個のオブジェクトが含まれています。通常、80,000 枚のトレーニング画像と 35,000 枚の検証画像を結合したものがトレーニングに使用され、残りの 5,000 枚の画像は検証に使用され、20,000 枚のテスト画像はオンラインテストに使用されます。

地図

（平均精度）はターゲット検出においてよく用いられる評価指標です。計算方法は以下の通りです。予測された境界ボックスと実際の境界ボックスの交差率と和集合率が特定のしきい値 (通常は 0.5) より大きい場合、予測は正しいとみなされます。各クラスについて、精度-再現率曲線をプロットし、平均精度は曲線の下の領域になります。次に、すべてのカテゴリの平均精度を平均して、[0、100%]の範囲のmAPを取得します。

交差和集合 (IoU)

アルゴリズムによって予測された境界ボックスと実際の境界ボックスの交差部分の面積を、2つの境界ボックスの和集合の面積で割った値が[0, 1]になります。交差結合率は、アルゴリズムによって予測された境界ボックスと実際の境界ボックス間の近さを測定します。交差結合率が大きいほど、2 つの境界ボックス間の重なりが大きくなります。

（２）候補領域に基づく物体検出アルゴリズム

基本的な考え方

さまざまなサイズのウィンドウを使用して画像上をスライドし、各領域でウィンドウ内のターゲットを見つけます。つまり、各ウィンドウ内の領域はネットワークにフィードフォワードされ、その分類ブランチは領域のカテゴリを決定するために使用され、回帰ブランチは境界ボックスを出力するために使用されます。スライディングウィンドウベースのオブジェクト検出の目的は、元の画像に複数のオブジェクトが含まれている可能性があるものの、スライディングウィンドウに対応する画像のローカル領域には通常、オブジェクトが 1 つしか存在しない (またはオブジェクトが存在しない) ことです。したがって、ターゲットポジショニングの考え方を使用して、ウィンドウ内の領域を 1 つずつ処理することができます。ただし、この方法では画像のすべての領域をスライドする必要があり、スライディングウィンドウのサイズが異なるため、計算オーバーヘッドが大きくなります。

R-CNN

まず、ディープラーニングではないカテゴリに依存しない教師なし手法を使用して、画像内でターゲットが含まれる可能性のある候補領域をいくつか見つけます。その後、フィードフォワードネットワークを使用して、各候補領域のターゲット、つまり 2 ブランチ (分類 + 回帰) 出力を特定します。このうち、回帰分岐が依然として必要な理由は、候補領域はターゲットを含む領域の大まかな推定値に過ぎず、より正確な境界ボックスの予測結果を得るには、回帰分岐を教師あり方式で使用する必要があるためです。 R-CNNの重要性は、当時物体検出がボトルネックになりつつあったこと、ImageNetの事前学習済みモデルを微調整するR-CNNの手法により、VOC上のmAPが35.1%から53.7%に一気に向上し、ディープラーニングにおける物体検出の基本的な考え方を確立したことにあります。興味深い点は、R-CNN 論文の最初の文が「特徴が重要」という 2 つの単語だけであることです。これは、ディープラーニング手法の核心を指摘しています。

地域提案

候補領域生成アルゴリズムは通常、画像の色、テクスチャ、面積、位置などに基づいて類似のピクセルを結合し、最終的に一連の候補マトリックス領域を取得します。選択的な検索やエッジボックスなどのこれらのアルゴリズムは、通常、数秒のCPU時間を必要とし、典型的な数の候補領域は画像のすべての領域のスライドウィンドウと比較して2Kです。一方、これらの候補領域生成アルゴリズムの精度は平均ですが、リコールは通常高く、画像内のオブジェクトを見逃す可能性が低くなります。

写真

高速R-CNN

R-CNNの欠点は、複数のフィードフォワードネットワークを必要とすることです。これにより、R-CNNの動作効率が低くなります。高速R-CNNは候補領域に基づいてターゲット検出を実行しますが、SPPNETに触発され、高速R-CNNでは、異なる候補領域の畳み込み特徴抽出部分が共有されます。つまり、最初に画像全体をネットワークにフィードし、conv5畳み込み機能を抽出します。その後、サンプリングは、元の画像で候補地域生成アルゴリズムを実行した結果に基づいて、対象収束領域と呼ばれるステップと呼ばれる畳み込み機能で実行されます。最後に、候補地域ごとに、ターゲットポジショニングが実行されます。つまり、2つのブランチ（分類 +回帰）出力です。

関心のあるプーリングの領域（ROIプーリング）

関心のある領域の目的は、任意のサイズの候補領域に対応するローカル畳み込み機能から固定サイズの機能を抽出することです。アプローチは、最初に候補エリアを畳み込み機能に投影し、対応する畳み込み機能領域を固定数のグリッドに分割することです（たとえば、VGGNETは7×7グリッドが必要な次のネットワークが望む入力サイズによって決定されます）。古典的な最大プーリングと一致して、各チャネルの関心のある領域は独立しています。

写真

より高速なR-CNN

高速R-CNNテスト中、フィードフォワードネットワークは画像あたり0.2秒しかかかりませんが、ボトルネックは候補地域を抽出するのに2秒かかることです。より高速なR-CNNは、既存の監視されていない候補候補地域生成アルゴリズムを使用しなくなりますが、代わりに候補地域ネットワークを使用してCONV5の機能から候補地域を生成し、候補地域ネットワークをエンドツーエンドトレーニングのためにネットワーク全体に統合します。より速いR-CNNのテスト時間は0.2秒で、リアルタイムに近いです。後の研究では、より少ない候補地域を使用することにより、パフォーマンスをあまり失うことなく速度をさらに上げることができることがわかりました。

地域の提案ネットワーク（RPN）

畳み込みの特徴に2層の畳み込み（3×3および1×1の畳み込み）の後、2つの分岐が出力されます。その中で、1つのブランチを使用して、各アンカーボックスにターゲットが含まれているかどうかを判断し、もう1つのブランチは各アンカーボックスの候補エリアの4つの座標を出力します。候補地域ネットワークは、実際には、スライドウィンドウに基づいてターゲットポジショニングのアイデアを継続しています。畳み込み機能の空間サイズは小さく、受容フィールドが大きいため、3×3のスライドウィンドウを使用していても、元の画像の広い領域に対応できます。より速いR-CNNは、実際には3セットのサイズ（128×128、256×256、512×512）、3セットのアスペクト比（1：2、2：1）、およびここのアンカーボックスのサイズは、COVR5機能のサイズを超えています。 1000×600の画像の場合、20kのアンカーボックスを取得できます。

なぜアンカーボックスを使用するのですか？

アンカーボックスは、定義された形状とサイズの境界ボックスです。アンカーボックスを使用する理由には、（1）画像内の候補領域には異なるサイズとアスペクト比があり、直接回帰はアンカーボックス座標を修正するよりもトレーニングが困難です。（2）CONV5の受容フィールドは非常に大きく、受容フィールドには複数のアンカーボックスを使用すると同時に、受容フィールドに表示される複数のターゲットを予測できる可能性があります。（3）。通常、データに表示される境界ボックスの形状とサイズに基づいて、アンカーボックスのセットを設定できます。アンカーボックスは互いに独立しており、異なるアンカーボックスは異なるターゲットに対応しています。

写真

R-FCN

ROIプーリング後、R-CNNがより速いR-CNNは、各候補地域に対して個別に2つのブランチ予測を実行する必要があります。 R-FCNは、プロセスをさらに高速化するために、ほぼすべての計算を共有することを目指しています。画像分類タスクは画像内のターゲットの特定の位置を気にしないため、ネットワークは変換不変です。ただし、ターゲット検出では、ターゲットの位置を回帰する必要があるため、ネットワーク出力はターゲットの翻訳の影響を受ける必要があります。 2つの間の矛盾を容易にするために、R-FCNは、深い畳み込み機能の各チャネルとの位置的関係を明示的に与えます。 ROIをマージすると、候補領域は最初に3×3グリッドに分割され、次に異なるグリッドが候補の畳み込み機能の異なるチャネルに対応します。 R-FCNは、2つのブランチ（分類 +回帰）出力も使用します。

写真

候補領域に基づくターゲット検出アルゴリズムには通常、2つのステップが必要です。最初のステップは、画像から深い特徴を抽出することです。2番目のステップは、各候補領域（分類と回帰を含む）を見つけることです。その中で、最初のステップは画像レベルの計算であり、画像はネットワークのこの部分を1回順番に供給するだけで、2番目のステップはリージョンレベルの計算であり、各候補地域はネットワークのこの部分を1回転送する必要があります。したがって、2番目のステップでは、全体的な主要な計算オーバーヘッドを説明します。 R-CNN、高速R-CNN、より高速なR-CNN、R-FCNなどのアルゴリズムの進化は、ネットワークの画像レベルの計算の割合を徐々に増やしながら、領域レベルの計算の割合を減らします。 R-CNNのほとんどすべての計算は領域レベルの計算ですが、R-FCNのほとんどすべての計算は画像レベルの計算です。

写真

（3）直接回帰に基づくオブジェクト検出アルゴリズム

基本的な考え方

候補地域ベースの方法には2つのステップがあるため、検出パフォーマンスの方が優れていますが、速度はまだリアルタイムに遅れています。直接回帰ベースの方法は、候補領域を必要とせず、分類/回帰結果を直接出力します。このタイプの方法はネットワークに一度前方に送るだけである必要があるため、通常は速度が高速で、リアルタイムで達成できます。

YOLO

画像は7×7グリッドに分割され、画像内の実際のオブジェクトがオブジェクトの中心が配置され、最も近いアンカーボックスがあるグリッドに分割されます。各グリッド領域について、ネットワークを予測する必要があります。各アンカーボックスにターゲットが含まれる確率（ターゲットが含まれていない場合は0、それ以外の場合はアンカーボックスと真の境界ボックスの間のIOUです）、各アンカーボックスの4つの座標、およびグリッドのカテゴリ確率分布。各アンカーボックスのカテゴリ確率分布は、各アンカーボックスにオブジェクトにグリッドのカテゴリ確率分布を掛けた確率に等しくなります。候補地域ベースの方法と比較して、ヨロがターゲットを含める確率を予測する必要がある理由は、画像内のほとんどの領域にターゲットが含まれていないことであり、トレーニング中にターゲットが存在する場合にのみ座標とカテゴリの確率分布が更新されることです。 Yoloの利点は次のとおりです。（1）候補地域ベースの方法の受容フィールドは画像のローカルエリアであり、Yoloは画像全体の情報を利用できます。（2）より良い一般化能力があります。 Yoloの制限は次のとおりです。（1）グリッド内のターゲットの数がプリセット固定値を超える状況を処理できないか、同じアンカーボックスに属するグリッドに複数のターゲットがある場合、同時に複数のターゲットがあります。（2）小さなターゲットを検出する能力は十分ではありません。（3）異常なアスペクト比を持つ境界ボックスの検出能力は強くありません。（4）。大きな境界ボックスの小さなオフセットは、小さな境界ボックスの小さなオフセットとは異なる効果を持つ必要があります。

写真

ソリッドステートドライブ

Yoloと比較して、SSDは、畳み込み空間のサイズを縮小するために畳み込み特徴の後にいくつかの畳み込み層を追加し、複数の畳み込み層の検出結果を統合することにより、異なるサイズのオブジェクトを検出します。さらに、より高速なR-CNNのRPNと同様に、SSDはヨロの完全に接続されたレイヤーを3×3の畳み込みに置き換えて、さまざまなサイズとアスペクト比のアンカーボックスで分類/回帰を実行します。 SSDは、Yoloよりも速く検出性能を達成し、R-CNNに近いものになります。後の研究では、他の方法と比較して、SSDは基本モデルのパフォーマンスによって比較的影響を受けないことがわかりました。

写真

fpn

以前の方法はすべて、高レベルの畳み込み機能を採用しました。ただし、高レベルの機能はいくつかの詳細な情報を失うため、FPNはマルチレイヤー機能を統合して、高レベル、低解像度、強力な意味情報、低レベル、高解像度、弱いセマンティック情報を統合することにより、小さなターゲットのネットワークの処理機能を強化します。さらに、通常、多層融合結果を使用して予測する方法とは異なり、FPNは異なる層で独立して予測を行います。 FPNは、候補地域ベースの方法と、または直接回帰ベースの方法と組み合わせることができます。より高速なR-CNNと組み合わせると、FPNは、元のモデルの計算量を基本的に増やすことなく、小さなターゲットの検出性能を大幅に改善します。

写真

レチナネット

Retinanetは、直接回帰に基づいた方法が一般に候補地域の方法に基づく方法よりも劣っている理由は、前者が極端なカテゴリの不均衡に直面していることであると考えています。候補地域ベースの方法は、候補地域を介してバックグラウンド領域のほとんどを除外できますが、直接回帰ベースの方法はカテゴリの不均衡に直接直面する必要があります。したがって、Retinanetは、既に分割された良い例の損失値を減らして、トレーニング時に困難な例についてモデルをより懸念するようにするために、古典的なエントロピー損失を改善することにより、フォーカス損失機能を提案します。 Retinanetは、候補地域ベースの方法を超えた直接回帰方法とパフォーマンスに基づいて、ほぼ速度を実現します。

写真

（4）ターゲット検出の一般的な手法

非最大抑制（NMS）

オブジェクト検出で発生する可能性のある問題の1つは、モデルが同じターゲットを複数の予測し、複数の境界ボックスを取得することです。 NMSは、他の予測を抑制しながら、実際の境界ボックスに最も近い1つの予測を保持することを目指しています。 NMSの実践は、最初に、各カテゴリで、NMSが最初に各予測結果出力がカテゴリに属する確率をカウントし、確率に応じて高から低への予測結果を並べ替えることです。第二に、NMSは、小さな確率で対応する予測の結果がターゲットを見つけていないため、それを抑制すると考えています。次に、残りの予測結果のうち、NMSは、対応する確率が最も高い予測結果を見つけ、それを出力し、境界ボックス（0.3を超えるIOUなど）と大きなオーバーラップを持つ他の境界ボックスを抑制します。すべての予測が処理されるまで、前のステップを繰り返します。

オンラインハード例マイニング（OHEM）

オブジェクトの検出のもう1つの問題は、カテゴリの不均衡です。画像内のほとんどの領域にはターゲットが含まれていませんが、領域のごく一部のみにターゲットが含まれています。さらに、さまざまなターゲットの検出難易度は大きく異なりますが、少数のターゲットは非常に困難です。 OhemとBoostingには同様のアイデアがあります。これは、損失値に基づいてすべての候補領域をソートし、最適化の損失値が最も高い候補領域の一部を選択し、ネットワークが画像のより困難な目標に焦点を合わせます。さらに、大幅に重複する候補地域の選択を避けるために、OHEMは損失値に基づいて候補地域でNMSを実行します。

対数空間の回帰

回帰は、分類の最適化よりもはるかに困難です。損失は外れ値に敏感です。四角い値のため、外れ値は大きな勾配と大きな勾配を持ち、勾配爆発をトレーニング中に簡単にします。損失勾配は不連続です。対数空間では、数値のダイナミックレンジははるかに小さくなるため、回帰をトレーニングする方がはるかに簡単になります。さらに、一部の人々は、スムーズな損失を使用して最適化します。回帰目標を事前に正規化することも、トレーニングに役立ちます。

06セマンティックセグメンテーション

セマンティックセグメンテーションは、オブジェクト検出のためのより高度なタスクです。各ターゲットの境界ボックスのみが必要であり、セマンティックセグメンテーションには、画像のどのピクセルがどのターゲットに属するかについてのさらなる判断が必要です。

（1）セマンティックセグメンテーションの一般的なデータセット

パスカル・ヴォック

2012 1.5Kトレーニング画像、1.5K検証画像、20のカテゴリ（背景を含む）。

Coco Coco女史はVOCよりも困難です。 83kのトレーニング画像、41k検証画像、80kのテスト画像、80のカテゴリがあります。

（2）セマンティックセグメンテーションの基本的なアイデア

基本的な考え方

画像分類は、ピクセルごとにピクセルを実行します。出力スペースサイズが入力と一致するように、画像全体をネットワークに入力し、チャネルの数はそれぞれカテゴリの数に等しくなります。カテゴリは、それぞれ各空間位置が各カテゴリに属する確率、つまりピクセルによってピクセルを分類できます。

完全な畳み込みネットワーク +デコンボリューションネットワーク

出力を3次元構造にするために、完全畳み込みネットワークに完全に接続された層はなく、畳み込み層と収束層のみがあります。ただし、畳み込みと収束が進行するにつれて、画像チャネルの数が大きくなり、スペースが小さくなります。出力と入力を同じ空間サイズにするには、完全な畳み込みネットワークは、デコンボリューションと中止を使用して空間サイズを増やす必要があります。

写真

畳み込み/転置畳み込み

標準畳み込みのフィルターは入力画像にスライドし、毎回入力画像のローカル領域を乗算して出力を取得し、デコンボリューションのフィルターは出力画像にスライドし、各入力ニューロンはフィルターを掛けて出力ローカル領域を取得します。デコンボリューションの前方プロセスと畳み込みの逆のプロセスは、同じ数学的操作を完了します。標準の畳み込みフィルターと同様に、デコンボリューションフィルターもデータから学習されます。

アンチマックスコンバージェンス（Max-Unpooling）

通常、完全畳み込みネットワークは対称的な構造です。最大収束が最大収束している場合、対応する位置出力は最大収束が逆収束に対応し、残りの位置がゼロで満たされている場合に入力として設定されます。逆最大収束は、最大収束で失われた空間情報を補うことができます。逆の最大収束の前方プロセスと最大収束の逆プロセスは、同じ数学操作を完了します。

写真

（3）セマンティックセグメンテーションの一般的な手法

拡張畳み込み

拡張畳み込みは、効果的な受容フィールドを増加させるためにタスクをセグメント化するためによく使用される手法です。標準の畳み込み操作では、各出力ニューロンに対応する入力ローカルエリアは連続していますが、拡張畳み込みに対応する入力ローカル領域は空間的位置では不連続です。拡張された畳み込みにより、新しいハイパーパラメトリック拡張が標準の畳み込み操作に導入され、空間位置にある入力ローカル領域の間隔を記述します。拡張が1の場合、拡張畳み込みは標準的な畳み込みに退化します。拡張された畳み込みは、パラメーター量を変更せずに受容フィールドを効果的に改善できます。たとえば、3×3の標準畳み込みスタックの複数の層がある場合、層1畳み込みの出力ニューロンの受容フィールド（Lから1から始まります）は2L +1です。対照的に、3×3の膨張畳み込みスタックの複数の層がある場合、レイヤー1畳み込みの膨張は2^{l-1}である場合、レイヤー1畳み込みの出力ニューロンの受容フィールドは2^{l +1} -1です。受容フィールドが大きいほど、ニューロンがより関連性のある情報を使用できます。古典的なコンピュータービジョンマニュアル機能と比較して、大きな受容フィールドは、ディープラーニング方法が優れたパフォーマンスを実現できる重要な理由の1つです。

写真

条件付きランダムフィールド（CRF）

条件付きランダムフィールドは、確率グラフモデルであり、詳細な情報を改善するために完全な畳み込みネットワークの出力結果をマイクロ圧縮するためによく使用されます。動機は、同様の距離を持つピクセル、または同様のピクセル値のピクセルが同じカテゴリに属する可能性が高いということです。さらに、再発性ニューラルネットワークを使用して条件付きランダムフィールドを近似する研究があります。条件付きランダムフィールドのもう1つの欠点は、2つのピクセル間の関係が考慮されているため、動作の効率が低下することです。

低レベルの情報を利用します

低レベルの結果を包括的に利用することで、ネットワークが深まるにつれて、失われた詳細とエッジ情報を補正できます（FCNなど）またはチャネル方向（U-NETなど）に沿ってスプライシングします。

写真

07インスタンスセグメンテーション

セマンティックセグメンテーションでは、同じカテゴリに属する異なるインスタンスを区別しません。たとえば、画像に複数の猫がいる場合、セマンティックセグメンテーションは、2匹の猫のすべてのピクセルをカテゴリ「猫」として予測します。対照的に、インスタンスセグメンテーションでは、どのピクセルが最初の猫に属し、どのピクセルが2番目の猫に属しているかを区別する必要があります。

基本的な考え方

オブジェクト検出 +セマンティックセグメンテーション。まず、画像内のさまざまなインスタンスがオブジェクト検出方法を使用してフレーム化され、次に、セマンティックセグメンテーションメソッドを使用して、異なる境界ボックスでピクセルごとのマーキングが実行されます。

マスクR-CNN

FPNは、追加の分岐（追加セグメンテーション分岐と元の検出分岐がパラメーターを共有しない）を追加することにより、オブジェクト検出およびセマンティックセグメンテーションに使用されます。つまり、Mask R-CNNには3つの出力分岐（分類、座標回帰、およびセグメンテーション）があります。さらに、R-CNNをマスクする他の改善は次のとおりです。（1）。（2）マスクR-CNNは、審査カテゴリと出力テンプレート（マスク）の2つのタスクを分離し、SIGMOIDを使用して各カテゴリのテンプレートを個別に処理し、SoftMaxを使用してすべてのカテゴリを競合できるようにするより良い結果を達成します。

写真

<<: AIGCの6つの主なリスク

>>: