複雑かつ効率的なニューラル ネットワーク アーキテクチャの出現により、畳み込みニューラル ネットワーク (CNN) のパフォーマンスは、SIFT や SURF などの従来のデジタル画像処理手法を超えています。コンピュータービジョンの分野では、学者たちは研究の焦点を CNN に移し始め、CNN がこの分野の将来のトレンドであると信じていました。しかし、CNN の驚異的な成功の背後にあるメカニズムについては、あまり理解されていません。 CNN の動作メカニズムの研究は、現在注目されている話題です。基本的に、1>最適化、2>近似、3>信号という3つの主流のビューがあります。最初の 2 つの観点は主に、ニューラル ネットワークの統計特性と収束を分析しようとする純粋な数学的分析に焦点を当てていますが、3 番目の観点は、次の質問に対処しようとする試みを示しています。1) 非線形活性化関数がすべての中間層のフィルター出力に不可欠なのはなぜですか? 2) 単層システムに対する 2 層カスケード システムの利点は何ですか? 球面上の補正相関 (RECOS) 周知のとおり、フィードフォワード ニューラル ネットワーク (FNN) は、有限数のニューロンを含む単一の隠し層を与えられた任意の連続関数を近似できる汎用近似器として考えることができます。 FNN の特別な点は、ニューロンの非線形活性化関数です。一部のニューラル ネットワークは大規模で深いですが、非線形活性化関数がなければ、その複雑なアーキテクチャの効果は、入力を別の出力空間にマッピングする単純な単層線形モデルと変わりません。具体的には、非線形活性化関数によって学習された入力表現のセットは、実用的な問題を解決するのにより適しています。 CNN は、FNN または MLP (多層パーセプトロン) の別のタイプです。 CNN の非線形性を分析するために、著者らは CNN の動作を理解するための数学モデルを提案しました。このモデルでは、CNN は「球面の補正相関 (RECOS)」を計算する基本的なオペレーティング ユニットで構成されたネットワークとして見られます。そのため、RECOS モデルと呼ばれます。 CNN のトレーニング中、カーネルの重みは最初に初期化され、次に勾配降下法とバックプロパゲーション アルゴリズムによって調整されます。 RECOS モデルでは、重みは入力データのクラスタリングにおける役割を示すためにアンカー ベクトルと呼ばれます。つまり、入力ベクトルとアンカーベクトル間の相関を計算し、それらの類似性を測定しようとします。 非線形活性化関数を使用する理由は何ですか? すべてのピクセルの相互作用を 1 つのステップでのみ考慮する MLP とは異なり、CNN は入力画像を特定のレイヤーのノードの受容野と呼ばれる小さなパッチに分解します。アルゴリズムは、より大きな画像をカバーできるように受容野のサイズを徐々に拡大します。ニューロンは入力ベクトルとそのアンカー ベクトル間の相関を計算し、それらの類似性を測定します。各 RECOS ユニットには K 個のニューロンがあります。モデルは Y = AX として表されます。ここで、X は入力ベクトル、Y は出力ベクトル、A はアンカー ベクトル (カーネル フィルターの重み行列) です。この式は、CNN が入力を別の空間にマッピングする方法を表します。 RECOS モデルを研究することで、学習されたカーネルの重みは類似のオブジェクトを同じ領域にマッピングする傾向があることがすぐにわかります。たとえば、x_i と x_j のユークリッド距離が近い場合、対応する出力 y_i と y_j も新しい空間内で近い必要があります。猫の特徴を捉えるために使用されるフィルターの場合、学習されたアンカー ベクトル A は、猫の特徴を表すすべてのベクトル X_cat を Y_cat にマッピングしますが、犬の特徴を表すその他のベクトル X_dog や車の特徴を表す X_car はこの領域には決して表示されません。これが、CNN がさまざまなオブジェクトの識別に効果的である理由です。 しかし、なぜ非線形活性化関数を使用する必要があるのでしょうか? 上の 2 つの画像 (左) は元の猫の画像、(右) は左の画像のネガです。人間の視点から判断すると、2 つの画像は同一である場合もありますが、異なる場合もあります。両方の写真の猫は同じ猫であり、負の相関関係にあると結論付けることができます。黒猫は単純に白猫の画像のピクセル値から255を引いたものだからです。それで、CNN はこの 2 匹の猫をどうやって理解したのでしょうか? 上の図から、非線形活性化関数を使用する必要性がわかります。 X は入力ベクトル、a_1、a_2、a_3 はそれぞれ異なる学習されたアンカー ベクトルです。 RECOS モデルでは、線形演算 Y = AX を使用して、入力ベクトルとアンカー ベクトル間の類似性を測定します。したがって、アンカー ベクトル a_1 と a_3 の場合、x と 2 つのアンカー ベクトルの類似性は大きさは同じですが、符号が反対であることがわかります。この時点で、猫は CNN とは異なります。しかし、たとえば 2 つの畳み込み層を持つ LeNet5 では、元の入力 x が 2 つの層を通過した後、最終的な出力結果が混乱します。非線形活性化関数のないシステムでは、次の 2 つのケースを正しく区別できません。1) 最初の層の正の応答が 2 番目の層の負のフィルター重みに遭遇する。2) 最初の層の負の応答が 2 番目の層の正のフィルター重みに遭遇する。ただし、非線形活性化関数を使用することで、CNN は負の値の影響を簡単に排除できるため、堅牢なシステムを実現できます。 さらに、著者は興味深い実験を行い、その結果は以下のとおりです。 MNIST トレーニング セットを使用して LeNet-5 ネットワークをトレーニングし、MNIST テスト セットで 98.94% の正しい認識率を達成しました。次に、図 5 に示すように、この LeNet-5 ネットワークをグレースケール反転テスト画像に適用します。正解率は37.36%に低下しました。次に、ネットワークの残りの部分は変更せずに、conv1 内のすべてのフィルターの重みを負の値に変更します。わずかに修正された LeNet-5 ネットワークは、グレースケール反転テスト セットで 98.94% の正しい認識率を達成しましたが、元のテスト セットの精度は 37.36% に低下しました。 ご覧のとおり、最初の畳み込み層のすべてのフィルター重みを変更すると、対称的な結果が得られます。この結果は、活性化関数の導入により負の相関が排除されることを示しています。グレースケール反転画像の特徴を学習する際に、元の画像のアンカーベクトルを保持するだけでなく、グレースケール反転画像のアンカーベクトルも追加すると、両方のテストセットで高い認識結果を達成できます。 カスケードレイヤーの利点は何ですか? 一般的に言えば、CNN レイヤーの数が深くなるにつれて、カーネル関数は以前のすべてのカーネル関数の出力に基づいて独自の抽象的な特徴を構築しようとします。したがって、浅いレイヤーと比較して、深いレイヤーはグローバルなセマンティクスと高レベルの機能をキャプチャできます。 RECOS モデルでは、CNN は類似性の測定に類似した一連の非線形変換を使用して、類似の入力データをレイヤーごとにクラスタ化します。出力層は、すべての可能な決定の可能性(オブジェクトのクラスなど)を予測します。トレーニング サンプルには、画像とその決定ラベルの関係が含まれており、CNN がより適切なアンカー ベクトルを生成し (より優れたクラスタリングを形成)、最終的にクラスタリング データを決定ラベルにリンクするのに役立ちます。 上の図はディープネットワークの有効性を示しています。実験の詳細は次のとおりです。 これを例で説明してみましょう。まず、MNIST データセット内の元の手書き数字に 10 種類の異なる背景をランダムに追加して、MNIST のトレーニング セットとテスト セットを変更します。上記の 3 行の画像では、各行の左端の列には 3 つのデジタル画像入力が示され、中央の列にはそれぞれ畳み込み層と ReLU 層からの 6 つのスペクトル画像出力が示され、右端の 2 列にはそれぞれ畳み込み層と ReLU 層からの 16 のスペクトル画像出力が示されます。背景の多様性のため、最初のレイヤーに適したアンカー ベクトル マトリックスを見つけるのは困難です。ただし、これらの画像の背景は空間領域では一貫していませんが、前景の数は一貫しています。 さまざまな変形された背景に対して、CNN は代表的なパターンをうまくキャプチャします。最初のレイヤーには冗長で無関係な情報が多数含まれていることに注目してください。カスケード レイヤーで特徴抽出を適用することで、CNN はローカルの詳細ではなくグローバルなスタイルを学習します。つまり、入力ベクトル x に対して、RECOS 変換は K 次元の出力ベクトルとして、K 個の非負相関値のセットを生成します。このアプローチでは、レイヤーごとに繰り返しクラスタリングを実現します。最後に、トレーニング画像のラベルは、CNN が異なる背景の画像内で同じパターンを見つけるのに役立ちます。 上記の分析から、畳み込み層モデルは特徴を自動的に選択するのに非常に有用であることがわかります。人間の介入なしに、入力データの類似性を測定し、異なる領域にクラスタリングできます。 では、完全に接続された層の役割は何でしょうか? 通常、CNN は、特徴抽出 (FE) サブネットワークと意思決定 (DM) サブネットワークの 2 つのサブネットワークに分解されます。 FE サブネットワークは複数の畳み込み層で構成され、DM サブネットワークは複数の完全接続層で構成されます。つまり、FE サブネットワークは一連の RECOS 変換を経て、クラスタリングのための新しい表現を形成します。 DM サブネットワークはデータ表現と決定ラベルをリンクし、その役割は分類における MLP の役割に似ています。 この時点で、CNN はコンピューター ビジョンにおける従来の機械学習アルゴリズムよりもはるかに優れていると結論付けることができます。 CNN は自動的に特徴を抽出し、その特徴に基づいて入力データを分類することを学習できますが、ランダム フォレスト (RF) とサポート ベクター マシン (SVM) は操作が難しいことが多い特徴エンジニアリングに大きく依存しているためです。 結論は 要約すると、RECOS モデルは、信号解析の観点から畳み込みニューラル ネットワークを分析します。この観点から、活性化関数とディープアーキテクチャの有効性がわかります。ただし、ネットワーク アーキテクチャの設計、弱教師あり学習、誤ったラベルに対する堅牢性、データ セットのバイアスと過剰適合の問題など、次の側面については、まだ詳細に研究する必要があります。 |
<<: ディープラーニングを専門家以外の人に説明するにはどうすればよいでしょうか?
>>: 触覚を感知し、自己治癒するロボットが現実になりつつある
5月12日、第12回中国道路交通安全製品博覧会及び公安交通警察装備展示会(以下:交通博覧会)が重慶...
2017年と比べると、最近の人工知能分野のニュースは人々を怒らせることはほとんどないようだ。おそら...
博士号取得のために勉強するべきか、しないべきか、それが問題だ。 [[354586]]博士号を取得すべ...
人工知能の概念知能は知識と知性の総和です。知識はすべての知的行動の基礎であり、知能は知識を獲得し、そ...
著者 |馬斌映像データに関しては、コンピュータビジョン技術を通じて関連データを活用し、ユーザーや企業...
[[213371]]はじめに:90年代生まれの少女が突然現れ、水滴カメラ生放送プラットフォームを批...
ハッキング技術を使ってサイバーセキュリティの問題を明らかにする任務を負ったマイクロソフトのチームは、...
スマート シティは単なる概念や未来の夢ではなく、今や現実のものとなっています。モノのインターネット、...
【CNMOニュース】最近、百度の創業者で会長兼CEOのロビン・リー氏はインド工科大学マドラス校が開...
自分で認めなさい!マスク氏のニューラリンクはチップを開発している。この技術は「数年以内」にリリースさ...
8月18日、百度とCCTVニュースは共同で「百度ワールド2021」カンファレンスを開催し、AIが何千...
LDA (潜在的ディリクレ分布) や Biterm などの統計トピック モデルを適用することで、大量...
人工知能監視システムに対する懸念から、研究者たちはそれを標的とするツールの開発に取り組んでいる。最近...