畳み込みニューラルネットワークが分かりませんか?怖がらないでください、このかわいい写真を​​見ればわかりますよ!

畳み込みニューラルネットワークが分かりませんか?怖がらないでください、このかわいい写真を​​見ればわかりますよ!

この記事では、畳み込みニューラル ネットワーク (CNN) の基本原理を、関連する数学理論を省き、最も簡潔かつわかりやすい方法で説明します。

同時に、CNN ネットワークをゼロから構築するなどの問題に興味がある場合は、「Artificial Intelligence for Humans Volume 3: Deep Learning and Neural Networks」の第 10 章を読むことを著者は推奨しています。

さあ、CNNの旅を始めましょう——

ネットワーク構造

CNN モデルは通常、フィードフォワード ニューラル ネットワーク モデルに基づいて構築されるため、その構造を理解しておく必要があります。違いは、「非表示レイヤー」が次のレイヤーに置き換えられることです。

  • 畳み込み層
  • プーリングレイヤー

完全接続層(密層)

構造は次の図のようになります。

畳み込み

この段階では、入力画像はグリッドによってスキャンされ、ネットワークへの入力として渡されます。次に、ネットワークは入力画像に畳み込み層を適用し、3 つの画像を含む 3D キューブ構造に分割します。これら 3 つの画像フレームは、それぞれ元の画像の赤、緑、青の情報を表します。

次に、PhotoShop のフィルターを使用して特定の特徴を強調するのと同様に、画像に畳み込みフィルター (ニューロンとも呼ばれます) を適用します。たとえば、漫画「Doc And Mharti」では、Roberts クロス エッジ強調フィルターを使用した効果が次の図に示されています。

オリジナル画像

治療後

100 種類以上のフィルターを備えたニューラル ネットワークが複雑な特徴を選別する能力がいかに強力であるかは想像に難くなく、それが現実世界の物事を識別するのに大いに役立つでしょう。ニューラル ネットワークが画像に畳み込みフィルターを適用すると、特徴/活性化マップを取得できます。

特徴マップは、指定された領域内の特定のニューロンによってアクティブ化されます。たとえば、下の左側の画像にエッジ検出フィルターを追加すると、そのアクティブ化マップが右側の画像に表示されます。

これらの点は 0 の行を表します (これらの領域がエッジである可能性が高いことを示します)。 2 次元配列では、値「30」は、画像領域にエッジが存在する可能性が高いことを示します。

レイヤーをアクティブ化

活性化マップができたら、その中の活性化関数を使用できます。研究者の最初の関数である ReLU 活性化関数 (正規化線形ユニット) を例として使用してみましょう。しかし、シグモイド関数や双曲正接関数を使用すると最良のトレーニング結果が得られると信じている研究者もいますが、私はそうは思いません。

アクティベーション レイヤーを使用すると、システムに非線形性が導入され、入力と出力の一般性が向上します。 ReLU(x) 関数は、単純に max(0,x) またはアクティベーション マップ内の負の重みを返します。

プーリング層

次のベストプラクティスは通常、特徴マップにディーププーリング(またはその他のタイプのプーリング)を適用することです。プーリング層を適用する原理は、小さなグリッドで画像をスキャンし、各グリッド セルを、指定されたグリッド内の最適な値を含む単一のセルに置き換えることです。

これを実行する重要な理由の 1 つは、特定の特徴が入力の特定の領域にあることがわかれば、その特徴の正確な位置を無視してデータを一般化し、過剰適合を減らすことができることです。たとえば、トレーニングの精度が 99% に達したとしても、これまでに見たことのない新しいデータでテストすると、その精度は 50% にしかなりません。

出力層

***プーリング層の後は、完全に接続されたネットワークに渡される情報の一部である、残りのアクティベーション マップについて説明します。完全接続層が含まれており、前の層の各ニューロンの出力を完全接続層のニューロンに単純にマッピングし、出力にソフトマックス関数を適用します。これは、前述の ReLU 関数に似た活性化関数です。

画像を分類するためにニューラル ネットワークを使用するため、ここではソフトマックス関数を使用します。ソフトマックス出力は、合計が 1 になる確率のリストを返します。各確率は、特定の画像が特定の出力クラスに属する確率を表します。しかし、後で画像の予測や復元のタスクになると、線形活性化関数の方がうまく機能します。

これまでは、畳み込み層とプーリング層が 1 つずつという単純なケースのみを検討してきたことに注意してください。最高の精度を達成したい場合は、通常、複数の層を積み重ねる必要があります。各完全な反復の後、ネットワークを通じて計算された損失に基づいて重みが更新されます。

<<:  Ant Financialが機械学習ツールSQLFlowをオープンソース化、機械学習はSQLよりも簡単

>>:  AIがバリアフリー時代へ:手話認識・翻訳の応用が意味するものとは?

ブログ    
ブログ    

推薦する

ジェミニのオンライン初日:ユーザーからの評価はまちまち、デモは「偽物」と疑われ、Googleはそれを認めた

「Googleさん、ちょっと恥ずかしいです。」 Gemini のローンチ初日に、人気のコメントがこの...

2018年のトップ10の技術開発トレンド:人工知能は応用の「爆発期」に入る

情報技術の調査およびコンサルティング会社であるガートナーは最近、2018 年の戦略的技術開発のトレン...

生産効率が50%アップ!ファーウェイはAI機能を活用して大東コイルのデジタル変革を推進し、コスト削減と効率向上に貢献している。

デジタル変革は、現在の企業、特にハイテクの伝統的な製造業の主なテーマとなっています。人工知能、クラウ...

快手 - ICIP 2019 モバイルビデオ修復コンテストの登録開始

最近、Kuaishou-ICIP 2019モバイルビデオ復元コンテストの登録が正式に開始されました。...

シリコンバレーのAI界で注目の記事:ジャスパーとVCはAIGCブームの最大の敗者となり、潮が引いた後に初めて誰が裸で泳いでいるかがわかる

この夏、人工知能起業家サム・ホーガンが書いた記事がシリコンバレー中で話題になった。現在、AI と大規...

C/C++アルゴリズム設計における任意のビット幅の使用

固定小数点アルゴリズムを開発する場合、設計機能、数値的に正確なモデリング、検証 (シミュレーション)...

...

機械学習のトレンドについて語る - 3つの新しい学習パラダイム

[[349437]]導入機械学習/ディープラーニングは広大な研究分野です。まだ若い分野ではありませ...

人工知能の研究ホットスポット:自然言語処理

人工知能(AI)は、新たな科学技術革命と産業変革の重要な原動力として、世界に大きな影響を与え、変化を...

ロボットが家事の仕事を代行:人間のデモンストレーション動画を見るだけで、10時間でコーヒーの淹れ方を学ぶ

先週、スタンフォード大学のエビ揚げロボットが爆発事故を起こした後、コーヒーを作るロボットが再び人気を...

AI搭載マシンビジョンの台頭は企業のデータ管理に影響を与える

AI 駆動型マシンビジョンは日々強力になり、普及が進んでいます。マシンビジョンと人工知能の新しいアプ...

映画での演技から運転まで、人工知能の実装の5つの主要な方向性は次のとおりです。

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

...