今日は畳み込みニューラル ネットワークについてお話します。畳み込みニューラル ネットワークは、主に、畳み込みニューラル ネットワークの歴史、完全結合層、畳み込み層、プーリング層の 4 つの部分から構成されます。 CNN の正式名称は畳み込みニューラル ネットワークであり、そのプロトタイプは 1998 年に LeCun によって発明された LeNet ネットワーク構造です。 LeNet ネットワーク アーキテクチャ では、ニューラル ネットワークとは一体何でしょうか?畳み込み層を持つものはすべて畳み込みニューラル ネットワークと呼ぶことができると言えます。 ニューラルネットワークの歴史 1986年: Rumelhart、Hintonらがバックプロパゲーションアルゴリズムを提案した。 1998年: LeCun が BP ニューラル ネットワークに基づいて LeNet ネットワークをトレーニングし、CNN が本格的に始動しました。 2006年: Hinton が科学論文で初めてディープラーニングの概念を提案しました。 2012年:実は、ヒントンが2006年にディープニューラルネットワークを提唱した後、多くの人から疑問視されました。しかし、2012年にヒントンの学生アレックス・クリジェフスキーは、寮でGPUを使用してディープラーニングモデルを開発し、コンピュータービジョンのトップ分野でILSVRC 2012チャンピオンを獲得しました。数百万レベルのImageNetデータセットでは、その効果は従来の方法よりもはるかに優れており、精度率は70%から80%に向上しました。 完全接続層 実際、完全結合層は脳のニューロン構造を模倣しています。次のことがわかります。 出力値 = 入力値 x に重み w をつけて、活性化関数を通した累積結果。正式には: 次に、ニューロンを列に配置し、列を完全に接続して BP ニューラル ネットワークを取得します。 BP ニューラル ネットワーク アルゴリズムには、信号の順方向伝播とエラーの逆方向伝播という 2 つのプロセスが含まれます。つまり、エラー出力は入力から出力に計算され、重みとしきい値は出力から入力に調整されます。 BP ニューラル ネットワークを理解するために例を見てみましょう。 例: BPニューラルネットワークを使用したデジタル認識 たとえば、最初の画像では 0 が示されています。この画像は複数のピクセルで構成されており、各ピクセルには 3 つの RGB チャネルがあります。その後、グレー表示されて 2 番目の画像になり、グレー表示された画像が 2 値化されて 3 番目の画像になります。 次に、画像に対して確率処理を実行します。たとえば、最初のボックスでは、白いブロック/すべてのブロック = 0.2 です。対応する戦略で処理した後、最初の値は 0.2 になります。同様に、上図の右側の行列も得られます。 次に、行列を 1*n 行ベクトルに変換して処理します。この処理された形式により、ニューラル ネットワークの入力処理が改善されます。 ニューラル ネットワークの入力方法がわかったので、数字をより適切に識別するための最終出力はどうあるべきでしょうか?ワンホットエンコーディング! つまり、それぞれの数字がコードに対応しており、1000000000と入力すると0と判断される、という具合です。 入力と出力ができたので、ニューラル ネットワークを通じてトレーニングすることができます。 まず、入力層のニューロン数を25ノード、出力層を10ノードに設定します。上記の1*nベクトルをBPニューラルネットワークに入力し、隠れ層を通過させて最後に出力層に渡してワンホットエンコーディングします。出力層はソフトマックス活性化関数を通じて各数字の出現確率を取得し、数字を認識できるようにします。 畳み込み層 畳み込み層とは何でしょうか?前回の記事でもお話しましたが、興味のある方は直接確認してみてください。 漫画: 畳み込みニューラル ネットワークにおける畳み込みカーネルとは正確には何ですか? 漫画:畳み込みニューラル ネットワークが画像データの処理に適しているのはなぜですか? 実践スキル | 畳み込みニューラル ネットワークの始め方 畳み込み層の説明で、畳み込みカーネルが境界を越えた場合はどうすればよいのかという質問をしたいと思います。たとえば、次のようになります。 このような行列を想定して、ステップ サイズが 2 の 3*3 スライディング ウィンドウを使用する場合、次の状況にどのように対処すればよいでしょうか。 以下に示すように、Padding を使用して 0 で埋めることができます。 畳み込み演算中、畳み込み演算後の行列のサイズは次の要因によって決まります。
畳み込み後の行列のサイズは特定のパターンに従うため、一般的な式は次のようになります。 N=(W-F+2P)/S+1 プーリング層 プーリング層はなぜ存在するのでしょうか?現在の入力データは大きすぎて冗長な情報が多数含まれているため、画像マトリックスをダウンサンプリングし、特徴マップに対してスパース処理を実行してデータ計算量を削減する方法を見つける必要があります。次に、MaxPooling ダウンサンプリングを使用して、プーリング層が何であるかを示します。 上図の赤い部分の値は1 1 5 6です。MaxPoolingを使用しているので最大値を取ります。右図の赤い部分はmax(1,1,5,6)=6となり、ダウンサンプリングの結果となります。 最大ダウンサンプリングと同様に、以下に示すように平均ダウンサンプリング レイヤーもあります。 プーリング層をよりよく理解して使用するために、プーリング層の 3 つの特性をまとめました。
今日は、ニューラルネットワークの開発の歴史、全結合層、畳み込み層、プーリング層など、畳み込みニューラルネットワークの全体的なアーキテクチャについてお話します。お読みいただきありがとうございました〜 |
<<: 教師あり学習、教師なし学習、強化学習とは何ですか?ついに誰かが明らかにした
>>: 人工知能の70年間で、研究者が最も直面したくない痛い教訓は...
エッジコンピューティングは最近ホットな話題です。近年最もエキサイティングな技術革新として称賛され、そ...
人々は人工知能の急速な発展と、さまざまな業界でのその応用事例を目撃してきました。ヘルスケアは、AI、...
[51CTO.com クイック翻訳] 過去数年間にわたり、多くの企業がデータ主導のアプローチを採用す...
[[389157]]この記事では、アリババ AI ミドルプラットフォームの技術品質システム、つまり検...
ドキュメント画像を Markdown 形式に変換したいですか?以前は、このタスクには、テキスト認識、...
外れ値検出 (異常検出とも呼ばれる) は、機械学習において、予想とは大きく異なる動作をするデータ オ...
過去10年間で、人工知能は研究室から工業生産へと移行し、従来の産業モデルを再構築し未来をリードする価...
[[407368]]今の世界は30年前とは大きく異なります。この変化の理由の一部は技術の発展です。今...
[[348542]]韓国の新人歌手ハヨンが10月8日、人工知能作曲ロボットEvoMがプロデュースし...
中国のAIは予想通り、麻雀のプレイでは「楽々と」トップに立った。テンセントの最新ニュースによると、同...
[[441368]]中国ビジネスニュースは70日間生放送されましたが、アンカーがデジタルツインの仮想...
最近、新しい「特許法」の全文が公布され、新たに改正された「著作権法」が公布されたことにより、国は知的...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
英国のメディア組織Tortoise Mediaは最近、2023年の世界AI指数ランキングを発表しまし...