Tensorflowを使用して畳み込みニューラルネットワークを構築する

Tensorflowを使用して畳み込みニューラルネットワークを構築する

1. 畳み込みニューラルネットワーク

畳み込みニューラル ネットワーク (CNN) は、人工ニューロンが特定のカバレッジ エリア内の周囲のユニットに応答できるフィードフォワード ニューラル ネットワークです。大規模な画像処理で優れたパフォーマンスを発揮し、主に畳み込み層とプーリング層で構成されます。主に画像、ビデオ、時系列信号、オーディオ信号、テキスト データなどに使用されます。

一般的な畳み込みニューラル ネットワークは複数の畳み込み層で構成され、各畳み込み層は主に次の部分で構成されます。

1. 画像は複数の異なる畳み込みカーネルを介してフィルタリングされ、画像のローカルな特徴を抽出するためにバイアスがかけられます。各畳み込みカーネルは新しい 2D 画像をマッピングします。

2. 前の畳み込みカーネルのフィルタリングされた出力結果を取得し、非線形活性化関数を使用して処理します。最も一般的に使用される活性化関数は、ReLU 関数とそのバリエーション、および tan 関数です。以前は、最も一般的に使用されていた活性化関数はシグモイド関数でした。

3. ダウンサンプリングを実現し、2×2 画像を 1×1 に縮小するために、活性化関数の結果に対してプーリング操作 (最大プーリング、平均プーリング) を実行します。最も一般的に使用されるのはプーリングであり、これにより、画像の顕著な特徴が保持され、モデルの歪み許容度が向上し、モデルの堅牢性が向上します。

2. テンソルフローを使用して畳み込みニューラルネットワークを構築する

Tensorflow を使用して畳み込みニューラル ネットワークを構築し、それを MNIST 手書きデータセットに適用することで、99% を超える精度を実現できます。このモデルは主に 4 つのレイヤーで構成されています。

*** レイヤー: 畳み込みレイヤー、畳み込みカーネルのサイズは 5×5、畳み込みカーネルの合計は 32 個、ステップ サイズは 1、パディングは SAME なので、出力画像のサイズは入力と一致するようになります。

第 2 層: 畳み込み層。畳み込みカーネルのサイズは 5×5 で、合計 64 個の畳み込みカーネルが含まれ、ストライド カーネルの充填方法は前の畳み込み層と同じです。

3 番目のレイヤー: 7×7×64 の入力と 1024 次元ベクトルの出力を持つ完全接続レイヤー。ドロップアウトは、過剰適合を防ぐために一部のノードを非アクティブ化するために使用されます。

4 番目のレイヤー: ソフトマックス レイヤー、入力は 1024 次元のベクトル、出力は 10 次元のベクトルです。

1. 最初の畳み込み層

最初の畳み込み層の入力は、幅と高さが 28、チャネルが 1 の 28×28×1 の画像です。畳み込み層後の出力は 28×28×32 で、最初のプーリング後の出力は 14×14×32 です。

2. 2番目の畳み込み層

2 番目の畳み込み層の入力は 14×14×32、畳み込み後の出力は 14×14×64、プーリング後の出力は 7×7×64 です。

3. 3番目の完全接続層

3 番目のレイヤーの入力は 7×7×64 ベクトルであるため、計算前に 2 番目の畳み込みレイヤーの結果を再整形し、ReLU 活性化関数を通過した後に完全接続レイヤーを削除する必要があります。

4. 4番目のソフトマックス層

4 番目のレイヤーの入力は 1024 次元のベクトルであり、出力は 0 〜 9 の数字に属する確率を表す 10 次元のベクトルです。

5. 重みの初期化

畳み込みニューラル ネットワークでは、重みの初期化が非常に重要です。ここでは、切り捨て正規分布関数を使用して重みをパラメータ化し、パラメータの標準偏差が 0.1 であることを確認します。 切り捨て正規分布とは、関数のランダムに生成された値と平均値の差が標準偏差の 2 倍より大きい場合、初期化された重みの値が大きく異ならないようにこの値が再生成されることを意味します。

6. インターセプトを初期化する

切片値は0.1に初期化される

7. 畳み込み関数

畳み込みのストライドは 1 で、畳み込みの入力と出力が同じサイズになるようにパディング方法は SAME です。

8. ***プーリング機能

***プーリングの水平および垂直ストライドは両方とも 2 であるため、出力画像のサイズは入力画像の半分のサイズになり、ダウンサンプリングの目的が達成されます。

完全なコード:

テンソルフローのサンプル

<<:  世界のAIチップ投資環境が明らかに、5つのシナリオにチャンスあり

>>:  人工知能の台頭は難しく、普通のAI開発者が普及する

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

2020 年の予測: 今年はサイバー犯罪サービスが普及する年になるか?

業界メディアeWEEKの2020年の予測:人工知能と機械学習の「中毒」についての予測も見られ、これが...

ビッグデータが急成長し、我が国のクラウドコンピューティングは「黄金の窓」の時代を迎えている

[[206431]]クラウドコンピューティングは、電力網、交通網、インターネットと同様の「国家インフ...

シングルチップマイクロコンピュータ用のいくつかのC言語アルゴリズム

[[406759]]マイクロコントローラの主な機能は、周辺機器を制御し、特定の通信とデータ処理を実現...

ドローンによる食品配達が到来、こうした問題が注目を集めている

無人運転車による配達に続き、ドローンによる食品配達も現実化に向かって加速している。先日終了した202...

...

スタンフォード大学の学生が出会い系アプリをハッキング! GAN モデルを使用して男性に変装し、顔認識システムを欺く

誰かが本当にあなたの顔を真似して、顔認識システムを回避できるのです! 最近、スタンフォード大学の研究...

Microsoft の 6 ページの論文が話題に: Ternary LLM、とてもクール!

これはマイクロソフトと中国科学院大学による新たな研究の結論です。すべての LLM は 1.58 ビッ...

ヘルスケアにおけるAI導入が難しい理由

私たちはほぼ毎日、人工知能と医療業界におけるその応用に関する最新の記事を読んでおり、医療機関などのク...

人工知能の過去、現在、未来を包括的に解説

[[227618]]人工知能がどのレベルに到達したかという質問に答える前に、まず人工知能の概念が何で...

...

このガイドを理解することで、ニューラルネットワークの「ブラックボックス」をマスターすることができます。

「人間のニューラルネットワークはどのように機能するのか?」この質問は多くのデータ サイエンティスト...

マインドタイピングがネイチャーの表紙に登場! 99%以上の正確さで1分間に90文字を書く

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

10年前、古典的なword2vec論文が今日のNeurIPSタイムテスト賞を受賞しました

NeurIPS は世界で最も権威のある AI 学術会議の 1 つです。正式名称は Neural In...

2020年に中国で期待されるAI企業トップ10

近年の新興技術として、人工知能は人々の生活のあらゆる側面に静かに浸透し、比較的ホットな産業に発展しま...

物流でGenAIを効果的に活用するための鍵は、ユースケースを理解することです。

GenAI を商品輸送という主要機能にどのように適用できるかは最初は明確ではないかもしれませんが、...