畳み込みニューラルネットワークが分かりませんか?怖がらないでください、このかわいい写真を​​見ればわかりますよ!

畳み込みニューラルネットワークが分かりませんか?怖がらないでください、このかわいい写真を​​見ればわかりますよ!

この記事では、畳み込みニューラル ネットワーク (CNN) の基本原理を、関連する数学理論を省き、最も簡潔かつわかりやすい方法で説明します。

同時に、CNN ネットワークをゼロから構築するなどの問題に興味がある場合は、「Artificial Intelligence for Humans Volume 3: Deep Learning and Neural Networks」の第 10 章を読むことを著者は推奨しています。

さあ、CNNの旅を始めましょう——

ネットワーク構造

CNN モデルは通常、フィードフォワード ニューラル ネットワーク モデルに基づいて構築されるため、その構造を理解しておく必要があります。違いは、「非表示レイヤー」が次のレイヤーに置き換えられることです。

  • 畳み込み層
  • プーリングレイヤー

完全接続層(密層)

構造は次の図のようになります。

畳み込み

この段階では、入力画像はグリッドによってスキャンされ、ネットワークへの入力として渡されます。次に、ネットワークは入力画像に畳み込み層を適用し、3 つの画像を含む 3D キューブ構造に分割します。これら 3 つの画像フレームは、それぞれ元の画像の赤、緑、青の情報を表します。

次に、PhotoShop のフィルターを使用して特定の特徴を強調するのと同様に、画像に畳み込みフィルター (ニューロンとも呼ばれます) を適用します。たとえば、漫画「Doc And Mharti」では、Roberts クロス エッジ強調フィルターを使用した効果が次の図に示されています。

オリジナル画像

治療後

100 種類以上のフィルターを備えたニューラル ネットワークが複雑な特徴を選別する能力がいかに強力であるかは想像に難くなく、それが現実世界の物事を識別するのに大いに役立つでしょう。ニューラル ネットワークが画像に畳み込みフィルターを適用すると、特徴/活性化マップを取得できます。

特徴マップは、指定された領域内の特定のニューロンによってアクティブ化されます。たとえば、下の左側の画像にエッジ検出フィルターを追加すると、そのアクティブ化マップが右側の画像に表示されます。

これらの点は 0 の行を表します (これらの領域がエッジである可能性が高いことを示します)。 2 次元配列では、値「30」は、画像領域にエッジが存在する可能性が高いことを示します。

レイヤーをアクティブ化

活性化マップができたら、その中の活性化関数を使用できます。研究者の最初の関数である ReLU 活性化関数 (正規化線形ユニット) を例として使用してみましょう。しかし、シグモイド関数や双曲正接関数を使用すると最良のトレーニング結果が得られると信じている研究者もいますが、私はそうは思いません。

アクティベーション レイヤーを使用すると、システムに非線形性が導入され、入力と出力の一般性が向上します。 ReLU(x) 関数は、単純に max(0,x) またはアクティベーション マップ内の負の重みを返します。

プーリング層

次のベストプラクティスは通常、特徴マップにディーププーリング(またはその他のタイプのプーリング)を適用することです。プーリング層を適用する原理は、小さなグリッドで画像をスキャンし、各グリッド セルを、指定されたグリッド内の最適な値を含む単一のセルに置き換えることです。

これを実行する重要な理由の 1 つは、特定の特徴が入力の特定の領域にあることがわかれば、その特徴の正確な位置を無視してデータを一般化し、過剰適合を減らすことができることです。たとえば、トレーニングの精度が 99% に達したとしても、これまでに見たことのない新しいデータでテストすると、その精度は 50% にしかなりません。

出力層

***プーリング層の後は、完全に接続されたネットワークに渡される情報の一部である、残りのアクティベーション マップについて説明します。完全接続層が含まれており、前の層の各ニューロンの出力を完全接続層のニューロンに単純にマッピングし、出力にソフトマックス関数を適用します。これは、前述の ReLU 関数に似た活性化関数です。

画像を分類するためにニューラル ネットワークを使用するため、ここではソフトマックス関数を使用します。ソフトマックス出力は、合計が 1 になる確率のリストを返します。各確率は、特定の画像が特定の出力クラスに属する確率を表します。しかし、後で画像の予測や復元のタスクになると、線形活性化関数の方がうまく機能します。

これまでは、畳み込み層とプーリング層が 1 つずつという単純なケースのみを検討してきたことに注意してください。最高の精度を達成したい場合は、通常、複数の層を積み重ねる必要があります。各完全な反復の後、ネットワークを通じて計算された損失に基づいて重みが更新されます。

<<:  Ant Financialが機械学習ツールSQLFlowをオープンソース化、機械学習はSQLよりも簡単

>>:  AIがバリアフリー時代へ:手話認識・翻訳の応用が意味するものとは?

ブログ    

推薦する

機械学習の公平性研究は正しい方向に進んでいるのでしょうか?

機械学習における公平性に関する研究は本当に正しい方向に進んでいるのでしょうか?人工知能の発展に伴い、...

杜暁曼自動機械学習プラットフォームの実践

1. 機械学習プラットフォームまず、Du Xiaomanの機械学習プラットフォームの背景、開発プロセ...

半教師あり学習とその応用シナリオの簡単な分析

ラボガイドインターネットの発展により、企業はより多くのデータを入手できるようになりました。これらのデ...

Aiti Tribe Clinic 第 6 回: 機械学習は緊急事態をどのように判断するのか?

[51CTO.com からのオリジナル記事]活動の説明: Aiti Tribe は、コア開発者に詳...

たった一枚の写真でTikTokガール全員が踊れる

数日前、アリババの研究チームは「Animate Anyone」と呼ばれる手法を構築しました。この手法...

わずか6秒で、AIはあなたの声を聞くだけであなたの外見を説明できる

信じられますか?人工知能は最近、あなたの声からわずか6秒で性別、年齢、人種を判別し、さらにはあなたの...

AIはソフトウェア開発の特効薬ではない

AIプログラミングツールを使っている開発者のみなさん、作業効率はどれくらい向上しましたか?最近、AI...

潜在能力を解き放つ: 人工知能がパーソナライズされた学習に与える影響

急速に進化する今日の教育環境では、テクノロジーの統合がかつてないほど普及しています。さまざまな技術の...

今後5年間で人気が高まり、就職時の給与も高くなる3つの専攻

大学で何を専攻するかは、慎重に考える必要があります。結局のところ、大学の専攻の選択は私たちの将来の発...

1年間で18本の論文:Google Quantum AI チームの2021年年次概要

量子コンピューティングは、常に次の産業革命の原動力と考えられてきました。さまざまな国やテクノロジー企...

...

2017 年最もホットなテクノロジーである人工知能について、あなたはどれくらい知っていますか?

2017 年の最もホットなテクノロジートピックは間違いなく人工知能です。人工知能は非常に難しい科学...

役に立つ知識の無用性:AI技術は現代の錬金術か?

[[431348]]人工知能は新時代の錬金術となるのか?著名なAI研究者のアリ・ラヒミ氏らによると...