11 の基本的なニューラルネットワークアーキテクチャの視覚的な説明

標準、再帰、畳み込み、オートエンコーダネットワーク

ディープラーニングの急速な発展により、多種多様なタスクや問題を解決するために、多数のニューラルネットワークアーキテクチャが作成されました。ニューラルネットワークアーキテクチャは無数にありますが、ここでは、ディープラーニングエンジニアなら誰もが知っておくべき 11 のアーキテクチャを、標準ネットワーク、再帰型ネットワーク、畳み込みネットワーク、オートエンコーダの 4 つの主要カテゴリに分類して紹介します。

[[331890]]

すべての図は著者が作成したものです。

標準ネットワーク

1 | パーセプトロン

パーセプトロンはすべてのニューラルネットワークの中で最も基本的なものであり、より複雑なニューラルネットワークの基本的な構成要素です。入力セルと出力セルのみを接続します。

2 | フィードフォワードネットワーク

フィードフォワードネットワークは、入力層、隠し層、出力層という 3 つの基本的なタイプの層を持つパーセプトロンの集合です。各接続中に、前のレイヤーからの信号に重みが掛けられ、バイアスに加算され、活性化関数に渡されます。フィードフォワードネットワークは、バックプロパゲーションを使用して、目的のパフォーマンスが達成されるまでパラメータを繰り返し更新します。

3 | 残差ネットワーク (ResNet)

ディープフィードフォワードニューラルネットワークの問題の 1 つは、勾配消失問題と呼ばれ、ネットワークが長すぎてネットワーク全体に有用な情報を逆伝播できない場合に発生します。パラメータを更新する信号がネットワークを通じて伝播するにつれて、ネットワークのフロントエンドの重みがまったく変更または利用されなくなるまで、信号は徐々に減少します。

この問題を解決するために、残差ネットワークはスキップ接続を使用して、「スキップされた」レイヤー全体に信号を伝播します。消失勾配問題の影響を受けにくい接続を使用することで、消失勾配問題を軽減できます。時間が経つにつれて、ネットワークは特徴空間を学習するにつれてスキップされたレイヤーを回復することを学習しますが、消失勾配の影響を受けにくくなり、探索する必要のある特徴空間が少なくなるため、トレーニングがより効率的になります。

再帰ネットワーク

4 | リカレントニューラルネットワーク (RNN)

再帰型ニューラルネットワークは、ループと再帰を含む特殊なタイプのネットワークであるため、「再帰的」という名前が付けられています。 RNN を使用すると、ネットワーク内に情報を保存し、以前のトレーニングからの推論を使用して、今後のイベントについてより適切で情報に基づいた決定を下すことができます。これを実現するために、以前の予測を「コンテキスト信号」として使用します。 RNN はその性質上、文字ごとにテキストを生成したり、時系列データ (株価など) を予測するなど、連続したタスクの処理によく使用されます。あらゆるサイズの入力も処理できます。

> 2 つの RNN 視覚化手法。

5 | 長短期記憶ネットワーク (LSTM)

RNN は、実際にはコンテキスト情報の範囲が非常に限られているため、問題があります。特定の入力が隠れ層（したがってネットワーク出力）に与える影響（逆伝播された誤差）は、ネットワーク接続をループするにつれて指数関数的に爆発するか、ゼロに消滅します。この勾配消失問題の解決策は、Long Short-Term Memory ネットワーク、つまり LSTM を使用することです。

この RNN アーキテクチャは、構造とメモリブロックを組み合わせることで勾配消失問題を解決するように特別に設計されています。これらのモジュールは、コンピューターのメモリチップと考えることができます。各モジュールには、周期的に接続された複数のメモリセルと 3 つのゲート (入力、出力、および無視、書き込み、読み取り、およびリセットに相当) が含まれています。ネットワークは各ゲートを通じてのみ細胞と対話できるため、ゲートは勾配が爆発したり消失したりしないようにインテリジェントに開閉することを学習するだけでなく、「一定のエラーカルーセル」を通じて有用な情報を伝播し、無関係なメモリコンテンツを破棄します。

標準的な RNN では、入力イベントとターゲット信号の間に 5 ～ 10 タイムステップを超える遅延があることを学習できませんが、LSTM は影響を受けず、有用な一定のエラーフローを適用することで、最大 1,000 タイムステップの遅延を埋めることを学習できます。

6 | エコーステートネットワーク（ESN）

エコー状態ネットワークは、非常にまばらな隠し層 (通常 1 パーセントの接続性) を持つリカレントニューラルネットワークの変形です。ニューロンの接続性と重みはランダムに割り当てられ、層とニューロンの違いは無視されます (接続をスキップ)。出力ニューロンの重みは、ネットワークが特定の時間パターンを生成および再現できるように学習されます。このネットワークの根拠は、非線形であるにもかかわらず、トレーニング中に変更される重みはシナプス接続のみであり、そのため誤差関数を線形システムとして微分化できるという事実にあります。

畳み込みネットワーク

7 | 畳み込みニューラルネットワーク (CNN)

画像は非常に高次元であるため、標準的なフィードフォワードネットワークをトレーニングして画像を認識させるには、数万の入力ニューロンが必要になります。これは、明らかに計算コストが高いだけでなく、ニューラルネットワークの次元の呪いに関連する多くの問題を引き起こす可能性があります。畳み込みニューラルネットワーク (CNN) は、畳み込み層とプーリング層を使用して画像の次元を削減するソリューションを提供します。畳み込み層はトレーニング可能ですが、標準の隠し層よりもパラメータが少ないため、画像の重要な部分を強調表示して渡すことができます。従来、CNN では、最後の数層は「圧縮された画像情報」を処理する隠し層です。

畳み込みニューラルネットワークは、画像を犬か猫かに分類するなど、画像ベースのタスクに優れています。

8 | 畳み込みニューラルネットワーク (DNN)

名前が示すように、逆畳み込みニューラルネットワークは畳み込みニューラルネットワークの逆の動作を行います。 DNN は、畳み込みを実行して画像の次元を減らす代わりに、通常はノイズから逆畳み込みを使用して画像を作成します。これは本質的に難しい作業です。 CNN にオーウェルの『1984年』全編の 3 文の要約を書く課題を与え、DNN に全編を 3 文の構造で書く課題を与えたとします。

9 | 生成的敵対ネットワーク (GAN)

敵対的生成ネットワークは、画像を生成するために特別に設計された特殊なタイプのネットワークであり、2 つのネットワーク (識別器と生成器) で構成されます。識別器のタスクは、画像がデータセットから抽出されたか、ジェネレータによって生成されたかを区別することであり、ジェネレータのタスクは、識別器が本物かどうかを区別できないほど説得力のある画像を生成することです。

時間の経過とともに、そして慎重な規制のもとで、2 つのライバルは互いに競争し、互いに前進させ、互いを向上させることに成功しました。最終結果は、リアルな画像を吐き出すことができる、よく訓練されたジェネレーターです。識別器は、本物と偽物の画像の識別精度を最大化することを目的とした畳み込みニューラルネットワークであり、一方、生成器は、識別器のパフォーマンスを最小化することを目的とした逆畳み込みニューラルネットワークです。

> ジェネレータ図。

オートエンコーダ

10 | オートエンコーダ（AE）

オートエンコーダの基本的な考え方は、元の高次元データを取得し、それを非常に情報量の多い低次元データに「圧縮」し、圧縮された形式を新しい空間に投影することです。オートエンコーダには、次元削減、画像圧縮、データのノイズ除去、特徴抽出、画像生成、推奨システムなど、さまざまな用途があります。これは、教師なし手法と教師あり手法の両方として使用でき、データの性質について非常に深い洞察を得ることができます。

隠れユニットは、画像処理に適応するために畳み込み層に置き換えることができます。

11 | 変分オートエンコーダ (VAE)

オートエンコーダは、画像やテキストシーケンスなどの入力を圧縮してから元の入力と一致するように解凍することで、入力の圧縮表現を学習します。一方、変分オートエンコーダ (VAE) は、データを表す確率分布のパラメータを学習します。データを表す関数を学習するだけでなく、より詳細で微妙なデータのビューを取得し、分布からサンプルを抽出して、新しい入力データサンプルを生成します。この意味では、GAN などの純粋に「生成」的なモデルに似ています。

VAE は、テストケースとセル平均の差にラジアル基底関数を適用する確率的隠しセルを使用します。

<<: AI業界は大きな変化を遂げています。AI科学者がMVPになるには

>>: Python で線形回帰機械学習モデルを作成する方法は? 「初心者ガイド」