初心者のためのディープラーニングの10,000語レビュー

論文: ディープラーニングの最近の進歩: 概要

論文アドレス: https://arxiv.org/pdf/1807.08169v1.pdf

概要: ディープラーニングは、機械学習と人工知能の研究における最新のトレンドの 1 つです。これは、今日最も人気のある科学研究のトレンドの 1 つでもあります。ディープラーニング手法は、コンピュータービジョンと機械学習に革命的な進歩をもたらしました。最先端の機械学習や既存のディープラーニング技術を上回る新しいディープラーニング技術が絶えず開発されています。近年、世界はこの分野で多くの大きな進歩を遂げてきました。ディープラーニングは急速に発展しているため、特に新しい研究者にとってはその進歩を追うのが難しい場合があります。この記事では、近年のディープラーニングの最新の進歩について簡単に説明します。

1. はじめに

「ディープラーニング」(DL) という用語は、1986 年に機械学習 (ML) で初めて導入され、その後 2000 年に人工ニューラルネットワーク (ANN) で使用されました。ディープラーニング手法は、複数の抽象化レベルでデータの機能を学習するための複数のレイヤーで構成されています。 DL 方式により、コンピューターは比較的単純な概念から複雑な概念を学習できるようになります。人工ニューラルネットワーク (ANN) の場合、階層学習とも呼ばれるディープラーニング (DL) は、複数の計算段階にわたってクレジットを正確に割り当てて、ネットワーク内の集約的なアクティベーションを変換することを指します。複雑な機能を学習するには、複数の抽象化レベル、つまり非線形操作を備えたディープアーキテクチャが使用されます。たとえば、ANN には多くの隠し層があります。正確にまとめると、ディープラーニングは機械学習のサブフィールドであり、教師ありまたは教師なしの特徴学習、表現、分類、パターン認識に複数レベルの非線形情報処理と抽象化を使用します。

ディープラーニング、または表現学習は、機械学習の分野またはサブフィールドです。ほとんどの人は、現代のディープラーニング手法は 2006 年に開発され始めたと考えています。この記事は最新のディープラーニング技術をレビューしたもので、主にこの分野に参入しようとしている研究者に推奨されます。この記事には、DL の基本的な考え方、主な方法、最新の進歩、およびアプリケーションが含まれています。

レビュー論文は、特に特定分野の新人研究者にとって非常に有益です。研究分野が近い将来に大きな価値を持ち、関連する応用分野である場合、最新の進捗状況をリアルタイムで追跡することは通常困難です。科学研究は、知識と教育がかつてないほど簡単に共有され、アクセス可能になったため、今日では魅力的な職業となっています。技術研究の傾向に関する唯一の通常の仮定は、それがあらゆる面で多くの改善につながるというものです。数年前に利用可能だった分野の概要は、現在では古くなっている可能性があります。

近年のディープラーニングの人気と推進を考慮して、ディープラーニングとニューラルネットワーク (NN) の概要と、過去数年間の主要な進歩と大きな進歩について説明します。この記事が、この分野の多くの初心者研究者が最近のディープラーニングの研究と技術を包括的に理解し、正しい方法で始めるためのガイドとなることを願っています。同時に、この研究を通じて、この時代を代表する DL および ANN 研究者である Geoffrey Hinton (Hinton)、Juergen Schmidhuber (Schmidhuber)、Yann LeCun (LeCun)、Yoshua Bengio (Bengio) をはじめ、現代の人工知能 (AI) を構築した多くの研究者に敬意を表することができれば幸いです。 DL および ML 研究の最新状況を把握するために、彼らの研究を追跡することも重要です。

本稿では、まず過去の研究論文を簡単にレビューし、ディープラーニングのモデルと手法を検討します。次に、この分野における最近の進歩について説明します。ディープラーニング (DL) 手法、ディープアーキテクチャ (ディープニューラルネットワーク (DNN))、ディープ生成モデル (DGM) について説明し、その後、重要な正規化と最適化の方法について説明します。さらに、オープンソースの DL フレームワークと重要な DL アプリケーションを要約するために、 2 つの短いセクションが使用されます。最後の 2 つのセクション、つまり議論と結論では、ディープラーニングの現状と将来について説明します。

2. 関連研究

ここ数年、ディープラーニングに関するレビュー論文が数多く発表されています。彼らは、DL 手法、方法論、その応用、将来の研究の方向性を非常にわかりやすく説明しました。ここでは、ディープラーニングに関する優れたレビュー論文をいくつか簡単に紹介します。

Youngら（2017）は、主に自然言語処理（NLP）のためのDLモデルとアーキテクチャについて議論しました。彼らは、さまざまな NLP 分野での DL アプリケーションのデモンストレーション、DL モデルの比較、将来の可能性のある傾向について議論しました。

Zhang et al. (2017) は、フロントエンドおよびバックエンドの音声認識システム向けの現在の最先端のディープラーニング技術について議論しました。

Zhu et al. (2017) は、DL リモートセンシング技術の最近の進歩についてレビューしました。また、オープンソースの DL フレームワークやその他のディープラーニングの技術的な詳細についても議論しました。

Wang et al. (2017) は、ディープラーニングモデルの進化を時系列で説明しました。この短い記事では、DL 研究におけるモデルとブレークスルーについて簡単に紹介します。この記事では、進化論的アプローチを使用してディープラーニングの起源を理解し、ニューラルネットワークの最適化と将来の研究について説明します。

Goodfellowら(2016)は、ディープネットワークと生成モデルについて詳細に議論し、機械学習(ML)の基礎知識とディープアーキテクチャの長所と短所に基づいて、近年のDL研究と応用をまとめました。

LeCun ら (2015) は、畳み込みニューラルネットワーク (CNN) と再帰型ニューラルネットワーク (RNN) からのディープラーニング (DL) モデルの概要を説明しました。彼らは、表現学習の観点から DL について説明し、DL 技術がどのように機能するか、さまざまなアプリケーションでどのように効果的に使用できるか、そして教師なし学習 (UL) を使用して未来を予測する方法を示しました。彼らはまた、文献における DL の主な進歩についても指摘しています。

Schmidhuber (2015) は、CNN、RNN、深層強化学習 (RL) からの深層学習の概要を説明しました。彼は、シーケンス処理における RNN を強調するとともに、基本的な DL と NN の限界と、それを改善する手法を指摘しました。

Nielsen (2015) は、コードと例を使用してニューラルネットワークの詳細を説明しています。彼はまた、ディープニューラルネットワークとディープラーニングについてもある程度議論しています。

Schmidhuber (2014) は、時系列に基づくニューラルネットワークの歴史と進歩、機械学習手法を使用した分類、ニューラルネットワークにおけるディープラーニングの使用について説明しました。

Deng と Yu (2014) は、ディープラーニングのカテゴリとテクニック、およびいくつかの分野における DL の応用について説明しました。

Bengio (2013) は、表現学習の観点から、教師ありおよび教師なしネットワーク、最適化、トレーニングモデルなどの DL アルゴリズムについて簡単に説明しました。彼は、より大規模なモデルやデータのためのアルゴリズムのスケーリング、最適化の難しさの軽減、効率的なスケーリング方法の設計など、ディープラーニングにおける多くの課題に焦点を当てています。

Bengio et al. (2013) は表現と特徴の学習、つまり深層学習について議論しました。彼らは、アプリケーション、テクノロジー、課題の観点からさまざまなアプローチとモデルを検討しました。

Deng (2011) は、情報処理と関連分野の観点から、深層構造学習とそのアーキテクチャの概要を説明しました。

Arel et al. (2010) は最近の DL 技術について簡単にレビューしました。

Bengio (2009) は、ディープアーキテクチャ、つまりニューラルネットワークと人工知能の生成モデルについて説明しました。

ディープラーニング (DL) に関する最近の論文はすべて、複数の視点からディープラーニングの焦点について議論しています。これはDL研究者にとって非常に必要です。しかし、DLは現在急成長している分野です。最近の DL の概要論文に続いて、多くの新しい技術やアーキテクチャが提案され続けています。さらに、以前の論文ではさまざまな視点から研究が行われていました。私たちの論文は主にこの分野の学習者と初心者を対象としています。そのために、私たちは新しい研究者やこの分野に興味のあるすべての人々にディープラーニングの基礎と明確な概念を提供することに努めます。

3. 最新の動向

このセクションでは、ディープラーニングの最も一般的に使用されている形式である機械学習と人工ニューラルネットワーク (ANN) から最近登場した主要なディープラーニング (DL) 手法について説明します。

3.1 ディープアーキテクチャの進化

人工ニューラルネットワーク (ANN) は大きな進歩を遂げ、他の深層モデルも生み出しました。第一世代の人工ニューラルネットワークは、単純なパーセプトロンニューロンの層で構成されており、限られた数の単純な計算しか実行できませんでした。第 2 世代では、バックプロパゲーションを使用して、エラー率に基づいてニューロンの重みを更新します。その後、サポートベクターマシン (SVM) が登場し、しばらくの間 ANN を上回りました。バックプロパゲーションの限界を克服するために、学習を容易にする制限付きボルツマンマシン (RBM) が提案されました。この頃、フィードフォワードニューラルネットワーク (FNN)、畳み込みニューラルネットワーク (CNN)、リカレントニューラルネットワーク (RNN)、ディープビリーフネットワーク、オートエンコーダーなどの他のテクノロジーやニューラルネットワークも登場しました。それ以来、ANN はさまざまな目的のためにさまざまな側面から改良され、設計されてきました。

Schmidhuber (2014)、Bengio (2009)、Deng and Yu (2014)、Goodfellow et al. (2016)、Wang et al. (2017) は、ディープニューラルネットワーク (DNN) とディープラーニング (DL) の進化と歴史について詳細な概要を示しています。ほとんどの場合、ディープアーキテクチャは、より単純なアーキテクチャの非線形繰り返しの複数レイヤーであり、入力から非常に複雑な関数を導き出すことができます。

4. ディープラーニング手法

ディープニューラルネットワークは教師あり学習において大きな成功を収めています。さらに、ディープラーニングモデルは、教師なし学習、ハイブリッド学習、強化学習において非常に成功しています。

4.1 深層教師あり学習

教師あり学習は、データにラベルが付けられ、分類器を使用して数値を分類または予測する場合に適用されます。 LeCun et al. (2015) は、教師あり学習法と深層構造の形成について簡潔に説明しました。 Deng と Yu (2014) は、Deep Stacked Network (DSN) やその変種など、教師あり学習やハイブリッド学習のための多くのディープネットワークについて言及し、説明しました。 Schmidthuber (2014) の研究は、初期のニューラルネットワークから、最近の成功した畳み込みニューラルネットワーク (CNN)、再帰型ニューラルネットワーク (RNN)、長短期記憶 (LSTM) およびそれらの改良に至るまで、すべてのニューラルネットワークを網羅しています。

4.2 深層教師なし学習

入力データにラベルが付いていない場合は、教師なし学習手法を適用してデータから特徴を抽出し、分類またはラベル付けすることができます。 LeCun ら (2015) は、深層学習における教師なし学習の将来を予測しました。 Schmidthuber (2014) は、教師なし学習のためのニューラルネットワークについても説明しました。 Deng と Yu (2014) は、教師なし学習のためのディープアーキテクチャを簡単に紹介し、ディープオートエンコーダについて詳しく説明しました。

4.3 深層強化学習

強化学習では、報酬と罰のシステムを使用して、学習モデルの次のステップを予測します。これは主にゲームやロボット工学において、一般的な意思決定の問題を解決するために使用されます。 Schmidthuber (2014) は、強化学習 (RL) におけるディープラーニングの進歩と、RL におけるディープフィードフォワードニューラルネットワーク (FNN) とリカレントニューラルネットワーク (RNN) の応用について説明しました。 Li (2017) は、深層強化学習 (DRL)、そのアーキテクチャ (Deep Q-Network、DQN など)、およびさまざまな分野での応用について説明しました。

Mnih ら (2016) は、非同期勾配降下法を使用した DNN 最適化のための DRL フレームワークを提案しました。

van Hasseltら(2015)は、ディープニューラルネットワーク(DNN)を使用したDRLアーキテクチャを提案しました。

5. ディープニューラルネットワーク

このセクションでは、ディープニューラルネットワーク (DNN) と、その最近の改善点および進歩について簡単に説明します。ニューラルネットワークは人間の脳と同様に機能します。それらは主にニューロンと接続で構成されています。ディープニューラルネットワークというと、入力から特徴を抽出し、複雑な関数を計算するために使用できる隠し層がかなり多くあると考えられます。 Bengio (2009) は、畳み込みニューラルネットワーク (CNN)、オートエンコーダー (AE)、およびその変種などのディープニューラルネットワークについて説明しました。 Deng と Yu (2014) は、AE とその変種などのいくつかのニューラルネットワークアーキテクチャを詳細に紹介しました。 Goodfellow ら (2016) は、ディープフィードフォワードネットワーク、畳み込みネットワーク、再帰型ネットワーク、およびそれらの改良について紹介し、技術的な説明を行いました。 Schmidhuber (2014) は、初期のニューラルネットワークから最近の成功した技術に至るまでのニューラルネットワークの完全な歴史について言及しました。

5.1 ディープオートエンコーダ

オートエンコーダー (AE) は、出力が入力となるニューラルネットワーク (NN) です。 AE は元の入力を受け取り、それを圧縮表現にエンコードし、それをデコードして入力を再構築します。ディープ AE では、下位の隠し層がエンコードに使用され、上位の隠し層がデコードに使用され、エラーバックプロパゲーションがトレーニングに使用されます。

5.1.1 変分オートエンコーダ

変分オートエンコーダ (VAE) はデコーダーとして考えることができます。 VAE は標準的なニューラルネットワーク上に構築されており、確率的勾配降下法によってトレーニングできます (Doersch、2016)。

5.1.2 多層ノイズ除去オートエンコーダ

初期のオートエンコーダ (AE) では、エンコード層の次元は入力層よりも小さく (狭く) なっています。多層ノイズ除去オートエンコーダ (SDAE) では、エンコード層が入力層よりも広くなります (Deng and Yu、2014)。

5.1.3 変換オートエンコーダ

ディープオートエンコーダー (DAE) は変換可変にすることができます。つまり、非線形処理の複数の層から抽出された特徴は、学習者のニーズに基づいて変更できます。変換オートエンコーダ (TAE) は、入力ベクトルまたはターゲット出力ベクトルのいずれかを使用して、変換不変性プロパティを適用し、コードを目的の方向に誘導できます (Deng および Yu、2014)。

5.2 深層畳み込みニューラルネットワーク

畳み込みニューラルネットワーク (CNN) は、ローカル接続、共有重み、プーリング、および複数レイヤーの使用という 4 つの基本的な考え方で構成されています。 CNN の最初の部分は畳み込み層とプーリング層で構成され、後半部分は主に完全接続層で構成されます。畳み込み層は特徴のローカル接続を検出し、プーリング層は類似の特徴を 1 つにマージします。 CNN は畳み込み層で行列乗算の代わりに畳み込みを使用します。

Krizhevsky ら (2012) は、AlexNet としても知られる深層畳み込みニューラルネットワーク (CNN) アーキテクチャを提案しました。これは、深層学習 (DL) における大きな進歩でした。ネットワークは 5 つの畳み込み層と 3 つの完全接続層で構成されています。このアーキテクチャでは、畳み込み演算にグラフィックスプロセッシングユニット (GPU) を使用し、活性化関数として正規化線形ユニット (ReLU) を使用し、過剰適合を減らすためにドロップアウトを使用します。

Iandola ら (2016) は、「SqueezeNet」と呼ばれる小さな CNN アーキテクチャを提案しました。

Szegedy ら (2014) は、Inception という名の深層 CNN アーキテクチャを提案しました。 Dai et al. (2017) は、Inception-ResNet の改良を提案しました。

Redmon ら (2015) は、均一かつリアルタイムの物体検出を実現する YOLO (You Only Look Once) と呼ばれる CNN アーキテクチャを提案しました。

Zeiler と Fergus (2013) は、CNN の内部アクティベーションを視覚化する方法を提案しました。

Gehringら（2017）は、シーケンスツーシーケンス学習のためのCNNアーキテクチャを提案しました。

Bansal et al. (2017) は、表現にピクセルを使用する PixelNet を提案しました。

Goodfellow et al. (2016) は、CNN の基本的なアーキテクチャとアイデアについて説明しました。 Gu ら (2015) は、CNN の最近の進歩、そのさまざまなバリエーション、CNN アーキテクチャ、正規化の方法と機能、およびさまざまな分野でのその応用について、優れた概要を示しました。

5.2.1 ディープマックスプーリング畳み込みニューラルネットワーク

最大プーリング畳み込みニューラルネットワーク (MPCNN) は、主にデジタル画像処理において畳み込みと最大プーリング演算を実行します。 MPCNN は通常、入力層を除く 3 種類の層で構成されます。畳み込み層は入力画像を受け取り、特徴マップを生成し、非線形活性化関数を適用します。最大プーリング層は画像をダウンサンプリングし、サブ領域の最大値を保持します。完全に接続された層は線形乗算を実行します。ディープ MPCNN では、入力層の後に畳み込みと混合プーリングが定期的に使用され、その後に完全接続層が続きます。

5.2.2 非常に深い畳み込みニューラルネットワーク

Simonyan と Zisserman (2014) は、VGG Net としても知られる Very Deep Convolutional Neural Network (VDCNN) アーキテクチャを提案しました。 VGG Net は非常に小さな畳み込みフィルターを使用し、その深さは 16 ～ 19 層です。 Conneau ら (2016) は、小さな畳み込みとプーリングを使用したテキスト分類のための別の VDCNN アーキテクチャを提案しました。彼らは、この VDCNN アーキテクチャはテキスト処理で初めて使用され、文字レベルで機能すると主張しています。このアーキテクチャは 29 個の畳み込み層で構成されています。

5.3 ネットワーク内のネットワーク

Lin et al. (2013) は Network In Network (NIN) を提案しました。 NIN は、従来の畳み込みニューラルネットワーク (CNN) の畳み込み層を、複雑な構造を持つマイクロニューラルネットワークに置き換えます。完全に接続された層の代わりに、多層パーセプトロン (MLPConv) 処理マイクロニューラルネットワークとグローバル平均プーリング層を使用します。ディープ NIN アーキテクチャは、NIN 構造の複数の重ね合わせで構成できます。

5.4 領域ベース畳み込みニューラルネットワーク

Girshick ら (2014) は、認識に領域を使用する領域ベースの畳み込みニューラルネットワーク (R-CNN) を提案しました。 R-CNN は領域を使用してオブジェクトを特定し、セグメント化します。このアーキテクチャは、候補領域のセットを定義するクラスに依存しない領域提案、領域から特徴を抽出する大規模な畳み込みニューラルネットワーク (CNN)、およびクラス固有の線形サポートベクターマシン (SVM) のセットの 3 つのモジュールで構成されています。

5.4.1 高速R-CNN

Girshick (2015) は、Fast Region-based Convolutional Network (Fast R-CNN) を提案しました。このアプローチでは、R-CNN アーキテクチャを活用して結果を迅速に生成します。 Fast R-CNN は、畳み込み層とプーリング層、領域提案層、および一連の完全接続層で構成されています。

5.4.2 より高速なR-CNN

Ren ら (2015) は、Region Proposal Network (RPN) を使用してリアルタイムのオブジェクト検出を行う、Faster Region-based Convolutional Neural Network (Faster R-CNN) を提案しました。 RPN は、領域提案を正確かつ効率的に生成できる完全な畳み込みネットワークです (Ren et al.、2015)。

5.4.3 マスクR-CNN

He Kaiming ら (2017) は、インスタンスオブジェクトのセグメンテーションのための領域ベースのマスク畳み込みネットワーク (Mask R-CNN) を提案しました。 Mask R-CNN は R-CNN アーキテクチャを拡張し、オブジェクトマスクを予測するための追加のブランチを使用します。

5.4.4 マルチエキスパートR-CNN

Leeら（2017）は、Fast R-CNNアーキテクチャを活用した領域ベースのマルチエキスパート畳み込みニューラルネットワーク（ME R-CNN）を提案しました。 ME R-CNN は、選択的検索と網羅的検索の両方から関心領域 (RoI) を生成します。また、単一の RoI ごとのネットワークではなく、RoI ごとのマルチエキスパートネットワークを使用します。各エキスパートは、Fast R-CNN の完全接続層と同じアーキテクチャです。

5.5 深層残差ネットワーク

Heら(2015)が提案した残差ネットワーク(ResNet)は152層で構成されています。 ResNet はエラーが少なく、残差学習によるトレーニングが容易です。より深い ResNet は、より優れたパフォーマンスを実現できます。ディープラーニングの分野では、ResNet は大きな進歩であると考えられています。

5.5.1 Resnet 内の Resnet

Targ ら (2016) は、Resnet in Resnet (RiR) で、ResNet と標準的な畳み込みニューラルネットワーク (CNN) をディープ 2 ストリームアーキテクチャに組み合わせることを提案しました。

5.5.2 レスネクスト

Xie et al. (2016) は ResNeXt アーキテクチャを提案しました。 ResNext は ResNet を活用して分割-変換-マージ戦略を再利用します。

5.6 カプセルネットワーク

Sabour ら (2017) は、2 つの畳み込み層と 1 つの完全接続層で構成されるアーキテクチャである Capsule Network (CapsNet) を提案しました。 CapsNet には通常、複数の畳み込み層と、その最後にカプセル層が含まれます。 CapsNet は、畳み込みニューラルネットワークの限界に基づいていると言われており、ディープラーニングにおける最新のブレークスルーの 1 つと考えられています。ニューロンの代わりに何層にも重ねたカプセルを使用します。アクティブ化された下位レベルのカプセルが予測を行い、複数の予測が合意された後、上位レベルのカプセルがアクティブになります。これらのカプセル層では、プロトコルによるルーティングメカニズムが使用されます。 Hinton は後に EM ルーティングを提案し、期待値最大化 (EM) アルゴリズムを使用して CapsNet を改良しました。

5.7 リカレントニューラルネットワーク

リカレントニューラルネットワーク (RNN) は、音声、テキスト、シーケンス生成などの順次入力に適しています。再帰的な隠れユニットは、時間の経過とともに展開されるときに同じ重みを持つ非常に深いフィードフォワードネットワークと考えることができます。 RNN は、勾配消失問題と次元爆発問題のため、以前はトレーニングが困難でした。この問題を解決するために、後に多くの人々が改善の提案を出しました。

Goodfellow ら (2016) は、リカレントおよび再帰型ニューラルネットワークとアーキテクチャの詳細、および関連するゲーティングネットワークとメモリネットワークの詳細な分析を提供しています。

Karpathy ら (2015) は、文字レベルの言語モデルを使用して、RNN とそのバリエーション (LSTM など) の予測を分析および視覚化し、トレーニングダイナミクスとエラーの種類を特徴付けました。

J´ozefowiczら（2016）は、RNNモデルと言語モデルの限界を調査しました。

5.7.1 RNN-EM

PengとYao（2015）は、RNNのメモリ容量を向上させるために外部メモリ（RNN-EM）を使用することを提案しました。彼らは、他の RNN を凌駕する、言語理解における最先端の結果を達成したと主張しています。

5.7.2 GF-RNN

Chung ら (2015) は、グローバルゲーティングユニットを備えた複数のリカレント層を積み重ねることで標準 RNN を拡張した、ゲートフィードバックリカレントニューラルネットワーク (GF-RNN) を提案しました。

5.7.3 CRF-RNN

Zheng ら (2015) は、確率的グラフィカルモデリングのために畳み込みニューラルネットワーク (CNN) と条件付きランダムフィールド (CRF) を組み合わせた条件付きランダムフィールドをリカレントニューラルネットワーク (CRF-RNN) として提案しました。

5.7.4 準RNN

Bradbury ら (2016) は、ニューラルシーケンスのモデリングと時間ステップに沿った並列アプリケーションのための準再帰型ニューラルネットワーク (QRNN) を提案しました。

5.8 メモリネットワーク

Weston et al. (2014) は、質問応答記憶ネットワーク (QA) を提案しました。メモリネットワークは、メモリ、入力特徴マップ、一般化、出力特徴マップ、および応答で構成されます。

5.8.1 動的メモリネットワーク

Kumar et al. (2015) は、QA タスク用の動的メモリネットワーク (DMN) を提案しました。 DMN には、入力、質問、エピソード記憶、出力の 4 つのモジュールがあります。

5.9 強化ニューラルネットワーク

Olah と Carter (2016) は、アテンションと拡張リカレントニューラルネットワーク、つまりニューラルチューリングマシン (NTM)、アテンションインターフェイス、ニューラルエンコーダー、適応計算時間について優れたプレゼンテーションを行いました。ニューラルネットワークは、標準的なニューラルネットワークアーキテクチャに加えて、ロジスティック関数などの追加のプロパティで拡張されることがよくあります。

5.9.1 ニューラルチューリングマシン

Graves ら (2014) は、ニューラルネットワークコントローラとメモリバンクで構成されるニューラルチューリングマシン (NTM) アーキテクチャを提案しました。 NTM は通常、RNN と外部メモリバンクを組み合わせます。

5.9.2 ニューラルGPU

Kaiser と Sutskever (2015) は、NTM の並列問題を解決するために Neural GPU を提案しました。

5.9.3 ニューラルランダムアクセスマシン

Kurach ら (2015) は、外部の可変サイズのランダムアクセスメモリを使用するニューラルランダムアクセスマシンを提案しました。

5.9.4 ニューラルプログラマー

Neelakantan ら (2015) は、算術および論理関数を備えた強化されたニューラルネットワークである Neural Programmer を提案しました。

5.9.5 ニューラルプログラマー・インタープリター

Reed と de Freitas (2015) は、学習可能なニューラルプログラマーインタープリター (NPI) を提案しました。 NPI は、周期カーネル、プログラムメモリ、およびドメイン固有のエンコーダーで構成されます。

5.10 長期短期記憶ネットワーク

Hochreiter と Schmidhuber (1997) は、再帰型ニューラルネットワーク (RNN) のエラー逆流問題を克服するために Long Short-Term Memory (LSTM) を提案しました。 LSTM は、再帰型ネットワークと勾配ベースの学習アルゴリズムに基づいています。LSTM は、勾配が流れるように自己ループパスを導入します。

Greff ら (2017) は、音声認識、手書き認識、ポリフォニック音楽モデリングのそれぞれについて、標準 LSTM と 8 つの LSTM バリアントの大規模な分析を実施しました。彼らは、LSTM の 8 つのバリアントでは大きな改善は得られず、標準の LSTM のみが優れたパフォーマンスを発揮すると主張しています。

Shi et al. (2016b) は、特徴マップの表現を学習するための LSTM ユニットのスタックである Deep Long Short-Term Memory (DLSTM) ネットワークを提案しました。

5.10.1 バッチ正規化LSTM

Cooijmans ら (2016) は、再帰型ニューラルネットワークの隠れ状態にバッチ正規化を使用するバッチ正規化 LSTM (BN-LSTM) を提案しました。

5.10.2 ピクセルRNN

van den Oordら(2016b)は、12個の2次元LSTM層からなるピクセルリカレントニューラルネットワーク(Pixel-RNN)を提案した。

5.10.3 双方向LSTM

W¨ollmerら(2010)は、文脈依存のキーワード検出のために、双方向LSTMの再帰ネットワーク(BLSTM)と動的ベイジアンネットワーク(DBN)を組み合わせたものを提案した。

5.10.4 変分Bi-LSTM

Shabanianら(2017)は、双方向LSTMアーキテクチャの変形である変分Bi-LSTMを提案しました。変分 Bi-LSTM は変分オートエンコーダ (VAE) を使用して LSTM 間の情報交換チャネルを作成し、より優れた表現を学習します。

5.11 Google ニューラル機械翻訳

Wu ら (2016) は、共通のシーケンス間学習フレームワークに従って、エンコーダーネットワーク、デコーダーネットワーク、およびアテンションネットワークを組み合わせた Google Neural Machine Translation (GNMT) と呼ばれる自動翻訳システムを提案しました。

5.12 フェーダーネットワーク

Lample ら (2017) は、属性値を変更することで入力画像のリアルなバリエーションを生成する新しいエンコーダー/デコーダーアーキテクチャである Fader ネットワークを提案しました。

5.13 スーパーネットワーク

Ha et al. (2016) は、静的ハイパーネットワーク畳み込みネットワークや再帰型ネットワークの動的ハイパーネットワークなど、他のニューラルネットワークの重みを生成するハイパーネットワークを提案しました。

Deutsch (2018) ハイパーネットワークを使用してニューラルネットワークを生成する。

5.14 高速道路網

Srivastavaら（2015）は、ゲートユニットを使用して管理情報を学習するHighway Networksを提案しました。複数の層にまたがる情報の流れは情報ハイウェイと呼ばれます。

5.14.1 再帰的な高速道路網

Zilly ら (2017) は、Long Short-Term Memory (LSTM) アーキテクチャを拡張した Recurrent Highway Networks (RHN) を提案しました。 RHN は、定期的な遷移に Highway レイヤーを使用します。

5.15 ハイウェイ LSTM RNN

Zhang ら (2016) は、隣接する層のメモリセル間の閉じた方向性接続 (つまり、高速道路) を持つ深層 LSTM ネットワークを拡張した高長期短期記憶 (HLSTM) RNN を提案しました。

5.16 長期再発CNN

Donahue ら (2014) は、CNN を入力として使用し、LSTM を使用して再帰シーケンスモデリングを実行し、予測を生成する長期再帰畳み込みネットワーク (LRCN) を提案しました。

5.17 ディープニューラルSVM

Zhang ら (2015) は、分類用のディープニューラルネットワーク (DNN) の最上位層としてサポートベクターマシン (SVM) を使用するディープニューラル SVM (DNSVM) を提案しました。

5.18 畳み込み残差記憶ネットワーク

Moniz と Pal (2016) は、記憶メカニズムを畳み込みニューラルネットワーク (CNN) に組み込んだ畳み込み残差記憶ネットワークを提案しました。長期短期記憶メカニズムを備えた畳み込み残差ネットワークを強化します。

5.19 フラクタルネットワーク

Larssonら(2016)は、残差ネットワークの代替としてフラクタルネットワーク、すなわちFractalNetを提案しました。彼らは、残差学習を必要とせずに非常に深いニューラルネットワークをトレーニングできると主張しています。フラクタルは、単純なスケーリング規則によって生成される反復構造です。

5.20 ウェーブネット

van den Oord ら (2016) は、生のオーディオを生成するためのディープニューラルネットワークである WaveNet を提案しました。 WaveNet は、畳み込み層のスタックと出力用のソフトマックス分布層で構成されています。

Rethageら（2017）は、音声ノイズ除去のためのWaveNetモデルを提案しました。

5.21 ポインタネットワーク

Vinyals ら (2017) は、「ポインタ」と呼ばれるソフトマックス確率分布を使用して変数辞書を表す問題を解決するために、ポインタネットワーク (Ptr-Nets) を提案しました。

6. ディープ生成モデル

このセクションでは、ディープニューラルネットワークに似た複数の抽象化および表現レイヤーを使用する他のディープアーキテクチャ (ディープ生成モデル (DGM) とも呼ばれる) について簡単に説明します。 Bengio (2009) は、ボルツマンマシン (BM) や制限付きボルツマンマシン (RBM) などの深層アーキテクチャとそのバリエーションについて説明しました。

Goodfellow ら (2016) は、制限付きおよび制限なしボルツマンマシンとその変種、深層ボルツマンマシン、深層ビリーフネットワーク (DBN)、有向生成ネットワーク、生成ランダムネットワークなどの深層生成モデルについて詳しく説明しています。

Maaløeら（2016）は、補助変数を使用して深層生成モデルを拡張した補助深層生成モデルを提案しました。補助変数は、ランダムレイヤーとスキップ接続を使用して変分分布を生成します。

Rezendeら（2016）は、深層生成モデルのワンショット一般化を開発しました。

6.1 ボルツマンマシン

ボルツマンマシンは、学習に最大尤度原理を使用して、任意の確率分布を学習するコネクショニストアプローチです。

6.2 制限付きボルツマンマシン

制限付きボルツマンマシン (RBM) は、ランダムな隠れユニット (潜在変数) の層と観測可能な変数の層で構成される特殊なタイプのマルコフランダムフィールドです。

Hinton と Salakhutdinov (2011) は、制限付きボルツマンマシン (RBM) を使用したドキュメント処理のための深層生成モデルを提案しました。

6.3 ディープビリーフネットワーク

Deep Belief Networks (DBN) は、潜在的なバイナリ変数または実変数の複数の層を持つ生成モデルです。

Ranzato ら (2011) は、ディープビリーフネットワーク (DBN) を使用して、画像認識のためのディープ生成モデルを確立しました。

6.4 ディープランバートネットワーク

Tang ら (2012) は、潜在変数がアルベド、表面法線、光源である多段階生成モデルである Deep Lambertian Networks (DLN) を提案しました。 DLNis は、ランバート反射率とガウス制限ボルツマンマシンおよびディープビリーフネットワークを組み合わせたものです。

6.5 生成的敵対ネットワーク

Goodfellow ら (2014) は、敵対的プロセスを通じて生成モデルを評価するために、Generate Adversarial Nets (GAN) を提案しました。 GAN アーキテクチャは、敵対者に対する生成モデル、つまり学習されたモデルまたはデータ分布の識別モデルで構成されます。 Mao et al. (2016) と Kim et al. (2017) は、GAN のさらなる改良を提案しました。

Salimans et al。

6.5.1 Laplacian生成敵対的なネットワーク

Denton et al。このモデルは、ラプラシアンピラミッドフレームワークで畳み込みネットワークも使用しています。

6.6再発サポートベクトルマシン

Shi et al。

7。トレーニングと最適化手法

このセクションでは、深いニューラルネットワーク（DNNS）を正規化および最適化するための主要な手法のいくつかを簡単に概説します。

7.1ドロップアウト

Srivastava et al。ドロップアウトは、隠されたユニットにノイズを追加することにより、ニューラルネットワークモデルの平均正規化方法です。トレーニング中、ニューラルネットワークからユニットと接続をランダムに描画します。ドロップアウトは、RBM（Srivastava et al。、2014）などのグラフィカルモデルまたはあらゆる種類のニューラルネットワークで使用できます。ドロップアウトで最近提案された改善は、再発性ニューラルネットワーク（RNNS）で使用される兄弟のドロップアウトです。

7.2 Maxout

Goodfellow et al。 Maxoutの出力は、入力セットの最大値であり、ドロップアウトのモデル平均化に有益です。

7.3ゾーンアウト

Krueger et al。ゾーンアウトは、ドロップアウトと同様に、トレーニング中にノイズをランダムに適用しますが、ドロップする代わりに非表示のユニットを保持します。

7.4深い残留学習

彼など。

7.5バッチ正規化

Ioffe and Szegedy（2015）は、内部共変量シフトを減らすことにより、深い神経ネットワークのトレーニングを加速する方法であるバッチ正規化を提案しました。 ioffe（2017）は、以前の方法を拡張したバッチ正規化を提案しました。

7.6蒸留

Hinton et al。

7.7レイヤー正規化

Ba et al。

8。ディープラーニングフレームワーク

深い学習に利用できるオープンソースライブラリとフレームワークが多数あります。それらのほとんどは、Pythonプログラミング言語用に構築されています。 Theano、Tensorflow、Pytorch、Pybrain、Caffe、Blocks and Fuel、Cudnn、Honk、Chainercv、Pylearn2、Chaener、Torchなど

9。深い学習のアプリケーション

このセクションでは、深い学習の最近の顕著なアプリケーションについて簡単に説明します。ディープラーニング（DL）の開始以来、DLメソッドは、監督者、監視なし、半監視、または強化学習の形でさまざまな分野で広く使用されてきました。分類および検出タスクから始めて、DLアプリケーションはすべてのフィールドに急速に拡大しています。

例えば：

画像の分類と認識

ビデオ分類

シーケンス生成

欠陥分類

テキスト、音声、画像、ビデオ処理

テキスト分類

音声処理

音声認識と話し言葉の理解

テキストから音声生成

クエリカテゴリ

文の分類

文モデリング

語彙処理

事前に選択します

ドキュメントと文の処理

画像キャプションを生成します

写真スタイルの転送

自然画像マニホールド

画像の色付け

画像の質問応答

テクスチャと様式化された画像を生成します

視覚的およびテキストの質問応答

視覚的識別と説明

ターゲット識別

ドキュメント処理

キャラクターモーションの合成と編集

歌の統合

識別

顔の認識と検証

ビデオアクション認識

人間の行動認識

行動認識

モーションキャプチャシーケンスの分類と視覚化

手書きの生成と予測

自動化と機械翻訳

名前付きエンティティ認識

モバイルビジョン

会話エージェント

遺伝的変異を呼び出す

がん検出

X線CT再構成

てんかん発作予測

ハードウェアアクセラレーション

ロボット

待って。

Deng and Yu（2014）は、音声処理、情報検索、オブジェクト認識、コンピュータービジョン、マルチモーダル、およびマルチタスク学習におけるDLのアプリケーションの詳細なリストを提供します。

Deep Renection Learning（DRL）を使用してゲームをマスターすることは、最近のホットなトピックになりました。時々、AIボットは、数時間のトレーニングから始めて、戦略やその他のゲームで人間の世界チャンピオンやチェスのグランマスターを破ったDNNSとDRLを使用して作成されています。たとえば、AlphagoとAlphago Zero for go。

10。議論

ディープラーニングは多くの分野で大きな成功を収めていますが、まだ長い道のりがあります。まだ改善の余地は大いにあります。制限に関しては、非常に多くの例があります。例：Nguyen et al。 Yosinski et al。 Huang et al。 Zhang et al。

マーカスは、2018年にディープラーニングの役割、制限、および深い学習の性質（DL）の重要なレビューを実施しました。彼は、DLメソッドの限界、つまり、より多くのデータを必要とし、容量が限られている、階層構造を処理できず、自由な推論を実行できず、完全に透明ではなく、事前知識と統合できず、原因と結果を区別できないことを強く指摘しました。彼はまた、DLはおおよその方法で実装された安定した世界を想定しており、エンジニアリングは困難であり、オーバーハイプが潜在的に危険にさらされると述べました。マーカスは、DLが再概念化され、監視されていない学習、象徴的操作、ハイブリッドモデルの可能性を探す必要があると考えています。

11。結論

ディープラーニング（DL）はかつてないほど速く世界を進歩させてきましたが、研究する価値のある多くの側面があります。私たちは、深い学習、マシンを人間よりも賢く、より賢く、またはスマートにする方法、または人間のように学ぶ方法を完全に理解することはできません。 DLは、あらゆる面にテクノロジーを適用しながら、多くの問題を解決してきました。しかし、人間は依然として飢erや食糧危機、癌、その他の致命的な病気で死にかけているなど、多くの困難に直面しています。深い学習と人工知能が、最も困難な科学的研究を通じて人間の生活の質を向上させることに熱心になることを願っています。最後になりましたが、私たちの世界がより良い場所になりますように。

<<: Pythonを使用して機械学習モデルを作成する方法

>>: StarCraft II の共同競技ベンチマークが SOTA を上回り、新しい Transformer アーキテクチャがマルチエージェント強化学習の問題を解決