ディープラーニング入門

2016年、Googleの人工知能プログラムAlphaGoが世界的囲碁プレイヤーのイ・セドルと対戦し、最終的に4対1で勝利しました。この驚くべきシーンは、国内外の人工知能研究のホットな話題を新たなクライマックスへと押し上げました。しかし、ディープラーニングとは何でしょうか?この記事では、ディープラーニングの謎を解き明かします。

• 1 ディープラーニングとは何か、ディープラーニングの基本的な考え方は何ですか?

• 2 人工知能はどのように発展したのでしょうか?

• 3 機械学習の関連技術は何ですか?

• 4 ディープラーニングとニューラルネットワークの類似点と相違点は何ですか?

• 5 ディープラーニングのトレーニングプロセス?

• 6. ディープラーニング研究の現状、応用分野、開発動向はどのようなものですか?

1 ディープラーニングとは何か、ディープラーニングの基本的な考え方は何か？

ディープラーニングは、人工ニューラルネットワークを使用して人間の脳の分析学習メカニズムをシミュレートし、画像、音声、テキストなどのデータを解釈する機械学習の新しい分野です。人工ニューラルネットワーク (ANN) は、ニューラルネットワーク (NN) と呼ばれるディープラーニングアルゴリズムの基礎です。ニューラルネットワークの考え方は、動物のニューラルネットワークの行動特性を利用して、数学的なアルゴリズムモデルで情報の分散並列処理を実行することです。ディープラーニングは継続的な学習を使用して基礎となる機能を組み合わせて、より抽象的な高レベルの特徴を形成し、データの分散特性を検出します。ディープラーニングでは、コンピューターが学習データと結果を独自に観察し、問題を自動的に解決することができます。ディープラーニングアルゴリズムの開発プロセスにおいて、Caffe は研究者や開発者に歓迎されており、優れたニューラルネットワークディープラーニングフレームワークです。

n 個の層 (S1、…Sn) を持つシステム S があるとします。その入力は I、出力は O で、比喩的に次のように表すことができます: I =>S1=>S2=>…..=>Sn => O。出力 O が入力 I と等しい場合、つまり、入力 I はこのシステム変更を通過した後も情報損失がありません (ハハ、専門家はこれは不可能だと言います。情報理論には、「情報は層ごとに失われる」(情報処理の不等式) という格言があります。情報 a が処理されて b が得られ、次に b が処理されて c が得られるとします。この場合、a と c の相互情報量は a と b の相互情報量を超えないことが証明できます。これは、情報処理によって情報は増加せず、ほとんどの処理で情報が失われることを示しています。もちろん、役に立たない情報が失われれば最高ですが)。出力 O は変更されず、つまり、入力 I は各層 Si を通過した後も情報損失がなく、どの層 Si でも元の情報 (つまり、入力 I) の別の表現であることを意味します。さて、ディープラーニングの話題に戻りますが、特徴を自動的に学習する必要があります。入力 I の束 (画像やテキストの束など) があり、システム S (n 層) を設計するとします。システムのパラメータを調整して、出力が入力 I のままになるようにすると、入力 I の一連の階層的特徴、つまり S1、…、Sn を自動的に取得できます。

ディープラーニングでは、複数のレイヤーを積み重ねるという考え方です。つまり、1 つのレイヤーの出力が次のレイヤーの入力として機能します。このようにして、入力情報を階層的に表現することができます。

さらに、これまでは出力が入力と厳密に等しいと想定していました。この制限は厳しすぎます。この制限を少し緩和することができます。たとえば、入力と出力の差をできるだけ小さくするだけです。この緩和により、別の種類のディープラーニング手法が生まれます。以上がディープラーニングの基本的な考え方です。

2 人工知能はどのように発展したのでしょうか?

人工知能は主に、浅い学習から深い学習への発展過程を経験してきました。「人工知能」（AI）という用語は、1956 年にダートマス大学で開催された会議で初めて登場し、人工知能の正式な誕生を示しました。 1960 年代から 1970 年代にかけて、さまざまな種類のエキスパートシステムの研究開発により、人工知能の応用が実用化されました。 1990 年代のインターネットの発展に伴い、サポートベクターマシン (SVM)、ブースティング、最大エントロピー法 (ロジスティック回帰、LR) など、さまざまな浅い機械学習モデルが提案されました。この段階では、浅い学習が機械学習の第一波でした。現在は、機械学習の第二の波であるビッグデータ＋ディープモデルの段階に入っています。 2006 年、カナダのトロント大学の機械学習分野の第一人者であるジェフリー・ヒントン氏とその学生は、サイエンス誌に論文を発表し、2 つの主要なメッセージを明らかにしました。1 つは、複数の隠れ層を持つ人工ニューラルネットワークによって学習された特徴データは、視覚化や分類に役立つということ、もう 1 つは、「レイヤーごとの初期化」によって、ディープニューラルネットワークのトレーニングにおける困難を効果的に克服できるということです。

現在、分類、回帰、その他の学習方法のほとんどは、浅い構造のアルゴリズムです。これらのアルゴリズムの限界は、限られたサンプルと計算ユニットの下で複雑な関数を表現する能力が限られていることと、複雑な分類問題に対する一般化能力が一定の制約を受けることです。ディープラーニングは、深い非線形ネットワーク構造を学習することで複雑な関数を近似し、入力データの分散表現を特徴付けることができ、また、少数のサンプルからデータセットの本質的な特性を学習する強力な能力も示します。（多層化の利点は、複雑な関数を少ないパラメータで表現できることです）

ディープラーニングの本質は、多くの隠れ層と膨大なトレーニングデータを持つ機械学習モデルを構築することで、より有用な特徴を学習し、最終的に分類や予測の精度を向上させることです。したがって、「ディープモデル」は手段であり、「特徴学習」は目的です。ディープラーニングは、従来の浅い学習と次の点で異なります。1) モデル構造の深さを強調し、通常は 5、6、または 10 を超える隠しノードを使用します。2) 特徴学習の重要性を明確に強調します。つまり、レイヤーごとの特徴変換を通じて、元の空間内のサンプルの特徴表現が新しい特徴空間に変換され、分類や予測が容易になります。人工的なルールに基づいて特徴を構築する方法と比較して、ビッグデータを使用して特徴を学習すると、データの豊富な固有情報をより適切に特徴付けることができます。現在、ディープニューラルネットワーク（DNN）技術の応用は非常に広範囲に及び、大手の有名インターネット企業が研究と探究にリソースを投資するために競争しており、重要な研究意義と価値があります。

3 機械学習の関連技術は何ですか?

学習形式の観点から、教師あり学習と教師なし学習に分けられます。教師あり学習は、入力オブジェクトと目的の出力値で構成されます。ラベル付けされたトレーニングデータから関数を推測する機械学習タスクです。トレーニングデータセットに基づいて関数を学習し、新しいデータを入力し、この関数を通じて結果を予測します。教師なし学習は、ラベル付けされていないトレーニングデータからデータの情報や特徴を学習し、トレーニングサンプル内の構造的知識を発見することです。使用される方法の多くは、データマイニング手法に基づいています。学習方法の観点から、経験的帰納学習、分析学習、類推学習、遺伝的アルゴリズム、接続学習、強化学習に分けることができます。その他の関連技術には、BP (Back Propagation) ニューラルネットワーク (入力層、隠れ層、出力層を含む、誤差逆伝播アルゴリズムによってトレーニングされた多層フィードフォワードネットワーク)、ランダムフォレスト (Random Forests)、サポートベクターマシン (SVM) (教師あり学習モデル、鍵となるのはカーネル関数で、入力を高次元の特徴空間に暗黙的にマッピングし、線形分類と非線形分類を効果的に実行)、ディープラーニング (Deepening Learning) (一般的なニューラルネットワークは多数の畳み込み層を使用し、空間的な相対関係を使用してパラメーターの数を減らし、トレーニングパフォーマンスを向上させます) などがあります。

4 ディープラーニングとニューラルネットワークの類似点と相違点は何ですか?

ディープラーニングの概念は、人工ニューラルネットワークの研究から生まれました。複数の隠れ層を持つ多層パーセプトロンは、ディープラーニング構造です。ディープラーニングは、低レベルの特徴を組み合わせてより抽象的な高レベル表現の属性カテゴリまたは特徴を形成することにより、データの分散された特徴表現を検出します。

ディープラーニング自体は機械学習の一分野であり、簡単に言えばニューラルネットワークの開発として理解することができます。約 20 ～ 30 年前、ニューラルネットワークは ML 分野で特にホットな話題でしたが、その後、次の理由により徐々に衰退しました。

1) 過剰適合しやすく、パラメータの調整が難しく、多くのトリックが必要になります。

2) 学習速度が比較的遅く、層数が比較的少ない場合（3 以下）は他の方法よりも効果は高くありません。

そのため、ニューラルネットワークがあまり注目されなかった約 20 年間の期間があり、この期間は基本的に SVM とブースティングアルゴリズムが主流でした。しかし、熱狂的な老人であるヒントンは粘り強く努力し、最終的には（ベンジオ、ヤン・ルカンなどとともに）実用的なディープラーニングのフレームワークを提案しました。

深い
ニューラルネットワーク学習と従来のニューラルネットワークには類似点もありますが、多くの違いもあります。

両者の類似点は、ディープラーニングがニューラルネットワークに似た階層構造を採用している点です。下図のように、入力層、隠れ層（複数層）、出力層からなる多層ネットワークで構成されています。

上の図では、各円はニューロンであり、各線はニューロン間の接続を表しています。上のニューロンは複数の層に分かれていることがわかります。層間のニューロンは接続されていますが、層内のニューロンは接続されていません。左端の層は入力層と呼ばれ、入力データを受け取る役割を担います。右端の層は出力層と呼ばれ、ここからニューラルネットワークの出力データを取得できます。入力層と出力層の間にある層は隠れ層と呼ばれます。各層はロジスティック回帰モデルとみなすことができ、この階層構造は人間の脳の構造に近いものとなります。

ニューラルネットワークのトレーニングにおける問題を克服するために、DL はニューラルネットワークとは非常に異なるトレーニングメカニズムを採用しています。従来のニューラルネットワークでは、バックプロパゲーション法が使用されます。簡単に言うと、反復アルゴリズムを使用してネットワーク全体をトレーニングし、初期値をランダムに設定し、現在のネットワークの出力を計算し、現在の出力とラベルの差に応じて前のレイヤーのパラメーターを収束するまで変更します (全体的な方法は、勾配降下法です)。ディープラーニングは全体として、レイヤーごとのトレーニングメカニズムです。これを行う理由は、バックプロパゲーションメカニズムを採用すると、深いネットワーク（7層以上）の場合、フロント層に伝播される残差が小さくなりすぎて、いわゆる勾配拡散が発生するためです。次にこの問題について議論します。

5. ディープラーニングのトレーニングプロセス?
5.1 従来のニューラルネットワークトレーニング方法をディープニューラルネットワークで使用できないのはなぜですか?

BP アルゴリズムは、従来の多層ネットワークのトレーニングによく使われるアルゴリズムです。実際、数層しかないネットワークの場合、このトレーニング方法は非常に不十分です。深い構造（複数の層の非線形処理ユニットを含む）の非凸目的コスト関数における局所最小値の普及は、トレーニングの困難さの主な原因です。

BP アルゴリズムの問題:

（１）勾配は次第に疎になり、最上層から下に行くにつれて誤り訂正信号は小さくなる。

（２）局所的最小値への収束：特に最適領域から離れた点から開始する場合（ランダム値の初期化によってこれが起こる可能性がある）。

（３）一般的に、訓練にはラベル付きデータしか使えませんが、ほとんどのデータはラベルなしであり、脳はラベルなしデータから学習することができます。

5.2 ディープラーニングのトレーニングプロセス

すべてのレイヤーを同時にトレーニングすると、時間の複雑さが大きくなりすぎます。一方、一度に 1 つのレイヤーをトレーニングすると、バイアスはレイヤーごとに伝播されます。これは、上記の教師あり学習とは逆の問題に直面することになります。つまり、深刻なアンダーフィッティングが発生します (ディープネットワークにはニューロンとパラメーターが多すぎるため)。

2006 年に、ヒントンは教師なしデータ上に多層ニューラルネットワークを構築する効果的な方法を提案しました。簡単に言うと、この方法は 2 つのステップに分かれています。1 つ目は、ネットワークを 1 層ずつトレーニングすること、2 つ目は、元の表現 x によって生成された高レベル表現 r と高レベル表現 r によって生成された x' が可能な限り一致するように調整することです。方法は次のとおりです。

1) まず、ニューロンの単層を層ごとに構築し、毎回単層ネットワークがトレーニングされるようにします。

2) すべてのレイヤーがトレーニングされた後、Hinton はウェイクスリープアルゴリズムを使用してチューニングを行います。

最上位層を除く層間の重みは双方向に変更されるため、最上位層は単層ニューラルネットワークのままですが、他の層はグラフモデルになります。上向きの重みは「認知」を表し、下向きの重みは「生成」を表します。次に、Wake-Sleep アルゴリズムを使用してすべての重みを調整します。認識と生成に一貫性を持たせ、つまり、生成されたトップレベルの表現が基礎となるノードを可能な限り正確に復元できるようにします。たとえば、最上位レベルのノードが顔を表す場合、顔のすべての画像がこのノードをアクティブ化し、結果の画像はおおよその顔の画像として表示できる必要があります。ウェイクスリープアルゴリズムは、ウェイクとスリープの 2 つの部分に分かれています。

1)覚醒段階：認知プロセスは、外部特徴と上向きの重み（認知重み）を通じて各層の抽象表現（ノード状態）を生成し、勾配降下法を使用して層間の下向きの重み（生成重み）を変更します。つまり、「現実が想像と違うなら、想像通りになるように重みを変える」ということです。

2)睡眠フェーズ: 生成プロセスでは、最上位レベルの表現 (起きている間に学習した概念) と下向きの重みを通じて最下位レベルの状態を生成し、同時にレイヤー間の上向きの重みを変更します。つまり、「夢の中のシーンが私の心の中の対応する概念でない場合は、このシーンが私にとってこの概念であるように私の認知の重みを変更します。」

ディープラーニングのトレーニングプロセスは次のとおりです。

1) ボトムアップの教師なし学習を使用する (下から始めて、層ごとに上に向かってトレーニングする)。

キャリブレーションされていないデータ（キャリブレーションされたデータも可）を使用して、各レイヤーのパラメータをレイヤーごとにトレーニングするこのステップは、教師なしトレーニングプロセスと見なすことができます。これが、従来のニューラルネットワーク（このプロセスは特徴学習プロセスと見なすことができます）との最大の違いです。

具体的には、第 1 層は未校正データでトレーニングされます。トレーニング中に最初に学習されるのは第 1 層のパラメータです (この層は、出力と入力の差を最小化する 3 層ニューラルネットワークの隠れ層と見なすことができます)。モデルの容量制限とスパース制約により、得られたモデルはデータ自体の構造を学習できるため、入力よりも表現能力の高い特徴が得られます。n-1 層を学習した後、n-1 層の出力を n 層目の入力として使用して n 層目をトレーニングし、各層のパラメータをそれぞれ取得します。

2) トップダウンの教師あり学習（つまり、ラベル付きデータによるトレーニング、エラーの上から下への転送、ネットワークの微調整）

最初のステップで得られた各層のパラメータに基づいて、多層モデル全体のパラメータがさらに微調整されます。このステップは教師ありトレーニングプロセスです。最初のステップは、ニューラルネットワークのランダム初期化プロセスに似ています。DLの最初のステップはランダム初期化ではなく、入力データの構造を学習することによって取得されるため、この初期値はグローバル最適値に近くなり、より良い結果が得られます。したがって、ディープラーニングの良好な効果は、主に最初のステップでの特徴学習プロセスによるものです。

6. ディープラーニング研究の現状、応用分野、開発動向はどのようなものですか?

[[392787]]

海外では、2012 年に Hinton 氏と彼の学生 Alex 氏がニューラルモデルを ImageNet に適用し、驚くべき成果を達成しました。この年は、ディープラーニングの研究と応用が爆発的に進んだ年でした。ディープラーニングは、画像分類、画像位置特定、画像検出、音声認識などの分野で実りある成果を上げている。Google の AlphaGo については詳しく説明しない。中国では、BAT、Huawei、JD.comなどのインターネット大手が人工知能研究機関を設立し、家庭、自動車、無人システム、セキュリティなどの分野で人工知能の画期的な革新的応用の実現に努めています。

参照：

[1] Le Yi、Wang Bin. ディープラーニング - Caffeの古典モデルの詳細な説明と実践[M]。北京：電子産業出版社、2016年。

https://blog.csdn.net/zouxy09/article/details/8775518

https://www.zybuluo.com/hanbingtao/note/433855

<<: 人工知能倫理ガバナンスは早急に実践段階へ移行する必要がある

>>: 企業は AI、IoT、AR、VR、ブロックチェーン、ビッグデータをどのように活用して顧客を維持できるでしょうか?