ニューラルネットワーク: 知っておくべきこと

ニューラルネットワーク (NN) は、ほぼすべての分野で創造的な方法で問題を解決するのに役立ちます。この記事では、ニューラルネットワークに関する関連知識を紹介します。これを読めば、ニューラルネットワークの一般的な理解が得られます。ニューラルネットワークはどのように機能するのでしょうか? ニューラルネットワークを作成するにはどうすればよいでしょうか?

1. ニューラルネットワークの発展の歴史

ニューラルネットワークの歴史を簡単に見てみましょう。ニューラルネットワークの歴史について詳しく知りたい場合は、この Wikipedia の記事をご覧ください。

(https://en.wikipedia.org/wiki/Artificial_neural_network#History) が、この章の基礎となっています。

ニューラルネットワークは、1943 年に Warren McCulloch と Walter Pitts によって初めて確立されたニューラルネットワークモデルに由来しています。彼らのモデルは完全に数学とアルゴリズムに基づいており、コンピューティングリソースが不足しているため、モデルをテストすることはできません。

その後、1958 年にフランク・ローゼンブラットがパターン認識が可能な最初のモデルを作成し、この状況を変えました。それがセンサーです。しかし、彼は表記法とモデルを提案しただけだった。実際のニューラルネットワークモデルはテスト不可能なままであり、このトピックに関するこれまでの研究はほとんどありません。

複数の層を持つ最初のテスト可能なニューラルネットワークは、1965 年に Alexey Ivakhnenko と Lapa によって作成されました。

その後、機械学習モデルの実現可能性の高さから、ニューラルネットワークの研究は停滞しました。多くの人は、これが 1969 年にマービン・ミンスキー氏とシーモア・パパート氏が書いた「パーセプトロン」という本によって引き起こされたと考えています。

しかし、この停滞期間は比較的短期間でした。 6 年後の 1975 年、ポール・ワーボスはバックプロパゲーションを提案しました。これにより XOR 問題が解決され、ニューラルネットワークの学習効率が向上しました。

1992 年に、最大プーリングが提案されました。これは、変換不変で変形に対して堅牢であるため、3D オブジェクトの認識に役立ちます。

2009 年から 2012 年にかけて、Jürgen Schmidhuber の研究グループが作成したリカレントニューラルネットワークとディープフィードフォワードニューラルネットワークは、パターン認識と機械学習の分野で 8 つの国際コンテストで優勝しました。

2011 年、ディープラーニングニューラルネットワークは、畳み込み層と最大プーリング層を組み合わせ、その出力を複数の完全接続層に渡し、さらに出力層に渡すようになりました。これらは畳み込みニューラルネットワークと呼ばれます。

この後もさらに研究が続けられる予定です。

ニューラルネットワークとは何ですか?

ニューラルネットワークについて考える良い方法は、それを複合関数として考えることです。データを入力すると、データが出力されます。

ニューラルネットワークの基本的なアーキテクチャは、次の 3 つの部分で構成されます。

ユニット/ニューロン
接続/重み/パラメータ
バイアス

これらは建物の「レンガ」と考えることができます。建物に持たせたい機能に応じてレンガを配置します。セメントは重さです。どれだけ重くても、レンガが足りなければ建物は崩壊してしまいます。ただし、最小限の精度（最小限のレンガを使用）で建物を稼働させ、徐々にアーキテクチャを構築して問題を解決することもできます。

重み、バイアス、単位については、後の章で詳しく説明します。

1. ユニット/ニューロン

ニューロンは、ニューラルネットワークアーキテクチャの 3 つの部分の中で最も重要度が低い部分であり、重みとバイアスを含み、データが渡されるのを待機する関数です。データを受け取った後、いくつかの計算を実行し、アクティベーション関数を使用してデータを範囲に制限します (ほとんどの場合)。

これらのユニットは、重みとバイアス項を含むボックスとして想像されます。箱は両端から開きます。一方の端はデータを受信し、もう一方の端は変更されたデータを出力します。データはまずボックスに入り、重みがデータに掛けられ、次に掛けられたデータにバイアス項が追加されます。これはユニットですが、関数としても考えることができます。この関数は、次の直線の方程式に似ています。

直線の方程式が複数あると想像してください。2 つを超えると、ニューラルネットワークの非線形性が促進される可能性があります。これからは、同じデータポイント（入力）に対して複数の出力値を計算します。これらの出力値は別のユニットに送信され、ニューラルネットワークが最終的な出力値を計算します。

2. 重み/パラメータ/接続

ニューラルネットワークの最も重要な部分として、これら (およびバイアス項) は、ニューラルネットワークを使用して問題を解決するために学習する必要がある値です。それがあなたが今知る必要があることです。

3. 偏見

これらの数値は、ニューラルネットワークが重みをデータに乗算した後に追加すべきと考える値を表します。もちろん、それらは間違っていることが多いですが、ニューラルネットワークは最適なバイアス項を学習します。

4. ハイパーパラメータ

ハイパーパラメータは手動で設定する必要があります。ニューラルネットワークをマシンとして考えると、マシンの動作を変更するノブはニューラルネットワークのハイパーパラメータになります。

私の他の記事を読んでみてください

(https://towardsdatascience.com/gas-and-nns-6a41f1e8146d) を参照して、ニューラルネットワークのハイパーパラメータを最適化する方法を学習します。

5. 活性化関数

マッピング関数とも呼ばれます。これらは、x 軸上のデータを受け取り、限られた範囲内の値を出力します (ほとんどの場合)。ほとんどの場合、ユニットの大きな出力を小さな値に変換するために使用されます。選択したアクティベーション関数によって、ニューラルネットワークのパフォーマンスが大幅に向上または低下する可能性があります。必要に応じて、ユニットごとに異なる活性化関数を選択できます。

一般的な活性化関数をいくつか示します。

（１）シグモイド

シグモイド関数

（２）タン

tanh関数

(3) ReLU: 正規化線形ユニット

整流線形単位関数

(4) リーキーReLU

リーキーReLU関数

5. レイヤー

これが、ニューラルネットワークがあらゆる問題において複雑性を増す理由です。レイヤー（ユニット付き）を追加すると、ニューラルネットワーク出力の非線形性が増加します。

各レイヤーには一定数のユニットが含まれます。ほとんどの場合、ユニットの数は完全に作成者次第です。ただし、単純なタスクの場合、レイヤーが多すぎると不必要な複雑さが増し、ほとんどの場合、精度が低下します。逆に。

各ニューラルネットワークには、入力層と出力層の 2 つの層があります。その間にある層は隠し層と呼ばれます。下の図に示すニューラルネットワークには、入力層 (8 ユニット)、出力層 (4 ユニット)、および 3 つの隠し層 (それぞれ 9 ユニット) が含まれています。

ディープニューラルネットワーク

2 つ以上の隠し層と各層に多数のユニットを持つニューラルネットワークはディープニューラルネットワークと呼ばれ、ディープラーニングと呼ばれる新しい学習分野を生み出しました。上に示したニューラルネットワークはその一例です。

3. ニューラルネットワークが学習すると何が起こりますか?

ニューラルネットワークに問題を解決する方法を教える最も一般的な方法は、勾配降下法を使用することです。勾配降下法の詳細については、以下を参照してください。

https://hackernoon.com/gradient-descent-aynk-7cbe95a778da.

勾配降下法の他に、ニューラルネットワークをトレーニングする一般的な方法として、バックプロパゲーションを使用する方法があります。このアプローチを使用すると、ニューラルネットワークの出力層のエラーは、微積分の連鎖律を介して後方に伝播されます。微積分の知識がない初心者にとっては理解しにくいかもしれませんが、怖がる必要はありません。バックプロパゲーションの詳細については、以下をお読みください。

http://neuralnetworksanddeeplearning.com/chap2.html をご覧ください。

ニューラルネットワークをトレーニングする際には、考慮すべき点が数多くあります。しかし、初心者にとっては、1つの記事ですべてを学ぶ必要はありません。

4. 実装の詳細（プロジェクトのすべての要素をどのように管理するか）

プロジェクト内のすべての要素を管理する方法を説明するために、XOR ロジックゲートを学習する小さなニューラルネットワークを備えた Jupyter Notebook を作成しました。 Jupyter Notebook アドレス: https://github.com/Frixoe/xor-neural-network/blob/master/XOR-Net-Notebook.ipynb。

ノートブックの内容を確認して理解すると、基本的なニューラルネットワークの構築方法について大まかな理解が得られるはずです。

ノートブックによって作成されたニューラルネットワークのトレーニングデータは、データを配置する一般的な方法であるマトリックスに配置されます。マトリックスの寸法はプロジェクトによって異なる場合があります。

大量のデータは通常、トレーニングデータ (60%) とテストデータ (40%) の 2 つのカテゴリに分類されます。ニューラルネットワークは最初にデータを使用してトレーニングされ、次にテストデータでネットワークの精度がテストされます。

5. ニューラルネットワークに関する詳細情報（その他のリソースへのリンク）

ニューラルネットワークの理解がまだ難しい場合は、次のリソースをお勧めします。

ユーチューブ:

シラジ・ラヴァル (https://www.youtube.com/channel/UCWN3xxRkmTPmbKwht9FuE5A)
3Blue1Brown（https://www.youtube.com/channel/UCYO_jab_esuFRV4b17AJtAw）
コーディングトレイン (https://www.youtube.com/playlist?list=PLRqwX-V7Uu6aCibgK1PTWWu9by6XFdCfh)
ブランドン・ローラー (https://www.youtube.com/channel/UCsBKTrp45lTfHa_p49I2AEQ)
巨大なニューラルネットワーク (https://www.youtube.com/channel/UCrBzGHKmGDcwLFnQGHJ3XYg)
ヒューゴ・ラロシェル (https://www.youtube.com/channel/UCiDouKcxRmAdc5OeZdiRwAg)
ジャブリルス (https://www.youtube.com/channel/UCQALLeQPoZdZC4JNUboVEUg)
ルイス・セラーノ (https://www.youtube.com/channel/UCgBncpylJ1kiVaPyP-PZauQ)

コースラ:

トロント大学による機械学習のためのニューラルネットワーク (https://www.coursera.org/learn/neural-networks)
ディープラーニングスペシャライゼーション (https://www.coursera.org/specializations/deep-learning)、Andrew Ng 著
国立研究大学高等経済学院によるディープラーニング入門 (https://www.coursera.org/learn/intro-to-deep-learning)

オリジナルリンク: https://towardsdatascience.com/nns-aynk-c34efe37f15a

[この記事は51CTOコラム「Machine Heart」、WeChatパブリックアカウント「Machine Heart（id:almosthuman2014）」によるオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<: 人工知能 + ブロックチェーンの開発動向と応用研究レポート（受賞リスト付き）

>>: ベースラインモデルから始めます。最初はモデルが醜く見えるかもしれませんが、心配しないでください。