人工ニューラルネットワークのドライバー: 活性化関数とは何ですか?

この記事は、公開アカウント「Reading the Core」（ID: AI_Discovery）から転載したものです。

活性化関数は人工ニューラルネットワークの駆動要因です。ニューロンの上部に配置され、特定の入力データを処理する必要があるかどうか、また、処理する必要がある場合はどの程度まで処理するかなど、ニューロンの動作を管理します。技術的に言えば、ノードのアクティベーション関数は、ニューラルネットワーク内の前のノードからデータを受け取り、特定の値を出力します。これにより、後続のノードが特定の入力信号に応じてどのように動作するかが指示されます。

[[374794]]

この記事では、活性化関数で構成されたニューラルネットワークとそのバイオシミラーを分析し、一般的に使用されるいくつかの活性化関数を簡単に紹介します。

ニューラルネットワークの構造

データサイエンス愛好家であれば、上記の画像や類似の画像を見たことがあるはずです。この図は、2 層ニューラルネットワークのワークフローを典型的に説明したものです。図に示すように、ネットワークは猫や犬の写真を分類します。 2 つの隠し層があり、各層にはニューロンの列が含まれており、1 列に 16 個のニューロンがあります。画像を局所的にズームインし、第 2 層の最初のニューロンを拡大します。

部分拡大するとこんな感じになります。このニューロンは前の 16 個のニューロンから信号を受信することに注意してください。ニューロンは接続重みを信号で乗算し、その積にバイアス項を加えて計算結果を取得します。この計算結果は v と呼ばれます。この v は、ニューロンによる入力画像の認識とみなすことができます。

ニューロンは入力信号を認識した後、対応する応答を生成することができ、そこで活性化関数がその役割を果たします。活性化関数は f() と呼ばれ、認識から応答へのマッピングで値 a を生成し、前の層の特定のニューロンが信号に応答したことを示すサインとして次の層のニューロンに渡されます。

生物学的類推

徐々に熱くなっていく鉄鍋の上に手を置くと、温度が一定の閾値を超えると、思わず手を離したくなるでしょう。手を離したときの鍋の正確な温度を知る必要はありませんが、実際のパラメータに基づいて選択を行ってください。これはニューロンの発火であり、ニューロンが発火すると、コマンドが末梢（この場合は手）に伝達されます。

これが活性化関数、または少なくともそれに似たものの由来です。ここでは実際のデータは冗長であり、ニューロンはしきい値を超えているかどうかを判断するだけで済みます。

私たちの知る限り、生物学的ニューロンと人工ニューロンの大きな違いは、前者は活性化するか活性化しないかの 2 つの結果しかないのに対し、後者は一定の範囲内である程度活性化できる点です。

活性化関数の種類

さまざまな活性化関数が存在します。問題を解決する順序でこれらの関数のいくつかを見てみましょう。

問題1: 学習の問題

初期の頃、ニューラルネットワークの目標は自己学習であり、線形関数はその目的に非常に適していました。 v = wa + b の近似が直線 y = mx + c の方程式と非常に似ているため、これは線形関数と呼ばれます。

問題2: 非線形問題

線形関数は右側のデータに非常によく適合しますが、左側ではそれほどうまく機能しません。非線形に分散されたデータセットが機械学習の分野を支配しており、活性化関数がネットワークに非線形性を注入する唯一の適用可能な方法であるため、関数は線形にすることはできません。この問題を解決できる一般的な関数は次のとおりです。

シグモイド関数: 関数に値を入力すると、出力値の範囲は (0,1) になります。入力値が小さいほど出力値は 0 に近づき、入力値が大きいほど出力値は 1 に近づきますが、どちらの制限にも達することはありません。

Tanh 関数: 双曲正接関数とも呼ばれます。 tanh 関数は、出力値の範囲が (-1, 1) であることを除いて、シグモイド関数と非常によく似ています。右側がシグモイド関数の画像、左側がtanh関数の画像です。

問題3: 勾配消失問題

グラフをもう一度観察すると、シグモイド関数の曲線は限界値に近いほど平坦になっています。つまり、入力の絶対値が非常に大きい場合、出力値の変化は明らかではありません。これにより学習率が大幅に低下します。これは勾配消失問題として知られており、プロセスが進むにつれて勾配（つまり学習）が消失します。 ReLU 関数はこの問題を解決し、実際、現代のニューラルネットワークのデフォルトの活性化関数となっています。

ReLU 関数: ReLU 関数は Rectified Linear Unit の略で、最も興味深く、直感に反する関数かもしれません。これはほぼ直線関数ですが、原点で曲がっているため、区分関数です。

近似線形関数がどのようにしてこの問題を解くのか、とよく聞かれます。図から、勾配消失問題をほぼ完全に回避できることは明らかです。単一の ReLU 関数は面倒ですが、複数の ReLU 関数は状況によっては無敵になることがあります。

線形関数では全く近似できず、tanh関数は滑らかな円曲線を描こうとするため、最終的に六角形のReLU関数が登場します。これは、時計の針のように、一方の端で結合された 2 本の直線と考えることができます。

ここで、このような線が 100 万本あると想像してください。この配置を使用して、任意の非線形形状をモデル化できます。 ReLU の優れた点は、ほぼ線形であり、複数のグループを組み合わせると、角の角度を変更することでほぼあらゆる形状をシミュレートできることです。

これが、対処すべき最後の質問につながります。

質問4: 確率と問題

隠し層が何を行うかに関係なく、最終的な目標は何らかの予測を生成することです。この場合、入力オブジェクトがラベル付けされたオブジェクトである確率を含む確率ベクトルを出力することです。たとえば、最初の図のニューラルネットワークの結果は次のようになります。

 [犬、牛、猫、ヤギ、子羊] = [0.2, 0.05, 0.7,0.03, 0.01]

最も可能性の高い結果は猫です。猫の確率は 0.7 で、これが最も高い確率だからです。

全結合層の最終出力値を正規化された確率ベクトルに変換するには、ベクトルを受け入れて別のベクトルを出力し、出力ベクトルのすべての要素の合計が 1 になる関数が必要です。結局のところ、それが確率ベクトルなのです。

シグモイド関数は出力値が 0 から 1 の範囲であるため確率関数に非常に近いですが、合計が 1 になる状況は満たしません。 Softmax 関数はこの要件を満たすことができます。

Softmax 関数: この関数はベクトルを受け取り、次の関数を使用して出力ベクトル内の各要素に対応する確率を計算します。

関数の分母は、出力値が 1 を超えないように、すべての可能な分子の合計になります。

活性化関数についてご存知ですか？

<<: 2021年には、人工知能が私たちの生活にさらに統合されるでしょう。これは何を意味するのでしょうか?

>>: 初心者と専門家のための機械学習に関するベスト 10 書籍

人工知能が水力発電の持続可能な開発にどのように役立つか

ブログ

工業生産は変化している：機械は人間よりも製造に優れている

ブログ

53 フレームが 900 フレームになります。 AIを使えば高価な高速カメラなしでスローモーションが作れる

人工ニューラルネットワークのドライバー: 活性化関数とは何ですか?

人工知能が水力発電の持続可能な開発にどのように役立つか

工業生産は変化している：機械は人間よりも製造に優れている

53 フレームが 900 フレームになります。 AIを使えば高価な高速カメラなしでスローモーションが作れる

AIoT技術の幅広い応用と大きな利点

Boyaのディープラーニング製品がHuman Horizonsの自動運転実現に貢献

ディープラーニングアーキテクチャにおける予測コーディングモデルに関しては、PredNetに目を向ける必要があります。

推薦する

14,000元の費用でディープラーニングサーバーを自分で構築するにはどうすればいいでしょうか?

私の目が支配者です！ 80億のパラメータを備えたOtterHDは、清明節のラクダを数えるのに役立ちます。南洋理工大学の中国チームによって作成されました

遠隔管理+早期警告人工知能が危険物輸送の安全性を向上

ディープラーニングタスクに最適な GPU を選択するにはどうすればよいでしょうか?

公安部：「AI顔変え」事件79件を摘発、容疑者515人を逮捕

コンピュータービジョンとは何ですか?

Facebook、MITなどが共同で451ページの原稿を発表：「第一原理」を使ってDNNを説明する」

フロントエンド人工知能: 機械学習による関数方程式の導出 - プラチナ III

ロボットを活用する3つの革新的な方法

ランセットの最新記事：主要都市での流行は武漢より1～2週間遅れる

RELX: 回答者の95%がAI人材の採用は課題であると考えている

2020 年の予測: 今年はサイバー犯罪サービスが普及する年になるか?

ビッグデータの3つの柱：データ、ブロックチェーン、アルゴリズム

人工知能とモノのインターネットのダイナミックな融合を探る（パート 2）