バックプロパゲーションを用いた多層ニューラルネットワークのトレーニングの原理

バックプロパゲーションを用いた多層ニューラルネットワークのトレーニングの原理

記事「バックプロパゲーションを使用した多層ニューラル ネットワークのトレーニングの原理」では、バックプロパゲーションを直感的に理解するための完全な例が提供されています。以下は原文の翻訳です。

この記事では、バックプロパゲーション アルゴリズムを使用して多層ニューラル ネットワークをトレーニングする学習プロセスについて説明します。このプロセスを説明するために、次の図に示すように、2 つの入力と 1 つの出力を持つ 3 層のニューラル ネットワークが使用されます。

各ニューロンは 2 つの部分で構成されています。 *** の部分は入力信号と重み係数の加重合計です。 2 番目の部分は、ニューロン活性化関数と呼ばれる非線形関数です。信号 e は加重和の出力信号 (加算器の出力) です。 y=f(e)は非線形関数(要素)の出力信号です。信号 y はニューロンの出力信号でもあります。

ニューラル ネットワークをトレーニングするには、「トレーニング データセット」が必要です。トレーニング データセットは、ターゲット z (目的の出力) に対応する入力信号 (x_1 および x_2) で構成されます。ニューラル ネットワークのトレーニングは反復的なプロセスです。各反復では、トレーニング データセットからの新しいデータを使用して、ネットワーク ノードの重み係数が変更されます。全体の反復は、順方向計算と逆伝播の 2 つのプロセスで構成されます。

順方向計算: 各学習ステップは、トレーニング セットからの 2 つの入力信号から始まります。順方向計算が完了すると、ネットワークの各層の各ニューロンの出力信号値を決定できます (翻訳者注: トレーニング データ セットには隠し層のターゲット値がないため、隠し層のニューロンにはエラーはありません)。次の図は、信号がネットワークをどのように伝播するかを示しています。シンボル w(xm) は、ネットワーク入力 x_m とニューロン n 間の接続の重みを表します。シンボル y_n はニューロン n の出力信号を表します。

隠れ層信号伝播。シンボル w_mn は、ニューロン m の出力と次の層のニューロン n の入力間の接続重みを表します。

出力層信号伝播:

次のアルゴリズムステップでは、ネットワーク y の出力信号がトレーニング データセットの出力値 (ターゲット) と比較されます。この差は出力層ニューロンのエラー信号 δ と呼ばれます。

隠れ層ニューロンの出力値(トレーニング セットには隠れ層のターゲット値がありません)が不明であるため、内部ニューロンのエラー信号を直接計算することはできません。長年にわたり、多層ニューラル ネットワークをトレーニングするための効果的な方法は見つかっていません。バックプロパゲーションアルゴリズムが開発されたのは 1980 年代半ばになってからでした。バックプロパゲーション アルゴリズムは、エラー信号 δ (単一のトレーニング ステップで計算) をすべてのニューロンに伝播します。各ニューロンに対して、エラー信号がバックプロパゲーションされます。

エラーを伝播するために使用される重み係数 w_mn は、データフローの方向が変更される (信号が出力から入力に 1 つずつ伝播する) ことを除いて、順方向計算で使用される重み係数と同じです。このテクノロジーはすべてのネットワーク層で使用されます。エラーが複数のニューロンから発生した場合は、それらを合計します。下の図に示すように:

各ニューロンに対してエラー信号が計算され、各ニューロンの入力接続の重み係数を変更するために使用されます。以下の式では、df(e)/de はニューロン活性化関数の微分を表します。ニューロン活性化関数の導関数に加えて、重みに影響を与える要因には、逆伝播されたエラー信号と、ニューロン入力方向に接続された前のニューロンが含まれます。 (訳者注:ここでは導出過程は無視し、重みを変更する方法を直接示します。具体的な導出過程については、前回の記事「誤差逆伝播アルゴリズムの簡単な説明」を参照してください。原理は同じで、重みに影響を与える3つの要素が以下の式に反映されています。)

係数 η はネットワークのトレーニング速度に影響します。このパラメータを選択するにはいくつかの手法があります。最初のアプローチは、より大きなパラメータ値から始めることです。重み係数が確立されると同時に、パラメータは徐々に削減されます。 2 番目のアプローチは、小さなパラメータ値でトレーニングを開始することです。トレーニング中、パラメータは徐々に増加し、最終段階で再び減少します。低いパラメータ値でトレーニングプロセスを開始すると、重み係数を決定できます。

[この記事は51CTOのコラムニストであるShitouによるオリジナル記事です。転載する場合は著者のWeChat公開アカウントButianysから許可を得てください。]

この著者の他の記事を読むにはここをクリックしてください

<<:  [私はジャービスです]: FaceIDの背後にあるディープラーニング視覚アルゴリズムについて語る

>>:  顔スキャンの時代、顔認識起業家の進むべき道

ブログ    

推薦する

2019年に主流となった10のAIテクノロジー

1956年にコンピューターの専門家ジョン・マッカーシーが「人工知能」という言葉を作り出して以来、わず...

目から涙が溢れてきました!ビクーニャのデジタルツインは10年前の自分を再現し、10年間の対話は数え切れないほどの人々に影響を与えた

Reddit のネットユーザーが何か新しいことをやっている。彼は、自身のオンラインフットプリントデー...

AIによる創薬は2024年までに急成長すると予想

1月7日の最大のニュースの一つは、Google DeepMindの創設者デミス・ハサビス氏が率いるG...

オタクのためのオープンソースドローンプロジェクト4つ

[[178638]] [51CTO.com クイック翻訳]過去数年間で、民間および商用ドローンへの関...

Google 検索に AI による要約、定義、コーディングの改善が追加

Google 検索に AI による要約、定義、コーディングの改善が追加Google は、約 3 か月...

...

...

独身の日:XiaoIceの「バーチャルガールフレンド」が正式にリリースされ、複数のプラットフォームで使用可能に

本日、@小冰は、Xiaobingフレームワークの継続的なアップグレードにより、仮想ガールフレンドが正...

インベントリ | 知らないかもしれないディープラーニングの応用事例 8 つ

ディープラーニングは、多層人工ニューラル ネットワークを使用してコンピューター ビジョンから自然言語...

...

...

AI 転移学習はどのように機能しますか? AI モデルとトレーニング プロセスでどのような役割を果たすのでしょうか?

今日、AI プログラムは、写真やビデオ内の顔や物体を認識し、音声をリアルタイムで書き起こし、X 線ス...

エッジAI + コンピュータービデオが木製ラック業界に新たな風を吹き込む

北京、12月30日:インテリジェントな要素がエッジに向かって動いています。データ収集速度が向上するに...

音声認識:市場の見通しは有望だが、コア技術にはまだブレークスルーが必要

人工知能製品が私たちの生活の中でますます普及するにつれて、テクノロジーの発展は社会の関心の焦点となっ...

ついに、人工知能の3つの重要な機能を説明する人がいた。

人間の知性は広大かつ複雑です。人間の成果の中には、今日の機械では到底達成できないものもあり、機械がこ...