3つの勾配降下法アルゴリズム（BGD、SGD、MBGD）の違い

序文

ネットワークをトレーニングするときに、batch_size を設定することがよくあります。この batch_size は何に使用されますか? 10,000 枚の画像のデータセットはどのくらいの大きさにする必要がありますか? これを 1、10、100、または 10,000 に設定するとどのような違いがありますか?

 # 手書き数字認識ネットワークのトレーニング方法 
ネットワーク.fit(  
列車画像、  
トレーニングラベル、  
エポック=5,  
バッチサイズ=128)

バッチ勾配降下法 (BGD)

勾配降下法アルゴリズムは、一般的に損失関数を最小化するために使用されます。元のデータをネットワークに入力すると、ネットワークは特定の計算を実行し、ネットワークの計算結果と実際の状況のギャップを表す損失関数を取得します。勾配降下法アルゴリズムは、トレーニングされた結果が実際の状況により適合するようにパラメータを調整するために使用されます。これが勾配降下法の意味です。

バッチ勾配降下法は、勾配降下法の最も原始的な形式です。その考え方は、すべてのトレーニングデータを使用して勾配をまとめて更新することです。勾配降下法アルゴリズムでは、損失関数の導関数を見つける必要があります。トレーニングデータセットが比較的大きい場合は、すべてのデータをまとめて読み込み、ネットワークでまとめてトレーニングし、合計する必要があると考えられます。これは巨大な行列になり、計算量も非常に膨大になります。もちろん、これには利点もあります。つまり、すべてのトレーニングセットが考慮されるため、ネットワークは最適な (極端な) 方向に最適化される必要があります。

確率的勾配降下法 (SGD)

バッチ勾配降下法とは異なり、確率的勾配降下法の考え方は、一度に 1 つのトレーニングセットを取り出してフィッティングトレーニングを実行し、反復トレーニングを実行するというものです。トレーニングプロセスでは、まずトレーニングデータを取り出し、ネットワークパラメータを修正して適合させ、パラメータを変更します。次に、次のトレーニングデータを取り出し、修正したばかりのネットワークを使用して適合させてパラメータを変更します。これを繰り返して、各データがネットワークに入力されるまで繰り返し、パラメータが比較的安定するまで繰り返します。利点は、各フィッティングに 1 つのトレーニングデータのみが使用され、更新の反復の各ラウンドが非常に高速になることです。欠点は、フィッティングが実行されるたびに 1 つのトレーニングデータのみが考慮され、最適化の方向がトレーニングセット内のネットワークの全体的な最適方向であるとは限らず、多くの場合、ジッタが発生したり、ローカル最適値に収束したりすることです。

ミニバッチ勾配降下法 (MBGD)

ミニバッチ勾配降下法は、今でもコンピューターで最も一般的に使用されている妥協案を使用しています。ネットワークがトレーニングされるたびに、トレーニングデータセット全体ではなく、トレーニングデータセット内の特定のデータセットでもなく、その一部、たとえば毎回 20 個の入力がトレーニングされます。これにより、データ量が多すぎて計算が遅くなったり、特定のトレーニングサンプルの特定のノイズ特性によってネットワークが激しく振動したり、最適でない方向に最適化されたりすることがなくなると考えられます。

これら 3 つの勾配降下アルゴリズムの計算方法を比較します。バッチ勾配降下法は大きな行列に対する演算であり、行列計算の最適化を使用して並列計算を実行することを検討できますが、メモリなどのハードウェア性能に対する要件が高くなります。ランダム勾配降下法の各反復は前の計算結果に依存するため、並列計算はできず、ハードウェア要件は低くなります。また、小さなバッチ勾配降下法では、各反復はより小さな行列であり、ハードウェア要件は高くありません。同時に、行列演算は並列計算でき、複数の反復間でシリアル計算が使用されるため、全体的に時間が節約されます。

下の図を見ると、3 つの勾配降下アルゴリズムによるネットワークの最適化の反復プロセスがよりよく反映されており、より直感的な印象を与えることができます。

要約する

勾配降下アルゴリズムの調整では、トレーニングデータセットが非常に小さい場合は、バッチ勾配降下法を直接使用できます。一度に取得できるトレーニングデータが 1 つだけの場合、またはトレーニングデータがリアルタイムでオンラインで送信される場合は、確率的勾配降下法を使用できます。その他の場合や一般的な場合は、バッチ勾配降下アルゴリズムを使用する方が適切です。

<<: 今年の主要リリース: 人工知能開発レポート 2020

>>: IDC: 2021 年の中国スマートデバイス市場に関するトップ 10 の予測