3つの勾配降下法アルゴリズム(BGD、SGD、MBGD)の違い

3つの勾配降下法アルゴリズム(BGD、SGD、MBGD)の違い

序文

ネットワークをトレーニングするときに、batch_size を設定することがよくあります。この batch_size は何に使用されますか? 10,000 枚の画像のデータセットはどのくらいの大きさにする必要がありますか? これを 1、10、100、または 10,000 に設定するとどのような違いがありますか?

  1. # 手書き数字認識ネットワークのトレーニング方法 
  2. ネットワーク.fit(  
  3. 列車画像、  
  4. トレーニングラベル、  
  5. エポック=5,  
  6. バッチサイズ=128)

バッチ勾配降下法 (BGD)

勾配降下法アルゴリズムは、一般的に損失関数を最小化するために使用されます。元のデータをネットワークに入力すると、ネットワークは特定の計算を実行し、ネットワークの計算結果と実際の状況のギャップを表す損失関数を取得します。勾配降下法アルゴリズムは、トレーニングされた結果が実際の状況により適合するようにパラメータを調整するために使用されます。これが勾配降下法の意味です。

バッチ勾配降下法は、勾配降下法の最も原始的な形式です。その考え方は、すべてのトレーニング データを使用して勾配をまとめて更新することです。勾配降下法アルゴリズムでは、損失関数の導関数を見つける必要があります。トレーニング データ セットが比較的大きい場合は、すべてのデータをまとめて読み込み、ネットワークでまとめてトレーニングし、合計する必要があると考えられます。これは巨大な行列になり、計算量も非常に膨大になります。もちろん、これには利点もあります。つまり、すべてのトレーニング セットが考慮されるため、ネットワークは最適な (極端な) 方向に最適化される必要があります。

確率的勾配降下法 (SGD)

バッチ勾配降下法とは異なり、確率的勾配降下法の考え方は、一度に 1 つのトレーニング セットを取り出してフィッティング トレーニングを実行し、反復トレーニングを実行するというものです。トレーニング プロセスでは、まずトレーニング データを取り出し、ネットワーク パラメータを修正して適合させ、パラメータを変更します。次に、次のトレーニング データを取り出し、修正したばかりのネットワークを使用して適合させてパラメータを変更します。これを繰り返して、各データがネットワークに入力されるまで繰り返し、パラメータが比較的安定するまで繰り返します。利点は、各フィッティングに 1 つのトレーニング データのみが使用され、更新の反復の各ラウンドが非常に高速になることです。欠点は、フィッティングが実行されるたびに 1 つのトレーニング データのみが考慮され、最適化の方向がトレーニング セット内のネットワークの全体的な最適方向であるとは限らず、多くの場合、ジッタが発生したり、ローカル最適値に収束したりすることです。

ミニバッチ勾配降下法 (MBGD)

ミニバッチ勾配降下法は、今でもコンピューターで最も一般的に使用されている妥協案を使用しています。ネットワークがトレーニングされるたびに、トレーニング データ セット全体ではなく、トレーニング データ セット内の特定のデータ セットでもなく、その一部、たとえば毎回 20 個の入力がトレーニングされます。これにより、データ量が多すぎて計算が遅くなったり、特定のトレーニング サンプルの特定のノイズ特性によってネットワークが激しく振動したり、最適でない方向に最適化されたりすることがなくなると考えられます。

これら 3 つの勾配降下アルゴリズムの計算方法を比較します。バッチ勾配降下法は大きな行列に対する演算であり、行列計算の最適化を使用して並列計算を実行することを検討できますが、メモリなどのハードウェア性能に対する要件が高くなります。ランダム勾配降下法の各反復は前の計算結果に依存するため、並列計算はできず、ハードウェア要件は低くなります。また、小さなバッチ勾配降下法では、各反復はより小さな行列であり、ハードウェア要件は高くありません。同時に、行列演算は並列計算でき、複数の反復間でシリアル計算が使用されるため、全体的に時間が節約されます。

下の図を見ると、3 つの勾配降下アルゴリズムによるネットワークの最適化の反復プロセスがよりよく反映されており、より直感的な印象を与えることができます。

要約する

勾配降下アルゴリズムの調整では、トレーニング データ セットが非常に小さい場合は、バッチ勾配降下法を直接使用できます。一度に取得できるトレーニング データが 1 つだけの場合、またはトレーニング データがリアルタイムでオンラインで送信される場合は、確率的勾配降下法を使用できます。その他の場合や一般的な場合は、バッチ勾配降下アルゴリズムを使用する方が適切です。

<<:  今年の主要リリース: 人工知能開発レポート 2020

>>:  IDC: 2021 年の中国スマート デバイス市場に関するトップ 10 の予測

ブログ    
ブログ    

推薦する

「黄金の3月と銀の4月」が到来し、AIはすでに人材採用の分野に浸透しています。あなたにはどのような影響があるでしょうか?

2017年と比べると、最近の人工知能分野のニュースは人々を怒らせることはほとんどないようだ。おそら...

元Googleロボット部門責任者が伸縮自在のアシスタントロボットを開発

海外メディアの報道によると、過去3年間、グーグルの元ロボット工学部長であるアーロン・エドシンガー博士...

ザッカーバーグ氏がCharacter.AIの1:1レプリカである仮想チャットAIをリリース?ユーザーの不満: 設定が古すぎる

ユーザーがTikTokにどんどん奪われ、毎日のアクティブユーザー数が減り続けているという現実に直面し...

2021 年の年収 100 万ドルの AI 職種のトレンド: データ サイエンス、Python、自動運転、AIOps に注目していますか?

今年も終わりですね! 2021年が近づいてきました。今年は流行が落ち着いてきましたが、AIの発展は止...

AIと機械学習を活用して工場の安全を守る

自動化されたセキュリティの将来には機械学習が関与するでしょう。人工知能と機械学習の進歩により、ロボッ...

ヘルスケアにおける GenAI の利点

ビッグデータと AI の活用により、患者が生成する膨大な量の情報の処理と分析が大幅に容易になりました...

顧客体験を改善できませんか? AIを試してみませんか?

いつの時代も、顧客獲得競争は企業にとって永遠の課題です。AI技術がある程度発達した現在、多くの企業が...

PaddlePaddleのクリック率に基づくディープラーニング手法の試み

序文チーム内でクリック率に関する記事をいくつか共有した際に、広告のクリック率の推定値を計算する一般的...

単語の順序はGPT-4の読解力には影響しないが、他の大規模モデルでは影響しない。

研究によると、漢字の文字の順序は必ずしも読み方に影響しない(英語の場合は各単語の文字の順序が影響する...

...

人工知能開発の動向

ケビン・ケリー氏は「人工知能は人類社会を混乱させる次のものだ」と語った。 2020年は、全世界が前例...

AIが将来のスマートマスモビリティソリューションへの道を切り開く

2030年までに人口の60%が都市部に住むようになると推定されています。現在そして将来に必要な条件は...

工業情報化部:5G、人工知能などの技術を活用し、中小企業の業務・生産再開を支援

工業情報化部は4月9日、「工業情報化部弁公室による2020年の業務・生産再開を支援するための中小企業...

1つのモデルで8つの視覚タスクを処理し、1つの文で画像と動画を生成できます。

[[437247]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitA...