PyTorch | ニューラルネットワークのトレーニングを最適化する 17 の方法

[[442468]]

この記事では、PyTorch を使用して深層モデルをトレーニングするための最も労力を節約し、効果的な 17 の方法を紹介します。この記事で説明する方法はすべて、GPU 環境でモデルをトレーニングすることを前提としています。具体的な内容は以下のとおりです。

01. 学習率スケジュールの変更を検討する

学習率スケジュールの選択は、モデルの収束速度と一般化能力に大きな影響を与えます。 Leslie N. Smith らは、論文「ニューラルネットワークのトレーニングのための巡回学習率」および「スーパーコンバージェンス: 大きな学習率を使用したニューラルネットワークの非常に高速なトレーニング」で、巡回学習率と 1 サイクル学習率スケジュールを提案しました。これは後に fast.ai の Jeremy Howard 氏と Sylvain Gugger 氏によって普及されました。次の図は、1 サイクル学習率スケジュールの図です。

Sylvain 氏は次のように書いています: 1Cycle は、同じ長さの 2 つのステップで構成されます。1 つは、低い学習率から高い学習率へのステップで、もう 1 つは最低レベルに戻るステップです。最大値は学習率ファインダーによって選択された値から取得され、値が小さい場合は 10 分の 1 になることがあります。次に、このサイクルの長さはエポックの総数よりもわずかに小さくする必要があり、トレーニングの後期段階では、学習率が最小値よりも数桁小さくなるようにする必要があります。

最良の場合、このスケジュールは従来の学習率スケジュールと比較して大幅な高速化（スミスはこれをスーパーコンバージェンスと呼んでいます）を実現します。たとえば、ImageNet データセットで ResNet-56 をトレーニングするために 1Cycle 戦略を使用すると、トレーニングの反復回数は元の 1/10 に削減されますが、モデルのパフォーマンスは元の論文のレベルと依然として同等です。一般的なアーキテクチャとオプティマイザーでは、このスケジュールはうまく機能するようです。

Pytorch は、「torch.optim.lr_scheduler.CyclicLR」と「torch.optim.lr_scheduler.OneCycleLR」という 2 つのメソッドを実装しています。

参照ドキュメント: https://pytorch.org/docs/stable/optim.html

02. DataLoader で複数のワーカーとページロックされたメモリを使用する

torch.utils.data.DataLoader を使用する場合は、デフォルト値の 0 ではなく num_workers > 0 を設定し、デフォルト値の False ではなく pin_memory=True を設定します。

参照ドキュメント: https://pytorch.org/docs/stable/data.html

NVIDIA のシニア CUDA ディープラーニングアルゴリズムソフトウェアエンジニアである Szymon Micacz 氏は、4 つのワーカーとページロックされたメモリを使用して、1 つのエポックで 2 倍の高速化を達成したことがあります。ワーカーの数を選択する際によく使われる経験則は、利用可能な GPU の数の 4 倍に設定することです。これより多くても少なくても、トレーニングが遅くなります。 num_workers を増やすと CPU メモリの消費量が増加することに注意してください。

03. バッチサイズを最大に設定する

バッチサイズを最大化するという考えは議論の余地があります。一般的に、バッチサイズを GPU メモリが許す限り大きく設定すると、トレーニングが速くなります。ただし、学習率などの他のハイパーパラメータも調整する必要があります。経験則としては、バッチサイズが 2 倍になると学習率も 2 倍になるはずです。

OpenAI の論文「大規模バッチトレーニングの経験的モデル」では、さまざまなバッチサイズが収束するのに必要なステップ数について、優れたデモンストレーションが提供されています。論文「適切なバッチサイズを使用して 4 倍のスピードアップとより優れた一般化を実現する方法」の中で、著者の Daniel Huynh は、さまざまなバッチサイズ (前述の 1Cycle 戦略も使用) を使用していくつかの実験を実行しました。最終的に、バッチサイズを 64 から 512 に増やし、4 倍の高速化を達成しました。

ただし、大きなバッチサイズを使用することの欠点は、小さなバッチサイズを使用したソリューションよりも一般化の悪いソリューションが生成される可能性があることです。

04. 自動混合精度（AMP）を使用する

PyTorch 1.6 リリースには、PyTorch の自動混合精度トレーニングのネイティブ実装が含まれています。ここでのポイントは、一部の操作は、精度を失わずに、単精度 (FP32) よりも半精度 (FP16) でより高速に実行されることです。 AMP は、どの操作をどの精度で実行するかを自動的に決定します。これにより、トレーニングの速度が向上し、メモリ使用量が削減されます。

最良のシナリオでは、AMP の使用は次のようになります。

輸入トーチ 
 # トレーニングの開始時に1回作成します 
スケーラー= torch.cuda.amp.GradScaler ()  
データの場合、data_iter のラベル:  
   オプティマイザ.zero_grad()  
   # 演算を混合精度にキャストする 
   torch.cuda.amp.autocast() を使用する場合:  
損失=モデル(データ)  
   # 損失をスケールし、backward() を呼び出します 
   # スケールグラデーションを作成する 
   スケーラー.スケール(損失).後方()  
   # 勾配をスケール解除して呼び出します 
   # または optimizer.step() をスキップします 
   スケーラー.ステップ(オプティマイザー)  
   # 次の反復のスケールを更新します 
   スケーラー.更新()

05. 別のオプティマイザーの使用を検討する

AdamW は、fast.ai によって普及され、PyTorch で torch.optim.AdamW として実装されている、L2 正規化の代わりに重み減衰を使用する Adam のバージョンです。 AdamW は、エラーとトレーニング時間の両方で一貫して Adam を上回っているようです。

Adam と AdamW はどちらも、上記の 1Cycle 戦略に適しています。

現在、いくつかの非ローカル最適化装置も大きな注目を集めており、その中で最も有名なのは LARS と LAMB です。 NVIDA の APEX は、Adam などの一般的なオプティマイザーの融合バージョンを実装しています。 PyTorch の Adam 実装と比較すると、この実装では GPU メモリとの間の複数のパスが回避され、5% 高速化されます。

06. cudNNベンチマーク

モデルアーキテクチャが同じままで、入力サイズも同じままの場合は、torch.backends.cudnn.benchmark = True を設定します。

07. CPUとGPU間の頻繁なデータ転送に注意する

tensor.cpu() を使用してテンソルが GPU から CPU に (または tensor.cuda() を使用して CPU から GPU に) 頻繁に転送されると、コストが非常に高くなる可能性があります。 item() と .numpy() についても同様であり、これらは .detach() に置き換えることができます。

新しいテンソルを作成する場合は、キーワード引数 device=torch.device(cuda:0) を使用して GPU に割り当てることができます。

データを転送する必要がある場合は、転送後に同期ポイントがない限り、.to(non_blocking=True) を使用できます。

08. グラデーションを使用する/チェックポイントを有効にする

チェックポイントは、計算をメモリと交換することによって機能します。逆方向パスの計算グラフ全体のすべての中間アクティベーションを保存する代わりに、これらのアクティベーションが再計算されます。これをモデルのどの部分にも適用できます。

具体的には、フォワードパスでは、関数は torch.no_grad() モードで実行され、中間アクティベーションは保存されません。代わりに、フォワードパスは入力タプルと関数の引数を保存します。後方パスでは、入力と関数が取得され、前方パスが関数に対して再度評価されます。次に、中間活性化が追跡され、これらの活性化値を使用して勾配が計算されます。

したがって、これにより、特定のバッチサイズでの実行時間がわずかに長くなる可能性がありますが、メモリ使用量は大幅に削減されます。これにより、使用されるバッチサイズをさらに増やすことができ、GPU の使用率が向上します。

チェックポイントは torch.utils.checkpoint に実装されていますが、正しく実装するにはまだある程度の考慮と努力が必要です。 Priya Goyal は、チェックポイントの重要な側面を網羅した優れたチュートリアルを作成しました。

Priya Goyal チュートリアルアドレス:

https://github.com/prigoyal/pytorch_memonger/blob/master/tutorial/Checkpointing_for_PyTorch_models.ipynb

09. 勾配累積を使用する

バッチサイズを増やす別の方法は、optimizer.step() を呼び出す前に、複数の .backward() パスで勾配を蓄積することです。

Hugging Face の Thomas Wolf 氏の記事「大規模なバッチでのニューラルネットのトレーニング: 1 GPU、マルチ GPU、分散設定の実用的なヒント」では、勾配累積の使用方法を紹介しています。勾配の蓄積は次の方法で実現できます。

 model.zero_grad() # 勾配テンソルをリセットする 
 i、(入力、ラベル) を enumerate(training_set) で指定します。
予測=モデル(入力) # フォワードパス 
 loss = loss_function (predictions, labels) # 損失関数を計算する 
 loss loss = loss / acceleration_steps # 損失を正規化します（平均化されている場合）  
    loss.backward() # 後方パス 
    if (i+1) % acceleration_steps == 0: # 数ステップ後進するのを待つ 
        optimizer.step() # これでオプティマイザのステップを実行できます 
        model.zero_grad() # 勾配テンソルをリセットする 
        if (i+1) % evaluation_steps == 0: # 次の場合にモデルを評価します...  
            assess_model() # ...勾配が蓄積されない

この方法は主に GPU メモリの制限を回避するために開発されました。

10. 分散データ並列処理を使用したマルチGPUトレーニング

分散トレーニングを高速化する方法はたくさんありますが、簡単な方法は、torch.nn.DataParallel の代わりに torch.nn.DistributedDataParallel を使用することです。この方法では、各 GPU は専用の CPU コアによって駆動され、DataParallel の GIL 問題を回避します。

分散トレーニングドキュメントのアドレス: https://pytorch.org/tutorials/beginner/dist_overview.html

11. グラデーションを0ではなくNoneに設定する

勾配は、.zero_grad() ではなく .zero_grad(set_to_none=True) で設定されます。これを行うと、メモリアロケータは勾配を 0 に設定する代わりに、勾配を処理できるようになります。ドキュメントに記載されているように、gradient を None に設定すると、適度な速度向上が得られますが、奇跡は期待しないでください。ただし、これには欠点もあるので、詳細についてはドキュメントを参照してください。

ドキュメントアドレス: https://pytorch.org/docs/stable/optim.html

12. .tensor() の代わりに .as_tensor() を使用する

torch.tensor() は常にデータをコピーします。 numpy 配列を変換する場合は、データのコピーを回避するために torch.as_tensor() または torch.from_numpy() を使用します。

13. 必要に応じてデバッグツールを有効にする

PyTorch には、autograd.profiler、autograd.grad_check、autograd.anomaly_detection など、多くのデバッグツールが用意されています。デバッガーはトレーニングの速度を低下させるため、必要なときのみデバッガーを開き、必要のないときはオフにしてください。

14. グラデーションクリッピングを使用する

RNN における勾配爆発を回避する問題に関しては、勾配クリッピング (gradient = min(gradient, threshold)) によって収束を加速できることを確認する実験や理論がいくつか存在します。 HuggingFace の Transformer 実装は、グラデーションクリッピングの使用方法を示す非常に明確な例です。 AMP など、この記事で説明した他の方法もいくつか使用できます。

PyTorch では、torch.nn.utils.clip_grad_norm_ を使用してこれを実現できます。