PyTorch ガイド: ディープラーニングモデルのトレーニングを高速化する 17 のヒント!

PyTorch でディープラーニングモデルをトレーニングする場合、モデルのトレーニングを高速化するにはどうすればよいでしょうか?

この記事では、最小限の変更で最大限の効果を発揮しながら、PyTorch のディープラーニングモデルを高速化する方法をいくつか紹介します。それぞれのアプローチについて、その背後にある考え方を簡単に説明し、改善率を推定し、その限界について説明します。重要だと思う部分を重点的に取り上げ、それぞれの部分でいくつか例を挙げてみます。次に、モデルのトレーニングに GPU を使用していると仮定します。これらの方法では、基本的に他のライブラリをインポートする必要はなく、pytorch の変更のみが必要です。

[[378697]]

推定される高速化に基づいて、さまざまな方法をランク付けすると次のようになります。

異なる学習率スケジュールの使用を検討する
DataLoader で複数のワーカープロセスとページロックメモリを使用する
バッチサイズの最大化
自動混合精度AMPの使用
さまざまな最適化を検討する
オープンcudNNベンチマーク
CPUとGPU間のデータ転送には注意してください
勾配/活性化チェックポイントの使用
勾配累積の使用
マルチGPU分散トレーニング
グラデーションを0ではなくNoneに設定する
.tensor() の代わりに .as_tensor() を使用する
必要なときのみデバッグモードを有効にする
グラデーションクリッピングの使用
BatchNorm の前にバイアスを無視する
検証中に勾配計算を無効にする
入力とバッチ処理の正規化

1. 異なる学習率スケジュールの使用を検討する

トレーニング中に使用される学習率スケジュールは、収束率とモデルの一般化能力に大きな影響を与える可能性があります。

Leslie N. Smith は巡回学習率法と 1 サイクル学習率法を提案し、その後 fast.ai の Jeremy Howard と Sylvain Gugger によって普及しました。一般的に、1Cycle 学習率法は次の図に示されます。

最良の場合、この戦略は従来の学習率スケジュールと比較して大幅な高速化を達成できます。スミス氏はこれを「スーパーコンバージェンス」と呼んでいます。たとえば、1Cycle 戦略を使用すると、ImageNet での ResNet-56 トレーニングの反復回数を 10 倍減らして、元の論文のパフォーマンスに一致させることができます。この戦略は、一般的なアーキテクチャとオプティマイザー全体でうまく機能するようです。

PyTorch は、この操作を実装するために torch.optim.lr_scheduler.CyclicLR と torch.optim.lr_scheduler.OneCycleLR の 2 つのメソッドを提供します。関連ドキュメントを参照してください。

どちらの方法にも欠点は、多くの追加のハイパーパラメータが導入されることです。この記事とリポジトリでは、適切なハイパーパラメータ（上記の学習率を含む）を見つける方法の詳細な概要と実装について説明します。

なぜこれが行われるのでしょうか? 現時点では完全には明らかではありませんが、考えられる説明の 1 つは、学習率を定期的に増加させることで、損失の鞍点をより早く通過できるようになるということです。

2. DataLoaderで複数のワーカープロセスとページロックメモリを使用する

torch.utils.data.DataLoader を使用する場合は、デフォルト値の 0 ではなく num_workers > 0 を設定し、デフォルト値の False ではなく pin_memory=True を設定します。なぜそうするのかについては、この記事で答えがわかります。

上記のアプローチに従って、Szymon Micacz は 4 つのワーカーとページロックされたメモリを使用して、1 つのエポックで 2 倍の高速化を達成しました。

経験則として、プロセス数は利用可能な GPU の数の 4 倍に設定します。この値より大きくまたは小さくすると、トレーニングが遅くなります。ただし、num_workers を増やすと CPU とメモリの消費量が増加することに注意してください。

3. バッチサイズを最大化する

バッチサイズを増やすかどうかについては、常に意見が分かれています。一般的に、バッチサイズを大きくすると、GPU メモリが許せばトレーニング速度が向上しますが、学習率などの他のハイパーパラメータも調整する必要があります。経験則として、バッチサイズが 2 倍になると、学習率もそれに応じて 2 倍になります。

OpenAI の論文では、バッチサイズが異なると収束期間も異なることが示されています。 Daniel Huynh 氏は、さまざまなバッチサイズ (上記の 1Cycle 戦略を使用) でいくつかの実験を行い、バッチサイズを 64 から 512 に増やして 4 倍の高速化を達成しました。

ただし、バッチサイズが大きくなるとモデルの一般化能力が低下し、その逆も同様であることに注意してください。

4. 自動混合精度AMPを使用する

PyTorch 1.6 はネイティブの自動混合精度トレーニングをサポートします。一部の操作では、精度を損なわずに、単精度 (FP32) よりも半精度 (FP16) を使用した方が高速になります。 AMP は、どの操作をどの精度で実行するかを自動的に決定できるため、トレーニングを高速化し、メモリ使用量を削減できます。

AMP の使用方法は次のとおりです。

 import torch# trainingscaler = torch.cuda.amp.GradScaler()の始めに一度作成します。for data, label in data_iter:
  オプティマイザ.zero_grad()
  # 演算を混合精度にキャストする 
 torch.cuda.amp.autocast()を使用する場合:
     損失 = モデル(データ)
  # 損失をスケールし、 backward() を呼び出します
  ＃に スケールグラデーションを作成する
  スケーラー.スケール(損失).後方()
  # 勾配をスケール解除して呼び出します
  #またはoptimizer.step() をスキップします
  スケーラー.ステップ(オプティマイザー)
  # スケールを更新します 次の反復
  スケーラー.更新()

Huang 氏とその同僚は、NVIDIA V100 GPU 上でいくつかの一般的な言語モデルとビジョンモデルのベンチマークを実施し、FP32 トレーニングで AMP を使用するとトレーニング速度が約 2 倍、最大 5.5 倍向上することを発見しました。

現在、上記の方法をサポートしているのは CUDA のみです。詳細については、このドキュメントを参照してください。

5. さまざまな最適化を検討する

AdamW は fast.ai によって提案された重み減衰 (L2 正則化ではない) を備えた Adam であり、torch.optim.AdamW を通じて PyTorch に実装されています。 AdamW はエラーとトレーニング時間の両方で Adam を上回ります。体重減少がアダムの働きを良くする理由については、この記事をご覧ください。

Adam と AdamW はどちらも、上記の 1Cycle 戦略に適しています。

さらに、LARS や LAMB などの他の最適化ツールも広く注目を集めています。

NVIDA の APEX は、Adam などの一般的なオプティマイザーを最適化して統合します。PyTorch のオリジナルの Adam と比較すると、GPU メモリ間の複数の転送が回避されるため、トレーニング速度が約 5% 向上します。

6. cudNNベンチマークを開く

モデルアーキテクチャが固定されており、入力サイズが一定である場合は、torch.backends.cudnn.benchmark = True に設定すると、モデルの速度が向上する可能性があります (ヘルプドキュメント)。 cudNN オートチューナーを有効にすると、cudNN で畳み込みを計算する複数の方法をベンチマークし、最も高速なものを選択できます。

高速化効果に関しては、Szymon Migacz は、前方畳み込みで速度を 70% 向上させ、前方および後方同時畳み込みで速度を 27% 向上させました。

上記の方法に従ってバッチサイズを最大化する場合、この自動調整には非常に時間がかかる可能性があることに注意してください。

7. CPUとGPU間のデータ転送に注意してください

テンソルは、tensor.cpu() を介して GPU から CPU に転送でき、その逆の場合は tensor.cuda() を使用しますが、このようなデータ変換のコストは高くなります。 .item() と .numpy() の使用についても同様です。.detach() を使用することをお勧めします。

新しいテンソルを作成する場合は、キーワード引数 device=torch.device('cuda:0') を使用して、それを GPU に直接割り当てます。

データを転送するには .to(non_blocking=True) を使用するのが最適ですが、転送後に同期ポイントがないことを確認してください。

Santosh Gupta の SpeedTorch も試してみる価値がありますが、速度が上がるかどうかは完全には明らかではありません。

8. 勾配/活性化チェックポイントを使用する

チェックポイントは計算をメモリに保存することによって機能します。チェックポイントは、バックプロパゲーションアルゴリズムの実行中に計算グラフの中間アクティベーションを保存しませんが、バックプロパゲーション中に再計算され、モデルの任意の部分に使用できます。

具体的には、フォワードパスでは、関数は torch.no_grad() で実行され、中間アクティベーションは保存されません。代わりに、フォワードパスは入力タプルと関数の引数を保存します。バックプロパゲーション中、保存された入力と関数が取得され、関数を介して再度順方向に伝播され、中間アクティベーションが記録され、これらのアクティベーション値を使用して勾配が計算されます。

したがって、特定のバッチサイズの場合、実行時間はわずかに長くなる可能性がありますが、メモリ消費量は大幅に削減されます。その結果、バッチサイズをさらに増やすことができ、GPU をより有効に活用できるようになります。

チェックポイントは torch.utils.checkpoint を通じて簡単に実装できますが、そのアイデアと本質は依然として必要です。 Priya Goyal のチュートリアルでは、チェックポイントの重要な考え方のいくつかが明確に説明されており、一読することをお勧めします。

9. 勾配累積を使用する

バッチサイズを増やす別の方法は、Optimizer.step() を呼び出す前に、複数の .backward() パスにわたって勾配を蓄積することです。

Hugging Face の Thomas Wolf が公開した記事によると、勾配累積は次のように実装できます。

 model.zero_grad() # 勾配テンソルをリセットしますfor i, (inputs, labels) in enumerate(training_set):
   predictions = model(inputs) #フォワードパス
   loss = loss_function(predictions, labels) # 損失関数を計算する     
   loss = loss / acceleration_steps # 損失を正規化します（平均化されている場合）
   loss.backward() # 後方パス
   if (i+1) % acceleration_steps == 0: #数ステップ後進するのを待つ
       optimizer.step() # これでオプティマイザのステップを実行できます
       model.zero_grad() # 勾配テンソルをリセットする
   if (i+1) % evaluation_steps == 0: # 次の場合にモデルを評価します...
       assess_model() # ...勾配は蓄積されていない

このアプローチは主に GPU メモリの制限を回避するためのものですが、他の .backward() ループとのトレードオフについてはよくわかりません。 fastai フォーラムでの議論では、実際にトレーニングがスピードアップする可能性があることが示されているため、試してみる価値があるかもしれません。詳細については、GitHub の rawgradient_accumulation.py を参照してください。

10. マルチGPU分散トレーニング

分散トレーニングでモデルを高速化する簡単な方法は、torch.nn.DataParallel の代わりに torch.nn.DistributedDataParallel を使用することです。この方法では、各 GPU は専用の CPU コアによって駆動されるため、DataParallel の GIL の問題を回避できます。

詳細については、分散トレーニング関連のドキュメントを読むことを強くお勧めします。

 PyTorch 分散概要 — PyTorch チュートリアル 1.7.0 ドキュメント

11. グラデーションを0ではなくNoneに設定する

.zero_grad() の代わりに .zero_grad(set_to_none=True) を設定します。

この方法では、メモリアロケータは、勾配を積極的に 0 に設定するのではなく、勾配を処理します。これにより、ドキュメントに示されているように、適度な速度向上が得られるはずですが、あまり期待しないでください。

これには副作用がないことに注意してください。詳細についてはドキュメントをお読みください。

12. .tensor() の代わりに .as_tensor() を使用する

torch.tensor() は基本的にデータをコピーするので、numpy 配列を変換する場合は、データのコピーを避けるために torch.as_tensor() または torch.from_numpy() を使用します。

13. 必要なときだけデバッグモードを有効にする

Pytorch には、autograd.profiler、autograd.grad_check、autograd.anomaly_detection など、多くのデバッグツールが用意されています。これらのデバッグツールを使用するときは注意してください。これらは明らかにトレーニング速度に影響するため、必要がない場合はオフにしてください。

14. グラデーションクリッピングを使用する

RNN における勾配爆発を回避するために、勾配クリッピング gradient = min(gradient, threshold) を使用すると収束を加速することができ、これは理論と実験によって裏付けられています。

Hugging Face の Transformer は、グラデーションクリッピングを AMP などの他の方法と効果的に組み合わせる明確な例を示しています。

PyTorch では、torch.nn.utils.clip_grad_norm_ を使用してこれを行うこともできます (ドキュメントを参照)。

どのモデルが勾配クリッピングの恩恵を受けることができるかは完全にはわかりませんが、RNN、Transformer ベースのモデル、および ResNet のさまざまなオプティマイザーでは確実に機能するようです。

15. BatchNorm の前にバイアスを無視する

シンプルで効果的なアプローチは、BatchNormalization レイヤーの前のレイヤーのバイアスをオフにすることです。 2D 畳み込み層の場合、bias キーワードを False に設定することでこれを実現できます (つまり、torch.nn.Conv2d(...,bias=False,...))。これがどのように機能するかを理解するには、ドキュメントをお読みください。

他の方法と比較して、この方法は速度が向上します。

16. 検証中に勾配計算を無効にする

モデルの検証中にtorch.no_grad()を使用する

17. 入力とバッチ処理の正規化

すでに実行しているかもしれませんが、もう一度確認してください。

入力は正規化されていますか?
バッチ処理を正規化しますか?

その他のヒント: ポイントごとの融合に JIT を使用する

隣接するポイント単位の操作を実行する場合は、PyTorch JIT を使用してそれらを FusionGroup に結合し、デフォルトの複数のコアではなく単一のコアで起動しながら、読み取りと書き込み用のメモリを節約できます。

Szymon Migacz は、次のように @torch.jit.script デコレータを使用して GELU 操作を融合する方法を示しています。

 @torch.jit.scriptdef fused_gelu(x): x * 0.5 * (1.0 + torch.erf(x / 1.41421))を返します

これらの操作を融合すると、fused_gelu は融合されていないバージョンよりも 5 倍高速に実行されます。

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

<<: AIopsにおける人工知能

>>: AIと機械学習でデータセンターを強化

PyTorch ガイド: ディープラーニングモデルのトレーニングを高速化する 17 のヒント!

暑い天候で火災が続発、消防ロボットが救助活動に活躍

より賢い人工知能が人間に取って代わるのはもうすぐなのでしょうか?

将来、人工知能は人間の意思決定に取って代わることができるでしょうか?

機械学習プロジェクトを管理および組織化する方法

2021年になっても、データにラベルを付ける方法がまだわかりませんか?なぜ人工知能にはデータ注釈が必要なのでしょうか?

深度はディープニューラルネットワークに具体的に何をもたらすのでしょうか?

ボストンのロボットが話題になった後、別のヒューマノイドロボットがデビューした

初心者に適した機械学習アルゴリズムの選び方

推薦する

ニューラルネットワークが適切に機能するには、なぜ十分なパラメータが必要なのでしょうか?

機械学習があなたの好きな音楽を発見する方法: パーソナライズされた音楽推奨の背後にある科学

浙江大学の「ホッキョクグマセーター」がサイエンス誌に掲載、ダウンジャケットの5倍の断熱効果

2021 年のイノベーションを形作る 5 つのテクノロジートレンド

ガートナーは、2025年までにクラウドデータセンターの半数がAI機能を備えたロボットを導入すると予測している。

残念ながら、自然言語理解はAIがまだ克服していない分野である。

深い思考：テイクアウトの背後にある人工知能アルゴリズムの秘密

ビジネス AI とデータの課題に対処する垂直インテリジェンス

機械学習における分類タスクの共通評価指標とPythonコード実装

DeepMindがAIツールGNoMEをリリース、220万個の新しい結晶材料を発見したと主張

強化学習のゴッドファーザーによる新しい論文では、意思決定エージェントの普遍的なモデルを探求しています。学際的な共通点を見つける

データセキュリティを保護しながらAIタスクを加速

AI革命をリードする：企業がAIアプリケーションを推進するためのベストプラクティス

数十億のプロモーショントラフィックでも正確な推奨を行うことは可能でしょうか?コアアルゴリズムの応用実践の解釈

AIのリスクと安全性をどのように管理するのか?