Pytorchの核心部分である自動微分化を突破！！

こんにちは、Xiaozhuangです！

PyTorch での自動微分演算に関して、この論文では PyTorch での自動微分の概念を紹介します。

自動微分はディープラーニングフレームワークの重要な機能であり、機械学習モデルが勾配を自動的に計算し、パラメータの更新と最適化を実行できるようにします。

PyTorch は、動的な計算グラフと自動微分化メカニズムを通じて勾配計算をシンプルかつ柔軟にする、人気のディープラーニングフレームワークです。

自動微分

自動微分化とは、機械学習フレームワークが手動で微分コードを導出したり記述したりすることなく、関数の微分 (勾配) を自動的に計算できることを意味します。これはディープラーニングモデルのトレーニングにとって非常に重要です。モデルには通常、多数のパラメーターが含まれており、手動で勾配を計算すると複雑でエラーが発生しやすい作業になるためです。 PyTorch は自動微分関数を提供するため、ユーザーは簡単に勾配を計算し、バックプロパゲーションを実行してモデルパラメータを更新できます。

ちょっとした原則

PyTorch での自動微分化は、動的計算グラフに基づいています。計算グラフは関数の計算プロセスを表すグラフ構造であり、ノードは操作を表し、エッジはデータフローを表します。動的計算グラフの特徴は、計算グラフの構造を事前に定義するのではなく、実際の実行プロセスに応じて動的に生成できることです。

PyTorch では、ユーザーが実行するすべての操作が記録され、計算グラフが構築されます。勾配を計算する必要がある場合、PyTorch はこの計算グラフに基づいてバックプロパゲーションを実行し、損失関数の各パラメータの勾配を自動的に計算できます。動的な計算グラフに基づくこの自動導出メカニズムにより、PyTorch は柔軟でスケーラブルになり、さまざまな複雑なニューラルネットワーク構造に適しています。

自動微分の基本操作

1. テンソル

PyTorch では、テンソルは自動微分化のための基本的なデータ構造です。テンソルは、NumPy の配列に似た多次元配列ですが、自動微分などの追加機能があります。ユーザーは torch.Tensor クラスを通じてテンソルを作成し、それに対してさまざまな操作を実行できます。

 import torch # 创建张量x = torch.tensor([2.0], requires_grad=True)

上記の例では、requires_grad=True は、このテンソルを自動的に導出することを示します。

2. 計算グラフの構築

実行される各操作は、計算グラフにノードを作成します。 PyTorch は、加算、乗算、活性化関数など、計算グラフに痕跡を残すさまざまなテンソル演算を提供します。

 # 张量操作y = x ** 2 z = 2 * y + 3

上記の例では、y と z の計算プロセスが両方とも計算グラフに記録されます。

3. 勾配計算とバックプロパゲーション

計算グラフが構築されると、.backward() メソッドを呼び出してバックプロパゲーションを実行し、勾配を自動的に計算できます。

 # 反向传播z.backward()

この時点で、x.grad にアクセスすることで x の勾配を取得できます。

 # 获取梯度print(x.grad)

4. グラデーショントラッキングを無効にする

場合によっては、特定の操作に対して勾配追跡を無効にしたいことがあります。その場合は、torch.no_grad() コンテキストマネージャーを使用できます。

 with torch.no_grad(): # 在这个区域内的操作不会被记录在计算图中w = x + 1

5. グラデーションをクリアする

トレーニングループでは、通常、勾配の蓄積を避けるために、各バックプロパゲーションの前に勾配をゼロにする必要があります。

 # 清零梯度x.grad.zero_()

完全な例: 線形回帰の自動微分

自動微分化のプロセスをより具体的に説明するために、単純な線形回帰の問題を考えてみましょう。線形モデルと平均二乗誤差損失関数を定義し、自動微分を使用してモデルパラメータを最適化します。

 import torch # 数据准备X = torch.tensor([[1.0], [2.0], [3.0]]) y = torch.tensor([[2.0], [4.0], [6.0]]) # 模型参数w = torch.tensor([[0.0]], requires_grad=True) b = torch.tensor([[0.0]], requires_grad=True) # 模型和损失函数def linear_model(X, w, b): return X @ w + b def mean_squared_error(y_pred, y_true): return ((y_pred - y_true) ** 2).mean() # 训练循环learning_rate = 0.01 epochs = 100 for epoch in range(epochs): # 前向传播y_pred = linear_model(X, w, b) loss = mean_squared_error(y_pred, y) # 反向传播loss.backward() # 更新参数with torch.no_grad(): w -= learning_rate * w.grad b -= learning_rate * b.grad # 清零梯度w.grad.zero_() b.grad.zero_() # 打印最终参数print("训练后的参数：") print("权重w:", w) print("偏置b:", b)

この例では、単純な線形モデルと平均二乗誤差損失関数を定義します。複数回のトレーニングの繰り返しを通じて

トレーニングサイクルでは、モデルパラメーター w と b が最適化され、損失関数が最小化されます。