Pytorch の核心であるオプティマイザを突破! !

Pytorch の核心であるオプティマイザを突破! !

こんにちは、Xiaozhuangです!

今日は Pytorch のオプティマイザーについてお話します。

ディープラーニングにおけるオプティマイザーの選択は、モデルのトレーニング効果と速度に直接影響します。さまざまな最適化ツールがさまざまな問題に適しており、それらのパフォーマンスの違いにより、モデルの収束が速くなり、安定したり、特定のタスクのパフォーマンスが向上したりする場合があります。

したがって、適切なオプティマイザーを選択することは、ディープラーニング モデルのチューニングにおいて重要な決定であり、モデルのパフォーマンスとトレーニング効率に大きな影響を与える可能性があります。

PyTorch 自体は、ニューラル ネットワークをトレーニングするときにモデルの重みを更新するための多くのオプティマイザーを提供します。

一般的なオプティマイザー

まず、PyTorch でよく使用されるオプティマイザーをリストし、簡単に紹介しましょう。

(1)SGD(確率的勾配降下法)

確率的勾配降下法は、最も基本的な最適化アルゴリズムの 1 つです。これは、重みに対する損失関数の勾配を計算し、勾配の負の方向に沿って重みを更新することによって行われます。

 optimizer = torch.optim.SGD(model.parameters(), lr=learning_rate)

(2)アダム

Adam は、AdaGrad と RMSProp のアイデアを組み合わせた、適応学習率を備えた最適化アルゴリズムです。各パラメータに対して異なる学習率を適応的に計算できます。

 optimizer = torch.optim.Adam(model.parameters(), lr=learning_rate)

(3)アダグラード

Adagrad は、パラメータの履歴勾配に応じて学習率を調整する、適応学習率を備えた最適化アルゴリズムです。ただし、学習率は徐々に低下するため、トレーニングが途中で停止する可能性があります。

 optimizer = torch.optim.Adagrad(model.parameters(), lr=learning_rate)

(4)RMSProp

RMSProp は、勾配のスライディング平均を考慮して学習率を調整する適応学習率アルゴリズムでもあります。

 optimizer = torch.optim.RMSprop(model.parameters(), lr=learning_rate)

(5)アダデルタ

Adadelta は適応学習率を備えた最適化アルゴリズムです。RMSProp の改良版であり、勾配の移動平均とパラメータの移動平均を考慮して学習率を動的に調整します。

 optimizer = torch.optim.Adadelta(model.parameters(), lr=learning_rate)

完全なケース

ここでは、PyTorch を使用して、手書き数字認識用の単純な畳み込みニューラル ネットワーク (CNN) をトレーニングする方法について説明します。

このケースでは、MNIST データセットを使用し、Matplotlib ライブラリを使用して損失曲線と精度曲線をプロットします。

 import torch import torch.nn as nn import torch.optim as optim from torchvision import datasets, transforms from torch.utils.data import DataLoader import matplotlib.pyplot as plt # 设置随机种子torch.manual_seed(42) # 定义数据转换transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.5,), (0.5,))]) # 下载和加载MNIST数据集train_dataset = datasets.MNIST(root='./data', train=True, download=True, transform=transform) test_dataset = datasets.MNIST(root='./data', train=False, download=True, transform=transform) train_loader = DataLoader(train_dataset, batch_size=64, shuffle=True) test_loader = DataLoader(test_dataset, batch_size=1000, shuffle=False) # 定义简单的卷积神经网络模型class CNN(nn.Module): def __init__(self): super(CNN, self).__init__() self.conv1 = nn.Conv2d(1, 32, kernel_size=3, stride=1, padding=1) self.relu = nn.ReLU() self.pool = nn.MaxPool2d(kernel_size=2, stride=2) self.conv2 = nn.Conv2d(32, 64, kernel_size=3, stride=1, padding=1) self.fc1 = nn.Linear(64 * 7 * 7, 128) self.fc2 = nn.Linear(128, 10) def forward(self, x): x = self.conv1(x) x = self.relu(x) x = self.pool(x) x = self.conv2(x) x = self.relu(x) x = self.pool(x) x = x.view(-1, 64 * 7 * 7) x = self.fc1(x) x = self.relu(x) x = self.fc2(x) return x # 创建模型、损失函数和优化器model = CNN() criterion = nn.CrossEntropyLoss() optimizer = optim.Adam(model.parameters(), lr=0.001) # 训练模型num_epochs = 5 train_losses = [] train_accuracies = [] for epoch in range(num_epochs): model.train() total_loss = 0.0 correct = 0 total = 0 for inputs, labels in train_loader: optimizer.zero_grad() outputs = model(inputs) loss = criterion(outputs, labels) loss.backward() optimizer.step() total_loss += loss.item() _, predicted = torch.max(outputs.data, 1) total += labels.size(0) correct += (predicted == labels).sum().item() accuracy = correct / total train_losses.append(total_loss / len(train_loader)) train_accuracies.append(accuracy) print(f"Epoch {epoch+1}/{num_epochs}, Loss: {train_losses[-1]:.4f}, Accuracy: {accuracy:.4f}") # 绘制损失曲线和准确率曲线plt.figure(figsize=(10, 5)) plt.subplot(1, 2, 1) plt.plot(train_losses, label='Training Loss') plt.title('Training Loss') plt.xlabel('Epoch') plt.ylabel('Loss') plt.legend() plt.subplot(1, 2, 2) plt.plot(train_accuracies, label='Training Accuracy') plt.title('Training Accuracy') plt.xlabel('Epoch') plt.ylabel('Accuracy') plt.legend() plt.tight_layout() plt.show() # 在测试集上评估模型model.eval() correct = 0 total = 0 with torch.no_grad(): for inputs, labels in test_loader: outputs = model(inputs) _, predicted = torch.max(outputs.data, 1) total += labels.size(0) correct += (predicted == labels).sum().item() accuracy = correct / total print(f"Accuracy on test set: {accuracy * 100:.2f}%")

上記のコードでは、単純な畳み込みニューラル ネットワーク (CNN) を定義し、クロス エントロピー損失と Adam オプティマイザーを使用してトレーニングします。

トレーニング プロセス中に、各エポックの損失と精度を記録し、Matplotlib ライブラリを使用して損失曲線と精度曲線をプロットしました。

私はXiaozhuangです。また次回お会いしましょう!

<<:  Googleは「ロボット工学の3原則」をシステムに導入:ロボットが人間に危害を加えることを厳しく防止

>>:  AIを活用して衛星画像を判別、世界初「全世界の船舶足跡マップ」を公開

ブログ    
ブログ    

推薦する

複合 AI: エンタープライズ AI の成功の鍵

最近、Dynatrace は、AI への投資が増加し続けるにつれて、「複合 AI」が企業による AI...

手動設計は不要、検索損失関数をゼロから作成

[[390709]]近年、自動機械学習(AutoML)は、モデル構造やトレーニング戦略など、多くのデ...

おそらく2030年までに、量子コンピューティングのChatGPTの瞬間が到来するだろう

2030 年までに RSA 暗号を解読できるマシンが登場するでしょうが、まずは量子センシングやその他...

ワンクリックで 2D GAN を「3D」化、CUHK が教師なし 3D 再構築の新しい方法を提案

CUHK の MMLab チームによるこの研究は、2 次元 GAN がオブジェクトの 3 次元構造を...

あなたが知らないかもしれないゲームにおける AI に関する 5 つの予測

仮想現実ゲームの発展により、ゲームのプレイ方法や交流の仕方が急速に変化しています。仮想現実はゲームの...

AI: データ駆動型企業への次のステップ

[[424113]]今日、ほとんどの人は、必要に応じて即座にビジネス イベントを感知し対応できる、デ...

LRUキャッシュの実装アルゴリズムについて議論しましょう

ビジネスモデル読み取り、書き込み、削除の比率はおよそ 7:3:1 です。少なくとも 500 万個のキ...

ベクトル監視なしのベクトル画像生成アルゴリズムがCVPR 2021に選出

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

推薦システムで学ぶべき対照的な学習方法

みなさんこんにちは。私はDiaobaiです。今日は、レコメンデーションシステムで学ぶべき対照学習法に...

...

物理学者は神の粒子を研究するためのアルゴリズムを開発するためにプログラマーを招待する

Wired 誌は、大型ハドロン衝突型加速器の物理学者たちが、ヒッグス粒子の特性を明らかにするプログラ...

...

マスク氏は、将来は人間よりもロボットの数が多くなると述べ、テスラは自動運転技術を共有する用意があると述べた。

7月6日、本日開幕した世界人工知能会議で、マスク氏は会議に直接出席しなかったものの、インターネット...

2025年以降の人工知能の未来(パート1)

[[420733]] 2025 年までに、人工知能 (AI) は、今日の複雑なタスクの一部を効率的...

...