PyTorch と TensorFlow で画像分類モデルをトレーニングする方法

導入

画像分類は、コンピュータービジョンの最も重要なアプリケーションの 1 つです。その応用範囲は、自動運転車における物体の分類から医療業界における血球認識、製造における不良品の特定から人がマスクを着用しているかどうかを分類できるシステムの構築まで多岐にわたります。これらすべての業界では、何らかの形で画像分類が使用されています。彼らはどうやってそれを行うのでしょうか?どのフレームワークを使用していますか?

TensorFlow、PyTorch、Keras などのさまざまなディープラーニングフレームワークの違いについて、多くのことを読んだことがあるはずです。 TensorFlow と PyTorch は間違いなく業界で最も人気のあるフレームワークです。これらのディープラーニングフレームワーク間の類似点と相違点を学ぶためのリソースは無数に見つかるはずです。

この記事では、PyTorch と TensorFlow で基本的な画像分類モデルを構築する方法について説明します。まず、PyTorch と TensorFlow の簡単な概要から始めます。次に、MNIST 手書き数字分類データセットを使用し、PyTorch と TensorFlow で CNN (畳み込みニューラルネットワーク) を使用して画像分類モデルを構築します。

これが出発点となり、その後は好きなフレームワークを選択して、他のコンピュータービジョンモデルの構築も開始できます。

PyTorch の概要

PyTorch はディープラーニングコミュニティで人気が高まっており、ディープラーニングの実践者によって広く使用されています。PyTorch は、Tensor コンピューティングを提供する Python パッケージです。さらに、テンソルは、NumPy の ndarray と同様に GPU でも実行できる多次元配列です。

PyTorch のユニークな機能は、動的計算グラフを使用することです。 PyTorch の Autograd パッケージは、テンソルから計算グラフを生成し、勾配を自動的に計算します。特定の機能を持つ定義済みのグラフィックではなく。

PyTorch は、実行時に計算グラフを構築し、さらにはそれを変更するためのフレームワークを提供します。特に、ニューラルネットワークを作成するためにどれだけのメモリが必要になるかわからない場合に役立ちます。

PyTorch を使用すると、さまざまなディープラーニングの課題に取り組むことができます。課題のいくつかを以下に示します。

画像（検出、分類など）
テキスト（分類、生成など）
強化学習

TensorFlow の概要

TensorFlow は、Google Brain チームの研究者とエンジニアによって開発されました。これは、ディープラーニングの分野で最も一般的に使用されているソフトウェアライブラリからはまだまだ遠いです (ただし、他のソフトウェアライブラリは急速に追いついています)。

TensorFlow が人気を博している最大の理由の 1 つは、Python、C++、R など、ディープラーニングモデルを作成するための複数の言語をサポートしていることです。詳細なドキュメントとガイドによるガイダンスを提供します。

TensorFlow は多くのコンポーネントで構成されています。ここに 2 つの優れた例を示します。

TensorBoard : データフローグラフを使用してデータを効率的に視覚化します
TensorFlow : 新しいアルゴリズムや実験を素早く展開するのに非常に便利です

TensorFlow は現在、2019 年 9 月に正式にリリースされたバージョン 2.0 を実行しています。バージョン2.0ではCNNも実装する予定です。

これで、PyTorch と TensorFlow の両方について基本的な理解が得られたと思います。それでは、これら 2 つのフレームワークを使用してディープラーニングモデルを構築し、その内部の仕組みを理解してみましょう。その前に、まずこの記事で解決する問題の定義を理解しましょう。

問題ステートメントの理解: MNIST

始める前に、データセットを理解しましょう。この記事では、人気の MNIST 問題を解決します。これは、手書きの数字の画像を 0 から 9 までの 10 個のカテゴリのいずれかに分類する数字認識タスクです。

MNIST データセットには、さまざまなスキャンされた文書から取得され、サイズが正規化され、中央に配置された数字の画像があります。その後、各画像は 28 x 28 ピクセルの正方形 (合計 784 ピクセル) になります。モデルの評価と比較にはデータセットの標準的な分割が使用され、モデルのトレーニングには 60,000 枚の画像が使用され、モデルのテストには別の 10,000 枚の画像セットが使用されます。

これで、データセットも理解できました。それでは、PyTorch と TensorFlow で CNN を使用して画像分類モデルを構築してみましょう。まずは PyTorch での実装から始めます。これらのモデルは、ディープラーニングモデルを実行するための無料の GPU を提供する Google Colab に実装されます。

PyTorch で畳み込みニューラルネットワーク (CNN) を実装する

まず、すべてのライブラリをインポートします。

# ライブラリのインポート
numpyをnpとしてインポートする
輸入トーチ
torchvisionをインポートする
matplotlib.pyplot を plt としてインポートします。
時刻からインポート時刻
torchvisionからデータセットをインポートし、変換する
torchインポートnn、optimから

Google colab で PyTorch のバージョンも確認してみましょう。

# PyTorch のバージョン
印刷(torch.__version__)

そこで、私は PyTorch の 1.5.1 バージョンを使用しています。他のバージョンを使用すると、警告やエラーが発生する可能性があるため、このバージョンの PyTorch に更新できます。ピクセル値の正規化など、画像に対していくつかの変換を実行するので、それらも定義しましょう。

# 画像に適用される変換
変換 = transforms.Compose([transforms.ToTensor(),
                              変換します。正規化します(( 0.5 ,), ( 0.5 ,)),
                              ])

それでは、MNIST データセットのトレーニングセットとテストセットを読み込んでみましょう。

# トレーニングセットとテストセットの定義
trainset = datasets.MNIST( './data' 、ダウンロード=True、トレーニング=True、変換=transform)
テストセット = datasets.MNIST( './' 、ダウンロード=True、トレーニング=False、変換=transform)

次に、トレーニングセットとテストセットをバッチでロードするのに役立つ、トレーニングローダーとテストローダーを定義しました。バッチサイズを 64 と定義しました。

# trainloader と testloader の定義
トレインローダー = torch.utils.data.DataLoader(トレインセット、バッチサイズ = 64 、シャッフル = True)
 testloader = torch.utils.data.DataLoader(テストセット、batch_size= 64 、shuffle=True)

まず、トレーニングセットの概要を見てみましょう。

# トレーニングデータの形状
dataiter = iter(trainloader)
画像、ラベル = dataiter.next() 
 
印刷(images.shape)
印刷(ラベル.形状)

したがって、各バッチには、サイズがそれぞれ 28,28 の画像が 64 個あり、各画像には対応するラベルがあります。トレーニング画像を視覚化して、どのように見えるか確認してみましょう。

# トレーニング画像の視覚化
plt.imshow(images[ 0 ].numpy().squeeze(), cmap= 'gray' )

数字の0のイメージです。同様に、テストセットの画像を視覚化してみましょう。

# 検証データの形状
dataiter = iter(テストローダー)
画像、ラベル = dataiter.next() 
 
印刷(images.shape)
印刷(ラベル.形状)

テストセットには、サイズ 64 のバッチもあります。ではアーキテクチャを定義しましょう

モデルアーキテクチャの定義

ここではCNNモデルを使用します。それでは、モデルを定義してトレーニングしてみましょう。

# モデルアーキテクチャの定義
クラスNet(nn.Module):
  __init__(self)を定義します。
 super (Net, self).__init__() 
 
      self.cnn_layers = nn.Sequential(
          # 2D畳み込み層の定義
          nn.Conv2d( 1 , 4 , カーネルサイズ= 3 , ストライド= 1 , パディング= 1 ),
          nn.BatchNorm2d( 4 )、
          nn.ReLU(インプレース=True)、
          nn.MaxPool2d(カーネルサイズ= 2 、ストライド= 2 )、
          # 別の2D畳み込み層の定義
          nn.Conv2d( 4 , 4 , カーネルサイズ= 3 , ストライド= 1 , パディング= 1 ),
          nn.BatchNorm2d( 4 )、
          nn.ReLU(インプレース=True)、
          nn.MaxPool2d(カーネルサイズ= 2 、ストライド= 2 )、
      ） 
 
      self.linear_layers = nn.Sequential(
          nn.線形( 4 * 7 * 7 , 10 )
      ） 
 
  # フォワードパスの定義
  def forward(self, x):
      x = 自己.cnn_layers(x)
      x = x.view(x.size( 0 ), - 1 )
      x = 自己.線形レイヤー(x)
 xを返す

また、オプティマイザーと損失関数を定義し、モデルの概要を見てみましょう。

# モデルの定義
モデル = ネット()
 # オプティマイザの定義
オプティマイザー = optim.Adam(model.parameters(), lr= 0.01 )
 # 損失関数の定義
基準 = nn.CrossEntropyLoss()
 # GPUが利用可能かどうかを確認
torch.cuda.is_available()の場合:
    モデル = model.cuda()
    基準 = 基準.cuda() 
 
印刷(モデル)

したがって、画像から特徴を抽出するのに役立つ 2 つの畳み込み層があります。これらの畳み込み層からの特徴は、画像をそれぞれのカテゴリに分類する完全接続層に渡されます。モデルアーキテクチャの準備ができたので、このモデルを 10 エポックにわたってトレーニングしてみましょう。

iが範囲( 10 )内にある場合:
    ランニングロス = 0  
トレインローダー内の画像、ラベルの場合: 
 
 torch.cuda.is_available()の場合:
          画像 = images.cuda()
          ラベル = labels.cuda() 
 
        # トレーニングパス
        オプティマイザ.zero_grad() 
 
        出力 = モデル(画像)
        損失 = 基準(出力、ラベル) 
 
        #ここでモデルはバックプロパゲーションによって学習します
        損失.後方() 
 
        #ここで重みを最適化します
        オプティマイザ.ステップ() 
 
        実行中の損失 += 損失.item()
それ以外：
        print( "エポック {} - トレーニング損失: {}" .format(i+ 1 , running_loss/len(trainloader)))

エポックが増加するにつれてトレーニングが減少することがわかります。これは、モデルがトレーニングセットからパターンを学習していることを意味します。このモデルのパフォーマンスをテストセットで確認してみましょう。

# テストセットの予測を取得し、パフォーマンスを測定する
正しいカウント、全カウント= 0、0  
テストローダー内の画像、ラベルの場合:
 i が範囲(len(ラベル))内にある場合:
 torch.cuda.is_available()の場合:
        画像 = images.cuda()
        ラベル = labels.cuda()
    img = 画像[i].view( 1 , 1 , 28 , 28 )
    torch.no_grad() の場合:
        logps = モデル(画像) 
 
 
    ps = torch.exp(logps)
    確率 = リスト(ps.cpu()[ 0 ])
    pred_label = probab.index(max(probab))
    true_label = labels.cpu()[i]
 true_label == pred_labelの場合:
      正しい数 += 1  
    すべて_カウント += 1   
 
 print( "テストした画像の数 =" , all_count)
 print( "\nモデル精度 =" , (correct_count/all_count))

そこで合計 10,000 枚の画像でテストしたところ、モデルはテスト画像のラベルを約 96% の精度で予測できました。

これが PyTorch で畳み込みニューラルネットワークを構築する方法です。次のセクションでは、同じアーキテクチャを TensorFlow で実装する方法について説明します。

TensorFlow で畳み込みニューラルネットワーク (CNN) を実装する

ここで、TensorFlow の畳み込みニューラルネットワークを使用して同じ MNIST 問題を解決してみましょう。いつものように、ライブラリをインポートすることから始めます。

# ライブラリのインポート
テンソルフローをtfとしてインポートする
 
 tensorflow.kerasからデータセット、レイヤー、モデルをインポートする
tensorflow.keras.utils からto_categorical をインポートします
matplotlib.pyplot を plt としてインポートします。

使用している TensorFlow のバージョンを確認します。

# テンソルフローのバージョン
print(tf.__version__)

したがって、TensorFlow のバージョン 2.2.0 を使用します。次に、tensorflow.keras のデータセットクラスを使用して MNIST データセットをロードします。

(train_images、train_labels)、(test_images、test_labels) = datasets.mnist.load_data(path= 'mnist.npz' )
 # ピクセル値を0から1の間に正規化する 
トレーニング画像、テスト画像 = トレーニング画像 / 255.0 、テスト画像 / 255.0

ここでは、MNIST データセットのトレーニングセットとテストセットをロードしました。さらに、トレーニング画像とテスト画像のピクセル値を正規化しました。次に、データセットからいくつかの画像を視覚化してみましょう。

# いくつかの画像を視覚化する
plt.figure(図のサイズ=( 10 , 10 ))
 iが範囲( 9 )内にある場合:
    plt.subplot( 3,3 ,i+ 1 )サブプロット
    plt.xticks([])
    plt.yticks([])
    plt.grid(False)
    plt.imshow(train_images[i], cmap= 'gray' )
 plt.show()

これが私たちのデータセットの外観です。手書きの数字の画像があります。トレーニングセットとテストセットの形状を見てみましょう。

# トレーニングセットとテストセットの形状
(train_images.shape、train_labels.shape)、(test_images.shape、test_labels.shape)

したがって、トレーニングセットには 28 x 28 の画像が 60,000 枚あり、テストセットには同じ形状の画像が 10,000 枚あります。次に、画像のサイズを変更し、ターゲット変数をワンホットエンコードします。

# 画像の変形
train_images = train_images.reshape(( 60000 , 28 , 28 , 1 ))
 test_images = test_images.reshape(( 10000 , 28 , 28 , 1 )) 
 
 # ターゲット変数をワンホットエンコードする
train_labels = to_categorical(train_labels)
 test_labels = to_categorical(test_labels)

モデルアーキテクチャの定義

ここで、モデルのアーキテクチャを定義します。 Pytorch で定義されているのと同じアーキテクチャを使用します。したがって、私たちのモデルは、2 つの畳み込み層と最大プーリング層の組み合わせになり、次にフラット化層があり、最後にクラスが 10 個あるため 10 個のニューロンを持つ完全接続層があります。

# モデルアーキテクチャの定義
モデル = models.Sequential()
モデルを追加します(レイヤー.Conv2D( 4 , ( 3 , 3 ), アクティベーション= 'relu' , input_shape=( 28 , 28 , 1 )))
モデルを追加します(layers.MaxPooling2D(( 2 , 2 ), ストライド= 2 ))
モデルに追加(レイヤー.Conv2D( 4 , ( 3 , 3 ), アクティベーション= 'relu' ))
モデルを追加します(layers.MaxPooling2D(( 2 , 2 ), ストライド= 2 ))
モデルを追加します(レイヤーをフラット化します)
 model.add(layers.Dense( 10 , activation= 'softmax' ))

モデルの概要を簡単に見てみましょう。

# モデルの概要
モデル.要約()

要約すると、2 つの畳み込み層、2 つの最大プーリング層、フラット化層、および完全接続層があります。モデル内のパラメータの総数は 1198 です。モデルの準備ができたので、コンパイルします。

# モデルのコンパイル
model.compile(optimizer= 'adam' ,
              損失 = 'カテゴリクロスエントロピー' 、
              メトリック=[ '精度' ])

Adam オプティマイザーを使用していますが、変更することもできます。多クラス分類問題を解決しているため、損失関数はカテゴリクロスエントロピーに設定され、メトリックは「精度」です。それではモデルを10エポックトレーニングしてみましょう

# モデルのトレーニング
履歴 = model.fit(train_images, train_labels, エポック = 10 、検証データ = (test_images, test_labels))

要約すると、最初はトレーニング損失は約 0.46 でしたが、10 エポック後にはトレーニング損失は 0.08 に低下しました。10 エポック後のトレーニングと検証の精度はそれぞれ 97.31% と 97.48% でした。

これが TensorFlow で CNN をトレーニングする方法です。

注釈

要約すると、この記事ではまず、PyTorch と TensorFlow の概要を簡単に説明しました。次に、MNIST 手書き数字分類の課題について学び、最後に PyTorch と TensorFlow で CNN (畳み込みニューラルネットワーク) を使用して画像分類モデルを構築しました。さて、皆さんは両方のフレームワークに精通していると思います。次に、別の画像分類の課題に取り組み、PyTorch と TensorFlow の両方を使用して解決してみます。

<<: 2020年の世界コンサルティング会社の新ランキング：AI時代の新たな課題

>>: IT プロフェッショナルが CIO に人工知能について知ってほしい 9 つのこと