データセットと DataLoader を使用して PyTorch でデータをカスタマイズする

大規模なデータセットを扱う場合、データ全体を一度にメモリにロードすることが非常に困難になることがあります。

したがって、唯一の方法は、処理のためにデータをバッチでメモリにロードすることであり、これを行うには追加のコードを記述する必要があります。この目的のために、PyTorch はすでに Dataloader 関数を提供しています。

データローダー

PyTorch ライブラリの DataLoader 関数の構文とそのパラメータ情報を以下に示します。

 DataLoader(データセット、batch_size=1、shuffle= False 、sampler=None、
           batch_sampler=なし、num_workers=0、collate_fn=なし、
           pin_memory= False 、drop_last= False 、タイムアウト=0、
           worker_init_fn=なし、*、prefetch_factor=2、
           persistent_workers = False )

いくつかの重要なパラメータ

データセット: まずデータセットを使用して DataLoader クラスを構築する必要があります。
シャッフル: データを再編成するかどうか。
Sampler : オプションの torch.utils.data.Sampler クラスインスタンスを参照します。サンプラーは、サンプルを順番に、ランダムに、またはその他の方法で取得するための戦略を定義します。サンプラーを使用する場合は、シャッフルを false に設定する必要があります。
Batch_Sampler: バッチレベル。
num_workers: データをロードするために必要な子プロセスの数。
collate_fn : サンプルをバッチにまとめます。 Torch ではカスタム照合が可能です。

組み込みのMNISTデータセットをロードする

MNIST は手書きの数字を含む有名なデータセットです。 DataLoader 機能を使用して PyTorch の組み込み MNIST データセットを処理する方法を説明します。

輸入トーチ
matplotlib.pyplot をpltとしてインポートします。
 torchvisionからデータセットをインポートし、変換する

上記のコードは、torchvision の torch コンピュータビジョンモジュールをインポートします。これは画像データセットを操作するときによく使用され、画像の正規化、サイズ変更、切り抜きに役立ちます。

MNIST データセットの場合、次の正規化手法が使用されます。

ToTensor() は、0〜255 のグレースケール範囲を 0〜1 に変換できます。

変換 = transforms.Compose([transforms.ToTensor()])

必要なデータセットを読み込むには、次のコードを使用します。 PyTorchDataLoader を使用して、batch_size = 64 を指定してデータをロードします。 shuffle=True はデータをシャッフルします。

 trainset = datasets.MNIST( '~/.pytorch/MNIST_data/' 、 download= True 、 train= True 、 transform=transform)
トレインローダー = torch.utils.data.DataLoader(トレインセット、バッチサイズ = 64、シャッフル = True )

データセット内のすべての画像を取得するには、通常、iter 関数とデータローダー DataLoader を使用します。

 dataiter = iter(trainloader)
画像、ラベル = dataiter.next ()
印刷(images.shape)
印刷(ラベル.形状)
 plt.imshow(images[1].numpy().squeeze(), cmap= 'Greys_r' )

カスタムデータセット

次のコードは、1000 個の乱数を含むカスタムデータセットを作成します。

 torch.utils.dataからデータセットをインポート
ランダムにインポート
  
クラスSampleDataset(データセット):
  __init__(self,r1,r2)を定義します。
      ランダムリスト=[]
 iが範囲(120)内にある場合:
          n = ランダム.randint(r1,r2)
          ランダムリストに追加(n)
      self.samples = ランダムリスト
  
  __len__(自分)を定義します:
 len(self.samples)を返す
  
  __getitem__(self, idx)を定義します。
戻り値(self.samples[idx]) 
  
データセット=サンプルデータセット(1,100)
データセット[100:120]

ここに画像の説明を挿入

最後に、カスタムデータセットでデータローダー関数を使用します。 batch_size は 12 に設定され、num_workers = 2 で並列マルチプロセスデータロードも有効になります。

 torch.utils.dataからDataLoader をインポートします
ローダー = DataLoader(データセット、バッチサイズ=12、シャッフル= True 、num_workers=2)
 iの場合、 enumerate(loader)でバッチ処理します。
    print(i, バッチ)