大規模なデータセットを扱う場合、データ全体を一度にメモリにロードすることが非常に困難になることがあります。 したがって、唯一の方法は、処理のためにデータをバッチでメモリにロードすることであり、これを行うには追加のコードを記述する必要があります。この目的のために、PyTorch はすでに Dataloader 関数を提供しています。 データローダーPyTorch ライブラリの DataLoader 関数の構文とそのパラメータ情報を以下に示します。
いくつかの重要なパラメータ
組み込みのMNISTデータセットをロードするMNIST は手書きの数字を含む有名なデータセットです。 DataLoader 機能を使用して PyTorch の組み込み MNIST データセットを処理する方法を説明します。
上記のコードは、torchvision の torch コンピュータ ビジョン モジュールをインポートします。これは画像データセットを操作するときによく使用され、画像の正規化、サイズ変更、切り抜きに役立ちます。 MNIST データセットの場合、次の正規化手法が使用されます。 ToTensor() は、0〜255 のグレースケール範囲を 0〜1 に変換できます。
必要なデータセットを読み込むには、次のコードを使用します。 PyTorchDataLoader を使用して、batch_size = 64 を指定してデータをロードします。 shuffle=True はデータをシャッフルします。
データセット内のすべての画像を取得するには、通常、iter 関数とデータ ローダー DataLoader を使用します。
カスタムデータセット次のコードは、1000 個の乱数を含むカスタム データセットを作成します。
ここに画像の説明を挿入 最後に、カスタム データセットでデータローダー関数を使用します。 batch_size は 12 に設定され、num_workers = 2 で並列マルチプロセス データ ロードも有効になります。
以下では、いくつかの例を通して、大量のデータをバッチでメモリにロードする際の PyTorch Dataloader の役割について学習します。 |
<<: 再帰アルゴリズム: 不可解なスイッチ「ライトを引く」
パンデミックはビジネスを混乱させ、場合によっては世界を停止させ、ほぼすべての業界が事業運営方法を再考...
機械学習の基盤となるデータは、GB、TB、PB と数え切れないほど増加してきました。現在、より大規模...
[[390223]]導入コンピュータ アルゴリズムは、ソフトウェア プログラムのバグを検出するのに役...
データベースは、データを保存し、大規模な計算を実行する場所です。現実世界の問題を解決するために、デー...
Python はスクリプト言語であり、さまざまな他のプログラミング言語で記述されたモジュールを結合...
自然言語処理は、人工知能研究における中心的な課題の 1 つです。最近、Salesforceによる買収...
データの問題は、企業の AI プロジェクトが意図した目標を達成できない主な理由です。しかし、企業が失...
急速に変化する今日のテクノロジーの世界では、人工知能 (AI)、機械学習 (ML)、ディープラーニン...
「大きなモデルがベンチマークによって台無しにされないようにしてください。」これは、中国人民大学情報学...
あなたの市では今日から「ゴミの分別」が始まりましたか?上海が先導して実証を進め、北京、天津、重慶、成...
世界がインダストリー4.0へと向かうにつれ、モノのインターネットへの世界的な支出は2022年までに1...
現代のほとんどのソフトウェア チームにとって、ソフトウェアの配信は継続的なプロセスです。ソフトウェア...