大規模なデータセットを扱う場合、データ全体を一度にメモリにロードすることが非常に困難になることがあります。 したがって、唯一の方法は、処理のためにデータをバッチでメモリにロードすることであり、これを行うには追加のコードを記述する必要があります。この目的のために、PyTorch はすでに Dataloader 関数を提供しています。 データローダーPyTorch ライブラリの DataLoader 関数の構文とそのパラメータ情報を以下に示します。
いくつかの重要なパラメータ
組み込みのMNISTデータセットをロードするMNIST は手書きの数字を含む有名なデータセットです。 DataLoader 機能を使用して PyTorch の組み込み MNIST データセットを処理する方法を説明します。
上記のコードは、torchvision の torch コンピュータ ビジョン モジュールをインポートします。これは画像データセットを操作するときによく使用され、画像の正規化、サイズ変更、切り抜きに役立ちます。 MNIST データセットの場合、次の正規化手法が使用されます。 ToTensor() は、0〜255 のグレースケール範囲を 0〜1 に変換できます。
必要なデータセットを読み込むには、次のコードを使用します。 PyTorchDataLoader を使用して、batch_size = 64 を指定してデータをロードします。 shuffle=True はデータをシャッフルします。
データセット内のすべての画像を取得するには、通常、iter 関数とデータ ローダー DataLoader を使用します。
カスタムデータセット次のコードは、1000 個の乱数を含むカスタム データセットを作成します。
ここに画像の説明を挿入 最後に、カスタム データセットでデータローダー関数を使用します。 batch_size は 12 に設定され、num_workers = 2 で並列マルチプロセス データ ロードも有効になります。
以下では、いくつかの例を通して、大量のデータをバッチでメモリにロードする際の PyTorch Dataloader の役割について学習します。 |
<<: 再帰アルゴリズム: 不可解なスイッチ「ライトを引く」
エッジ AI の導入は幅広い業界で増加しています。この傾向が続くと、ビジネスだけでなく社会も変革する...
少し前、UIUC と南洋理工大学の 3 人の研究者が 20 か月かけて 673 本の論文を研究し、信...
海外メディアは、プライスウォーターハウスクーパースの報告書が、人工知能と5G技術が今後3~5年でスマ...
[[361220]] [51CTO.com クイック翻訳] 私たちはますます分断が進む世界に住んでい...
[[274438]]機械学習の分野は数十年にわたって「タンク問題」に悩まされてきました。この話は 1...
[[208646]]この記事は、「ディープラーニングの面接で知っておくべきことは何ですか」という質問...
Panos Labropoulos 博士は、Bright Computing のシニア サポート エ...
機械学習の実験と成果の達成に関しては、持っている人と持っていない人の間の格差が拡大しています。先週ニ...
IBM は、IBM Maximo インテリジェント資産管理プラットフォームや TRIRIGA スマー...
私はテスラの「純粋なビジュアルルート」に常に懐疑的でした。疑問なのは、アルゴリズムの進歩によってカメ...
[[198310]]第 18 回 KDnuggets ソフトウェア アンケートには、今年もアナリティ...