TensorFlow が素晴らしい機械学習データセット 30 選

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

TensorFlow は、Google Brain の研究者によって作成された、機械学習とデータサイエンスのための最大規模のオープンソースライブラリの 1 つです。これは、完全な初心者と経験豊富なデータサイエンティストの両方に適したエンドツーエンドのプラットフォームです。 TensorFlow ライブラリには、ツール、事前トレーニング済みモデル、機械学習チュートリアル、公開データセットの完全なセットが含まれています。必要なトレーニングデータを見つけやすくするために、この記事では TensorFlow での機械学習用の大規模なデータセットをいくつか簡単に紹介します。以下のデータセットのリストは、画像、ビデオ、オーディオ、テキストに分かれています。

TensorFlow 画像データセット

1. CelebA: 有名人の顔属性データセット (CelebA) は、200,000 を超える有名人の画像を含む、公開されている最大の顔画像データセットです。

[[337423]]

各画像には、5 つの顔注釈と 40 個のバイナリ属性注釈が含まれています。

2. ダウンサンプリング Imagenet: このデータセットは、密度推定と生成モデリングのタスク用に構築されています。物体、風景、乗り物、人物などの画像が 130 万点以上含まれています。画像は 32×32 と 64×64 の 2 つの解像度で利用できます。

3. Lsun — Lsun は、シーン理解のためのモデルのトレーニングを支援するために作成された大規模な画像データセットです。データセットには、寝室、教室、ダイニングルームなどのシーンカテゴリに分類された 900 万枚以上の画像が含まれています。

4. Bigearthnet – Bigearthnet は、Sentinel-2 衛星からの航空画像を含むもう 1 つの大規模データセットです。各画像は 1.2 km x 1.2 km の土地範囲をカバーします。このデータセットには不均衡なクラスが 43 個あります。

5. Places 365 – 名前の通り、Places 365 にはさまざまな場所やシーンの 180 万枚以上の画像が含まれています。これらのカテゴリには、オフィス、マリーナ、ヴィラなどが含まれます。 Places 365 は、シーン認識タスク用の最大規模のデータセットの 1 つです。

6. Quickdraw ビットマップ - Quickdraw データセットは、Quickdraw プレーヤーコミュニティによって描画された画像のコレクションです。 345 のカテゴリにわたる 500 万点の図面が収録されています。このバージョンの Quickdraw データセットは、28×28 のグレースケール画像で構成されています。

7. SVHN Cropped — Street View House Numbers (SVHN) は、数字認識アルゴリズムのトレーニング用にスタンフォード大学が作成した TensorFlow データセットです。 32×32 ピクセルにトリミングされた現実世界の画像データのインスタンスが 600,000 個含まれています。

8. VGGFace2 – 最大規模の顔画像データセットの 1 つである VGGFace2 には、Google 検索エンジンからダウンロードされた画像が含まれています。データセット内の顔は、年齢、ポーズ、民族が異なります。カテゴリーごとに平均 362 枚の画像があります。

9. COCO — Google、FAIR、Caltech などの協力者によって作成された、世界最大のラベル付き画像データセットの 1 つです。これは、オブジェクトの検出、セグメンテーション、および画像キャプション作成のタスク用に構築されています。

cocodataset.org経由

データセットには 330,000 枚の画像が含まれており、そのうち 200,000 枚にラベルが付けられています。すべての画像には、80 のカテゴリから合計 150 万個のオブジェクトインスタンスが含まれています。

10. Open Images Challenge 2019 — 約 900 万枚の画像を含むこのデータセットは、インターネット上で最大規模の注釈付き画像データセットの 1 つです。これらの画像には、画像レベルのラベル、オブジェクトの境界ボックス、オブジェクトのセグメンテーションマスク、およびそれらの間の視覚的な関係が含まれています。

11. Open Images V4 – このデータセットは、上記の Open Images データセットの別の反復です。 V4 バージョンには、600 種類のオブジェクトカテゴリに対応する 1,460 万個の境界ボックスが含まれています。これらの境界ボックスは、人間の注釈者によって手動で描画されます。

12. AFLW2K3D – このデータセットには、3D 顔グラウンドトゥルース注釈が付いた 2,000 枚の顔画像が含まれています。 3D 顔注釈検出モデルを評価するために作成されました。

ビデオデータセット

13. UCF101 – セントラルフロリダ大学の UCF101 は、アクション認識モデルのトレーニング用に構築されたビデオデータセットです。このデータセットには、101 のアクションカテゴリのビデオが 13,320 本含まれています。

14. BAIR Robot Pushing — Berkeley AI Research の BAIR Robot Pushing には、ロボットの押す動作のサンプルビデオが 44,000 本含まれています。

15. Moving MNIST – このデータセットは、MNIST ベンチマークデータセットのバリエーションです。 Moving MNIST には 10,000 本のビデオが含まれています。

各ビデオでは、64×64 フレーム内での 2 つの手書き数字の動きが示されています。

16. EMNIST – 拡張 MNIST データセットには、28 x 28 ピクセルの画像に変換された元の MNIST データセットが含まれています。

TensorFlow オーディオデータセット

17. CREMA-D — 感情認識タスク用に作成された CREMA-D は、音声による感情表現で構成されています。このデータセットには、さまざまな年齢、人種、性別の 91 人の俳優が声を吹き込んだ 7,442 個の音声クリップが含まれています。

18. Librispeech — Librispeech は、LibriVox プロジェクトのオーディオブックからの 1,000 時間の英語のスピーチを含むシンプルなオーディオデータセットです。音響モデルと言語モデルのトレーニングに使用されます。

19. Libritts — このデータセットには約 585 時間の英語の音声が含まれており、Google Brain チームのメンバーの協力を得て作成されました。 Libritts はもともとテキスト読み上げ (TTS) の研究用に設計されましたが、さまざまな音声認識タスクに使用できます。

20. TED-LIUM — TED-LIUM は、110 時間を超える英語の TED トークを含むデータセットです。すべてのスピーチは書き起こされました。

21. VoxCeleb — VoxCeleb は、話者識別タスク用に構築された大規模な音声データセットで、1,251 人の話者からの 150,000 を超える音声サンプルが含まれています。

テキストデータセット

22. C4 (Common Crawl の Web クロールコーパス) — Common Crawl はオープンソースの Web データベースです。 40 以上の言語で 7 年間にわたるデータが収録されています。

23. 市民コメント – このデータセットは、50 の英語ニュース Web サイトからの 180 万件を超える市民コメントで構成されています。

24. IRC Disentanglement – この TensorFlow データセットには、Ubuntu IRC チャネルからの 77,000 件を超えるコメントが含まれています。各サンプルのメタデータには、メッセージ ID とタイムスタンプが含まれます。

25. Lm1b – 言語モデルベンチマークとして知られるこのデータセットには、10億語が含まれています。もともとは統計言語モデリングの進歩を測定するために開発されました。

26. SNLI — スタンフォード自然言語推論データセットは、人間が書いた 570,000 の文章ペアのコーパスです。すべての文のペアは手動で注釈が付けられ、カテゴリはバランスが取れています。

27.e-SNLI — このデータセットは、前述の SNLI の拡張版です。元のデータセットから 570,000 の文のペアが含まれ、包含、矛盾、中立に分類されています。

28. MultiNLI – SNLIデータセットをモデルにしたMultiNLIには、末尾情報が注釈された433,000の文のペアが含まれています。

29. Wiki40b – この大規模なデータセットには、40 種類の言語の Wikipedia の記事が含まれています。データはクリーンアップされ、コンテンツ以外の部分と構造化オブジェクトは削除されました。

30. Yelp Polar Reviews – このデータセットには、非常に極端な Yelp レビューが 598,000 件含まれています。これらは、2015 Yelp Dataset Challenge のデータから抽出されたものです。

上記のデータセットは機械学習用の最大かつ最も広く使用されている TensorFlow データセットの一部ですが、TensorFlow ライブラリは広大で、常に拡大しています。プラットフォームが独自のモデルの構築にどのように役立つかについて詳しくは、TensorFlow の Web サイトをご覧ください。

<<: AIはIoTベースのDDoS攻撃を阻止できる

>>: PS効果よりも優れています！このような写真編集ツールを使ったことがありますか?