TensorFlow が素晴らしい機械学習データセット 30 選

TensorFlow が素晴らしい機械学習データセット 30 選

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

TensorFlow は、Google Brain の研究者によって作成された、機械学習とデータ サイエンスのための最大規模のオープン ソース ライブラリの 1 つです。これは、完全な初心者と経験豊富なデータ サイエンティストの両方に適したエンドツーエンドのプラットフォームです。 TensorFlow ライブラリには、ツール、事前トレーニング済みモデル、機械学習チュートリアル、公開データセットの完全なセットが含まれています。必要なトレーニング データを見つけやすくするために、この記事では TensorFlow での機械学習用の大規模なデータセットをいくつか簡単に紹介します。以下のデータセットのリストは、画像、ビデオ、オーディオ、テキストに分かれています。

TensorFlow 画像データセット

1. CelebA: 有名人の顔属性データセット (CelebA) は、200,000 を超える有名人の画像を含む、公開されている最大の顔画像データセットです。

[[337423]]

各画像には、5 つの顔注釈と 40 個のバイナリ属性注釈が含まれています。

2. ダウンサンプリング Imagenet: このデータセットは、密度推定と生成モデリングのタスク用に構築されています。物体、風景、乗り物、人物などの画像が 130 万点以上含まれています。画像は 32×32 と 64×64 の 2 つの解像度で利用できます。

3. Lsun — Lsun は、シーン理解のためのモデルのトレーニングを支援するために作成された大規模な画像データセットです。データセットには、寝室、教室、ダイニングルームなどのシーンカテゴリに分類された 900 万枚以上の画像が含まれています。

4. Bigearthnet – Bigearthnet は、Sentinel-2 衛星からの航空画像を含むもう 1 つの大規模データセットです。各画像は 1.2 km x 1.2 km の土地範囲をカバーします。このデータセットには不均衡なクラスが 43 個あります。

5. Places 365 – 名前の通り、Places 365 にはさまざまな場所やシーンの 180 万枚以上の画像が含まれています。これらのカテゴリには、オフィス、マリーナ、ヴィラなどが含まれます。 Places 365 は、シーン認識タスク用の最大規模のデータセットの 1 つです。

6. Quickdraw ビットマップ - Quickdraw データセットは、Quickdraw プレーヤー コミュニティによって描画された画像のコレクションです。 345 のカテゴリにわたる 500 万点の図面が収録されています。このバージョンの Quickdraw データセットは、28×28 のグレースケール画像で構成されています。

7. SVHN Cropped — Street View House Numbers (SVHN) は、数字認識アルゴリズムのトレーニング用にスタンフォード大学が作成した TensorFlow データセットです。 32×32 ピクセルにトリミングされた現実世界の画像データのインスタンスが 600,000 個含まれています。

8. VGGFace2 – 最大規模の顔画像データセットの 1 つである VGGFace2 には、Google 検索エンジンからダウンロードされた画像が含まれています。データセット内の顔は、年齢、ポーズ、民族が異なります。カテゴリーごとに平均 362 枚の画像があります。

9. COCO — Google、FAIR、Caltech などの協力者によって作成された、世界最大のラベル付き画像データセットの 1 つです。これは、オブジェクトの検出、セグメンテーション、および画像キャプション作成のタスク用に構築されています。

cocodataset.org経由

データセットには 330,000 枚の画像が含まれており、そのうち 200,000 枚にラベルが付けられています。すべての画像には、80 のカテゴリから合計 150 万個のオブジェクト インスタンスが含まれています。

10. Open Images Challenge 2019 — 約 900 万枚の画像を含むこのデータセットは、インターネット上で最大規模の注釈付き画像データセットの 1 つです。これらの画像には、画像レベルのラベル、オブジェクトの境界ボックス、オブジェクトのセグメンテーション マスク、およびそれらの間の視覚的な関係が含まれています。

11. Open Images V4 – このデータセットは、上記の Open Images データセットの別の反復です。 V4 バージョンには、600 種類のオブジェクト カテゴリに対応する 1,460 万個の境界ボックスが含まれています。これらの境界ボックスは、人間の注釈者によって手動で描画されます。

12. AFLW2K3D – このデータセットには、3D 顔グラウンドトゥルース注釈が付いた 2,000 枚の顔画像が含まれています。 3D 顔注釈検出モデルを評価するために作成されました。

ビデオデータセット

13. UCF101 – セントラルフロリダ大学の UCF101 は、アクション認識モデルのトレーニング用に構築されたビデオ データセットです。このデータセットには、101 のアクション カテゴリのビデオが 13,320 本含まれています。

14. BAIR Robot Pushing — Berkeley AI Research の BAIR Robot Pushing には、ロボットの押す動作のサンプル ビデオが 44,000 本含まれています。

15. Moving MNIST – このデータセットは、MNIST ベンチマーク データセットのバリエーションです。 Moving MNIST には 10,000 本のビデオが含まれています。

各ビデオでは、64×64 フレーム内での 2 つの手書き数字の動きが示されています。

16. EMNIST – 拡張 MNIST データセットには、28 x 28 ピクセルの画像に変換された元の MNIST データセットが含まれています。

TensorFlow オーディオ データセット

17. CREMA-D — 感情認識タスク用に作成された CREMA-D は、音声による感情表現で構成されています。 このデータセットには、さまざまな年齢、人種、性別の 91 人の俳優が声を吹き込んだ 7,442 個の音声クリップが含まれています。

18. Librispeech — Librispeech は、LibriVox プロジェクトのオーディオブックからの 1,000 時間の英語のスピーチを含むシンプルなオーディオ データセットです。音響モデルと言語モデルのトレーニングに使用されます。

19. Libritts — このデータセットには約 585 時間の英語の音声が含まれており、Google Brain チームのメンバーの協力を得て作成されました。 Libritts はもともとテキスト読み上げ (TTS) の研究用に設計されましたが、さまざまな音声認識タスクに使用できます。

20. TED-LIUM — TED-LIUM は、110 時間を超える英語の TED トークを含むデータセットです。 すべてのスピーチは書き起こされました。

21. VoxCeleb — VoxCeleb は、話者識別タスク用に構築された大規模な音声データセットで、1,251 人の話者からの 150,000 を超える音声サンプルが含まれています。

テキストデータセット

22. C4 (Common Crawl の Web クロール コーパス) — Common Crawl はオープン ソースの Web データベースです。 40 以上の言語で 7 年間にわたるデータが収録されています。

23. 市民コメント – このデータセットは、50 の英語ニュース Web サイトからの 180 万件を超える市民コメントで構成されています。

24. IRC Disentanglement – この TensorFlow データセットには、Ubuntu IRC チャネルからの 77,000 件を超えるコメントが含まれています。各サンプルのメタデータには、メッセージ ID とタイムスタンプが含まれます。

25. Lm1b – 言語モデルベンチマークとして知られるこのデータセットには、10億語が含まれています。もともとは統計言語モデリングの進歩を測定するために開発されました。

26. SNLI — スタンフォード自然言語推論データセットは、人間が書いた 570,000 の文章ペアのコーパスです。すべての文のペアは手動で注釈が付けられ、カテゴリはバランスが取れています。

27.e-SNLI — このデータセットは、前述の SNLI の拡張版です。元のデータセットから 570,000 の文のペアが含まれ、包含、矛盾、中立に分類されています。

28. MultiNLI – SNLIデータセットをモデルにしたMultiNLIには、末尾情報が注釈された433,000の文のペアが含まれています。

29. Wiki40b – この大規模なデータセットには、40 種類の言語の Wikipedia の記事が含まれています。データはクリーンアップされ、コンテンツ以外の部分と構造化オブジェクトは削除されました。

30. Yelp Polar Reviews – このデータセットには、非常に極端な Yelp レビューが 598,000 件含まれています。これらは、2015 Yelp Dataset Challenge のデータから抽出されたものです。

上記のデータセットは機械学習用の最大かつ最も広く使用されている TensorFlow データセットの一部ですが、TensorFlow ライブラリは広大で、常に拡大しています。プラットフォームが独自のモデルの構築にどのように役立つかについて詳しくは、TensorFlow の Web サイトをご覧ください。

<<:  AIはIoTベースのDDoS攻撃を阻止できる

>>:  PS効果よりも優れています!このような写真編集ツールを使ったことがありますか?

ブログ    
ブログ    

推薦する

機械学習に関する9つのよくある誤解

[51CTO.com からのオリジナル記事] 現在、機械学習テクノロジーをめぐっては多くの誇大宣伝が...

AI合成音声の潜在的な用途は何ですか?

AI Voice はディープラーニングを使用して、実際の人間の音声のピッチ、トーン、リズムをより正...

Java 実装と読み取り/書き込みロック アルゴリズムの考え方

問題の背景: 複数のスレッドが共有リソースへの読み取りおよび書き込みアクセスを実行します。書き込みス...

...

...

ネットワーク管理における人工知能の役割

AI の主な利点の 1 つは、従業員を日常的な単純作業から解放することです。 AI は、ネットワーク...

...

AI が会議をよりクリエイティブにする 5 つの方法

[[263855]]人工知能について考えるとき、まず頭に浮かぶのは人間とのコミュニケーション、特に非...

顔認識はどのように実現されるのでしょうか? コンピューターはカメラを通じてどのように私たちの身元を識別するのでしょうか?

携帯電話を使って顔をスキャンして支払いをするとき、会社の入退室管理を通過するとき、あるいは道路を運転...

...

モバイルデバイスでのリアルタイムディープラーニング

[[210219]] 2017 年には、モバイル アプリケーション向けのディープラーニングにおいて大...

C# で開発されたソートアルゴリズムの詳細な説明

C# 言語は、まだ比較的一般的なものです。ここでは、バブル ソート、選択ソート、挿入ソート、シェル ...

ディープラーニングのためのヘテロジニアス アクセラレーション テクノロジー (パート 2): カタツムリの殻の中に道場を構築する

1. 概要記事「ディープラーニング向けヘテロジニアスアクセラレーションテクノロジー(パート1)」で説...

アンサンブル法の簡単な分析

パーソナライズされた推奨システムは、金融、電子商取引、メディア、ライブ放送などの業界における Dag...