TensorFlow が素晴らしい機械学習データセット 30 選

TensorFlow が素晴らしい機械学習データセット 30 選

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

TensorFlow は、Google Brain の研究者によって作成された、機械学習とデータ サイエンスのための最大規模のオープン ソース ライブラリの 1 つです。これは、完全な初心者と経験豊富なデータ サイエンティストの両方に適したエンドツーエンドのプラットフォームです。 TensorFlow ライブラリには、ツール、事前トレーニング済みモデル、機械学習チュートリアル、公開データセットの完全なセットが含まれています。必要なトレーニング データを見つけやすくするために、この記事では TensorFlow での機械学習用の大規模なデータセットをいくつか簡単に紹介します。以下のデータセットのリストは、画像、ビデオ、オーディオ、テキストに分かれています。

TensorFlow 画像データセット

1. CelebA: 有名人の顔属性データセット (CelebA) は、200,000 を超える有名人の画像を含む、公開されている最大の顔画像データセットです。

[[337423]]

各画像には、5 つの顔注釈と 40 個のバイナリ属性注釈が含まれています。

2. ダウンサンプリング Imagenet: このデータセットは、密度推定と生成モデリングのタスク用に構築されています。物体、風景、乗り物、人物などの画像が 130 万点以上含まれています。画像は 32×32 と 64×64 の 2 つの解像度で利用できます。

3. Lsun — Lsun は、シーン理解のためのモデルのトレーニングを支援するために作成された大規模な画像データセットです。データセットには、寝室、教室、ダイニングルームなどのシーンカテゴリに分類された 900 万枚以上の画像が含まれています。

4. Bigearthnet – Bigearthnet は、Sentinel-2 衛星からの航空画像を含むもう 1 つの大規模データセットです。各画像は 1.2 km x 1.2 km の土地範囲をカバーします。このデータセットには不均衡なクラスが 43 個あります。

5. Places 365 – 名前の通り、Places 365 にはさまざまな場所やシーンの 180 万枚以上の画像が含まれています。これらのカテゴリには、オフィス、マリーナ、ヴィラなどが含まれます。 Places 365 は、シーン認識タスク用の最大規模のデータセットの 1 つです。

6. Quickdraw ビットマップ - Quickdraw データセットは、Quickdraw プレーヤー コミュニティによって描画された画像のコレクションです。 345 のカテゴリにわたる 500 万点の図面が収録されています。このバージョンの Quickdraw データセットは、28×28 のグレースケール画像で構成されています。

7. SVHN Cropped — Street View House Numbers (SVHN) は、数字認識アルゴリズムのトレーニング用にスタンフォード大学が作成した TensorFlow データセットです。 32×32 ピクセルにトリミングされた現実世界の画像データのインスタンスが 600,000 個含まれています。

8. VGGFace2 – 最大規模の顔画像データセットの 1 つである VGGFace2 には、Google 検索エンジンからダウンロードされた画像が含まれています。データセット内の顔は、年齢、ポーズ、民族が異なります。カテゴリーごとに平均 362 枚の画像があります。

9. COCO — Google、FAIR、Caltech などの協力者によって作成された、世界最大のラベル付き画像データセットの 1 つです。これは、オブジェクトの検出、セグメンテーション、および画像キャプション作成のタスク用に構築されています。

cocodataset.org経由

データセットには 330,000 枚の画像が含まれており、そのうち 200,000 枚にラベルが付けられています。すべての画像には、80 のカテゴリから合計 150 万個のオブジェクト インスタンスが含まれています。

10. Open Images Challenge 2019 — 約 900 万枚の画像を含むこのデータセットは、インターネット上で最大規模の注釈付き画像データセットの 1 つです。これらの画像には、画像レベルのラベル、オブジェクトの境界ボックス、オブジェクトのセグメンテーション マスク、およびそれらの間の視覚的な関係が含まれています。

11. Open Images V4 – このデータセットは、上記の Open Images データセットの別の反復です。 V4 バージョンには、600 種類のオブジェクト カテゴリに対応する 1,460 万個の境界ボックスが含まれています。これらの境界ボックスは、人間の注釈者によって手動で描画されます。

12. AFLW2K3D – このデータセットには、3D 顔グラウンドトゥルース注釈が付いた 2,000 枚の顔画像が含まれています。 3D 顔注釈検出モデルを評価するために作成されました。

ビデオデータセット

13. UCF101 – セントラルフロリダ大学の UCF101 は、アクション認識モデルのトレーニング用に構築されたビデオ データセットです。このデータセットには、101 のアクション カテゴリのビデオが 13,320 本含まれています。

14. BAIR Robot Pushing — Berkeley AI Research の BAIR Robot Pushing には、ロボットの押す動作のサンプル ビデオが 44,000 本含まれています。

15. Moving MNIST – このデータセットは、MNIST ベンチマーク データセットのバリエーションです。 Moving MNIST には 10,000 本のビデオが含まれています。

各ビデオでは、64×64 フレーム内での 2 つの手書き数字の動きが示されています。

16. EMNIST – 拡張 MNIST データセットには、28 x 28 ピクセルの画像に変換された元の MNIST データセットが含まれています。

TensorFlow オーディオ データセット

17. CREMA-D — 感情認識タスク用に作成された CREMA-D は、音声による感情表現で構成されています。 このデータセットには、さまざまな年齢、人種、性別の 91 人の俳優が声を吹き込んだ 7,442 個の音声クリップが含まれています。

18. Librispeech — Librispeech は、LibriVox プロジェクトのオーディオブックからの 1,000 時間の英語のスピーチを含むシンプルなオーディオ データセットです。音響モデルと言語モデルのトレーニングに使用されます。

19. Libritts — このデータセットには約 585 時間の英語の音声が含まれており、Google Brain チームのメンバーの協力を得て作成されました。 Libritts はもともとテキスト読み上げ (TTS) の研究用に設計されましたが、さまざまな音声認識タスクに使用できます。

20. TED-LIUM — TED-LIUM は、110 時間を超える英語の TED トークを含むデータセットです。 すべてのスピーチは書き起こされました。

21. VoxCeleb — VoxCeleb は、話者識別タスク用に構築された大規模な音声データセットで、1,251 人の話者からの 150,000 を超える音声サンプルが含まれています。

テキストデータセット

22. C4 (Common Crawl の Web クロール コーパス) — Common Crawl はオープン ソースの Web データベースです。 40 以上の言語で 7 年間にわたるデータが収録されています。

23. 市民コメント – このデータセットは、50 の英語ニュース Web サイトからの 180 万件を超える市民コメントで構成されています。

24. IRC Disentanglement – この TensorFlow データセットには、Ubuntu IRC チャネルからの 77,000 件を超えるコメントが含まれています。各サンプルのメタデータには、メッセージ ID とタイムスタンプが含まれます。

25. Lm1b – 言語モデルベンチマークとして知られるこのデータセットには、10億語が含まれています。もともとは統計言語モデリングの進歩を測定するために開発されました。

26. SNLI — スタンフォード自然言語推論データセットは、人間が書いた 570,000 の文章ペアのコーパスです。すべての文のペアは手動で注釈が付けられ、カテゴリはバランスが取れています。

27.e-SNLI — このデータセットは、前述の SNLI の拡張版です。元のデータセットから 570,000 の文のペアが含まれ、包含、矛盾、中立に分類されています。

28. MultiNLI – SNLIデータセットをモデルにしたMultiNLIには、末尾情報が注釈された433,000の文のペアが含まれています。

29. Wiki40b – この大規模なデータセットには、40 種類の言語の Wikipedia の記事が含まれています。データはクリーンアップされ、コンテンツ以外の部分と構造化オブジェクトは削除されました。

30. Yelp Polar Reviews – このデータセットには、非常に極端な Yelp レビューが 598,000 件含まれています。これらは、2015 Yelp Dataset Challenge のデータから抽出されたものです。

上記のデータセットは機械学習用の最大かつ最も広く使用されている TensorFlow データセットの一部ですが、TensorFlow ライブラリは広大で、常に拡大しています。プラットフォームが独自のモデルの構築にどのように役立つかについて詳しくは、TensorFlow の Web サイトをご覧ください。

<<:  AIはIoTベースのDDoS攻撃を阻止できる

>>:  PS効果よりも優れています!このような写真編集ツールを使ったことがありますか?

ブログ    
ブログ    

推薦する

...

AIと天気予報が出会うとどんな火花が散るのでしょうか?

SF作家の劉慈欣はかつて、自身の小説の中でこのような天気予報を描写した。小説の主人公は気象大学を卒...

平安生命保険の謝家彪氏: ビッグデータでの機械学習に Microsoft R Server を使用する

[51CTO.comより引用] 2017年12月1日~2日、51CTO主催のWOTDグローバルソフト...

...

人工知能と機械学習の違いとその重要性を区別する必要がある

人工知能と機械学習の技術は世界に革命をもたらし、世界をより先進的なものにしていますが、この 2 つの...

520 開発者のバレンタインデー: 全プラットフォームで 35 の PaddlePaddle アップグレード「Show AI」

「新インフラ」は中国の「産業インテリジェンス」に強力な新たな原動力をもたらした。インテリジェント時...

英国で新たな自動運転規制が導入され、ドライバーはもはや「集中」する必要がなくなった

自動運転は近年市場で最も活発なトピックの1つです。資金が継続的に流入し、大手企業が存在感を示そうと競...

マイクロソフト、生成型 AI に関する初のキャリア認定を開始

Microsoft は、人工知能に対する最近の関心と熱意に応えるために、新しいタイプのトレーニングと...

...

ロボットとIoTがサプライチェーンに与える影響

過去1年ほど、COVID-19パンデミックの影響により、効率的なサプライチェーンの重要性が特に顕著に...

機械学習とディープラーニングとは何ですか?ファイザン・シャイクがお手伝いします

概要: この記事では、機械学習とディープラーニングの定義と応用についてわかりやすい言葉で紹介するとと...

現在のディープニューラルネットワークモデルの圧縮と加速方法の概要

[[208162]]大規模なニューラル ネットワークには多数のレイヤーとノードがあるため、特にオンラ...

新しいことを学び、古いものを見直す: ナレッジグラフからグラフデータベースへ

人工知能技術といえば、まずディープラーニングや機械学習技術が思い浮かびます。人工知能の応用といえば、...

スマートコミュニティはどれくらい「スマート」なのでしょうか?知能の背後にある技術的応用を解釈する

モノのインターネット技術の発展と普及に伴い、WIFi、GPRS、LoRaWANなどの通信プロトコルが...

...