テキスト処理から自動運転まで: 機械学習で最もよく使われる 50 の無料データセット

テキスト処理から自動運転まで: 機械学習で最もよく使われる 50 の無料データセット

機械学習分野のオープンデータセットにはどのようなものがあるでしょうか。Gengo は最近、高品質の無料データセットのリストを公開しました。その検索範囲は、幅広いコンテンツ (Kaggle など) だけでなく、高度に専門化されたデータセット (自動運転車専用のデータセットなど) もカバーしています。

[[233150]]

まず、データセットを選択する際に留意すべき重要な基準がいくつかあります。

  • データの整理に多くの時間を費やしたくないので、データセットは乱雑であってはなりません。
  • データセットは、簡単に処理できるように行や列が多すぎないようにする必要があります。
  • データがクリーンであればあるほど良いです。大規模なデータセットのクリーンアップには時間がかかる場合があります。
  • このデータセットは、いくつかの興味深い質問に答えるために使用できます。

では、何が見つかるか見てみましょう。

1. データセットの検索

1. Kaggle: 外部の関係者から提供された興味深いデータセットが多数掲載されているデータ サイエンスのコンペティション Web サイト。長いリスト (https://www.kaggle.com/datasets) には、ラーメンの評価、バスケットボールのデータ、シアトルのペットのナンバープレートなど、あらゆる種類のニッチなデータセットが見つかります。

2. UCI 機械学習リポジトリ: これは Web 上で最も古いデータセット ソースの 1 つであり、さまざまな興味深いデータセットを見つけるための第一の選択肢です。ここでは、データセットはすべてユーザーが提供したものですが、クリーン度は依然として高いです。さらに、登録なしで UCI 機械学習リポジトリから直接データをダウンロードすることもできます。

2. 一般的なデータセット

政府の公開データセット

[[233151]]

3. Data.gov: このサイトでは、政府の予算から学校の成績まで、複数の米国政府機関からデータをダウンロードできます。しかし、注意してください。このデータの多くは、さらなる研究が必要です。

リンク: https://www.data.gov/

4. 食品環境アトラス: 地元の食品の選択がアメリカ人の食習慣にどのような影響を与えるかに関するデータが含まれています。

リンク: https://catalog.data.gov/dataset/food-environment-atlas-f4a22

5. 学校システムの財政: アメリカの学校システムの財政状況の調査。

リンク: https://catalog.data.gov/dataset/annual-survey-of-school-system-finances

6. 慢性疾患データ: 米国全土の慢性疾患指標データ。

リンク: https://catalog.data.gov/dataset/us-chronic-disease-indicators-cdi-e50c9

7. 米国国立教育統計センター: 米国および世界各地の教育機関と教育人口に関する統計。

リンク: https://nces.ed.gov/

8. 英国データセンター: 英国最大の社会、経済、人口統計データのコレクション。

リンク: https://www.ukdataservice.ac.uk/

9. Data USA: 米国の公開データを包括的に視覚化します。

リンク: http://datausa.io/

ファイナンス

10. Quandl: 優れた金融データソース。経済指標や株価を予測するモデルの構築に役立ちます。

リンク: https://www.quandl.com/

11. 世界銀行オープンデータ: 世界中の人口統計と幅広い経済・開発指標を網羅したデータセット。

リンク: https://data.worldbank.org/

12. IMF データ: 国際通貨基金は、国際金融、債務金利、外貨準備高、商品価格、投資に関するデータを公開しています。

リンク: https://www.imf.org/en/Data

13. Financial Times Market Data: 株価指数、商品、外国為替など、世界の金融市場に関する最新情報。

リンク: https://markets.ft.com/data/

14. Google トレンド: 世界中のインターネット検索アクティビティとニュース記事のトレンドに関するデータを観察および分析します。

リンク: http://www.google.com/trends?q=google&ctab=0&geo=all&date=all&sort=0

15. アメリカ経済学会(AEA):米国のマクロ経済データの情報源。

リンク: https://www.aeaweb.org/resources/data/us-macro-regional

3. 機械学習データセット

画像

[[233152]]

16. Labelme: 注釈付き画像の大規模なデータセット。

リンク: http://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.php

17. ImageNet: スタンフォード大学の Fei-Fei Li 教授らが始めた有名な ImageNet は、新しいアルゴリズムのための実際の画像データセットです。 WordNet 階層に従って編成されており、階層の各ノードは数百または数千の画像で記述されます。

リンク: http://image-net.org/

18. LSUN: シーン理解と多くの補助タスク(部屋のレイアウト推定、顕著性予測など)。

リンク: http://lsun.cs.princeton.edu/2016/

19. MS COCO: 一般的な画像の理解と注釈を含む、ImageNet 以外でよく使用される画像データセットです。

リンク: http://cocodataset.org/

20. COIL100: 360°回転であらゆる角度から100個の異なるオブジェクトを撮影します。

リンク: http://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.php

21. Visual Genome: 約 10 万枚の画像に注釈が付けられた非常に詳細なビジュアル知識ベース。

リンク: http://visualgenome.org/

22. Google の Open Images: Creative Commons の 900 万枚の画像の URL コレクション。「6,000 を超えるカテゴリにわたるタグが付けられています。」

リンク: https://research.googleblog.com/2016/09/introducing-open-images-dataset.html

23. 野生のラベル付き顔: 顔認識を伴うアプリケーションの開発用の 13,000 枚のラベル付き顔画像。

リンク: http://vis-www.cs.umass.edu/lfw/

24. スタンフォード犬のデータセット: 20,580 枚の画像と 120 の異なる犬種のカテゴリが含まれています。

リンク: http://vision.stanford.edu/aditya86/ImageNetDogs/

25. 屋内シーン認識: ほとんどのシーン認識モデルは「屋外」でより優れたパフォーマンスを発揮するため、非常に特殊なデータセットです。 67 の屋内カテゴリと合計 15620 枚の画像が含まれています。

リンク: http://web.mit.edu/torralba/www/indoor.html

感情分析

26. マルチドメイン感情分析データセット: Amazon 製品レビューを収録したやや古いデータセット。

リンク: http://www.cs.jhu.edu/~mdredze/datasets/sentiment/

27. IMDB レビュー: 25,000 件の映画レビューを含む、バイナリ感情分類用の比較的小規模な古いデータセット。

リンク: http://ai.stanford.edu/~amaas/data/sentiment/

28. スタンフォード感情ツリーバンク: 感情注釈付きの標準的な感情データセット。

リンク: https://nlp.stanford.edu/sentiment/code.html

29. Sentiment140: 絵文字を除いた16万件のツイートを使った人気のデータセット

リンク: http://help.sentiment140.com/for-students/

30. Twitter 米国航空会社感情: 2015 年 2 月以降の米国航空会社の Twitter データを肯定的、否定的、中立的に分類。

リンク: https://www.kaggle.com/crowdflower/twitter-airline-sentiment

自然言語処理

31. エンロン データセット: エンロンのトップ幹部の電子メール データをフォルダーに整理したもの。

リンク: https://www.cs.cmu.edu/~./enron/

32. Amazon レビュー: 18 年間にわたる Amazon のレビュー約 3,500 万件が含まれています。データには、製品およびユーザー情報、評価、プレーンテキストのレビューが含まれます。

リンク: https://snap.stanford.edu/data/web-Amazon.html

33. Google ブックス Ngrams: Google ブックスの単語のコレクション。

リンク: https://aws.amazon.com/cn/datasets/google-books-ngrams/

34. Blogger コーパス: blogger.com から収集された 681,288 件のブログ投稿。各ブログには少なくとも 200 個の一般的な英語の単語が含まれています。

リンク: http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

35. Wikipedia リンクデータ: Wikipedia の全文。このデータセットには、400 万件を超える記事からの約 19 億語が含まれています。単語、フレーズ、または段落自体の一部に基づいて検索できます。

リンク: https://code.google.com/p/wiki-links/downloads/list

36. Gutenberg 電子書籍リスト: Project Gutenberg 電子書籍の注釈付きリスト。

リンク: http://www.gutenberg.org/wiki/Gutenberg:Offline_Catalogs

37. カナダ議会の議事録テキスト チャンク: カナダ第 36 議会の 130 万のテキスト チャンク。

リンク: https://www.isi.edu/natural-language/download/hansard/

38. Jeopardy: クイズ番組 Jeopardy からの 200,000 を超えるアーカイブされた質問。

リンク: https://www.reddit.com/r/datasets/comments/1u​​yd0t/200000jeopardyquestionsinajsonfile/

39. 英語のSMSスパムコレクション: 5574件の英語のSMSスパムメッセージからなるデータセット

リンク: http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/

40. Yelp レビュー: Yelp が公開したオープン データセットには、500 万件を超えるレビューが含まれています。

リンク: https://www.yelp.com/dataset

41. UCI の Spambase: スパム フィルタリングに使用できる大規模なスパム データセット。

リンク: https://archive.ics.uci.edu/ml/datasets/Spamb (https://archive.ics.uci.edu/ml/datasets/Spambase)

自動運転

[[233153]]

42. Berkeley DeepDrive BDD100k: 現在最大の自動運転 AI データセット。さまざまな時間帯や気象条件での 1,100 時間を超える運転体験を網羅した 100,000 本以上のビデオが含まれています。注釈付きの画像はニューヨークとサンフランシスコ地域のものです。

リンク: http://bdd-data.berkeley.edu/

43. Baidu Apolloscapes: Baidu Apollo Project によって公開された大規模な自動運転データセット。車、自転車、歩行者、建物、街灯など、26 種類の異なるセマンティック項目を定義します。

リンク: http://apolloscape.auto/

44. Comma.ai: 7時間以上の道路運転経験。詳細には、車両速度、加速度、ステアリング角度、GPS 座標が含まれます。

リンク: https://archive.org/details/comma-dataset

45. オックスフォードのロボットカー:イギリスのオックスフォードで、1 年間に同じルートを 100 回以上走行しました。データセットは、天候、交通、歩行者のさまざまな組み合わせ、および建設や道路工事などの長期的な変化を捉えます。

リンク: http://robotcar-dataset.robots.ox.ac.uk/

46. 都市景観データセット: 50 種類の異なる都市の街路風景を収録した大規模なデータセット。

リンク: https://www.cityscapes-dataset.com/

47. CSSAD データセット: このデータセットは、自律走行車の認識とナビゲーションに使用できます。データセットは先進国の道路に大きく偏っています。

リンク: http://aplicaciones.cimat.mx/Personal/jbhayet/ccsad-dataset

48. KUL ベルギー交通標識データセット: ベルギーのフランダース地方の何千もの異なる地域に関する 10,000 を超える固有の交通標識注釈。

リンク: http://www.vision.ee.ethz.ch/~timofter/traffic_signs/

49. MIT AGE Lab: AgeLab で収集された 1,000 時間を超えるマルチセンサー運転データセットのサンプル。

リンク: http://lexfridman.com/carsync/

50. LISA: カリフォルニア大学サンディエゴ校インテリジェント&セーフ自動車研究所 データセット: このデータセットには、交通標識、車両検出、信号、軌道パターンが含まれています。

リンク: http://cvrr.ucsd.edu/LISA/datasets.html

オリジナルリンク: https://gengo.ai/articles/the-50-best-free-datasets-for-machine-learning/

[この記事は51CTOコラム「Machine Heart」、WeChatパブリックアカウント「Machine Heart(id: Almosthuman2014)」からのオリジナル記事です]

この著者の他の記事を読むにはここをクリックしてください

<<:  IBM、GPUに匹敵する新しいニューラルネットワークチップを開発

>>:  人工知能は転移学習を使用して、自然画像から抽出した特徴を使用してイラスト分類の精度を向上させます

ブログ    

推薦する

オープンソース | AREX: Ctrip の次世代自動回帰テスト ツールの設計と実装

著者についてCtrip の R&D エネルギー効率マネージャー兼 SRE である Haibi...

個人情報保護を強力に強化

動物園に行くときは指紋で「チェックイン」する必要があり、家に帰ってコミュニティに入るときも顔をスキャ...

快手が手の姿勢推定機能を発表、電光手の秘密を公式に公開

アイアンマンは指と手のひらを回すだけで、あっという間に鎧の製作を完了した。この魔法のような技に、スク...

[Dry Goods] 機械学習を始めるには、まず10の古典的なアルゴリズムを理解するところから始めましょう

[[219151]]機械学習の分野では、「ただで得られるものはない」というのは不変の定理です。つまり...

高密度の手動ラベルなしで下流の高密度予測タスクを実行するための自己教師学習法がリリースされました

[[399115]]事前トレーニングにより、下流のタスクのパフォーマンスが大幅に向上することが示され...

NIOはまたしても窮地に陥った!運転支援の責任は誰が負うべきでしょうか?

[[417840]]運転支援機能がまた事故を起こした。昨日、「Meiyihao」という公開アカウン...

2024年以降の5つのAIトレンド

GPT-4 以降: OpenAI GPT-3 は、その自然言語機能で大きな話題を呼びました。 GPT...

...

アルゴリズムの質問: 計算された π の値が正確かどうかをどのように判断するのでしょうか?

以下を読む前に、まず考えてみてください。 πの値を計算する世界記録保持者であるMysticialから...

ボストンダイナミクス「人間と犬のダンス」:PK韓国ボーイズバンド、ロボットダンスの神グループが登場

[[408381]]ロボット犬とボーイズバンドが一緒に「ダンス」すると、どんな火花が散るのでしょうか...

人工知能が医療をどのように改善できるか

人工知能は医療と医療の分野で大きな力を発揮することが証明されている 人工知能は、特に医療分野において...

IoT と AI を組み合わせたユースケースにはどのようなものがありますか?

モノのインターネットは現代のビジネスと経済を急速に変革しています。この革新的なテクノロジーにより、膨...

ドローン空気検知器は環境保護にどのように役立つのでしょうか?

大気汚染は常に国家経済と国民の健康を悩ませる重要な要因となっている。大気中の汚染物質をタイムリーかつ...

...