テキスト処理から自動運転まで: 機械学習で最もよく使われる 50 の無料データセット

機械学習分野のオープンデータセットにはどのようなものがあるでしょうか。Gengo は最近、高品質の無料データセットのリストを公開しました。その検索範囲は、幅広いコンテンツ (Kaggle など) だけでなく、高度に専門化されたデータセット (自動運転車専用のデータセットなど) もカバーしています。

[[233150]]

まず、データセットを選択する際に留意すべき重要な基準がいくつかあります。

データの整理に多くの時間を費やしたくないので、データセットは乱雑であってはなりません。
データセットは、簡単に処理できるように行や列が多すぎないようにする必要があります。
データがクリーンであればあるほど良いです。大規模なデータセットのクリーンアップには時間がかかる場合があります。
このデータセットは、いくつかの興味深い質問に答えるために使用できます。

では、何が見つかるか見てみましょう。

1. データセットの検索

1. Kaggle: 外部の関係者から提供された興味深いデータセットが多数掲載されているデータサイエンスのコンペティション Web サイト。長いリスト (https://www.kaggle.com/datasets) には、ラーメンの評価、バスケットボールのデータ、シアトルのペットのナンバープレートなど、あらゆる種類のニッチなデータセットが見つかります。

2. UCI 機械学習リポジトリ: これは Web 上で最も古いデータセットソースの 1 つであり、さまざまな興味深いデータセットを見つけるための第一の選択肢です。ここでは、データセットはすべてユーザーが提供したものですが、クリーン度は依然として高いです。さらに、登録なしで UCI 機械学習リポジトリから直接データをダウンロードすることもできます。

2. 一般的なデータセット

政府の公開データセット

[[233151]]

3. Data.gov: このサイトでは、政府の予算から学校の成績まで、複数の米国政府機関からデータをダウンロードできます。しかし、注意してください。このデータの多くは、さらなる研究が必要です。

リンク: https://www.data.gov/

4. 食品環境アトラス: 地元の食品の選択がアメリカ人の食習慣にどのような影響を与えるかに関するデータが含まれています。

リンク: https://catalog.data.gov/dataset/food-environment-atlas-f4a22

5. 学校システムの財政: アメリカの学校システムの財政状況の調査。

リンク: https://catalog.data.gov/dataset/annual-survey-of-school-system-finances

6. 慢性疾患データ: 米国全土の慢性疾患指標データ。

リンク: https://catalog.data.gov/dataset/us-chronic-disease-indicators-cdi-e50c9

7. 米国国立教育統計センター: 米国および世界各地の教育機関と教育人口に関する統計。

リンク: https://nces.ed.gov/

8. 英国データセンター: 英国最大の社会、経済、人口統計データのコレクション。

リンク: https://www.ukdataservice.ac.uk/

9. Data USA: 米国の公開データを包括的に視覚化します。

リンク: http://datausa.io/

ファイナンス

10. Quandl: 優れた金融データソース。経済指標や株価を予測するモデルの構築に役立ちます。

リンク: https://www.quandl.com/

11. 世界銀行オープンデータ: 世界中の人口統計と幅広い経済・開発指標を網羅したデータセット。

リンク: https://data.worldbank.org/

12. IMF データ: 国際通貨基金は、国際金融、債務金利、外貨準備高、商品価格、投資に関するデータを公開しています。

リンク: https://www.imf.org/en/Data

13. Financial Times Market Data: 株価指数、商品、外国為替など、世界の金融市場に関する最新情報。

リンク: https://markets.ft.com/data/

14. Google トレンド: 世界中のインターネット検索アクティビティとニュース記事のトレンドに関するデータを観察および分析します。

リンク: http://www.google.com/trends?q=google&ctab=0&geo=all&date=all&sort=0

15. アメリカ経済学会（AEA）：米国のマクロ経済データの情報源。

リンク: https://www.aeaweb.org/resources/data/us-macro-regional

3. 機械学習データセット

画像

[[233152]]

16. Labelme: 注釈付き画像の大規模なデータセット。

リンク: http://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.php

17. ImageNet: スタンフォード大学の Fei-Fei Li 教授らが始めた有名な ImageNet は、新しいアルゴリズムのための実際の画像データセットです。 WordNet 階層に従って編成されており、階層の各ノードは数百または数千の画像で記述されます。

リンク: http://image-net.org/

18. LSUN: シーン理解と多くの補助タスク（部屋のレイアウト推定、顕著性予測など）。

リンク: http://lsun.cs.princeton.edu/2016/

19. MS COCO: 一般的な画像の理解と注釈を含む、ImageNet 以外でよく使用される画像データセットです。

リンク: http://cocodataset.org/

20. COIL100: 360°回転であらゆる角度から100個の異なるオブジェクトを撮影します。

リンク: http://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.php

21. Visual Genome: 約 10 万枚の画像に注釈が付けられた非常に詳細なビジュアル知識ベース。

リンク: http://visualgenome.org/

22. Google の Open Images: Creative Commons の 900 万枚の画像の URL コレクション。「6,000 を超えるカテゴリにわたるタグが付けられています。」

リンク: https://research.googleblog.com/2016/09/introducing-open-images-dataset.html

23. 野生のラベル付き顔: 顔認識を伴うアプリケーションの開発用の 13,000 枚のラベル付き顔画像。

リンク: http://vis-www.cs.umass.edu/lfw/

24. スタンフォード犬のデータセット: 20,580 枚の画像と 120 の異なる犬種のカテゴリが含まれています。

リンク: http://vision.stanford.edu/aditya86/ImageNetDogs/

25. 屋内シーン認識: ほとんどのシーン認識モデルは「屋外」でより優れたパフォーマンスを発揮するため、非常に特殊なデータセットです。 67 の屋内カテゴリと合計 15620 枚の画像が含まれています。

リンク: http://web.mit.edu/torralba/www/indoor.html

感情分析

26. マルチドメイン感情分析データセット: Amazon 製品レビューを収録したやや古いデータセット。

リンク: http://www.cs.jhu.edu/~mdredze/datasets/sentiment/

27. IMDB レビュー: 25,000 件の映画レビューを含む、バイナリ感情分類用の比較的小規模な古いデータセット。

リンク: http://ai.stanford.edu/~amaas/data/sentiment/

28. スタンフォード感情ツリーバンク: 感情注釈付きの標準的な感情データセット。

リンク: https://nlp.stanford.edu/sentiment/code.html

29. Sentiment140: 絵文字を除いた16万件のツイートを使った人気のデータセット

リンク: http://help.sentiment140.com/for-students/

30. Twitter 米国航空会社感情: 2015 年 2 月以降の米国航空会社の Twitter データを肯定的、否定的、中立的に分類。

リンク: https://www.kaggle.com/crowdflower/twitter-airline-sentiment

自然言語処理

31. エンロンデータセット: エンロンのトップ幹部の電子メールデータをフォルダーに整理したもの。

リンク: https://www.cs.cmu.edu/~./enron/

32. Amazon レビュー: 18 年間にわたる Amazon のレビュー約 3,500 万件が含まれています。データには、製品およびユーザー情報、評価、プレーンテキストのレビューが含まれます。

リンク: https://snap.stanford.edu/data/web-Amazon.html

33. Google ブックス Ngrams: Google ブックスの単語のコレクション。

リンク: https://aws.amazon.com/cn/datasets/google-books-ngrams/

34. Blogger コーパス: blogger.com から収集された 681,288 件のブログ投稿。各ブログには少なくとも 200 個の一般的な英語の単語が含まれています。

リンク: http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

35. Wikipedia リンクデータ: Wikipedia の全文。このデータセットには、400 万件を超える記事からの約 19 億語が含まれています。単語、フレーズ、または段落自体の一部に基づいて検索できます。

リンク: https://code.google.com/p/wiki-links/downloads/list

36. Gutenberg 電子書籍リスト: Project Gutenberg 電子書籍の注釈付きリスト。

リンク: http://www.gutenberg.org/wiki/Gutenberg:Offline_Catalogs

37. カナダ議会の議事録テキストチャンク: カナダ第 36 議会の 130 万のテキストチャンク。

リンク: https://www.isi.edu/natural-language/download/hansard/

38. Jeopardy: クイズ番組 Jeopardy からの 200,000 を超えるアーカイブされた質問。

リンク: https://www.reddit.com/r/datasets/comments/1uyd0t/200000jeopardyquestionsinajsonfile/

39. 英語のSMSスパムコレクション: 5574件の英語のSMSスパムメッセージからなるデータセット

リンク: http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/

40. Yelp レビュー: Yelp が公開したオープンデータセットには、500 万件を超えるレビューが含まれています。

リンク: https://www.yelp.com/dataset

41. UCI の Spambase: スパムフィルタリングに使用できる大規模なスパムデータセット。

リンク: https://archive.ics.uci.edu/ml/datasets/Spamb (https://archive.ics.uci.edu/ml/datasets/Spambase)

自動運転

[[233153]]

42. Berkeley DeepDrive BDD100k: 現在最大の自動運転 AI データセット。さまざまな時間帯や気象条件での 1,100 時間を超える運転体験を網羅した 100,000 本以上のビデオが含まれています。注釈付きの画像はニューヨークとサンフランシスコ地域のものです。

リンク: http://bdd-data.berkeley.edu/

43. Baidu Apolloscapes: Baidu Apollo Project によって公開された大規模な自動運転データセット。車、自転車、歩行者、建物、街灯など、26 種類の異なるセマンティック項目を定義します。

リンク: http://apolloscape.auto/

44. Comma.ai: 7時間以上の道路運転経験。詳細には、車両速度、加速度、ステアリング角度、GPS 座標が含まれます。

リンク: https://archive.org/details/comma-dataset

45. オックスフォードのロボットカー：イギリスのオックスフォードで、1 年間に同じルートを 100 回以上走行しました。データセットは、天候、交通、歩行者のさまざまな組み合わせ、および建設や道路工事などの長期的な変化を捉えます。

リンク: http://robotcar-dataset.robots.ox.ac.uk/

46. 都市景観データセット: 50 種類の異なる都市の街路風景を収録した大規模なデータセット。

リンク: https://www.cityscapes-dataset.com/

47. CSSAD データセット: このデータセットは、自律走行車の認識とナビゲーションに使用できます。データセットは先進国の道路に大きく偏っています。

リンク: http://aplicaciones.cimat.mx/Personal/jbhayet/ccsad-dataset

48. KUL ベルギー交通標識データセット: ベルギーのフランダース地方の何千もの異なる地域に関する 10,000 を超える固有の交通標識注釈。

リンク: http://www.vision.ee.ethz.ch/~timofter/traffic_signs/

49. MIT AGE Lab: AgeLab で収集された 1,000 時間を超えるマルチセンサー運転データセットのサンプル。

リンク: http://lexfridman.com/carsync/

50. LISA: カリフォルニア大学サンディエゴ校インテリジェント＆セーフ自動車研究所データセット: このデータセットには、交通標識、車両検出、信号、軌道パターンが含まれています。

リンク: http://cvrr.ucsd.edu/LISA/datasets.html

オリジナルリンク: https://gengo.ai/articles/the-50-best-free-datasets-for-machine-learning/

[この記事は51CTOコラム「Machine Heart」、WeChatパブリックアカウント「Machine Heart（id: Almosthuman2014）」からのオリジナル記事です]

この著者の他の記事を読むにはここをクリックしてください

<<: IBM、GPUに匹敵する新しいニューラルネットワークチップを開発

>>: 人工知能は転移学習を使用して、自然画像から抽出した特徴を使用してイラスト分類の精度を向上させます

テキスト処理から自動運転まで: 機械学習で最もよく使われる 50 の無料データセット

顔認識の背後にあるもの：怖いのは技術ではない

2021 年のアクセス制御市場と技術開発の動向

【ビッグネーム登場、第2話】快溝タクシーの知能進化への道

マイクロソフトリサーチアジアと教育省が協力し、AI産業と教育の統合に向けた双方にメリットのあるエコシステムの構築に取り組んでいます。

2017 年のトップデータサイエンスと機械学習手法

人工知能シナリオにおける HBase の使用

マイクロソフトはセキュリティ上の理由から従業員によるOpenAI ChatGPTの使用を制限

推薦する

ジェネレーティブ AI と自動化: 未来のデータセンターを加速

初級データベースアルゴリズム [I]

2日間で星の数が1,000を突破：OpenAIのWhisperの蒸留後、音声認識が数倍高速化

MLP および Re-Parameter シリーズに関する人気の論文を含む、注目メカニズムの 17 個の PyTorch 実装

AI に物語を伝える: シーンを想像するように教えるにはどうすればよいでしょうか?

OpenAI、自然言語をコードに翻訳するAIシステムCodexのテストを開始

Facebook、MITなどが研究論文を発表：ディープラーニングの実際の仕組みを説明する理論

UiPath Carnivalは職場の自動化におけるイノベーションを探るために近日開催されます

AIが伝染病と闘う: 時折の恥ずかしさの裏に究極の防壁が現れる

Zhiyuan が世界最大の中国語と英語のベクトルモデルトレーニングデータセットをリリースしました。最大3億のテキストペアまで拡張可能

人工知能が人間の脳を再現できるかどうかは論争を巻き起こしている。米メディア「AIにはまだ限界がある」

NLP フィールドインデックスツール、3000 以上のコードベース、論文や GitHub ライブラリのワンクリック検索

粒子ロボットの出現はロボットの自己認識覚醒の危機をもたらすかもしれない

2022年のデータサイエンスとAIの予測