知識とスキルの限界を押し広げる 24 の機械学習プロジェクト

導入

データサイエンス (機械学習) プログラムは、この分野でのキャリアをスタートさせる有望な方法を提供します。データサイエンスを応用して学ぶだけでなく、履歴書に記載できるプロジェクトもいくつかあります。

今日、採用担当者は資格ではなく仕事を通じて候補者の可能性を評価します。何も伝えることがなくても大丈夫です！ここがほとんどの人が苦労し、見逃してしまうところです。

これまでにいくつかの問題を扱ったことがあるかもしれませんが、それをわかりやすく説明できなければ、いったい誰があなたの能力を知ることができるでしょうか?これらのプログラムが役に立ちます。トレーニングコースなどのプロジェクトに費やす時間について考えてください。練習に多くの時間を費やすほど、上達します！

さまざまな分野からさまざまな質問をご提供いたします。私たちは、誰もが大量のデータを賢く扱う方法を学ぶ必要があると考えています。これには大規模なデータセットも含まれます。さらに、すべてのデータセットがオープンであり、自由にアクセス可能であることを保証します。

役立つ情報

どこから始めるか決めやすくするために、このリストを 3 つのレベルに分割しました。

初心者: このレベルには、操作がかなり簡単で、複雑なデータサイエンス手法を必要としないデータセットが含まれています。基本的な回帰アルゴリズムまたは分類アルゴリズムを使用して解決できます。さらに、これらのデータセットには、使い始めるのに役立つオープンチュートリアルが十分に用意されています。
中級: このレベルには、本質的により難しいデータセットが含まれています。中規模から大規模のデータセットで構成されており、高度なパターン認識スキルが必要です。また、機能エンジニアリングもここで違いを生み出します。機械学習技術の使用に制限はなく、あらゆるものを使用できます。
上級: このレベルは、ニューラルネットワーク、ディープラーニング、レコメンデーションシステムなどの高度なトピックを理解している人に最適です。高次元データセットもここで入手できます。さらに、今は創造力を発揮する時期です。最高のデータサイエンティストが仕事やコードにもたらす創造性をご覧ください。

プライマリアイリスデータローン予測データビッグマート売上データボストン住宅データ時系列分析データワイン品質データトルコ学生評価データ身長と体重データ
中級ブラックフライデーデータ人間の活動認識データシャムレースデータ旅行記録データ 100万曲データ国勢調査収入データ映画映像データ Twitter分類データ
デジタルシティの高度な認識音声分類VoxセレブプロフィールImageNetデータシカゴ犯罪データインド俳優データ年齢検出推奨エンジンデータVisualQAデータ

主要な

1. アイリスデータセット

これはおそらく、パターン認識の文献の中で最も一般的で、最も単純で、最もリソースが豊富なデータセットです。アイリスデータセットで分類手法を学ぶことほど簡単なことはありません。データサイエンスを初めて学ぶ学生の場合、これが出発点となるはずです。データには 150 行と 4 列しかありません。

問題: 利用可能な属性に基づいて花のクラスを予測します。

開始方法: データを取得する: https://archive.ics.uci.edu/ml/datasets/Iris

チュートリアル: http://www.slideshare.net/thoi_gian/iris-data-analysis-with-r

Iris データを確認し、下のライブコーディングウィンドウでロジスティック回帰モデルを構築してみましょう。

https://id.analyticsvidhya.com/auth/login/?next=https://www.analyticsvidhya.com/blog/2018/05/24-ultimate-data-science-projects-to-boost-your-knowledge-and-skills

2. ローン予測データセット

[[351877]]

すべての業界の中で、保険業界は分析とデータサイエンスの手法が最も多く使用されている業界の 1 つです。このデータセットを使用すると、保険会社のデータセットを調べて、そこでどのような課題が直面したか、どのような戦略が使用されたか、どのような変数が結果に影響を与えたかなどを確認できます。これは分類の問題です。データには 615 行と 13 列があります。

問題: ローンが承認されるかどうかを予測します。

はじめに: データを入手: https://datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction-iii/

チュートリアル: https://www.analyticsvidhya.com/blog/2016/01/complete-tutorial-learn-data-science-python-scratch-2/

ローンデータを確認し、下のライブコーディングウィンドウでロジスティック回帰モデルを構築してみましょう。

https://id.analyticsvidhya.com/auth/login/?next=https://www.analyticsvidhya.com/blog/2018/05/24-ultimate-data-science-projects-to-boost-your-knowledge-and-skills

3. Bigmart 販売データセット

[[351878]]

小売業も、ビジネスプロセスを最適化するために分析を広範に活用している業界の 1 つです。商品の配置、在庫管理、カスタマイズされたオファー、商品のバンドルなどのタスクは、データサイエンスの手法を使用して巧みに処理できます。名前の通り、販売店舗の取引記録が記録されたデータです。これは回帰問題です。データには 12 個の変数を含む 8523 行があります。

問題: 店舗の売上を予測します。

開始方法: データを取得: https://datahack.analyticsvidhya.com/contest/practice-problem-big-mart-sales-iii/

チュートリアル: https://www.analyticsvidhya.com/blog/2016/02/bigmart-sales-solution-top-20/

Big Mart の売上データを見て、下のライブコーディングウィンドウで線形回帰モデルを構築してみましょう。

https://id.analyticsvidhya.com/auth/login/?next=https://www.analyticsvidhya.com/blog/2018/05/24-ultimate-data-science-projects-to-boost-your-knowledge-and-skills

4. ボストン住宅データセット

[[351879]]

これは、パターン認識の文献でよく使われるもう 1 つのデータセットです。このデータセットは、米国ボストンの不動産業界から収集されたものです。これは回帰問題です。データには 506 行と 14 列があります。したがって、これはかなり小さなデータセットであり、ラップトップのメモリを使いすぎることを心配することなく、任意のテクニックを試すことができます。

問題: 自宅所有住宅の中央値を予測します。

開始方法: データを取得する: https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html

チュートリアル: https://www.analyticsvidhya.com/blog/2015/11/started-machine-learning-ms-excel-xl-miner/

5. 時系列分析データセット

[[351880]]

時系列は、データサイエンスで最も一般的に使用される手法の 1 つです。天気予報、売上予測、前年比の傾向分析など、幅広い用途があります。このデータセットは時系列に特化しており、ここでの課題は 1 つの交通手段による交通量を予測することです。データには行と列があります。

問題: 新しい輸送手段による交通量を予測する。

はじめに: データを入手: https://datahack.analyticsvidhya.com/contest/practice-problem-time-series-2/

チュートリアル: https://trainings.analyticsvidhya.com/courses/course-v1:AnalyticsVidhya+TS_101+TS_term1/about

6. ワイン品質データセット

[[351881]]

これは、データサイエンスの初心者の間で最も人気のあるデータセットの 1 つです。 2つのデータセットに分かれています。このデータに対して回帰タスクと分類タスクを実行できます。異常検出、特徴選択、不均衡なデータなど、さまざまな分野における理解度をテストします。このデータセットには 4898 行と 12 列があります。

問題: ワインの品質を予測します。

開始方法: データを取得する: https://archive.ics.uci.edu/ml/datasets/Wine+Quality

チュートリアル: https://web.stanford.edu/~ilker/doc/wine_Stats315A.pdf

7. トルコ学生評価データセット

[[351882]]

このデータセットは、さまざまなコースの学生が記入した評価フォームに基づいています。出席、難易度、各評価質問のスコアなど、さまざまな属性があります。これは教師なし学習の問題です。データセットには 5820 行と 33 列があります。

問題: 分類とクラスタリングの手法を使用してデータを処理します。

開始方法: データを取得: https://archive.ics.uci.edu/ml/datasets/Wine+Quality https://archive.ics.uci.edu/ml/datasets/Turkiye+Student+Evaluation

チュートリアル: https://sanghosuh.github.io/research/LA_EdMining_SanghoSuh.pdf

8. 身長と体重のデータセット

[[351883]]

これはかなり簡単な質問で、データサイエンスを始めたばかりの人に最適です。これは回帰問題です。データセットには 25,000 行と 3 つの列 (インデックス、高さ、重量) があります。

問題: 人の身長または体重を予測します。

開始: データを取得: http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data_Dinov_020108_HeightsWeights

チュートリアル: https://www3.nd.edu/~steve/computing_with_data/2_Motivation/motivate_ht_wt.html

中級

1. ブラックフライデーデータセット

[[351884]]

このデータセットには、小売店で収集された販売取引が含まれています。これは、さまざまなショッピング体験から得られる日常的な理解だけでなく、特別なエンジニアリングスキルを探求および拡張するための標準的なデータセットです。これは回帰問題です。データセットには 550,069 行と 12 列があります。

問題: 購入金額を予測します。

開始方法: データを取得: https://datahack.analyticsvidhya.com/contest/black-friday/

チュートリアル: https://discuss.analyticsvidhya.com/t/black-friday-data-hack-reveal-your-approach/5986

2. 人間の行動認識データセット

[[351885]]

データセットは、組み込みのスマート慣性センサーを搭載したスマートフォンで撮影された 30 人の録画から収集されます。多くの機械学習コースでは、教育目的でこのデータを使用します。今あなた。これは多重分類の問題です。データセットには 10,299 行と 561 列があります。

問題: 人間の活動のカテゴリーを予測します。

開始: データを取得: http://archive.ics.uci.edu/ml/datasets/Human+Activity+Recognition+Using+Smartphones

チュートリアル: https://rstudio-pubs-static.s3.amazonaws.com/291850_859937539fb14c37b0a311db344a6016.html

3. テキストマイニングデータセット

このデータセットは、もともと 2007 年に開催された Siamese テキストマイニングコンテストから取得されました。データには、特定の飛行中に発生した問題を説明する航空安全レポートが含まれています。これは複数の分類を伴う高次元の問題です。行数は 21,519、列数は 30,438 です。

問題: ラベルに基づいてドキュメントを分類します。

開始: データを取得します: http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/multilabel.html#siam-competition2007

チュートリアル: https://wtlab.um.ac.ir/images/e-library/text_mining/Survey%20of%20Text%20Mining%202%20.pdf

4. 旅行履歴データセット

このデータセットは、米国の自転車シェアリングサービスから取得されました。このデータセットでは、専門的なデータ処理スキルを発揮する必要があります。データは 2010 年第 4 四半期から四半期ごとに提供されます。各ファイルには 7 つの列があります。これは分類の問題です。

問題: ユーザーカテゴリを予測します。

開始方法: データを取得: https://www.capitalbikeshare.com/trip-history-data

チュートリアル: https://www.analyticsvidhya.com/blog/2015/06/solution-kaggle-competition-bike-sharing-demand/

5. 百万曲のデータセット

[[351886]]

データサイエンスがエンターテインメント業界でも活用できることをご存知ですか?自分でやってみよう！このデータセットは回帰タスクを提案します。 5,15,345 個の観測値と 90 個の変数で構成されています。ただし、これは約 100 万曲の生データデータベースのほんの一部にすぎません。

問題: 曲がリリースされた年を予測します。

開始方法: データを取得する: http://archive.ics.uci.edu/ml/datasets/YearPredictionMSD

チュートリアル: http://www-personal.umich.edu/~yjli/content/projectreport.pdf

6. 国勢調査所得データセット

これは不均衡な分類であり、典型的な機械学習の問題です。ご存知のように、機械学習は、がん検出、詐欺検出などの不均衡な問題を解決するために広く使用されてきました。今こそ、あなた自身の手で問題を解決する時です。データセットには 48,842 行と 14 列があります。

問題: 米国の人口の所得階層を予測します。

開始方法: データを取得する: http://archive.ics.uci.edu/ml/machine-learning-databases/census-income-mld/

チュートリアル: https://cseweb.ucsd.edu/~jmcauley/cse190/reports/sp15/048.pdf

7. 映画映像データセット

[[351887]]

紹介システムはありますか?これはあなたのチャンスです！このデータセットは、データサイエンス業界で最も人気があり、最も引用されているデータセットの 1 つです。様々なサイズがあります。ここではかなり小さいサイズを使用しました。 4,000本の映画に対して6,000人のユーザーから100万件の評価を獲得しました。

問題: ユーザーに新しい映画を推奨します。

開始方法: データを取得する: http://grouplens.org/datasets/movielens/1m/

チュートリアル: https://www.analyticsvidhya.com/blog/2016/06/quick-guide-build-recommendation-engine-python/

8. Twitter分類データセット

[[351888]]

Twitter データの使用は、感情分析の問題の不可欠な部分となっています。この分野で自分のニッチな分野を切り開きたいなら、このデータセットの課題に取り組むのは楽しいでしょう。データセットのサイズは 3MB で、ツイートは 31,962 件あります。

問題: ヘイトツイートとそうでないツイートを識別します。

開始方法: データを取得: https://datahack.analyticsvidhya.com/contest/practice-problem-twitter-sentiment-analysis/

チュートリアル: https://github.com/abdulfatir/twitter-sentiment-analysis

高度な

1.データセットを決定する

[[351889]]

このデータセットを使用すると、画像内の要素を調査、分析、識別できます。カメラが画像認識であなたの顔を検出する仕組みです！今度はあなたがテクノロジーを構築してテストする番です。これは数字認識の問題です。データセットには、サイズ 28 x 28 の画像が 7,000 枚含まれており、合計 31 MB になります。

問題: 画像内の数字を識別します。

はじめに: データを取得する: https://datahack.analyticsvidhya.com/contest/practice-problem-identify-the-digits/

チュートリアル: https://www.analyticsvidhya.com/blog/2016/10/an-introduction-to-implementing-neural-networks-using-tensorflow/

2. 都市の音の分類

[[351890]]

機械学習の旅を始めると、タイタニック号の生存予測などの単純な機械学習の問題に遭遇するでしょう。しかし、現実の問題に対する練習はまだ十分ではありません。したがって、この練習問題は、一般的な分類の文脈におけるオーディオ処理を紹介することを目的としています。このデータセットには、10 のカテゴリに分類された都市の音の抜粋 8,732 件が含まれています。

問題: 音声から音の種類を分類します。

開始方法: データを取得する: https://datahack.analyticsvidhya.com/contest/practice-problem-urban-sound-classification/

チュートリアル: https://www.analyticsvidhya.com/blog/2017/08/audio-voice-processing-deep-learning/

3. Voxセレブリティデータセット

オーディオ処理は急速にディープラーニングの重要な分野になりつつあるため、これはまた別の難しい問題です。このデータセットは大規模な話者認識用であり、YouTube 動画から抽出された有名人が話した言葉が含まれています。これは、音声を分離して認識するための興味深い使用例です。データには 1,251 人の著名人による 10 万件のスピーチが含まれています。

質問: その声の持ち主が誰であるか調べてください。

開始方法: データを取得: http://www.robots.ox.ac.uk/~vgg/data/voxceleb/

チュートリアル: https://www.robots.ox.ac.uk/~vgg/publications/2017/Nagrani17/nagrani17.pdf

4. ImageNetデータセット

ImageNet は、オブジェクトの検出、位置特定、分類、画面解析など、さまざまな問題を提供します。すべての画像は無料でご利用いただけます。あらゆる種類の画像を検索し、それを中心にプロジェクトを構築できます。現在までに、画像エンジンにはさまざまな形状の画像が 1,500 万枚以上保存されており、合計サイズは最大 140 GB に達します。

問題: 解決すべき問題は、ダウンロードする画像の種類によって異なります。

開始: データを取得: http://image-net.org/download-imageurls

チュートリアル: http://image-net.org/download-imageurls

5. シカゴ犯罪データセット

[[351892]]

今日、すべてのデータサイエンティストは大規模なデータセットを扱えることを期待しています。企業がデータセット全体を処理できる計算能力を持つようになると、サンプルを使用することはなくなります。このデータセットは、ローカルマシン上で大規模なデータセットを処理するために必要な実践的な経験を提供します。質問は簡単ですが、データ管理が鍵となります。このデータセットには 600 万件の観測値が含まれています。これは多重分類の問題です。

問題: 犯罪の種類を予測します。

開始方法: データを取得: https://data.cityofchicago.org/Public-Safety/Crimes-2001-to-present/ijzp-q8t2

チュートリアル: http://nathanwayneholt.com/mathematicalmodeling/ChicagoCrimesReport.pdf

6. インドの俳優の年齢データセット

[[351893]]

これは、ディープラーニング愛好家にとって魅力的な挑戦です。このデータセットにはインド人俳優の画像が何千枚も含まれており、あなたの仕事は彼らの年齢を判定することです。すべての画像はビデオフレームから手動で選択および切り取られているため、スケール、ポーズ、表情、年齢、解像度、遮蔽、メイクに大きなばらつきが生じます。トレーニングセットには 19,906 枚の画像があり、テストセットには 6,636 枚の画像があります。

問題: 俳優の年齢を予測します。

開始: データを取得: http://image-net.org/download-imageurls

チュートリアル: https://www.analyticsvidhya.com/blog/2017/06/hands-on-with-deep-learning-solution-for-age-detection-practice-problem/

7. 推奨エンジンデータセット

[[351894]]

これは高度な推奨システムにとっての課題です。この練習問題では、プログラマーのデータと、プログラマーがこれまでに解決した問題、およびその特定の問題を解決するのにかかった時間が提供されます。データサイエンティストとして構築するモデルは、オンライン審査員がユーザーに推奨する次のレベルの質問を決定するのに役立ちます。

質問: ユーザーの現在の状態に基づいて、問題の解決にどれくらいの時間がかかるかを予測します。

はじめに: データを取得する: https://datahack.analyticsvidhya.com/contest/practice-problem-recommendation-engine/

8. VisualQAデータセット

VisualQA は、画像に関する自由形式の質問を含むデータセットです。これらの問題を解決するには、コンピュータービジョンと言語の理解が必要です。この問題には自動評価メトリックがあります。データセットには 265,016 枚の画像、画像ごとに 3 つの質問、質問ごとに 10 個の正しい回答が含まれています。

問題: ディープラーニング技術を使用して、画像に関する自由形式の質問に答えます。

はじめに: データを取得: http://www.visualqa.org/

チュートリアル: https://arxiv.org/abs/1708.02711

注釈

上記の 24 個のデータセットの中から、まず自分のスキルセットに一致するものを見つける必要があります。機械学習の初心者の場合は、最初から高度なデータセットの使用は避けてください。自分の能力以上のことを引き受けたり、まだやらなければならないことに圧倒されたりしないでください。代わりに、段階的な進歩を遂げることに焦点を当ててください。

2～3 件のプロジェクトが完了したら、履歴書と GitHub プロフィールでそれらを紹介してください (非常に重要です)。現在、多くの採用担当者は、GitHub プロフィールを確認して候補者を採用しています。すべてのプロジェクトを完了することが目的ではなく、解決したい問題、ドメイン、データセットのサイズに基づいていくつかのプロジェクトを選択することが目的です。

<<: コード生成のためのツリーベースのTransformerアーキテクチャ

>>: AI テクノロジーはワイヤレスネットワークのインテリジェンスに何をもたらすのでしょうか?