導入データサイエンス (機械学習) プログラムは、この分野でのキャリアをスタートさせる有望な方法を提供します。データサイエンスを応用して学ぶだけでなく、履歴書に記載できるプロジェクトもいくつかあります。 今日、採用担当者は資格ではなく仕事を通じて候補者の可能性を評価します。何も伝えることがなくても大丈夫です!ここがほとんどの人が苦労し、見逃してしまうところです。 これまでにいくつかの問題を扱ったことがあるかもしれませんが、それをわかりやすく説明できなければ、いったい誰があなたの能力を知ることができるでしょうか?これらのプログラムが役に立ちます。トレーニング コースなどのプロジェクトに費やす時間について考えてください。練習に多くの時間を費やすほど、上達します! さまざまな分野からさまざまな質問をご提供いたします。私たちは、誰もが大量のデータを賢く扱う方法を学ぶ必要があると考えています。これには大規模なデータセットも含まれます。さらに、すべてのデータセットがオープンであり、自由にアクセス可能であることを保証します。 役立つ情報どこから始めるか決めやすくするために、このリストを 3 つのレベルに分割しました。
目次
主要な1. アイリスデータセットこれはおそらく、パターン認識の文献の中で最も一般的で、最も単純で、最もリソースが豊富なデータセットです。アイリス データセットで分類手法を学ぶことほど簡単なことはありません。データサイエンスを初めて学ぶ学生の場合、これが出発点となるはずです。データには 150 行と 4 列しかありません。 問題: 利用可能な属性に基づいて花のクラスを予測します。 開始方法: データを取得する: https://archive.ics.uci.edu/ml/datasets/Iris チュートリアル: http://www.slideshare.net/thoi_gian/iris-data-analysis-with-r Iris データを確認し、下のライブコーディング ウィンドウでロジスティック回帰モデルを構築してみましょう。 https://id.analyticsvidhya.com/auth/login/?next=https://www.analyticsvidhya.com/blog/2018/05/24-ultimate-data-science-projects-to-boost-your-knowledge-and-skills 2. ローン予測データセットすべての業界の中で、保険業界は分析とデータ サイエンスの手法が最も多く使用されている業界の 1 つです。このデータセットを使用すると、保険会社のデータセットを調べて、そこでどのような課題が直面したか、どのような戦略が使用されたか、どのような変数が結果に影響を与えたかなどを確認できます。これは分類の問題です。データには 615 行と 13 列があります。 問題: ローンが承認されるかどうかを予測します。 はじめに: データを入手: https://datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction-iii/ チュートリアル: https://www.analyticsvidhya.com/blog/2016/01/complete-tutorial-learn-data-science-python-scratch-2/ ローンデータを確認し、下のライブコーディングウィンドウでロジスティック回帰モデルを構築してみましょう。 https://id.analyticsvidhya.com/auth/login/?next=https://www.analyticsvidhya.com/blog/2018/05/24-ultimate-data-science-projects-to-boost-your-knowledge-and-skills 3. Bigmart 販売データセット小売業も、ビジネス プロセスを最適化するために分析を広範に活用している業界の 1 つです。商品の配置、在庫管理、カスタマイズされたオファー、商品のバンドルなどのタスクは、データ サイエンスの手法を使用して巧みに処理できます。名前の通り、販売店舗の取引記録が記録されたデータです。これは回帰問題です。データには 12 個の変数を含む 8523 行があります。 問題: 店舗の売上を予測します。 開始方法: データを取得: https://datahack.analyticsvidhya.com/contest/practice-problem-big-mart-sales-iii/ チュートリアル: https://www.analyticsvidhya.com/blog/2016/02/bigmart-sales-solution-top-20/ Big Mart の売上データを見て、下のライブコーディング ウィンドウで線形回帰モデルを構築してみましょう。 https://id.analyticsvidhya.com/auth/login/?next=https://www.analyticsvidhya.com/blog/2018/05/24-ultimate-data-science-projects-to-boost-your-knowledge-and-skills 4. ボストン住宅データセットこれは、パターン認識の文献でよく使われるもう 1 つのデータセットです。このデータセットは、米国ボストンの不動産業界から収集されたものです。これは回帰問題です。データには 506 行と 14 列があります。したがって、これはかなり小さなデータセットであり、ラップトップのメモリを使いすぎることを心配することなく、任意のテクニックを試すことができます。 問題: 自宅所有住宅の中央値を予測します。 開始方法: データを取得する: https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html チュートリアル: https://www.analyticsvidhya.com/blog/2015/11/started-machine-learning-ms-excel-xl-miner/ 5. 時系列分析データセット時系列は、データ サイエンスで最も一般的に使用される手法の 1 つです。天気予報、売上予測、前年比の傾向分析など、幅広い用途があります。このデータセットは時系列に特化しており、ここでの課題は 1 つの交通手段による交通量を予測することです。データには行と列があります。 問題: 新しい輸送手段による交通量を予測する。 はじめに: データを入手: https://datahack.analyticsvidhya.com/contest/practice-problem-time-series-2/ チュートリアル: https://trainings.analyticsvidhya.com/courses/course-v1:AnalyticsVidhya+TS_101+TS_term1/about 6. ワイン品質データセットこれは、データ サイエンスの初心者の間で最も人気のあるデータセットの 1 つです。 2つのデータセットに分かれています。このデータに対して回帰タスクと分類タスクを実行できます。異常検出、特徴選択、不均衡なデータなど、さまざまな分野における理解度をテストします。このデータセットには 4898 行と 12 列があります。 問題: ワインの品質を予測します。 開始方法: データを取得する: https://archive.ics.uci.edu/ml/datasets/Wine+Quality チュートリアル: https://web.stanford.edu/~ilker/doc/wine_Stats315A.pdf 7. トルコ学生評価データセットこのデータセットは、さまざまなコースの学生が記入した評価フォームに基づいています。出席、難易度、各評価質問のスコアなど、さまざまな属性があります。これは教師なし学習の問題です。データセットには 5820 行と 33 列があります。 問題: 分類とクラスタリングの手法を使用してデータを処理します。 開始方法: データを取得: https://archive.ics.uci.edu/ml/datasets/Wine+Quality https://archive.ics.uci.edu/ml/datasets/Turkiye+Student+Evaluation チュートリアル: https://sanghosuh.github.io/research/LA_EdMining_SanghoSuh.pdf 8. 身長と体重のデータセットこれはかなり簡単な質問で、データサイエンスを始めたばかりの人に最適です。これは回帰問題です。データセットには 25,000 行と 3 つの列 (インデックス、高さ、重量) があります。 問題: 人の身長または体重を予測します。 開始: データを取得: http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data_Dinov_020108_HeightsWeights チュートリアル: https://www3.nd.edu/~steve/computing_with_data/2_Motivation/motivate_ht_wt.html 中級1. ブラックフライデーデータセットこのデータセットには、小売店で収集された販売取引が含まれています。これは、さまざまなショッピング体験から得られる日常的な理解だけでなく、特別なエンジニアリング スキルを探求および拡張するための標準的なデータセットです。これは回帰問題です。データセットには 550,069 行と 12 列があります。 問題: 購入金額を予測します。 開始方法: データを取得: https://datahack.analyticsvidhya.com/contest/black-friday/ チュートリアル: https://discuss.analyticsvidhya.com/t/black-friday-data-hack-reveal-your-approach/5986 2. 人間の行動認識データセットデータセットは、組み込みのスマート慣性センサーを搭載したスマートフォンで撮影された 30 人の録画から収集されます。多くの機械学習コースでは、教育目的でこのデータを使用します。今あなた。これは多重分類の問題です。データセットには 10,299 行と 561 列があります。 問題: 人間の活動のカテゴリーを予測します。 開始: データを取得: http://archive.ics.uci.edu/ml/datasets/Human+Activity+Recognition+Using+Smartphones チュートリアル: https://rstudio-pubs-static.s3.amazonaws.com/291850_859937539fb14c37b0a311db344a6016.html 3. テキストマイニングデータセットこのデータセットは、もともと 2007 年に開催された Siamese テキスト マイニング コンテストから取得されました。データには、特定の飛行中に発生した問題を説明する航空安全レポートが含まれています。これは複数の分類を伴う高次元の問題です。行数は 21,519、列数は 30,438 です。 問題: ラベルに基づいてドキュメントを分類します。 開始: データを取得します: http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/multilabel.html#siam-competition2007 チュートリアル: https://wtlab.um.ac.ir/images/e-library/text_mining/Survey%20of%20Text%20Mining%202%20.pdf 4. 旅行履歴データセットこのデータセットは、米国の自転車シェアリング サービスから取得されました。このデータセットでは、専門的なデータ処理スキルを発揮する必要があります。データは 2010 年第 4 四半期から四半期ごとに提供されます。各ファイルには 7 つの列があります。これは分類の問題です。 問題: ユーザー カテゴリを予測します。 開始方法: データを取得: https://www.capitalbikeshare.com/trip-history-data チュートリアル: https://www.analyticsvidhya.com/blog/2015/06/solution-kaggle-competition-bike-sharing-demand/ 5. 百万曲のデータセットデータサイエンスがエンターテインメント業界でも活用できることをご存知ですか?自分でやってみよう!このデータセットは回帰タスクを提案します。 5,15,345 個の観測値と 90 個の変数で構成されています。ただし、これは約 100 万曲の生データ データベースのほんの一部にすぎません。 問題: 曲がリリースされた年を予測します。 開始方法: データを取得する: http://archive.ics.uci.edu/ml/datasets/YearPredictionMSD チュートリアル: http://www-personal.umich.edu/~yjli/content/projectreport.pdf 6. 国勢調査所得データセットこれは不均衡な分類であり、典型的な機械学習の問題です。ご存知のように、機械学習は、がん検出、詐欺検出などの不均衡な問題を解決するために広く使用されてきました。今こそ、あなた自身の手で問題を解決する時です。データセットには 48,842 行と 14 列があります。 問題: 米国の人口の所得階層を予測します。 開始方法: データを取得する: http://archive.ics.uci.edu/ml/machine-learning-databases/census-income-mld/ チュートリアル: https://cseweb.ucsd.edu/~jmcauley/cse190/reports/sp15/048.pdf 7. 映画映像データセット紹介システムはありますか?これはあなたのチャンスです!このデータセットは、データ サイエンス業界で最も人気があり、最も引用されているデータセットの 1 つです。様々なサイズがあります。ここではかなり小さいサイズを使用しました。 4,000本の映画に対して6,000人のユーザーから100万件の評価を獲得しました。 問題: ユーザーに新しい映画を推奨します。 開始方法: データを取得する: http://grouplens.org/datasets/movielens/1m/ チュートリアル: https://www.analyticsvidhya.com/blog/2016/06/quick-guide-build-recommendation-engine-python/ 8. Twitter分類データセットTwitter データの使用は、感情分析の問題の不可欠な部分となっています。この分野で自分のニッチな分野を切り開きたいなら、このデータセットの課題に取り組むのは楽しいでしょう。データセットのサイズは 3MB で、ツイートは 31,962 件あります。 問題: ヘイトツイートとそうでないツイートを識別します。 開始方法: データを取得: https://datahack.analyticsvidhya.com/contest/practice-problem-twitter-sentiment-analysis/ チュートリアル: https://github.com/abdulfatir/twitter-sentiment-analysis 高度な1.データセットを決定するこのデータセットを使用すると、画像内の要素を調査、分析、識別できます。カメラが画像認識であなたの顔を検出する仕組みです!今度はあなたがテクノロジーを構築してテストする番です。これは数字認識の問題です。データセットには、サイズ 28 x 28 の画像が 7,000 枚含まれており、合計 31 MB になります。 問題: 画像内の数字を識別します。 はじめに: データを取得する: https://datahack.analyticsvidhya.com/contest/practice-problem-identify-the-digits/ チュートリアル: https://www.analyticsvidhya.com/blog/2016/10/an-introduction-to-implementing-neural-networks-using-tensorflow/ 2. 都市の音の分類機械学習の旅を始めると、タイタニック号の生存予測などの単純な機械学習の問題に遭遇するでしょう。しかし、現実の問題に対する練習はまだ十分ではありません。したがって、この練習問題は、一般的な分類の文脈におけるオーディオ処理を紹介することを目的としています。このデータセットには、10 のカテゴリに分類された都市の音の抜粋 8,732 件が含まれています。 問題: 音声から音の種類を分類します。 開始方法: データを取得する: https://datahack.analyticsvidhya.com/contest/practice-problem-urban-sound-classification/ チュートリアル: https://www.analyticsvidhya.com/blog/2017/08/audio-voice-processing-deep-learning/ 3. Voxセレブリティデータセットオーディオ処理は急速にディープラーニングの重要な分野になりつつあるため、これはまた別の難しい問題です。このデータセットは大規模な話者認識用であり、YouTube 動画から抽出された有名人が話した言葉が含まれています。これは、音声を分離して認識するための興味深い使用例です。データには 1,251 人の著名人による 10 万件のスピーチが含まれています。 質問: その声の持ち主が誰であるか調べてください。 開始方法: データを取得: http://www.robots.ox.ac.uk/~vgg/data/voxceleb/ チュートリアル: https://www.robots.ox.ac.uk/~vgg/publications/2017/Nagrani17/nagrani17.pdf 4. ImageNetデータセットImageNet は、オブジェクトの検出、位置特定、分類、画面解析など、さまざまな問題を提供します。すべての画像は無料でご利用いただけます。あらゆる種類の画像を検索し、それを中心にプロジェクトを構築できます。現在までに、画像エンジンにはさまざまな形状の画像が 1,500 万枚以上保存されており、合計サイズは最大 140 GB に達します。 問題: 解決すべき問題は、ダウンロードする画像の種類によって異なります。 開始: データを取得: http://image-net.org/download-imageurls チュートリアル: http://image-net.org/download-imageurls 5. シカゴ犯罪データセット今日、すべてのデータ サイエンティストは大規模なデータセットを扱えることを期待しています。企業がデータセット全体を処理できる計算能力を持つようになると、サンプルを使用することはなくなります。このデータセットは、ローカル マシン上で大規模なデータセットを処理するために必要な実践的な経験を提供します。質問は簡単ですが、データ管理が鍵となります。このデータセットには 600 万件の観測値が含まれています。これは多重分類の問題です。 問題: 犯罪の種類を予測します。 開始方法: データを取得: https://data.cityofchicago.org/Public-Safety/Crimes-2001-to-present/ijzp-q8t2 チュートリアル: http://nathanwayneholt.com/mathematicalmodeling/ChicagoCrimesReport.pdf 6. インドの俳優の年齢データセットこれは、ディープラーニング愛好家にとって魅力的な挑戦です。このデータセットにはインド人俳優の画像が何千枚も含まれており、あなたの仕事は彼らの年齢を判定することです。すべての画像はビデオ フレームから手動で選択および切り取られているため、スケール、ポーズ、表情、年齢、解像度、遮蔽、メイクに大きなばらつきが生じます。トレーニング セットには 19,906 枚の画像があり、テスト セットには 6,636 枚の画像があります。 問題: 俳優の年齢を予測します。 開始: データを取得: http://image-net.org/download-imageurls チュートリアル: https://www.analyticsvidhya.com/blog/2017/06/hands-on-with-deep-learning-solution-for-age-detection-practice-problem/ 7. 推奨エンジンデータセットこれは高度な推奨システムにとっての課題です。この練習問題では、プログラマーのデータと、プログラマーがこれまでに解決した問題、およびその特定の問題を解決するのにかかった時間が提供されます。データ サイエンティストとして構築するモデルは、オンライン審査員がユーザーに推奨する次のレベルの質問を決定するのに役立ちます。 質問: ユーザーの現在の状態に基づいて、問題の解決にどれくらいの時間がかかるかを予測します。 はじめに: データを取得する: https://datahack.analyticsvidhya.com/contest/practice-problem-recommendation-engine/ 8. VisualQAデータセットVisualQA は、画像に関する自由形式の質問を含むデータセットです。これらの問題を解決するには、コンピューター ビジョンと言語の理解が必要です。この問題には自動評価メトリックがあります。データセットには 265,016 枚の画像、画像ごとに 3 つの質問、質問ごとに 10 個の正しい回答が含まれています。 問題: ディープラーニング技術を使用して、画像に関する自由形式の質問に答えます。 はじめに: データを取得: http://www.visualqa.org/ チュートリアル: https://arxiv.org/abs/1708.02711 注釈上記の 24 個のデータセットの中から、まず自分のスキルセットに一致するものを見つける必要があります。機械学習の初心者の場合は、最初から高度なデータセットの使用は避けてください。自分の能力以上のことを引き受けたり、まだやらなければならないことに圧倒されたりしないでください。代わりに、段階的な進歩を遂げることに焦点を当ててください。 2~3 件のプロジェクトが完了したら、履歴書と GitHub プロフィールでそれらを紹介してください (非常に重要です)。現在、多くの採用担当者は、GitHub プロフィールを確認して候補者を採用しています。すべてのプロジェクトを完了することが目的ではなく、解決したい問題、ドメイン、データセットのサイズに基づいていくつかのプロジェクトを選択することが目的です。 |
<<: コード生成のためのツリーベースのTransformerアーキテクチャ
>>: AI テクノロジーはワイヤレス ネットワークのインテリジェンスに何をもたらすのでしょうか?
次のコードは、C# 遺伝的アルゴリズムを使用して、単純な花の進化シミュレーション プロセスを実装しま...
最近、DeepMind の研究者たちは、知的生物の出現を促進するように設計された人工生命フレームワー...
.Net Framework は、Microsoft が提供する .NET 開発に基づいた基本環境で...
海外メディアは、プライスウォーターハウスクーパースの報告書が、人工知能と5G技術が今後3~5年でスマ...
教育部基礎教育司は1月11日、「教育部弁公庁による小中学校向け人工知能教育拠点の推薦に関する通知」(...
近年、自動運転の開発が本格化し、多くの企業や資本が参入しています。こうした背景から、もうすぐ終わる6...
最近、CCTVニュースによると、中国は2月末までに計画通り5Gネットワーク構築の80%を完了した...
海外メディアの報道によると、日本は5月31日に、特殊な外観の球形ロボットを月に送る予定だ。この球体ロ...
人工知能 (AI) は、コンピューター サイエンス、数学、心理学、言語学などの分野が関わる学際的な分...
楽しいボードゲームとして誕生してから 100 年経った今、数独はどのようにして計算研究の焦点となった...
会話型 AI ロボットとのコミュニケーションを経験したことがあるなら、非常にイライラした瞬間を間違い...
[51CTO.com からのオリジナル記事] ロボット製造は現在、知能ロボットの時代である 2.0 ...
エンタープライズ チャットボットは脳死状態です。彼らには認知力も深みもなく、リアルタイムの概念や状況...