100日学習プラン | データサイエンスの詳細ガイド

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

データサイエンスを学ぶことに興味はあるけれど、どこから始めればいいか分からないですか?もしそうなら、あなたは正しい場所にいます。

データサイエンスの学習に熱心であるにもかかわらず、ほんの数週間で諦めてしまう人を何人も見てきました。ある分野にこれほど情熱を傾ける人が、なぜそれを追求しないのか不思議です。何人かと話をしたところ、人々が勉強をあきらめる主な理由は次の通りだと分かりました。

データサイエンティストになるには学ぶべきトピックがたくさんある
彼らが出会ったガイドによると、データサイエンティストになるには、優れたプログラマー、数学の専門家、応用統計学の達人、そして pandas、NumPy、その他の Python ライブラリの使い方に非常に熟達している必要があるとのことでした。

これらは、経験豊富なデータサイエンティストでさえも怖がらせる可能性があり、人々がデータサイエンスを学ぼうとしないのも不思議ではありません。上記の各トピックは海のようなもので、誰かがすぐに習得しようとすると、挫折して学習を諦めてしまいます。本当のところ、成功するデータサイエンティストになるには、あるいはデータサイエンティストになるには、さらに多くのことを習得する必要があります。

データサイエンスを学ぶ方法

[[345480]]

データサイエンティストになるには、次の項目を十分に学ぶ必要があります。

PythonまたはRプログラミングの基礎知識
Pythonを選択した場合は、pandasやNumpyなどのライブラリ
ggplot、Seaborn、Plotly などの視覚化ライブラリ。
統計
SQLプログラミング
数学、特に線形代数と微積分

以下のビデオでは、データサイエンスを学ぶためのステップバイステップのガイドについて説明しました。データサイエンスのさまざまなレベルの専門知識に到達するために必要な知識の深さについて説明しました。

https://youtu.be/5zec-qxfMvg

勉強の計画を立てるには？最初にどのトピックを取り上げるべきでしょうか?

100日間でデータサイエンスを学ぶ計画を説明します。以下は、100 日間にわたり、1 日あたり少なくとも 1 時間を要する、Python を使用したデータサイエンスの学習の 1 日ごとの計画です。

1日目: ツールのインストール

必要なツールがインストールされていることを確認し、今後数週間/数か月間使用するツールに慣れていることを確認してください。 Python を選択すると、Anaconda がインストールされ、IDE の Jupyter Notebook と Spyder もインストールされます。「R」を選択すると、RStudio がインストールされます。 IDE をいろいろ試してみて、使いこなせるようになってください。たとえば、パッケージ/ライブラリのインストール、コードの一部実行、メモリのクリアなどについて理解するようにしてください。

2日目から7日目: データサイエンスのための基本プログラミング

次のステップは、基本的なプログラミングを学ぶことです。学ぶべきトピックは次のとおりです。

変数の作成
文字列データ型と文字列データ型でよく実行される操作
数値データ型、ブール値、演算子
コレクションデータ型のリスト、タプル、セット、および辞書 - それらの一意性と違いを理解することは非常に重要です。
If-Then-Else 条件、For ループ、While ループの実装
関数とラムダ関数 - それぞれの利点と違い

8日目から17日目: パンダ図書館

Pandas ライブラリについて学びます。Pandas で知っておくべきトピックは次のとおりです。

データフレームを作成し、ファイルからデータを読み取り、データフレームをファイルに書き込む
データフレームからのデータのインデックス作成と選択
反復とソート
集約とグループ化
欠損値と欠損値の取り扱い
Pandas の名前変更と置き換え
DataFrames での結合、マージ、連結
要約分析、クロス集計、ピボット
データ、カテゴリデータとスパースデータ

上記のトピックは探索的データ分析を実行する際に非常に役立つため、10 日間かけて徹底的に学習してください。これらのトピックを紹介する際には、マージと結合、クロス集計とピボットの違いを理解するなど、細かい詳細まで踏み込んで、それぞれを理解するだけでなく、いつ、どこで使用するかも把握するようにしてください。

なぜパンダを学ぶ必要があるのでしょうか?データサイエンスプロジェクトに取り組む場合、データへの理解を深めるために探索的なデータ分析から始めるのが常であり、Pandas で紹介したこれらのトピックが役に立ちます。また、Pandas はさまざまなソースや形式からデータを読み取るのに役立つため、高速かつ効率的であり、データセットに対してさまざまな操作を実行するための簡単な機能も提供します。

18日目から22日目: Numpy ライブラリ

Pandas を学習した後、次に学習する重要なライブラリは Numpy です。 Numpy を学ぶ理由は、List に比べて非常に高速だからです。 Numpy でカバーされるトピックは次のとおりです。

配列の作成
インデックスとスライス
データ型
接続と切断
検索と並べ替え
必要なデータ要素をフィルタリングする

Numpy を学ぶことがなぜ重要なのでしょうか? Numpy を使用すると、データに対して科学的な演算を高速かつ効率的に実行できます。機械学習アルゴリズムで一般的に使用される効率的な行列演算をサポートしており、pandas ライブラリも Numpy を広範に使用しています。

23日目から25日目: 視覚化

ここで、ggplot、Plotly、Seaborn などの主要な視覚化ライブラリを理解して使用するために時間を費やす必要があります。サンプルデータセットを使用して、棒グラフ、折れ線グラフ/トレンドグラフ、ボックスプロット、散布図、ヒートマップ、円グラフ、縦棒グラフ、バブルチャート、その他の興味深いまたはインタラクティブな視覚化など、さまざまな視覚化を試してください。

データサイエンスプロジェクトの鍵は、関係者に洞察を伝えることであり、視覚化はこの目的に最適なツールです。

26日目から35日目: 統計、実装、ユースケース

次に議論される重要なトピックは統計であり、平均、中央値、最頻値、範囲分析、標準偏差、分散などの一般的に使用される記述統計手法について説明します。

次に、データセット内の外れ値の識別や誤差の測定など、より高度な手法を紹介します。

さまざまな統計テスト (以下を参照) を調べる最後のステップとして、これらの統計テストが実際の生活でどのように使用されるかを理解します。

F検定
分散分析
カイ二乗検定
T検定
Z検定

36日目から40日目: データ分析のためのSQL

今こそ SQL を学ぶときです。ほとんどの企業ユースケースでは、データはデータベースに保存されるため、SQL を知っておくと、分析のためにシステムから必要なデータを照会するのに大いに役立つため、これは重要です。

まず、MySQL のようなオープンソースデータベースをインストールします。これにはいくつかのデフォルトデータベースが付属しており、データの操作と SQL の学習のみが必要になります。以下の点を重点的に学習していただければ幸いです。

テーブルからデータを選択する
キーに基づいて異なるテーブルからデータを結合する
データのグループ化と集計機能を実行する
ケース文とフィルター条件の使用

41日目 - 50日目: 探索的データ分析 (EDA)

どのデータサイエンスプロジェクトでも、約 80% の時間がこのアクティビティに費やされるため、時間をかけてこのトピックを徹底的に学習することが最善です。探索的データ分析を学習する目的で、ここでは特定の機能やトピックについて取り上げるのではなく、データセットとユースケースに基づいて分析を進めていきます。したがって、Kaggle でホストされているコンペティションのサンプルデータセットを使用して探索的分析を実行する方法を学習することをお勧めします。

探索的データ分析を学ぶもう 1 つの方法は、データセットに関する質問を記述し、データセットからその答えを見つけることです。たとえば、最も人気のあるタイタニック号のデータセットを検討し、どの性別/年齢/デッキで死亡の確率が高いかなどの質問に対する答えを見つけようとします。包括的な分析を行う能力は時間の経過とともに向上しますので、忍耐強く、ゆっくりと自信を持って学習してください。

データサイエンティストに必要なコアスキルをすべて学習したので、次はアルゴリズムを学習します。

数学はどうなったの？

はい、線形代数と微積分を知ることは重要ですが、数学の概念を学ぶことに時間を費やすのは避けたいです。しかし、必要なときに参照してスキルを磨くことができれば、高校レベルの数学で十分です。たとえば、勾配降下法を学習しているとします。アルゴリズムを学習しながら、その背後にある数学を学ぶことに時間を費やすことができます。なぜなら、数学の重要な概念を学び始めると、非常に時間がかかる可能性があり、必要なときに学習することで、その時間で必要なことを十分に学習できますが、数学のすべての概念を学び始めると、より多くの時間を費やし、必要な以上のことを学ぶことになります。

51日目から70日目: 教師あり学習とプロジェクトの実施

最初の 10 日間は、いくつかの重要なアルゴリズムを学習し、その背後にある数学を理解することに費やし、次の 10 日間はプロジェクトを開発しながら学習することに集中します。このクラスで取り上げるアルゴリズムの一部は次のとおりです。

線形回帰とロジスティック回帰
決定木/ランダムフォレスト
サポートベクターマシン (SVM)

最初の 10 日間は、選択したアルゴリズムの背後にある理論を理解することに重点を置く必要があります。次に、データセット内にカテゴリ属性が多数ある場合は決定木が最適であるなど、各アルゴリズムが他のアルゴリズムよりも適しているシナリオを理解するために時間を費やします。

次に、Kaggle で解決済みの例を選択します。解決済みの例が大量に見つかります。それらを再実装してみてください。ただし、各コード行を注意深く読み、その背後にある理由を理解してください。これまでに、優れた理論的知識と、解決した例からの実用的な知識を習得しました。

最後のステップでは、プロジェクトを選択し、データ収集、探索的分析、特徴エンジニアリング、モデル構築、モデル検証から始めて、教師あり学習アルゴリズムを実装します。確かに多くの疑問や問題が出てきますが、プロジェクトを完了する頃には、アルゴリズムと方法について十分に理解できるようになります。

71日目から90日目: 教師なし学習とプロジェクトの実装

次は、教師なし学習に焦点を当てます。教師あり学習で使用されるアプローチと同様に、まず数日かけて教師なし学習で選択したアルゴリズムの背後にある概念を理解し、次にプロジェクトを実装して学習します。

ここで議論するアルゴリズムは、

クラスタリングアルゴリズム - データセット内のクラスターを識別するために使用される
関連性分析 – データのパターンを識別するために使用
主成分分析 – 属性の数を減らすために使用
レコメンデーションシステム - 類似のユーザー/製品を識別し、推奨を行うために使用されます

最初のうちは、上記のアルゴリズムとテクニックを理解すること、またそれぞれの目的と、主成分分析などの使用できるシナリオを理解することに重点を置く必要があります。主成分分析は通常、非常に多くの列を扱っていて、情報を削減しつつも保持したい場合にデータセットの次元削減に使用され、推奨システムは、顧客の購入パターンに基づいて、売上を伸ばすために顧客が興味を持ちそうな他の製品を推奨できる電子商取引で人気があります。

理論とそれらを使用できるシナリオに慣れたら、解決済みの例を選択してリバースエンジニアリング、つまり各コード行を理解して再実行することで学習できます。

最後のステップとして、これまでに学んだ内容に基づいてユースケースを選択し、実装します。プロジェクトやユースケースを完了する過程で多くのことを学び、これらのアルゴリズムをより深く理解できるようになります。その理解は一生ものになります。

91日目から100日目: 自然言語処理の基礎

この時間を活用して、非構造化データやテキストデータの分析とユースケースに焦点を当てます。ここで時間を費やす価値のあることはあまりありません。

APIを使用してパブリックソースからデータを取得する方法を学ぶ
基本的な感情分析を実行します。Twitter APIのデータを使用して特定のハッシュタグのツイートを抽出し、それらのツイートの背後にある感情や感情を計算できます。
トピックモデリング – 多数のドキュメントがあり、それらを異なるカテゴリにグループ化したい場合に便利です。

以上です。これで重要な概念をすべて理解し、あらゆるデータサイエンスの仕事に応募できるようになりました。私の YouTube チャンネルで「100 日間データサイエンスを学ぶ」チュートリアルを開始しました。ご興味があれば、ぜひご参加いただき、データサイエンスを学ぶチュートリアルをここから始めてください。

https://youtu.be/VaXijSN_SJc

よくある質問

100 日でデータサイエンティストになれるでしょうか?

はい、誰でも数日で泳ぎ方を習得できるのと同じように、誰でも 100 日かそれ以下でデータサイエンスを習得できます。しかし、水泳と同じように、優秀な水泳選手やオリンピック選手になるには、懸命な努力と絶え間ない練習が必要です。データサイエンスでも同じことが言えます。絶え間ない練習と懸命な努力によって、専門家になれるのです。

このチュートリアルに従うと、どれくらい学べますか?

チュートリアルの最後までに、一般的なデータサイエンスプロジェクトに取り組むのに十分な知識が得られます。この方法では、学習の障壁が取り除かれ、最小限の労力とサポートで、データサイエンスの高度なトピックの学習に進むことができます。