100日学習プラン | データサイエンスの詳細ガイド

100日学習プラン | データサイエンスの詳細ガイド

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

データサイエンスを学ぶことに興味はあるけれど、どこから始めればいいか分からないですか?もしそうなら、あなたは正しい場所にいます。

データサイエンスの学習に熱心であるにもかかわらず、ほんの数週間で諦めてしまう人を何人も見てきました。ある分野にこれほど情熱を傾ける人が、なぜそれを追求しないのか不思議です。何人かと話をしたところ、人々が勉強をあきらめる主な理由は次の通りだと分かりました。

  • データサイエンティストになるには学ぶべきトピックがたくさんある

  • 彼らが出会ったガイドによると、データ サイエンティストになるには、優れたプログラマー、数学の専門家、応用統計学の達人、そして pandas、NumPy、その他の Python ライブラリの使い方に非常に熟達している必要があるとのことでした。

これらは、経験豊富なデータ サイエンティストでさえも怖がらせる可能性があり、人々がデータ サイエンスを学ぼうとしないのも不思議ではありません。上記の各トピックは海のようなもので、誰かがすぐに習得しようとすると、挫折して学習を諦めてしまいます。本当のところ、成功するデータ サイエンティストになるには、あるいはデータ サイエンティストになるには、さらに多くのことを習得する必要があります。

データサイエンスを学ぶ方法

[[345480]]

データ サイエンティストになるには、次の項目を十分に学ぶ必要があります。

  • PythonまたはRプログラミングの基礎知識

  • Pythonを選択した場合は、pandasやNumpyなどのライブラリ

  • ggplot、Seaborn、Plotly などの視覚化ライブラリ。

  • 統計

  • SQLプログラミング

  • 数学、特に線形代数と微積分

以下のビデオでは、データサイエンスを学ぶためのステップバイステップのガイドについて説明しました。データ サイエンスのさまざまなレベルの専門知識に到達するために必要な知識の深さについて説明しました。

https://youtu.be/5zec-qxfMvg

勉強の計画を立てるには?最初にどのトピックを取り上げるべきでしょうか?

100日間でデータサイエンスを学ぶ計画を説明します。以下は、100 日間にわたり、1 日あたり少なくとも 1 時間を要する、Python を使用したデータ サイエンスの学習の 1 日ごとの計画です。

1日目: ツールのインストール

必要なツールがインストールされていることを確認し、今後数週間/数か月間使用するツールに慣れていることを確認してください。 Python を選択すると、Anaconda がインストールされ、IDE の Jupyter Notebook と Spyder もインストールされます。 「R」を選択すると、RStudio がインストールされます。 IDE をいろいろ試してみて、使いこなせるようになってください。たとえば、パッケージ/ライブラリのインストール、コードの一部実行、メモリのクリアなどについて理解するようにしてください。

2日目から7日目: データサイエンスのための基本プログラミング

次のステップは、基本的なプログラミングを学ぶことです。学ぶべきトピックは次のとおりです。

  • 変数の作成

  • 文字列データ型と文字列データ型でよく実行される操作

  • 数値データ型、ブール値、演算子

  • コレクション データ型のリスト、タプル、セット、および辞書 - それらの一意性と違いを理解することは非常に重要です。

  • If-Then-Else 条件、For ループ、While ループの実装

  • 関数とラムダ関数 - それぞれの利点と違い

8日目から17日目: パンダ図書館

Pandas ライブラリについて学びます。Pandas で知っておくべきトピックは次のとおりです。

  • データフレームを作成し、ファイルからデータを読み取り、データフレームをファイルに書き込む

  • データフレームからのデータのインデックス作成と選択

  • 反復とソート

  • 集約とグループ化

  • 欠損値と欠損値の取り扱い

  • Pandas の名前変更と置き換え

  • DataFrames での結合、マージ、連結

  • 要約分析、クロス集計、ピボット

  • データ、カテゴリデータとスパースデータ

上記のトピックは探索的データ分析を実行する際に非常に役立つため、10 日間かけて徹底的に学習してください。これらのトピックを紹介する際には、マージと結合、クロス集計とピボットの違いを理解するなど、細かい詳細まで踏み込んで、それぞれを理解するだけでなく、いつ、どこで使用するかも把握するようにしてください。

なぜパンダを学ぶ必要があるのでしょうか?データ サイエンス プロジェクトに取り組む場合、データへの理解を深めるために探索的なデータ分析から始めるのが常であり、Pandas で紹介したこれらのトピックが役に立ちます。また、Pandas はさまざまなソースや形式からデータを読み取るのに役立つため、高速かつ効率的であり、データセットに対してさまざまな操作を実行するための簡単な機能も提供します。

18日目から22日目: Numpy ライブラリ

Pandas を学習した後、次に学習する重要なライブラリは Numpy です。 Numpy を学ぶ理由は、List に比べて非常に高速だからです。 Numpy でカバーされるトピックは次のとおりです。

  • 配列の作成

  • インデックスとスライス

  • データ型

  • 接続と切断

  • 検索と並べ替え

  • 必要なデータ要素をフィルタリングする

Numpy を学ぶことがなぜ重要なのでしょうか? Numpy を使用すると、データに対して科学的な演算を高速かつ効率的に実行できます。機械学習アルゴリズムで一般的に使用される効率的な行列演算をサポートしており、pandas ライブラリも Numpy を広範に使用しています。

23日目から25日目: 視覚化

ここで、ggplot、Plotly、Seaborn などの主要な視覚化ライブラリを理解して使用するために時間を費やす必要があります。サンプル データセットを使用して、棒グラフ、折れ線グラフ/トレンド グラフ、ボックス プロット、散布図、ヒート マップ、円グラフ、縦棒グラフ、バブル チャート、その他の興味深いまたはインタラクティブな視覚化など、さまざまな視覚化を試してください。

データ サイエンス プロジェクトの鍵は、関係者に洞察を伝えることであり、視覚化はこの目的に最適なツールです。

26日目から35日目: 統計、実装、ユースケース

次に議論される重要なトピックは統計であり、平均、中央値、最頻値、範囲分析、標準偏差、分散などの一般的に使用される記述統計手法について説明します。

次に、データセット内の外れ値の識別や誤差の測定など、より高度な手法を紹介します。

さまざまな統計テスト (以下を参照) を調べる最後のステップとして、これらの統計テストが実際の生活でどのように使用されるかを理解します。

  • F検定

  • 分散分析

  • カイ二乗検定

  • T検定

  • Z検定

36日目から40日目: データ分析のためのSQL

今こそ SQL を学ぶときです。ほとんどの企業ユースケースでは、データはデータベースに保存されるため、SQL を知っておくと、分析のためにシステムから必要なデータを照会するのに大いに役立つため、これは重要です。

まず、MySQL のようなオープン ソース データベースをインストールします。これにはいくつかのデフォルト データベースが付属しており、データの操作と SQL の学習のみが必要になります。以下の点を重点的に学習していただければ幸いです。

  • テーブルからデータを選択する

  • キーに基づいて異なるテーブルからデータを結合する

  • データのグループ化と集計機能を実行する

  • ケース文とフィルター条件の使用

41日目 - 50日目: 探索的データ分析 (EDA)

どのデータ サイエンス プロジェクトでも、約 80% の時間がこのアクティビティに費やされるため、時間をかけてこのトピックを徹底的に学習することが最善です。探索的データ分析を学習する目的で、ここでは特定の機能やトピックについて取り上げるのではなく、データセットとユースケースに基づいて分析を進めていきます。したがって、Kaggle でホストされているコンペティションのサンプル データセットを使用して探索的分析を実行する方法を学習することをお勧めします。

探索的データ分析を学ぶもう 1 つの方法は、データセットに関する質問を記述し、データセットからその答えを見つけることです。たとえば、最も人気のあるタイタニック号のデータセットを検討し、どの性別/年齢/デッキで死亡の確率が高いかなどの質問に対する答えを見つけようとします。包括的な分析を行う能力は時間の経過とともに向上しますので、忍耐強く、ゆっくりと自信を持って学習してください。

データ サイエンティストに必要なコア スキルをすべて学習したので、次はアルゴリズムを学習します。

数学はどうなったの?

はい、線形代数と微積分を知ることは重要ですが、数学の概念を学ぶことに時間を費やすのは避けたいです。しかし、必要なときに参照してスキルを磨くことができれば、高校レベルの数学で十分です。たとえば、勾配降下法を学習しているとします。アルゴリズムを学習しながら、その背後にある数学を学ぶことに時間を費やすことができます。 なぜなら、数学の重要な概念を学び始めると、非常に時間がかかる可能性があり、必要なときに学習することで、その時間で必要なことを十分に学習できますが、数学のすべての概念を学び始めると、より多くの時間を費やし、必要な以上のことを学ぶことになります。

51日目から70日目: 教師あり学習とプロジェクトの実施

最初の 10 日間は、いくつかの重要なアルゴリズムを学習し、その背後にある数学を理解することに費やし、次の 10 日間はプロジェクトを開発しながら学習することに集中します。このクラスで取り上げるアルゴリズムの一部は次のとおりです。

  • 線形回帰とロジスティック回帰

  • 決定木/ランダムフォレスト

  • サポートベクターマシン (SVM)

最初の 10 日間は、選択したアルゴリズムの背後にある理論を理解することに重点を置く必要があります。次に、データセット内にカテゴリ属性が多数ある場合は決定木が最適であるなど、各アルゴリズムが他のアルゴリズムよりも適しているシナリオを理解するために時間を費やします。

次に、Kaggle で解決済みの例を選択します。解決済みの例が大量に見つかります。それらを再実装してみてください。ただし、各コード行を注意深く読み、その背後にある理由を理解してください。これまでに、優れた理論的知識と、解決した例からの実用的な知識を習得しました。

最後のステップでは、プロジェクトを選択し、データ収集、探索的分析、特徴エンジニアリング、モデル構築、モデル検証から始めて、教師あり学習アルゴリズムを実装します。確かに多くの疑問や問題が出てきますが、プロジェクトを完了する頃には、アルゴリズムと方法について十分に理解できるようになります。

71日目から90日目: 教師なし学習とプロジェクトの実装

次は、教師なし学習に焦点を当てます。教師あり学習で使用されるアプローチと同様に、まず数日かけて教師なし学習で選択したアルゴリズムの背後にある概念を理解し、次にプロジェクトを実装して学習します。

ここで議論するアルゴリズムは、

  • クラスタリングアルゴリズム - データセット内のクラスターを識別するために使用される

  • 関連性分析 – データのパターンを識別するために使用

  • 主成分分析 – 属性の数を減らすために使用

  • レコメンデーションシステム - 類似のユーザー/製品を識別し、推奨を行うために使用されます

最初のうちは、上記のアルゴリズムとテクニックを理解すること、またそれぞれの目的と、主成分分析などの使用できるシナリオを理解することに重点を置く必要があります。主成分分析は通常、非常に多くの列を扱っていて、情報を削減しつつも保持したい場合にデータセットの次元削減に使用され、推奨システムは、顧客の購入パターンに基づいて、売上を伸ばすために顧客が興味を持ちそうな他の製品を推奨できる電子商取引で人気があります。

理論とそれらを使用できるシナリオに慣れたら、解決済みの例を選択してリバース エンジニアリング、つまり各コード行を理解して再実行することで学習できます。

最後のステップとして、これまでに学んだ内容に基づいてユースケースを選択し、実装します。プロジェクトやユースケースを完了する過程で多くのことを学び、これらのアルゴリズムをより深く理解できるようになります。その理解は一生ものになります。

91日目から100日目: 自然言語処理の基礎

この時間を活用して、非構造化データやテキスト データの分析とユースケースに焦点を当てます。ここで時間を費やす価値のあることはあまりありません。

  • APIを使用してパブリックソースからデータを取得する方法を学ぶ

  • 基本的な感情分析を実行します。Twitter APIのデータを使用して特定のハッシュタグのツイートを抽出し、それらのツイートの背後にある感情や感情を計算できます。

  • トピックモデリング – 多数のドキュメントがあり、それらを異なるカテゴリにグループ化したい場合に便利です。

以上です。これで重要な概念をすべて理解し、あらゆるデータ サイエンスの仕事に応募できるようになりました。私の YouTube チャンネルで「100 日間データ サイエンスを学ぶ」チュートリアルを開始しました。ご興味があれば、ぜひご参加いただき、データ サイエンスを学ぶチュートリアルをここから始めてください。

https://youtu.be/VaXijSN_SJc

よくある質問

100 日でデータ サイエンティストになれるでしょうか?

はい、誰でも数日で泳ぎ方を習得できるのと同じように、誰でも 100 日かそれ以下でデータ サイエンスを習得できます。しかし、水泳と同じように、優秀な水泳選手やオリンピック選手になるには、懸命な努力と絶え間ない練習が必要です。データサイエンスでも同じことが言えます。絶え間ない練習と懸命な努力によって、専門家になれるのです。

このチュートリアルに従うと、どれくらい学べますか?

チュートリアルの最後までに、一般的なデータ サイエンス プロジェクトに取り組むのに十分な知識が得られます。この方法では、学習の障壁が取り除かれ、最小限の労力とサポートで、データ サイエンスの高度なトピックの学習に進むことができます。

終わりの前の最後のメッセージ

最初は物事が複雑すぎるように思えるかもしれませんが、圧倒されずに、一歩ずつ進んで学習の旅を続けてください。時間はかかるかもしれませんが、必ず目的地にたどり着くでしょう。

<<:  機械翻訳: Google 翻訳がほぼすべての言語を翻訳できる仕組み

>>:  ビッグニュース!ケンブリッジ大学の年次AIパノラマレポートが発表:米国のトップAI人材の27%が中国での教育歴を持つ

ブログ    
ブログ    

推薦する

最新の! 2018年中国プログラマーの給与と生活に関する調査レポート

中国インターネット情報センター(CNNIC)が発表した第41回中国インターネット発展統計報告によると...

RWKV の紹介: リニア トランスフォーマーの台頭と代替案の検討

RWKV ポッドキャストからの私の考えの一部を要約すると次のようになります: https://www...

重要インフラのサイバーセキュリティリスク管理における AI の影響

AIがサイバー攻撃から重要なインフラを守るためにどう役立つか 電力網、水道システム、交通網などの重要...

医療診断AIプロジェクトを実施するための10のステップ

【51CTO.com クイック翻訳】ヘルスケアのあらゆる側面において、時間は常に最も貴重な部分である...

中国の人工知能はどれほど強力か?将来ロボットが手術を行えるようになるか?外国人は信じられないと言う

写真は人工知能中国の人工知能はどれほど強力か?将来ロボットが手術を行えるようになるか?多くの中国人は...

ウルトラマンの新技に開発者激怒! ChatGPTプラグインは放棄され、作者がGPTに目を向けたことを示唆している。

ウルトラマンの新たな動きが多くの開発者を怒らせた。これらの開発者は、プラグインの開発許可を待つのでは...

...

ResNetは3Dモデルにも使える。清華大学の「Jitu」チームが新たな研究を開始

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

Moka、業界初となるAIネイティブHR SaaS製品「Moka Eva」をリリース、AGI時代を見据えた準備万端

2023年6月28日、Mokaは北京で2023年夏の新製品発表会を開催した。 Moka CEOのLi...

市場レポートの予測: 2027年には世界の生体認証市場は1,000億ドルに近づく

近年、人工知能の継続的な成熟に伴い、生体認証技術は生活のあらゆる分野に浸透し、コストが削減され、効率...

音声認識、マッチングアルゴリズム、モデルに関する簡単な説明

[[185868]]スピーチの基本概念スピーチは複雑な現象です。それがどのように生成され、どのように...

0コードの微調整大型モデルが人気で、わずか5ステップで、コストは150元と低い

0 コードの大規模モデルを20 ドル未満で微調整できますか?プロセスも非常に簡単で、必要なステップは...

2021年から2030年までのドローン産業のトップ10の発展トレンド

民間ドローン産業は2010年頃から勢いを増し始め、特に2014年から2017年にかけて民生用ドローン...

人工知能、自動化、そして仕事の未来: 答えが必要な 10 の質問!

[[264418]]職場で機械が人間の労働に取って代わるようになるにつれ、私たち全員が機械から利益...

米宇宙軍、データセキュリティ上の懸念から生成AIツールを禁止

10月12日、新たに流出したメモの中で、米国宇宙軍は、データセキュリティなどの懸念を理由に、ウェブベ...