この本は人気があり、この本を学んだ男性は給料が30万以上上がった

この本は人気があり、この本を学んだ男性は給料が30万以上上がった

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

データサイエンスを学ぶには?必須のスキルは何ですか?

最近、データサイエンス分野の学習ガイドがTwitterで人気となり、1,000件を超えるいいねを獲得しています。

このチュートリアルが注目を集めている理由は、データサイエンスの広範かつ複雑な知識内容を14 の側面とそれぞれの要点に整理し、同時に学習における多くの一般的な質問に答えているからです。

たとえば、「どの言語を使用するのが良いか」や「どのツールが最も適しているか」などです。

この学習ガイドの著者は、データ サイエンス学習 Web サイトの創設者であるMatt Danchoです。

それで、この情報は具体的に何について語っているのでしょうか?それは本当に魔法なのでしょうか?

一緒に見ましょう。

R言語の方がお勧めです

本題に入る前に、データ サイエンスについてお話ししましょう。   (データサイエンス)。

データサイエンスとは、データをマイニング、処理、分析して有用な情報を取得し、その情報をさまざまな分野のさまざまな側面に適用する技術と研究を指します。

この分野では、応用数学、統計、パターン認識、機械学習、データ視覚化、データ ウェアハウス、高性能コンピューティングなど、多くの分野の理論と技術が組み合わされ、非常に幅広い知識が網羅されています。

著者は、これらのスキルを習得するには、週に約10 時間を勉強に費やす必要があると述べています。

実際に学習を始める前に、最も重要な質問を見てみましょう。

何の言語ですか?

ここでは、R言語かPythonを選択できると著者は考えています。

専門的な観点から、彼は次の 3 つの要素を考慮します。

  • プログラミング言語はデータサイエンスにどの程度の影響を与えるのでしょうか?
  • 雇用市場の需要は何ですか?
  • 就職市場の競争はどの程度ですか?

まず、著者は両者を直接比較します。

Python は機械学習やディープラーニングに適しています。しかし、市場レポートにおいてはそれほど有利ではなく、統計経済学などの重要な分野で使用できるライブラリは比較的少ないです。

R 言語はビジネス分析とデータサイエンスにおいて包括的なツールサポートを備えていますが、ディープラーニングへの応用は比較的弱いです。

しかし、著者は、データサイエンスにおいてディープラーニングは広く使われておらず、ディープラーニングや他のAPIが必要な場合は、R言語をPythonと組み合わせることができると考えています。

就職市場の観点から見てみましょう。

著者は米国の採用市場からデータを収集しました。

結果によると、Python の求人数は R の2.4 倍です。

しかし、R を習得する人よりも、Python を理解し習得する人の方が多いです。

4~32倍に達する場合があります。

最後に、著者は R 言語を選択する方が有利であると考えています。

では、他の基本的なスキルは何でしょうか?

例えばExcelを使うのがお勧めでしょうか?

筆者は、Excel は幅広い層に利用されており、ビジネスマンの間でも非常に人気があるものの、機械学習やビッグデータの処理にはメリットがなく、セル内の関数もエラーが発生しやすいと考えています。

したがって、Excel を慎重に使用することをお勧めします。

開発ツールの選択に関しては、著者は小規模な調査を実施しました。

R 言語を使いたい人にとって、 RStudioは誰もが好む開発ツールです。

Python の場合、 JupyterVSCode の方が人気があります。

著者はここで明確な推奨をしていませんが、好みに応じて選択できます。

たった4つのステップでデータサイエンスを始めましょう

次は正式な学習の時間です。

大まかに4つのステップに分けられます。

  1. 基本的なスキルを習得する
  2. 学習モデリング
  3. 時系列分析を学ぶ
  4. モデルをアプリケーションに統合する

点灯する必要があるスキルツリーは次のとおりです。

これを見ても不安にならないでください...著者は具体的な学習のヒントをいくつか提供しています。

まずは基本的なスキルから始めましょう。

多くの人は最初から機械学習を習得したいと考えるかもしれませんが、これは学習への興味や効率に影響を与える可能性があります。

著者は R 言語の使用方法を実演し、いくつかの基本的なスキルをリストしました。

  • データのインポート: データベースの使用、SQL への接続、readr パッケージ、readxl パッケージ。
  • データの変換: 外れ値、欠損データの処理、データの整形、集計、フィルタリングなど。
  • データの視覚化: 静的/インタラクティブなデータ視覚化、ggplot2 および plotly。
  • テキストデータの処理、関数型プログラミング...

上記の基本的なスキルをすべて習得したら、機械学習を学ぶことができます。

ここで、まず数学や統計、アルゴリズムを学ぶべきではないのかと疑問に思う人もいるかもしれません。

著者は、アルゴリズムの書き方を一から学ぶと、データ分析をすぐに始めることができない可能性があると考えています。

そのため、彼はこれらのスキルを実際の戦闘から学ぶことを推奨しています。

簡単に言えば、次の 3 つのステップに分けられます。

  • 機械学習を現実世界の問題に適用する。
  • さまざまなアルゴリズムを試してください。
  • さまざまなアプリケーションの結果を比較します。

これにはどのようなツールが必要ですか?

TidymodelsH2Oは、著者が推奨する 2 つのパッケージです。

さらに、 Recipes には、データを変換してデータ機能を作成できる前処理ツールが多数あります。

次に、時系列分析の学習を始めることを著者は推奨しています。

このスキルは将来のデータを予測できることを意味するため、このスキルを習得すると大企業でも注目の人材となるでしょう。

この分野で習得する必要があるスキルは次のとおりです。

  • 時系列分析: 日付/日時データの処理、集計、変換、timetk を使用した時系列の視覚化
  • 予測: ARIMA、指数平滑法、Prophet、機械学習 (XGBoost、ランダムフォレスト、GLMnet など)、ディープラーニング (GluonTS)、統合、ハイパーパラメータの調整、拡張予測、モデルタイム パッケージ。

この時点で、モデルを作成して使用してみることができます。

ここで著者は、モデルをアプリケーションに統合できるツール、 Shinyを推奨しています。

このパッケージはインタラクティブな Web アプリケーションを作成するために使用でき、コードはローカルまたはサーバー上でホストできます。

もう一つ

このスキルツリーを読んだ後、一部のネットユーザーからは次のような疑問も寄せられました。

なぜディープラーニングが見られないのでしょうか?

著者は、機械学習は商業用途にはより実用的であると答えた。

著者によると、ある若者が同社のウェブサイトで短期コースを選択し、マイクロソフトから機械学習エンジニアとしてのオファーを受けたという。

もちろん、この完全な学習計画は無料でご利用いただけます (記事の最後にあるリンクを参照してください)。

学習チェックリスト:

https://www.business-science.io/r-cheatsheet

<<:  人工知能はモノのインターネットにおける次のブレークスルーとなるでしょうか?

>>:  半年以上前から推進されてきたGoogleの次世代AIアーキテクチャとジェフ・ディーンのPathwaysがついに論文化

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

ChatGPT、画像や動画コンテンツを生成するCanvaプラグインをリリース

9月4日、ChatGPT Plusサブスクリプションサービスで独自のCanvaプラグインがリリースさ...

人工知能統計調査:AIの普及により1億2000万人の労働者が再訓練を必要とする

AI の健全性と進歩に関する最近の調査、研究、予測、その他の定量的評価では、労働力の再訓練の必要性、...

掃除ロボットに抜け穴がある!あるいは数秒で盗聴ツールに変わる可能性もある

先日、陝西省西安市は「サイバーセキュリティは人々のためのものであり、サイバーセキュリティは人々に依存...

マイクロソフトとパートナーは、AIへのアクセスを制限するデータ砂漠の縮小に取り組んでいる。

Microsoft は、多くの非営利団体のパートナーと協力して、これらのツールが失明や運動障害など...

...

AIは医者と同等でしょうか?

2016年3月以来、AlphaGoと呼ばれるロボットが、有名な囲碁プレイヤーであるイ・セドルと柯潔...

...

給料の心配はやめましょう。これは今後 10 年間で最も収益性の高い業界であり、横になっているときでもお金を稼ぐことができます。

小米創始者の雷軍はかつて「風の吹き口に立てば豚でも飛べる」と言った。事実は往々にしてこの通りだ。人の...

1780億のパラメータを持つこの言語モデルは、王者GPT-3に挑戦するためだけに作られたのでしょうか?

誰かがGPT-3の独占に挑戦しなければなりません! GPT-3 は発売以来、最大の AI 言語モデル...

一貫性のあるハッシュは難しいですか?これを読んで全て理解できました

[51CTO.com からのオリジナル記事] この記事では、コンシステント ハッシュとは何か、そして...

人工知能を客観的に見てみましょう。この記事では、AI が世界を変える 5 つの理由を紹介します。

人工知能 (AI) は、私たちがよく人工知能と呼んでいるものです。これは、コンピューター プログラム...

モビリティの未来:スマート、持続可能、効率的

[[348989]] COVID-19のロックダウンの緩和により多くの社会的要因が浮き彫りになりまし...