データサイエンティストにとって最も重要なアルゴリズムと統計モデル

データサイエンティストにとって最も重要なアルゴリズムと統計モデル

数年間この業界に携わってきたデータ サイエンティストとして、私は LinkedIn や QuoLa で、学生や転職を希望する人々と頻繁に接触し、機械学習のキャリアに関するアドバイスやガイダンスで、彼らがコースを選択するのを手伝っています。いくつかの質問は教育の進路やプログラムの選択を中心にしたものでしたが、多くの質問は、今日のデータサイエンス分野ではどのようなアルゴリズムやモデルが一般的であるかを中心にしたものでした。

選択できるアルゴリズムが非常に多いため、どこから始めればよいか分からない場合があります。このコースには、今日の業界で一般的に使用されていないアルゴリズムが含まれる場合があり、現在は一般的ではないが特に有用な方法については取り上げない場合があります。ソフトウェアベースのプログラムでは重要な統計概念が除外される可能性があり、数学ベースのプログラムではアルゴリズム設計のいくつかの重要なトピックが省略される可能性があります。

私は、データ サイエンティストを目指す人向けに、統計モデルと機械学習モデル (教師ありおよび教師なし) に特に焦点を当てた短いガイドをまとめました。これらのトピックには、教科書、大学院レベルの統計コース、データ サイエンス ブートキャンプ、その他のトレーニング リソースが含まれます。 (これらの一部は記事の参考セクションに含まれています)。機械学習は統計学の分野であるため、機械学習アルゴリズムは、データマイニングやコンピューターサイエンスに基づく方法とともに、技術的には統計知識の範疇に入ります。ただし、一部のアルゴリズムはコンピュータ サイエンスのコースで教えられる内容と重複しており、また多くの人が従来の統計手法と新しい手法を区別しているため、リストの 2 つのブランチを分離します。

統計の方法には、ブートキャンプや認定プログラムで概説されている一般的な方法と、大学院の統計プログラムで一般的に教えられているあまり一般的ではない方法(ただし、実際には大きな利点がある)が含まれます。提案されたツールはすべて私が定期的に使用しているものです。

  • 1) 一般化線形モデル。ほとんどの教師あり機械学習手法の基礎を形成します(業界で遭遇するほとんどのカウントまたは連続結果に一般化されるロジスティック回帰と Tweedie 回帰を含む)
  • 2) 時系列手法(ARIMA、SSA、機械学習ベースの手法)
  • 3) 構造方程式モデリング(媒介経路のシミュレーションとテスト)
  • 4) 因子分析(調査設計と妥当性の検討と検証)
  • 5) 検出力分析/実験設計(特に過剰分析を避けるためのシミュレーションベースの実験設計)
  • 6) ノンパラメトリック検定(特にシミュレーションによるゼロからの導出)/MCMC
  • 7) K平均法クラスタリング
  • 8) ベイズ法 (ナイーブベイズ、ベイズモデル平均化、ベイズ適応実験など)
  • 9) ペナルティ付き回帰モデル(エラスティックネット、LASSO、LARSなど)。通常はモデル(SVM、XGBoostなど)にペナルティ係数を追加します。これは、予測値が観測値を超えるデータセット(ゲノミクスや社会科学の研究で一般的)に役立ちます。
  • 10) 柔軟性モデリングプロセスのためのスプラインモデル(MARS...)
  • 11) マルコフ連鎖と確率過程(時系列モデリングと予測モデリングへの別のアプローチ)
  • 12) 欠損データ補完スキームとその前提 (missForest、MICE...)
  • 13) 生存分析(製造および消費プロセスのモデリングに非常に役立ちます)
  • 14) ハイブリッドモデリング
  • 15) 統計的推論とグループテスト(多くの取引活動におけるA/Bテストとより複雑な設計の実装)

機械学習はこれらのフレームワークの多くを拡張しますが、特に K 平均法クラスタリングと一般化線形モデリングが有名です。多くの業界で役立つ一般的なテクニック (および、ブートキャンプや認定プログラムでは驚くほど役立つが、学校ではほとんど教えられていないあまり知られていないアルゴリズム) には、次のものがあります。

  • 1) 回帰/分類ツリー(高精度、優れた解釈性、低い計算コストを実現する一般化線形モデルの早期一般化)
  • 2) 次元削減(PCA、MDS、tSNEなどのさまざまな学習手法)
  • 3) 古典的なフィードフォワードニューラルネットワーク
  • 4) バギング(ランダムフォレストやKNN回帰積分などのアルゴリズムの基礎となる)
  • 7) 高速積分(これは勾配ブースティングとXGBoostアルゴリズムの基礎です)
  • 8) パラメータ最適化または設計プロジェクトのための最適化アルゴリズム(遺伝的アルゴリズム、量子に着想を得た進化的アルゴリズム、シミュレーショントレーニング、粒子群最適化)
  • 9) トポロジカルデータ分析ツール。特に、サンプルサイズが小さい教師なし学習に適しています (永続的ホモロジー、モース・スメール・クラスタリング、マッパーなど)
  • 10) ディープラーニングアーキテクチャ(一般的なディープアーキテクチャ)
  • 11) KNNローカルモデリング法(回帰、分類)
  • 12) 勾配ベースの最適化手法
  • 13) ネットワーク メトリックとアルゴリズム (中心性、媒介性、多様性、エントロピー、ラプラス演算子、伝染拡散、スペクトル クラスタリング)
  • 14) 深層アーキテクチャにおける畳み込み層とプーリング層(特にコンピュータビジョンと画像分類モデル向け)
  • 15) 階層的クラスタリング(クラスタリングおよびトポロジカルデータ分析ツールに関連)
  • 16) ベイジアンネットワーク(パスマイニング)
  • 17) 複雑性と動的システム(微分方程式に関連しますが、既知のドライバーのないシステムをシミュレートするためによく使用されます)

選択した業界によっては、自然言語処理 (NLP) またはコンピューター ビジョンに関連する追加のアルゴリズムが必要になる場合があります。ただし、これらはデータサイエンスと機械学習の専門分野であり、これらの分野に参入する人は通常、すでにその特定の分野の専門家です。

学術プログラム以外でこれらの方法を学ぶためのリソースには、次のようなものがあります。

  • Christopher, MB (2016). パターン認識と機械学習。Springer-Verlag、ニューヨーク。
  • Friedman, J., Hastie, T., Tibshirani, R. (2001). 統計学習の要素 (第 1 巻、pp. 337-387). ニューヨーク: Springer Series in Statistics.
  • https://www.coursera.org/learn/machine-learning
  • http://professional.mit.edu/programs/short-programs/機械学習ビッグデータ
  • https://www.slideshare.net/ColleenFarrelly/machine-learning-by-analogy-59094152

<<:  自動運転の体験はクールで、将来的には多くの交通アルゴリズムが登場するだろう

>>:  人工知能、VR、音声検索、従来のマーケティングモデルを変える「三銃士」

ブログ    

推薦する

ソフトウェア開発に AI とアジャイル管理を導入するための 9 つのヒント

[51CTO.com クイック翻訳] ご存知のとおり、人工知能 (AI) は 1956 年の誕生以来...

機械学習アルゴリズムにおける分類知識の要約

この記事では、機械学習アルゴリズムにおける非常に重要な知識である分類、つまり入力データが属するカテゴ...

キャラクター AI は私たちのやり取りの方法をどのように変えるのでしょうか?

Persona AI は、人々がチャットボットと対話する方法に革命をもたらします。ニューラル言語モ...

生成 AI とその使用例とは何ですか?

生成 AI は私たちの働き方を変える運命にある驚異的な技術ですが、それは何を実現できるのでしょうか。...

Metaは14秒でビデオを再構築し、役割を変更できるため、ビデオ合成が44倍高速化されます。

今日の人工知能の発展レベルを考えると、テキストから画像への転送、画像からビデオへの転送、画像/ビデオ...

...

グーグル、規制当局の措置を受けてEUでのチャットボット「バード」のリリースを一時停止

グーグルは6月14日、欧州連合(EU)の主要データ規制当局がプライバシーに関する懸念を表明したため、...

AIと「喧嘩」したくない?人々はどんなスマートホーム体験を望んでいるのでしょうか?

スマートホームの発展過程で、その定義は何度も変化してきました。当初のリモートコントロールの概念から、...

2021年以降の人工知能について何かお考えはありますか?

中国科学技術協会、中国科学院、中国工程院、浙江省人民政府、杭州市人民政府、浙江省人工知能開発専門委員...

普通のプログラマーから人工知能の仕事に転職するにはどうすればいいでしょうか?

人工知能は非常にホットな話題になっています。普通のプログラマーとして、人工知能に転向する方法。プログ...

宮崎駿のアニメで新垣結衣を見たことがありますか?このオープンソースのアニメジェネレーターは、写真を数秒で手描きの日本のアニメに変換します

写真を撮るだけで、宮崎駿や新海誠などの日本のアニメ巨匠の手描き風に変換できます。アニメ画像を生成する...

GoogleはAIチップに出産を学習させ、次世代のTPUはAI自身によって設計される

[[405016]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

ICLRスポットライト!清華大学は時系列異常検出アルゴリズムを提案し、5つのSOTA結果を達成した。

現実世界のシステムは、動作中に大量の時系列データを生成します。これらの時系列データを通じてシステム内...

...