今年、データ サイエンティストはどのようなアルゴリズムを使用しましたか?

今年、データ サイエンティストはどのようなアルゴリズムを使用しましたか?

「データが王様」と言われる今日の世界では、データサイエンスに興味を持つ人が増えています。データ サイエンティストはアルゴリズムを使わずにはいられません。では、データ サイエンティストが最もよく使用するアルゴリズムは何でしょうか?

最近、有名なデータマイニング情報ウェブサイトKDnuggetsがトップ10アルゴリズムの調査を企画しました。この調査では、データサイエンティストがよく使用するアルゴリズムをランク付けし、最も「産業的」かつ「学術的」なアルゴリズムを見つけました。また、過去5年間(2011〜2016年)のこれらのアルゴリズムの変化についても詳しく紹介しました。

調査結果は844人の回答者の投票に基づいています。

KDnuggets は、上位 10 個のアルゴリズムとその投票シェアを次のようにまとめています。


図 1: データ サイエンティストが使用する上位 10 のアルゴリズムと手法。

すべてのアルゴリズムとメソッドの完全なリストについては、記事の最後を参照してください。

調査によると、回答者は平均 8.1 個のアルゴリズムを使用しており、2011 年の同様の調査と比べて大幅に増加している。

2011 年のデータ分析/データマイニングの投票アルゴリズムと比較すると、人気のあるアルゴリズムは依然として回帰アルゴリズム、クラスタリング アルゴリズム、決定木、視覚化であることがわかります。相対的に言えば、最大の成長は次のアルゴリズム (pct2016/pct2011-1) によって測定されます。

  • 2011年の23.5%から2016年には32.8%に増加し、前年比40%の増加となった。
  • テキストマイニングは、2011年の27.7%から2016年には35.9%に増加し、前年比30%の増加となった。
  • 可視化は2011年の38.3%から2016年には48.7%に増加し、前年比27%の増加となった。
  • 時系列分析によると、成長率は2011年の29.6%から2016年の37.0%に増加し、前年比25%の増加となりました。
  • 異常/逸脱検出は、2011年の16.4%から2016年には19.5%に増加し、前年比19%の増加となった。
  • 集計方法では、2011年の28.3%から2016年の33.6%に増加し、前年比19%の増加となった。
  • サポートベクターマシンは、2011年の28.6%から2016年には33.6%に増加し、前年比18%の増加となった。
  • 回帰アルゴリズムは、2011年の57.9%から2016年には67.1%に増加し、前年比16%の増加となった。

2016 年の新しいアルゴリズムは次のとおりです。

  • K近傍法(KNN)、シェア46%
  • 主成分分析(PCA)、43%
  • ランダムフォレスト(RF)、38%
  • 最適化、24%
  • ニューラルネットワーク - ディープラーニング、19%
  • 特異値分解(SVD)、16%

減少のアルゴリズム***は次のとおりです。

  • 関連性ルールは、2011年の28.6%から2016年の15.3%に減少し、前年比47%の減少となった。
  • アップリフトモデルは、2011年の4.8%から2016年の3.1%に増加し、前年比36%の減少となった。
  • 要因分析:2011年の18.6%から2016年の14.2%に減少し、前年比24%の減少となった。
  • 生存分析: 2011年の9.3%から2016年の7.9%に減少し、前年比15%の減少となった。
  • 次の表は、教師あり学習、教師なし学習、メタ分析、その他のアルゴリズム タイプなど、さまざまなアルゴリズム タイプの目的を示しています。 NA (4.5%) およびその他 (3%) のアルゴリズムは除外しました。

表1: 業種別アルゴリズムの使用状況

ほぼすべての人が教師あり学習アルゴリズムを使用していることに気付きました。政府や産業界のデータ サイエンティストは、学生や学術界よりも多様なアルゴリズムを使用しており、産業界のデータ サイエンティストはメタアルゴリズムを使用する可能性が高くなります。

次に、業界タイプ別に上位 10 のディープラーニング アルゴリズムの使用状況を分析します。

表2: 雇用形態別に使用されるディープラーニングアルゴリズム上位10件

表 2: 雇用形態別上位 10 アルゴリズム + ディープラーニングの使用状況

違いをより明確にするために、特定の業界タイプに関連付けられたアルゴリズムの平均使用率を Bias(Alg,Type)=Usage(Alg,Type)/Usage(Alg,All)-1 として計算します。


図2: 業界別のアルゴリズム使用バイアス

業界のデータ サイエンティストは、回帰アルゴリズム、視覚化、統計アルゴリズム、ランダム フォレスト アルゴリズム、時系列を使用する傾向があることに気付きました。政府機関や非営利団体では、視覚化、主成分分析、時系列を使用する可能性が高くなります。学術研究者は主成分分析とディープラーニングを好みます。学生は一般的にアルゴリズムをあまり使用しませんが、テキストマイニングとディープラーニングをより多く使用します。

次に、KDnuggets の訪問者全体を表す地域別の参加状況を見てみましょう。

有権者の地域分布は次のとおりです。

  • 北米、40%
  • ヨーロッパ、32%
  • アジア 8%
  • ラテンアメリカ、5.0%
  • アフリカ/中東、3.4%
  • オーストラリア/ニュージーランド、2.2%

2011 年の調査と同様に、業界/政府を 1 つのグループに、学術研究者/学生を 2 番目のグループにまとめ、業界/政府に対するアルゴリズムの「親近感」を計算しました。

親和性が 0 のアルゴリズムは、産業界/政府機関と学術研究者/学生によって同様に使用されます。 IG 親密性委員会は、アルゴリズムがより「産業的」であることを示す一方、低いほどアルゴリズムがより「学術的」であることを示します。

その中で最も「工業的」なアルゴリズムは次のとおりです。

  • 隆起モデリング、2.01
  • 異常検出、1.61
  • 生存分析、1.39
  • 因子分析、0.83
  • 時系列/シーケンス、0.69
  • 相関ルール、0.5

インクリメンタル モデリングは、今回も最も「産業的」なアルゴリズムですが、驚くほど使用率が低く、今回の調査で最も使用されているアルゴリズムであるにもかかわらず、わずか 3.1% にとどまっています。

最も「学術的な」アルゴリズムは次のとおりです。

  • ニューラルネットワーク - 通常、-0.35
  • ナイーブベイズ、-0.35
  • サポートベクターマシン (SVM)、-0.24
  • ディープラーニング、-0.19
  • ***期待アルゴリズム (EM)、-0.17

次の図は、すべてのアルゴリズムと、業界/学術界におけるその人気を示しています。


図 3: Kdnugets 調査: データ サイエンティストが使用する人気のアルゴリズム: 業界 vs 学術界

以下の表には、アルゴリズムの詳細、2016 年と 2011 年の調査でそれらを使用した回答者の割合、変化 (%2016 / %2011 - 1)、および前述の業界との親和性が記載されています。

表3: KDnuggets 2016 調査: データサイエンティストが使用するアルゴリズム

次の表に、各アルゴリズムの詳細を示します。

  • N: 使用頻度順
  • アルゴリズム: アルゴリズム名
  • タイプ: タイプ。 S - 教師あり、U - 教師なし、M - メタ、Z - その他、
  • 2016年の使用率: 2016年の調査でこのアルゴリズムを使用した回答者の割合
  • 2011 年の使用率: 2011 年の調査でこのアルゴリズムを使用した回答者の割合 % 変化: 変化 (% 2016 / % 2011 - 1)
  • 業界親和性: 業界親和性(上記参照)

<<:  Spark を使用して行列分解推奨アルゴリズムを学習する

>>:  [乾物] Tencent Cloud FPGA 上のディープラーニング アルゴリズム

ブログ    
ブログ    
ブログ    

推薦する

自動運転時代のヒューマンマシンインタラクションの発展動向

自動車技術の継続的な向上とインターネット技術の普及に伴い、自動車に付与される機能はますます増えていま...

AIは感情に関してより賢くなってきているのでしょうか?人間もそうすべきだ

人々は、一人でいるときと公共の場では行動が大きく異なりますが、基本的な性格は同じままです。観客のいな...

機械学習の敷居が再び下がり、Zhiyuan TechnologyがAutoML製品をリリース

[51CTO.com よりオリジナル記事] 今年初め、Google は強化学習によりモデル選択 + ...

...

「ビッグモデルは基本的に2つのファイルです!」テスラの元AIディレクターが一般向けに1時間にわたるLLMポピュラーサイエンスを披露

テスラの元AIディレクター、アンドレイ・カルパシー氏の新しいチュートリアルが話題になっている。今回、...

過去 2 週間で AI の進路を変える可能性が最も高い 6 つのリリース!

編纂者:ヤン・ジェン制作:51CTO テクノロジースタック(WeChat ID:blog)過去 2 ...

15人の専門家が予測:AIは2024年にサイバーセキュリティのルールを変える

AI技術の飛躍的な発展に伴い、攻撃者はAIの武器化を加速させ、ソーシャルエンジニアリング技術と組み合...

人工知能は人間の臨床試験に取って代わることができるでしょうか?

2013年のノーベル化学賞受賞者であるアリエ・ワーシェル氏は、COVID-19パンデミックと製薬業...

...

AI が病院の屋内資産追跡の課題を克服する方法

IoT アプリケーションでは、AI はデータ スタックの「最上位」で使用されることが多く、複数のソー...

2023年に人工知能とデータサイエンスについて知っておくべきこと

人工知能とデータサイエンスは、2023 年に最もエキサイティングで影響力のある 2 つのテクノロジー...

Google は NLP モデルのデバッグを許可しており、必要なのは「ドラフト ペーパー」だけです。

[[438690]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitA...

時系列予測におけるディープラーニングの概要と今後の方向性の分析

2023年は大きな言語モデルと着実な普及の年です。時系列の分野ではそれほど大きな成果は得られていませ...

...