KDnuggets 公式調査: データサイエンティストが最もよく使用する 10 のアルゴリズム

最新の KDnuggets 調査では、データサイエンティストが最もよく使用するアルゴリズムのリストが示されています。このリストには、最も学術的なアルゴリズムや業界向けのアルゴリズムなど、多くの驚くべきものが含まれています。

過去 12 か月間に、実際のデータサイエンス関連のアプリケーションにどのような方法やアルゴリズムを適用しましたか?

これは 844 人の投票者の結果に基づいています。

上位 10 のアルゴリズムとその投票者の分布は次のとおりです。

図1: データサイエンティストが最もよく使用するアルゴリズムトップ10

回答者 1 人あたりが使用したアルゴリズムの平均数は 8.1 で、2011 年の同様の調査と比べて大幅に増加しています。

2011 年のデータ分析/データマイニングに関する調査と比較すると、最も一般的に使用されている手法は依然として回帰、クラスタリング、決定木/ルール、視覚化であることがわかりました。相対的に最も大きな成長は、次のアルゴリズムを使用して (pct2016 /pct2011 – 1) によって決定されます。

2011年の23.5%から2016年には32.8%に増加し、前年比40%の増加となった。
テキストマイニングは、2011年の27.7%から2016年には35.9%に増加し、前年比30%の増加となった。
可視化は2011年の38.3%から2016年には48.7%に増加し、前年比27%の増加となった。
時系列分析では、2011年の29.6%から2016年の37.0%に増加し、前年比25%の増加となった。
異常/逸脱検出は、2011年の16.4%から2016年の19.5%へと前年比19%増加しました。
統合型手法は、2011年の28.3%から2016年には33.6%に増加し、前年比19%の増加となった。
サポートベクターマシンは、2011年の28.6%から2016年には33.6%に増加し、前年比18%の増加となった。
リターンは2011年の57.9%から2016年には67.1%に増加し、前年比16%の増加となった。

***アルゴリズムには 2016 年の調査で新しいリストがあります:

K近傍法、46%
主成分分析、43%
ランダムフォレスト、38%
最適化、24%
ニューラルネットワーク - ディープラーニング、19%
特異値分解、16%

最も大きく下落したのは次の通りです。

関連性ルールは、2011年の28.6%から2016年の15.3%に減少し、前年比47%の減少となった。
隆起形状の割合は、2011 年の 4.8% から 2016 年の 3.1% へと 36% 減少しました。
要因分析：2011年の18.6%から2016年の14.2%に減少し、前年比24%の減少となった。
生存率分析では、2011年の9.3%から2016年の7.9%に減少し、前年比15%の減少となった。

次の表は、さまざまなアルゴリズムタイプ（教師ありアルゴリズム、教師なしアルゴリズム、メタアルゴリズム）の使用状況と、職業の種類によって決まるアルゴリズムの使用状況を示しています。職業タイプNA（4.5％）とその他（3％）は除外します。

表1: 職業の種類に応じたさまざまなアルゴリズムの使用

ほぼすべての人が教師あり学習アルゴリズムを使用していることに気付きました。

政府や業界のデータサイエンティストは、学生や学術研究者よりもさまざまな種類のアルゴリズムを使用しますが、業界のデータサイエンティストはメタアルゴリズムを使用する傾向があります。

次に、職業種別にアルゴリズム+ディープラーニングの利用率上位10を分析しました。

表2: 職業別アルゴリズム+ディープラーニング使用率上位10位

違いをより明確にするために、特定の職業カテゴリのアルゴリズムバイアスを平均的なアルゴリズム使用率と比較して計算しました。つまり、バイアス(ALG、タイプ) = 使用率(ALG、タイプ) / 使用率(ALG、すべて)です。

図2: アルゴリズムの使用に関する職業上の好み

産業データサイエンティストは、回帰、視覚化、統計、ランダムフォレスト、時系列を使用する傾向があることに気付きました。政府機関や非営利団体では、視覚化、主成分分析、時系列を使用する可能性が高くなります。学術研究者は主成分分析とディープラーニングを好みます。学生が使用するアルゴリズムは一般的に少ないですが、そのほとんどはテキストマイニングとディープラーニングです。

次に、KDnuggets ユーザー全体を表す特定の地域でのエンゲージメントを見てみましょう。