KDnuggets 調査 | データサイエンティストが最もよく使用するアルゴリズムトップ 10

翻訳 | 江凡百理子杰樹

校正 | ロリン

最新の KDnuggets 調査では、データサイエンティストの実際の業務で最もよく使用されるアルゴリズムが集計されており、ほとんどの学術界と産業界において驚くべき発見がありました。

KDnuggets の Gregory Piatetsky 氏によると、最新の調査質問は次のとおりです。過去 12 か月間に、実際のデータサイエンス関連のアプリケーションでどのモデル/アルゴリズムを使用しましたか?

したがって、844 枚の解答用紙に基づく結果は次のとおりです。

上位10のアルゴリズムとその投票者の割合

図1: データサイエンティストが最もよく使用するアルゴリズムのトップ10。すべてのアルゴリズムについては、記事の最後にある表を参照してください。

回答者は平均 8.1 個のアルゴリズムを使用しており、これは 2011 年の同様の調査と比較すると大幅に増加しています。

2011 年のデータ分析アルゴリズムの調査と比較すると、最も一般的に使用されている方法は依然として回帰、クラスタリング、決定木/ルール、視覚化であることがわかりました。最大の増加率は（増加 = %2016/%2011 -1）です。

ブースティングアルゴリズムが40%改善されました。 2011年の23.5%から2016年には40%に増加した。
テキストマイニングが30%向上しました。 27.7%から35.9%へ
視覚化が 27% 向上しました。 38.3%から48.7%へ
時系列/シーケンス分析: 25% 改善されました。 29.6%から37.0%へ
異常/逸脱検出、16.4%から19.5%に19%改善
アンサンブル法、28.3%から33.6%に19%増加
サポートベクターマシン（SVM）は28.6%から33.6%に18%向上しました。
後退、57.9%から67.1%に16%改善

2016年最も人気のある新人は

K近傍法、46%

主成分分析（PCA）、43%

ランダムフォレスト、38%

最適化、24%

ニューラルネットワーク - ディープラーニング、19%

特異値分解、16%

最も大きな下落は

関連性ルール、28.6%から15.3%に47%減少

アップリフトモデリング、4.8%から3.1%に36%減少（これに関する膨大な文献を考慮すると驚くほど低い）

要因分析、24%減少、18.6%から14.2%へ

生存分析、9.3%から7.9%に15%減少

次の表は、さまざまなアルゴリズムタイプ (教師ありアルゴリズム、教師なしアルゴリズム、メタアルゴリズム、その他のアルゴリズム) が使用される場所を示しています。応募種別不明（NA、4.5%）またはその他の職業種別（3%）は含まれていません。

表1: 職業種別アルゴリズムの使用状況

ほぼ全員が教師あり学習アルゴリズムを使用していることに気付きました。政府や産業界のデータサイエンティストは、学生や科学者よりも多様なアルゴリズムを使用します。産業データサイエンティストはメタアルゴリズムの使用を好みます。

さまざまな職業で最もよく使われるアルゴリズム + ディープラーニングのトップ 10

次に、さまざまな職業で最もよく使用されるアルゴリズム+ディープラーニングのトップ10を分析しました。

表2: 職業別のトップ10アルゴリズム+ディープラーニング

これらの違いをより明確に示すために、異なる職業タイプのアルゴリズム使用バイアスを計算する式を使用します。

バイアス = 特定の職業タイプのアルゴリズム使用率 / すべての職業タイプのアルゴリズム使用率 - 1

図2: さまざまな会場でのアルゴリズム使用の偏り

産業データサイエンティストは、回帰、視覚化、統計、ランダムフォレスト、時系列を使用する傾向があることに気付きました。政府機関や非営利団体では、視覚化、主成分分析、時系列を使用する可能性が高くなります。学術界の研究者は主成分分析とディープラーニングをより多く利用しています。学生は一般的にアルゴリズムをあまり使用しませんが、主にテキストマイニングとディープラーニングを使用します。

次に、KDnuggets ユーザー全体を表す特定の地域でのエンゲージメントを見てみましょう。

調査員の地域分布:

アメリカ/カナダ、40%
ヨーロッパ、32%
アジア、18%
ラテンアメリカ、5.0%
アフリカ/中東、3.4%
オーストラリア/ニュージーランド、2.2%

2011 年の調査では、業界と政府からの回答者を 1 つのグループにまとめ、学術研究者と学生を 1 つのグループにまとめ、業界と政府グループのアルゴリズムの使用知識を計算しました。

（産官グループのアルゴリズム利用率 / 学術学生グループのアルゴリズム利用率） / （産官グループの人数 / 学術学生グループの人数） - 1

したがって、親和性が 0 のアルゴリズムは、業界/政府グループと学術学生グループによって同等に使用されていることを示します。 IG 親密度が高くなるほど、アルゴリズムは業界に偏り、結果が小さくなるほど、アルゴリズムは学術に偏ります。

最も「工業的なアルゴリズム」は次のとおりです。

モデリングの向上、2.01
異常検出、1.61
生存分析、1.39
因子分析、0.83
時系列/シーケンス分析、0.69
相関ルール、0.5

アップリフトモデリングは今回も最も好まれる「業界アルゴリズム」ですが、驚くほど使用頻度が低く、調査全体で最も低い 3.1% にとどまっています。

最も「学術的なアルゴリズム」は次のとおりです。

ニューラルネットワーク、-0.35
ナイーブベイズ、-0.35
サポートベクターマシン、-0.24
ディープラーニング、-0.19
最大期待値、-0.17

下の図は、すべてのアルゴリズムとその業界/学術的親和性を示しています。

図 3: KDnuggets 調査: データサイエンティストが最もよく使用するアルゴリズム: 業界と学術界の比較

次の表には、2016 年の回答者の使用率、2011 年の使用率、変化 (2016 年の割合 / 2011 年の割合 - 1)、および前述の業界の精通度など、アルゴリズム調査のすべての結果が詳細に記載されています。

表3: KDnuggets 2016 調査: データサイエンティストが使用するアルゴリズム

以下の表は、すべてのアルゴリズムの調査結果の詳細を示しています。各列は次の内容を表しています。

ランキング: 使用率によるランキング
アルゴリズム: アルゴリズム名
タイプ: S – 教師あり、U – 教師なし、M – メタ、Z – その他の方法、
2016年の調査でアルゴリズムを使用した人の割合
2016年の調査でアルゴリズムを使用した人の割合
変化: (%2016 / %2011 -1)、
業界の親和性については上記で説明しました。

表4: KDnuggets 2016 調査: データサイエンティストが使用するアルゴリズム

出典: http://www.kdnuggets.com/2016/09/poll-algorithms-used-data-scientists.html

[この記事は51CTOコラムBig Data Digest、WeChatパブリックアカウント「Big Data Digest（id: BigDataDigest）」のオリジナル翻訳です]

<<: ディープラーニングの深層: モデリング知識とオープンソースツールのオプション

>>: 最適化されたアルゴリズムによる高度なデータ分析に視覚化を活用する 5 つのステップ

ブログ

ブログ

1000 以上の AI エージェントが復活、メタバースの OpenAI バージョンがリリースされる? ChatGPT+VR が「ウエストワールド」を 100% 復元

ブログ

KDnuggets 調査 | データサイエンティストが最もよく使用するアルゴリズムトップ 10

Go 言語アルゴリズムの美しさ - 基本的なソート

2021年：AIが普及する年

人工知能は世界の終わりか、それとも深淵か?

北京大学の学部生がチップ研究で世界大会で優勝！筆頭著者はトップクラスのEDAカンファレンスで8本の論文を発表

人工知能の時代において、あなたの子供は15年後にどんな職業に就くことができるでしょうか?

ナレッジグラフは複雑ではありません。整理するお手伝いをさせてください。

1000 以上の AI エージェントが復活、メタバースの OpenAI バージョンがリリースされる? ChatGPT+VR が「ウエストワールド」を 100% 復元

推薦する

ロボットプログラムは人間のプログラマーのようにバグを修正する

小売業界のトレンド: 人工知能からクーポンコードまで

AIは小売業界をどう変えるのか

人工知能（AI）時代に誰もが身につけるべき9つのソフトスキル

7億7千万パラメータ、5400億PaLMを超えます！ UW Google はトレーニングデータの 80% のみを必要とする「ステップ蒸留」を提案 | ACL 2023

自然言語処理技術により、機械はより人間的な視点から問題を解決できるようになる。

MySQLインデックスの背後にあるデータ構造とアルゴリズムの原理

2022年、どのような技術トレンドが世界を変え続けるのでしょうか?以下は百度研究所の予測です。

2月10日に職場復帰ラッシュが到来し、北京は「急速AI温度検出器」の配備を開始した。

自律飛行ロボットが浙江大学から集団で飛び立ち、サイエンス誌の表紙に登場