今年、データサイエンティストはどのようなアルゴリズムを使用しましたか?

「データが王様」と言われる今日の世界では、データサイエンスに興味を持つ人が増えています。データサイエンティストはアルゴリズムを使わずにはいられません。では、データサイエンティストが最もよく使用するアルゴリズムは何でしょうか?

最近、有名なデータマイニング情報ウェブサイトKDnuggetsがトップ10アルゴリズムの調査を企画しました。この調査では、データサイエンティストがよく使用するアルゴリズムをランク付けし、最も「産業的」かつ「学術的」なアルゴリズムを見つけました。また、過去5年間（2011〜2016年）のこれらのアルゴリズムの変化についても詳しく紹介しました。

調査結果は844人の回答者の投票に基づいています。

KDnuggets は、上位 10 個のアルゴリズムとその投票シェアを次のようにまとめています。

図 1: データサイエンティストが使用する上位 10 のアルゴリズムと手法。

すべてのアルゴリズムとメソッドの完全なリストについては、記事の最後を参照してください。

調査によると、回答者は平均 8.1 個のアルゴリズムを使用しており、2011 年の同様の調査と比べて大幅に増加している。

2011 年のデータ分析/データマイニングの投票アルゴリズムと比較すると、人気のあるアルゴリズムは依然として回帰アルゴリズム、クラスタリングアルゴリズム、決定木、視覚化であることがわかります。相対的に言えば、最大の成長は次のアルゴリズム (pct2016/pct2011-1) によって測定されます。

2011年の23.5%から2016年には32.8%に増加し、前年比40%の増加となった。
テキストマイニングは、2011年の27.7%から2016年には35.9%に増加し、前年比30%の増加となった。
可視化は2011年の38.3%から2016年には48.7%に増加し、前年比27%の増加となった。
時系列分析によると、成長率は2011年の29.6%から2016年の37.0%に増加し、前年比25%の増加となりました。
異常/逸脱検出は、2011年の16.4%から2016年には19.5%に増加し、前年比19%の増加となった。
集計方法では、2011年の28.3%から2016年の33.6%に増加し、前年比19%の増加となった。
サポートベクターマシンは、2011年の28.6%から2016年には33.6%に増加し、前年比18%の増加となった。
回帰アルゴリズムは、2011年の57.9%から2016年には67.1%に増加し、前年比16%の増加となった。

2016 年の新しいアルゴリズムは次のとおりです。

K近傍法（KNN）、シェア46%
主成分分析（PCA）、43%
ランダムフォレスト（RF）、38%
最適化、24%
ニューラルネットワーク - ディープラーニング、19%
特異値分解（SVD）、16%

減少のアルゴリズム***は次のとおりです。

関連性ルールは、2011年の28.6%から2016年の15.3%に減少し、前年比47%の減少となった。
アップリフトモデルは、2011年の4.8%から2016年の3.1%に増加し、前年比36%の減少となった。
要因分析：2011年の18.6%から2016年の14.2%に減少し、前年比24%の減少となった。
生存分析: 2011年の9.3%から2016年の7.9%に減少し、前年比15%の減少となった。
次の表は、教師あり学習、教師なし学習、メタ分析、その他のアルゴリズムタイプなど、さまざまなアルゴリズムタイプの目的を示しています。 NA (4.5%) およびその他 (3%) のアルゴリズムは除外しました。

表1: 業種別アルゴリズムの使用状況

ほぼすべての人が教師あり学習アルゴリズムを使用していることに気付きました。政府や産業界のデータサイエンティストは、学生や学術界よりも多様なアルゴリズムを使用しており、産業界のデータサイエンティストはメタアルゴリズムを使用する可能性が高くなります。

次に、業界タイプ別に上位 10 のディープラーニングアルゴリズムの使用状況を分析します。

表2: 雇用形態別に使用されるディープラーニングアルゴリズム上位10件

表 2: 雇用形態別上位 10 アルゴリズム + ディープラーニングの使用状況

違いをより明確にするために、特定の業界タイプに関連付けられたアルゴリズムの平均使用率を Bias(Alg,Type)=Usage(Alg,Type)/Usage(Alg,All)-1 として計算します。

図2: 業界別のアルゴリズム使用バイアス

業界のデータサイエンティストは、回帰アルゴリズム、視覚化、統計アルゴリズム、ランダムフォレストアルゴリズム、時系列を使用する傾向があることに気付きました。政府機関や非営利団体では、視覚化、主成分分析、時系列を使用する可能性が高くなります。学術研究者は主成分分析とディープラーニングを好みます。学生は一般的にアルゴリズムをあまり使用しませんが、テキストマイニングとディープラーニングをより多く使用します。

次に、KDnuggets の訪問者全体を表す地域別の参加状況を見てみましょう。

有権者の地域分布は次のとおりです。

北米、40%
ヨーロッパ、32%
アジア 8%
ラテンアメリカ、5.0%
アフリカ/中東、3.4%
オーストラリア/ニュージーランド、2.2%

2011 年の調査と同様に、業界/政府を 1 つのグループに、学術研究者/学生を 2 番目のグループにまとめ、業界/政府に対するアルゴリズムの「親近感」を計算しました。

親和性が 0 のアルゴリズムは、産業界/政府機関と学術研究者/学生によって同様に使用されます。 IG 親密性委員会は、アルゴリズムがより「産業的」であることを示す一方、低いほどアルゴリズムがより「学術的」であることを示します。

その中で最も「工業的」なアルゴリズムは次のとおりです。

隆起モデリング、2.01
異常検出、1.61
生存分析、1.39
因子分析、0.83
時系列/シーケンス、0.69
相関ルール、0.5

インクリメンタルモデリングは、今回も最も「産業的」なアルゴリズムですが、驚くほど使用率が低く、今回の調査で最も使用されているアルゴリズムであるにもかかわらず、わずか 3.1% にとどまっています。

最も「学術的な」アルゴリズムは次のとおりです。

ニューラルネットワーク - 通常、-0.35
ナイーブベイズ、-0.35
サポートベクターマシン (SVM)、-0.24
ディープラーニング、-0.19
***期待アルゴリズム (EM)、-0.17

次の図は、すべてのアルゴリズムと、業界/学術界におけるその人気を示しています。

図 3: Kdnugets 調査: データサイエンティストが使用する人気のアルゴリズム: 業界 vs 学術界

以下の表には、アルゴリズムの詳細、2016 年と 2011 年の調査でそれらを使用した回答者の割合、変化 (%2016 / %2011 - 1)、および前述の業界との親和性が記載されています。

表3: KDnuggets 2016 調査: データサイエンティストが使用するアルゴリズム

次の表に、各アルゴリズムの詳細を示します。

N: 使用頻度順
アルゴリズム: アルゴリズム名
タイプ: タイプ。 S - 教師あり、U - 教師なし、M - メタ、Z - その他、
2016年の使用率: 2016年の調査でこのアルゴリズムを使用した回答者の割合
2011 年の使用率: 2011 年の調査でこのアルゴリズムを使用した回答者の割合 % 変化: 変化 (% 2016 / % 2011 - 1)
業界親和性: 業界親和性（上記参照）

<<: Spark を使用して行列分解推奨アルゴリズムを学習する

>>: [乾物] Tencent Cloud FPGA 上のディープラーニングアルゴリズム

インダストリー 5.0: スマートシティの未来を形作るテクノロジーのメガトレンドの融合

今年、データサイエンティストはどのようなアルゴリズムを使用しましたか?

インダストリー 5.0: スマートシティの未来を形作るテクノロジーのメガトレンドの融合

びっくり！ 7万時間の訓練を経て、OpenAIのモデルは「Minecraft」で木材の設計を学習した。

2020年の中国の人工知能開発の見通し

この式がブロックされると、AI IQはゼロになります

MyScale を使用して知識ベースを OpenAI の GPT にインポートする方法

人間には知恵と愚かさの両方がある。AIが人間らしくなるためには愚かさも必要だろうか？

中国人の「専門用語」データセット、AI：あなたはDBQさえ理解していない

今週の土曜日は成都へ行こう！ Baidu Wenxin (ERNIE) がエンタープライズレベルの NLP モデルを迅速にカスタマイズする方法の分析

AI革命をリードする：企業がAIアプリケーションを推進するためのベストプラクティス

トレンドマイクロ：2030年までにAIがサイバーセキュリティ担当者に取って代わる

推薦する

マスク氏はOpenAIを訴えた。彼らはAGIを作成し、それをマイクロソフトにライセンス供与したが、これは設立協定に対する露骨な裏切りである。

Github で最も注目されている機械学習イノベーションプロジェクト 7 つ

音声認識におけるCNNの応用

顧客サービスの応答時間を短縮して潜在顧客の喪失を回避する方法

黄仁訓氏の予測: AGI は 5 年以内に実現される可能性があります。米国は中国のニーズを完全に満たして「サプライチェーンの独立」を達成するまでにまだ10年ある

マイクロソフト、医療病理学の症例を分析する LLaVA-Med AI モデルを発表

2020 年に役に立つ機械学習ツール

クラウドとジェネレーティブ AI の今後の動向

2020 年の産業用 IoT ソリューショントップ 10

AI産業化アプリケーションが実装され、PaddlePaddleの3つの主要なサービスプラットフォームが加速モードの開始を支援します

劉玉樹：人工知能における中国と米国の格差は縮まっているが、まだやるべきことはある

エンティティ認識と関係抽出におけるディープラーニングの応用に関する簡単な分析