KDnuggets 公式調査: データ サイエンティストが最もよく使用する 10 のアルゴリズム

KDnuggets 公式調査: データ サイエンティストが最もよく使用する 10 のアルゴリズム

[[174162]]

最新の KDnuggets 調査では、データ サイエンティストが最もよく使用するアルゴリズムのリストが示されています。このリストには、最も学術的なアルゴリズムや業界向けのアルゴリズムなど、多くの驚くべきものが含まれています。

過去 12 か月間に、実際のデータ サイエンス関連のアプリケーションにどのような方法やアルゴリズムを適用しましたか?

これは 844 人の投票者の結果に基づいています。

上位 10 のアルゴリズムとその投票者の分布は次のとおりです。

図1: データサイエンティストが最もよく使用するアルゴリズムトップ10

回答者 1 人あたりが使用したアルゴリズムの平均数は 8.1 で、2011 年の同様の調査と比べて大幅に増加しています。

2011 年のデータ分析/データマイニングに関する調査と比較すると、最も一般的に使用されている手法は依然として回帰、クラスタリング、決定木/ルール、視覚化であることがわかりました。相対的に最も大きな成長は、次のアルゴリズムを使用して (pct2016 /pct2011 – 1) によって決定されます

  • 2011年の23.5%から2016年には32.8%に増加し、前年比40%の増加となった。
  • テキストマイニングは、2011年の27.7%から2016年には35.9%に増加し、前年比30%の増加となった。
  • 可視化は2011年の38.3%から2016年には48.7%に増加し、前年比27%の増加となった。
  • 時系列分析では、2011年の29.6%から2016年の37.0%に増加し、前年比25%の増加となった。
  • 異常/逸脱検出は、2011年の16.4%から2016年の19.5%へと前年比19%増加しました。
  • 統合型手法は、2011年の28.3%から2016年には33.6%に増加し、前年比19%の増加となった。
  • サポートベクターマシンは、2011年の28.6%から2016年には33.6%に増加し、前年比18%の増加となった。
  • リターンは2011年の57.9%から2016年には67.1%に増加し、前年比16%の増加となった。

***アルゴリズムには 2016 年の調査で新しいリストがあります:

  • K近傍法、46%
  • 主成分分析、43%
  • ランダムフォレスト、38%
  • 最適化、24%
  • ニューラルネットワーク - ディープラーニング、19%
  • 特異値分解、16%

最も大きく下落したのは次の通りです。

  • 関連性ルールは、2011年の28.6%から2016年の15.3%に減少し、前年比47%の減少となった。
  • 隆起形状の割合は、2011 年の 4.8% から 2016 年の 3.1% へと 36% 減少しました。
  • 要因分析:2011年の18.6%から2016年の14.2%に減少し、前年比24%の減少となった。
  • 生存率分析では、2011年の9.3%から2016年の7.9%に減少し、前年比15%の減少となった。

次の表は、さまざまなアルゴリズム タイプ(教師ありアルゴリズム、教師なしアルゴリズム、メタアルゴリズム)の使用状況と、職業の種類によって決まるアルゴリズムの使用状況を示しています。職業タイプNA(4.5%)とその他(3%)は除外します。

表1: 職業の種類に応じたさまざまなアルゴリズムの使用

ほぼすべての人が教師あり学習アルゴリズムを使用していることに気付きました。

政府や業界のデータ サイエンティストは、学生や学術研究者よりもさまざまな種類のアルゴリズムを使用しますが、業界のデータ サイエンティストはメタアルゴリズムを使用する傾向があります。

次に、職業種別にアルゴリズム+ディープラーニングの利用率上位10を分析しました。

表2: 職業別アルゴリズム+ディープラーニング使用率上位10位

違いをより明確にするために、特定の職業カテゴリのアルゴリズムバイアスを平均的なアルゴリズム使用率と比較して計算しました。つまり、バイアス(ALG、タイプ) = 使用率(ALG、タイプ) / 使用率(ALG、すべて)です。

図2: アルゴリズムの使用に関する職業上の好み

産業データ サイエンティストは、回帰、視覚化、統計、ランダム フォレスト、時系列を使用する傾向があることに気付きました。政府機関や非営利団体では、視覚化、主成分分析、時系列を使用する可能性が高くなります。学術研究者は主成分分析とディープラーニングを好みます。学生が使用するアルゴリズムは一般的に少ないですが、そのほとんどはテキストマイニングとディープラーニングです。

次に、KDnuggets ユーザー全体を表す特定の地域でのエンゲージメントを見てみましょう。

  • アメリカ/カナダ、40%
  • ヨーロッパ、32%
  • アジア、18%
  • ラテンアメリカ、5%
  • アフリカ/中東、3.4%
  • オーストラリア/ニュージーランド、2.2%

2011 年の調査では、産業界/政府を 1 つのグループに、学術研究者/学生を 2 番目のグループに分け、アルゴリズムの産業界/政府に対する親和性を計算しました。

したがって、親和性が 0 のアルゴリズムは、産業界/政府と学術研究者または学生の間で均等に使用されていることを示します。 IG 親和性が高いほど、アルゴリズムは業界で広く使用されていることになり、逆に、IG 親和性が低いほど、アルゴリズムは「学術的」になります。

最も「工業的」なアルゴリズムは次のとおりです。

  • 異常検出、1.61
  • 生存分析、1.39
  • 因子分析、0.83
  • 時系列/シリーズ、0.69
  • 相関ルール、0.5

最も「産業用アルゴリズム」であるアップリフティングモデリングについては、驚くべきことに使用頻度が低く、わずか 3.1% で、調査対象のアルゴリズムの中で最も低い値となっています。

最も学術的なアルゴリズムは次のとおりです。

  • 従来のニューラルネットワーク、-0.35
  • ナイーブベイズ、-0.35
  • サポートベクターマシン、-0.24
  • ディープラーニング、-0.19
  • EM、-0.17

下の図は、すべてのアルゴリズムとその業界/学術的親和性を示しています。

図 3: KDnuggets の世論調査: データ サイエンティストが最もよく使用するアルゴリズム: 業界 vs. 学術界

以下の表には、アルゴリズムの詳細、両方の調査でアルゴリズムを使用している割合、および上で説明した業界の親和性が記載されています。

次の図は、列ごとにアルゴリズムの詳細を示しています。

N: 使用頻度順

  • アルゴリズム: アルゴリズム名、
  • タイプ: S – 教師あり、U – 教師なし、M – メタ、Z – その他、
  • 2016年の調査でこのアルゴリズムを使用した回答者の割合
  • 2011年の調査でこのアルゴリズムを使用した回答者の割合
  • 変化(2016年/2011年% – 1)、
  • 業界との親和性(上記と同じ)

表3: KDnuggets 2016 調査: データサイエンティストが使用するアルゴリズム

<<:  エンジニアはETLを書くべきか? - 効率的なアルゴリズム/データサイエンス部門の構築方法を教えます

>>:  自然言語処理がヒラリーとトランプの「話し方」を分析

ブログ    
ブログ    

推薦する

ロボットの時代が来ます。私たちは全員失業してしまうのでしょうか?

[[415590]]ボストン・ダイナミクス社が開発したヒューマノイドロボット「アトラス」、ロボット...

AIは旅行業界の困難を軽減できるか?

[[323317]]現時点では、多くの企業が、数か月前に考えていたよりも見通しが不透明であると感じ...

...

...

...

職場は「理想の街」になり得るか?企業と従業員の両方にAIを活用した自動化が必要

従業員が複雑なタスクに圧倒され、毎日同じ作業を繰り返すうちに徐々に疲れ果てていく一方で、企業も業務プ...

Baidu Brain CVサービスでは、100~1000元のクーポンを提供しています。

覚えていますか? 「小都」はかつて「The Brain」の舞台でエネルギー溢れる出場者たちと競い合い...

分析とAIがIoTの成長を牽引

「未来の工場には、男性と犬の2人の従業員しかいないでしょう。男性は犬に餌を与え、犬は男性を監視して機...

2020年のライフスタイルに関する2008年の予測:そのほとんどが実現

米国のピュー・リサーチ・センターは2008年に、主に以下のような2020年のライフスタイルを予測しま...

IoTの未来が機械学習に依存する理由

モノのインターネットは膨大な量のデータを生成します。そのデータは、都市が事故や犯罪を予測するのに役立...

新しい人工筋肉、応用シナリオの範囲が極めて広い!マイクロロボット:非常に必要

人工筋肉は科学界では常に重要な研究テーマとなっています。理想的には、人工筋肉は医療分野で患者の健康回...

ビッグデータ時代のデータセット蒸留:大規模データセットでの最初の成功

11月30日、世界初の人工知能大学であるモハメド・ビン・ザイド人工知能大学(MBZUAI)は、arX...

人工知能技術をより効果的に応用するにはどうすればよいでしょうか?より正確かつ迅速に行う5つの方法

広範囲にわたるモデリングと10万回以上のシミュレーションの実行を経て、AIシステムが2018年ワール...

デイリーアルゴリズム: 有効な括弧

[[420388]] '('、')'、'{'、...

ナレッジグラフは複雑ではありません。整理するお手伝いをさせてください。

[51CTO.com からのオリジナル記事] インターネットビジネスの発展に伴い、大量のデータが生...