翻訳 | 江凡百理子杰樹 校正 | ロリン 最新の KDnuggets 調査では、データ サイエンティストの実際の業務で最もよく使用されるアルゴリズムが集計されており、ほとんどの学術界と産業界において驚くべき発見がありました。 KDnuggets の Gregory Piatetsky 氏によると、最新の調査質問は次のとおりです。過去 12 か月間に、実際のデータ サイエンス関連のアプリケーションでどのモデル/アルゴリズムを使用しましたか? したがって、844 枚の解答用紙に基づく結果は次のとおりです。 上位10のアルゴリズムとその投票者の割合 図1: データサイエンティストが最もよく使用するアルゴリズムのトップ10。すべてのアルゴリズムについては、記事の最後にある表を参照してください。 回答者は平均 8.1 個のアルゴリズムを使用しており、これは 2011 年の同様の調査と比較すると大幅に増加しています。 2011 年のデータ分析アルゴリズムの調査と比較すると、最も一般的に使用されている方法は依然として回帰、クラスタリング、決定木/ルール、視覚化であることがわかりました。最大の増加率は(増加 = %2016/%2011 -1)です。
2016年最も人気のある新人は
最も大きな下落は
次の表は、さまざまなアルゴリズム タイプ (教師ありアルゴリズム、教師なしアルゴリズム、メタアルゴリズム、その他のアルゴリズム) が使用される場所を示しています。応募種別不明(NA、4.5%)またはその他の職業種別(3%)は含まれていません。 表1: 職業種別アルゴリズムの使用状況 ほぼ全員が教師あり学習アルゴリズムを使用していることに気付きました。政府や産業界のデータ サイエンティストは、学生や科学者よりも多様なアルゴリズムを使用します。産業データサイエンティストはメタアルゴリズムの使用を好みます。 さまざまな職業で最もよく使われるアルゴリズム + ディープラーニングのトップ 10 次に、さまざまな職業で最もよく使用されるアルゴリズム+ディープラーニングのトップ10を分析しました。 表2: 職業別のトップ10アルゴリズム+ディープラーニング これらの違いをより明確に示すために、異なる職業タイプのアルゴリズム使用バイアスを計算する式を使用します。 バイアス = 特定の職業タイプのアルゴリズム使用率 / すべての職業タイプのアルゴリズム使用率 - 1 図2: さまざまな会場でのアルゴリズム使用の偏り 産業データ サイエンティストは、回帰、視覚化、統計、ランダム フォレスト、時系列を使用する傾向があることに気付きました。政府機関や非営利団体では、視覚化、主成分分析、時系列を使用する可能性が高くなります。学術界の研究者は主成分分析とディープラーニングをより多く利用しています。学生は一般的にアルゴリズムをあまり使用しませんが、主にテキストマイニングとディープラーニングを使用します。 次に、KDnuggets ユーザー全体を表す特定の地域でのエンゲージメントを見てみましょう。 調査員の地域分布:
2011 年の調査では、業界と政府からの回答者を 1 つのグループにまとめ、学術研究者と学生を 1 つのグループにまとめ、業界と政府グループのアルゴリズムの使用知識を計算しました。 (産官グループのアルゴリズム利用率 / 学術学生グループのアルゴリズム利用率) / (産官グループの人数 / 学術学生グループの人数) - 1 したがって、親和性が 0 のアルゴリズムは、業界/政府グループと学術学生グループによって同等に使用されていることを示します。 IG 親密度が高くなるほど、アルゴリズムは業界に偏り、結果が小さくなるほど、アルゴリズムは学術に偏ります。 最も「工業的なアルゴリズム」は次のとおりです。
アップリフト モデリングは今回も最も好まれる「業界アルゴリズム」ですが、驚くほど使用頻度が低く、調査全体で最も低い 3.1% にとどまっています。 最も「学術的なアルゴリズム」は次のとおりです。
下の図は、すべてのアルゴリズムとその業界/学術的親和性を示しています。 図 3: KDnuggets 調査: データ サイエンティストが最もよく使用するアルゴリズム: 業界と学術界の比較 次の表には、2016 年の回答者の使用率、2011 年の使用率、変化 (2016 年の割合 / 2011 年の割合 - 1)、および前述の業界の精通度など、アルゴリズム調査のすべての結果が詳細に記載されています。 表3: KDnuggets 2016 調査: データ サイエンティストが使用するアルゴリズム 以下の表は、すべてのアルゴリズムの調査結果の詳細を示しています。各列は次の内容を表しています。
表4: KDnuggets 2016 調査: データサイエンティストが使用するアルゴリズム 出典: http://www.kdnuggets.com/2016/09/poll-algorithms-used-data-scientists.html [この記事は51CTOコラムBig Data Digest、WeChatパブリックアカウント「Big Data Digest(id: BigDataDigest)」のオリジナル翻訳です] |
<<: ディープラーニングの深層: モデリング知識とオープンソースツールのオプション
>>: 最適化されたアルゴリズムによる高度なデータ分析に視覚化を活用する 5 つのステップ
[[253605]] [やや活発な***四半期] 2018.3.04——OpenAIはオープンソース...
Microsoft は、Windows 365 を通じて、ますます多くの Windows 機能とコン...
金融、気象、エネルギーなどのさまざまな業界では、毎日大量の異種データが生成されます。人々は、このデー...
今朝、ジャック・マーは自身の微博に「ドイツで開かれたCEBITカンファレンスの開幕式が終わったばかり...
この記事では、まず RAG の概念と理論に焦点を当てます。次に、オーケストレーション用の LangC...
[[384610]] 「脳の学習メカニズムや学習方法の一部を解明できれば、人工知能はさらに進歩できる...
生成 AI は AI の「津波」を引き起こし、AI 駆動型アプリケーションの急速な開発、広範な採用、...
【原文は51CTO.comより】2020年1月6日、51CTOが主催した「IT印象◆ビジネスモデル...
今日、AI プログラムは、写真やビデオ内の顔や物体を認識し、音声をリアルタイムで書き起こし、X 線ス...