Pythonがリードを拡大、PyTorchはわずか6.4%

Pythonがリードを拡大、PyTorchはわずか6.4%

最近、有名なデータサイエンスのウェブサイト KDnuggets が、2018 年のデータサイエンスおよび機械学習ツール調査の結果を発表しました。 2,000人以上が、過去12か月間のプロジェクト開発で使用したデータマイニング/機械学習ツールとプログラミング言語に投票しました。この統計では、過去 3 年間のランキングの比較分析も提供されます。

投票結果には予想された要素と予想外の要素の両方が含まれていました。データによれば、機械学習でよく使われるプログラミング言語としてPythonがリードを広げており、R言語の使用率は初めて50%を下回った。ディープラーニング フレームワークに関して言えば、最近人気のディープラーニング フレームワーク PyTorch の使用率はわずか 6.4% で、TensorFlow の 29.9% や Keras の 22.2% を大きく下回っています。

Python は R のユーザー領域を侵食し続け、RapidMiner の人気は高まり、SQL は安定し、TensorFlow と Keras は急速に進歩し、Hadoop は衰退し、データ サイエンス プラットフォームは統合されるなどです。

第 19 回 KDnuggets ソフトウェア調査では 2,300 票以上が集まりましたが、これは 2017 年よりわずかに少ない数です。これはおそらく、KDnuggests 調査に積極的に参加したベンダーが RapidMiner のみだったためと考えられます。平均して、各参加者は使用したツールを 7 つ選択したため、1 つのツールのみに投票すると偏りが生じます。 KDnuggets は、そのような「孤立した」投票 (ほとんどは RapidMiner からの投票) 約 260 件を除外しました。これは、たとえそれらがツールの正当なユーザーを代表していたとしても、その行動が異常であり、結果を歪める可能性があるためです。

以下は、「一心不乱」な有権者を除いた 2,052 人の参加者に基づく初期結果の分析です。より詳細な分析と匿名化されたデータは、約2週間後に公開される予定です。

高度な分析、データサイエンス、機械学習ツール

図 1: KDnuggests アナリティクス/データ サイエンス 2018 ソフトウェア調査: 2018 年のトップ ツールと、2016 ~ 2017 年と比較してランキングがどのように変化したか。 (より妥当な比較のため、KDnuggests は「一途な」有権者を除外し、2016 年と 2017 年の調査結果を再計算しました。)

上のグラフは、それぞれ使用率が 20% 以上の上位 11 個のツールを示しています。

表 1: KDnuggests 2018 ソフトウェア調査のトップ分析/データサイエンス/機械学習ソフトウェア

ここで、「2018 %シェア」の列はツールを使用しているユーザーの割合、「%変化」の列は2017年のソフトウェア調査と比較した変化を示しています。緑と赤のマークは10%以上の変化を示しています。

各投票者が使用するツールの平均数は 7 で、2017 年の調査 (「単独」投票者も除く) の 6.75 よりわずかに高くなっています。

2017 年のソフトウェア調査と比較して、トップ 11 に入った新しいツールは Keras です。 Knime は、今年の投票にユーザーを積極的に動員しなかったためか、11 位から順位を落としました。

ここにいくつかの観察結果があります。

PythonがRのユーザー空間を侵食している

2017年にはPythonの使用率が50%を超え、今年は使用率が66%に上昇しましたが、Rの使用率は急激に低下し、50%を下回りました。

ラピッドマイナー

これまでの調査では、大手データサイエンスプラットフォームであるRapidMinerが急速に普及しており、ユーザー利用率は2017年の33%から今年は52.7%に増加しています。 RapidMinerの創設者兼会長であるIngo Mierswa氏によると、同社はユーザーに調査への参加を促すためにいくつかの措置を講じたという。

KDnuggets の調査について、Ingo Mierswa 氏は次のように語っています。「過去 2 年間、調査を宣伝するためにユーザーにメールを送信してきましたが、今年は 400 人以上のユーザーがメールに返信し、RapidMiner の普及に協力できてうれしいと言ってくれました。また、今年の RapidMiner の月間アクティブ ユーザーの成長率は昨年の 300% を超えたため、KDnuggets の調査に関するメールをより多くのユーザーに送信しました。このようなアクティブなコミュニティを見ることができてとてもうれしく思います。」

SQLは安定している

データ管理システム向けプログラミング言語として、SQL(Spark SQL、SQL to Hadoopツールを含む)は、過去3回の調査結果と同様に、引き続き約40%の使用率を維持しています。したがって、データ サイエンティストを目指すなら、SQL を学んでください。長い間役立つはずです。

傾向

調査対象となった新しいツールの中で、使用率が 2% を超えたのは Spark SQL のみで、使用率は 11.7% でした。次の表は、2018 年に使用量が 20% 以上増加し、使用率が 3% 以上となったツールを示しています。

表 2: 使用量の増加が最も大きい上位の分析/データ サイエンス/機械学習ツール。

統合

2017 年に使用率が 2% 以上だった 56 個のツールのうち、2018 年に使用率が増加したのは 19 個 (わずか 1/3) で、残りの 37 個は使用率が減少しました。これは、最近の買収(Datawatch による Angoss の買収、Minitab による Salford の買収)と合わせて、データ サイエンス プラットフォームの統合が進行中であることを示しています。

下の表に示すように、2017 年に使用率が 3% 以上だったツールは、今年は 25% 以上減少しました。

表 3: 使用量が最も減少した上位の分析/データ サイエンス ツール。

ディープラーニングツール

調査対象となった有権者のうち、ディープラーニングツールを使用する人の割合は、過去2年間安定している。 2018 年には有権者の 33% がディープラーニング ツールを使用しましたが、2017 年には 32%、2016 年には 18% でした。 Google が管理する TensorFlow が依然として主流ですが、急速に進化している Keras は、TensorFlow や MXNet などのフレームワーク上に構築された高レベル API として機能します。

一方、1年以上前にリリースされ、主にFacebookが推進するPyTorchは、研究者やエンジニアの注目を集め、使用率は6.4%で第3位にランクされています。このディープラーニング フレームワークは Caffe2 と統合されているため、将来的には PyTorch がより大きなシェアを占めることは間違いありません。

ただし、KDnuggets はデータ サイエンスに重点を置いており、浅い機械学習アルゴリズムを使用することが多いです。機械学習とディープラーニングのコミュニティがフレームワークに関してどのような選択をしているのかをもっと知りたいと思うかもしれません。そこで、記事の最後で読者が一般的に使用されているディープラーニング フレームワークに投票できるようにします。

ディープラーニングツールのランキング:

  • テンソルフロー、29.9%

  • ケラス、22.2%

  • パイトーチ、6.4%

  • テアノ、4.9%

  • その他のディープラーニングツール、4.9%

  • ディープラーニング4J、3.4%

  • Microsoft Cognitive Toolkit (旧 CNTK)、3.0%

  • Apache MXnet、1.5%

  • カフェ、1.5%

  • カフェ2、1.2%

  • TFLearn、1.1%

  • トーチ、1.0%

  • ラザニア、0.3%

ビッグデータツール: Hadoop の利用が減少

2018 年には、ユーザーの約 33% が Hadoop または Spark のいずれかのビッグデータ ツールを使用し、これは 2017 年と変わりません。しかし、Hadoop の使用量は 30% 以上も大幅に減少しました。

関連する詳細は次のとおりです。

プログラミング言語

Python は R だけでなく、SQL、Java、C/C++ を除く他のほとんどの言語を置き換えつつあるようです。これらの言語は Python とほぼ同レベルです。 KDnuggets がこの調査を開始して以来、R の使用量は大幅に減少しました。他の言語も減少傾向にあります。

主要なプログラミング言語を人気順に挙げると次のようになります。

  • Python、65.6%(2017年は59.0%)、11%増加

  • R、48.5%(56.6%)、14%減少

  • SQL、39.6%(以前は39.2%)、1%増加

  • ジャワ、15.1%(15.5%)、3%減

  • Unix、shell/awk/gawk、9.2%(以前は10.8%)、15%減少

  • その他のプログラミング言語およびデータ言語、6.9%(7.6%)、-9%減少

  • C/C++、6.8%(以前は7.1%)、3%減少

  • スカラ、5.9%(8.3%だった)、29%下落

  • Perl、1.0%(1.9%だった)、46%減少

  • ジュリア、0.7%(1.2%だった)、45%減少

  • Lisp、0.3%(以前は0.4%)、-25%減少

  • Clojure、0.2%(以前は0.3%)、-38%下落

  • F、# 0.1% (以前は0.5%)、-73% 減少

地域参加

この調査における地域別の参加率は次のとおりです。

  • ヨーロッパ、37.5%

  • アメリカ/カナダ、36.6%

  • アジア、11.7%

  • ラテンアメリカ、6.6%

  • アフリカ/中東、4.5%

  • オーストラリア/ニュージーランド、3.1%

2017 年と比較した主な変化は、ヨーロッパでの参加率の増加(35.5% から)と、米国/カナダでの参加率の低下(41.5% から)です。

完全な結果と3年間の傾向

次の表に調査結果の詳細を示します (スペースの制限により、ここでは上位 12 個のツールのみをリストしています)。

<<:  ARにおける人工知能

>>:  機械学習とディープラーニング、この2つの違いは何でしょうか?

ブログ    
ブログ    
ブログ    

推薦する

最新の! 2018年中国プログラマーの給与と生活に関する調査レポート

中国インターネット情報センター(CNNIC)が発表した第41回中国インターネット発展統計報告によると...

私、シュシュもVRヘッドセットを持っています!コーネル大学の研究者らがマウスの頭蓋骨を開き、脳と行動の没入型研究を行っている。

最近、マウスの世界でも仮想現実の時代が到来しました。はい、すべての人間が VR ヘッドセットを持って...

2018年に人工知能がビジネスに及ぼす10のインパクト

[[220065]]人工知能 (AI) と機械学習は多くの企業にとって流行語となっていますが、これら...

冬季オリンピックのテストマッチ、副審はAIだったことが判明

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

なぜRLの一般化は難しいのか:バークレーの博士が認知POMDPと暗黙の部分観測性から説明する

[[437395]]今日の強化学習 (RL) には、収束性が低いなど多くの問題があります。比較的弱い...

...

...

ビッグデータ、機械学習、ディープラーニングのためのコマンドラインツールの概要

[51CTO.com クイック翻訳] キーボードを握ってください! マウスや GUI がなくても、O...

メタ啓示: AIはメタバースの重要な変数である

最近、メタバースに新たな水が流れ込んできました。 Metaが開催した研究室でのディスカッションにおい...

ChatGPTは、すべての過去のチャットの学習、記憶のリセット、および「読んだ後の書き込み」という新機能をテストするために公開されました。

ChatGPT は、大きな新機能をリリースしようとしている可能性があります。つまり、過去のチャット...

Java ME での衝突検出アルゴリズムの実装

Java ME ゲーム開発では、衝突検出アルゴリズムを実装する必要があることがよくあります。たとえば...

機械学習翻訳の限界を説明する

機械学習による翻訳は人間のコミュニケーションに非常に有益ですが、限界もあります。機械学習は、企業に文...

画像類似性比較 CLIP または DINOv2

人工知能の分野において、コンピューター ビジョンの 2 大巨頭は CLIP と DINOv2 です。...

10年後に人工知能のリーダーとなる国はどこでしょうか?アメリカ国民:中国であるべきだ

ロシアメディアは、中国の人工知能(AI)産業の急速な発展を背景に、米シンクタンクのブルッキングス研究...