2017年データサイエンスおよび機械学習業界現状調査:Pythonが最も人気のある言語

2017年データサイエンスおよび機械学習業界現状調査:Pythonが最も人気のある言語

[[209261]]

今年、Kaggle はデータ サイエンスと機械学習の状況を包括的に理解することを目的として、人工知能分野に関する初の詳細な調査を実施しました。この調査には 16,000 件を超える回答が寄せられました。膨大な調査データにより、実務者、業界の動向、業界への参入方法に関するデータサポートが得られます。以下のレポートには、この調査から得られたいくつかの重要な結果が含まれています。

  1. Python はおそらく機械学習で最もよく使われるプログラミング言語ですが、統計学者の間で最もよく使われる言語は R です。
  2. データサイエンティストの平均年齢は約 30 歳ですが、この数字は国によって異なります。たとえば、インドの回答者の平均年齢はオーストラリアの回答者の平均年齢よりも 9 歳若いです。
  3. 回答者の中で最も一般的な教育レベルは修士号ですが、最高給与(15万ドル以上)を得ている人の中では、博士号を取得している人の方が多くなっています。

Kaggle は調査の匿名化されたデータセットを研究用に公開しており、こちらからダウンロードできます: https://www.kaggle.com/kaggle/kaggle-survey-2017。

職場でデータを扱うのは誰ですか?

データ実践者を分析する方法は数多くありますが、この記事では、データ サイエンス実践者の業務、経歴などに関する人口統計情報から始めます。

何歳ですか?

下の図からわかるように、この調査の回答者の平均年齢は約 30 歳ですが、この値は国によって異なります。たとえば、インドの回答者の平均年齢はオーストラリアの回答者の平均年齢よりも 9 歳若かった。

現在の雇用状況はどうなっていますか?

回答者のうち65.7%がフルタイムの仕事に就いていると答えた。

ポジションは何ですか?

データ サイエンティストはコードを使用してデータを分析する人として定義されていますが、データ サイエンスの分野は幅広い職種をカバーできることがわかります。たとえば、イランやマレーシアでは、データサイエンス従事者の最も一般的な職名は「科学者または研究者」です。

フルタイム勤務の場合の年間給与はいくらですか?

中央値は 55,441 ドルですが、多くの人がフルタイムの仕事に就いていない (収入が 0) ため、この数字は正確ではありません。当社の調査では、「報酬と福利厚生」は「キャリア開発の機会」よりもわずかに低い順位にランクされましたが、それでも妥当な報酬がいくらであるかを知っておくことは良いことです。米国では、機械学習エンジニアが家に持ち帰る最も一般的なものはベーコンです。

最大値を超えているため表示されていない回答が 131 件ありますが、中央値には含まれています。

***あなたの学歴は何ですか?

別の学位が必要ですか? 一般的に、データ サイエンスの専門家の間で最も一般的な学位は修士号ですが、最も高い給与 (15 万ドルから 20 万ドル以上) を得ている人のほとんどは博士号を取得しています。

回答者のほとんどは30歳前後で、修士号を持ち、年収は約55,000ドルで、データサイエンティストの職に就いていました。しかし、現実はそれほど均等に分配されていません。これらの最初のいくつかの人口統計に関する質問は、複雑な Kaggle データ サイエンス コミュニティにおける年齢、性別、国籍、役職、給与、経験、教育の多様性の表面に触れたにすぎません。

データサイエンティストは何をしますか?

私たちはデータ サイエンティストを、データを分析するためのコードを書く人として定義しています。彼らの日々の業務には何が含まれているのでしょうか? 以下に調査結果を示します。

仕事ではどのようなデータサイエンス手法を使っていますか?

ロジスティック回帰は、ニューラル ネットワークがより頻繁に使用される国家安全保障の分野を除き、職場で最も一般的に使用されるデータ サイエンス手法です。一般的に、データ サイエンスでは、古典的な機械学習アルゴリズムがより一般的に使用されています。単純な線形分類器と非線形分類器は、データ サイエンスで最も一般的なアルゴリズムですが、強力な統合方法も非常に人気があります。

職場で最もよく使われるプログラミング言語は何ですか?

Python は、データ サイエンティストの間で最も一般的に使用されている言語であり、最も一般的に使用されているデータ分析ツールです。しかし、多くのデータ サイエンティストは依然として R 言語に忠実です。

仕事でよく使われるデータ型は何ですか?

リレーショナル データは、開発者が仕事で最もよく使用するデータ タイプです。これは、ほとんどの産業エンジニアがこの種のリレーショナル データに非常に関心を持っているためです。学術研究者や防衛・安全保障業界は、テキストと画像に重点を置いています。

職場でコードを共有するにはどうすればよいですか?

多くの回答者 (58.4%) が職場でコードを共有するために Git を使用していますが、大企業の開発者はコードをローカルに保存し、電子メールなどのファイル共有ソフトウェアを介して共有する傾向が強いです。スタートアップ企業は、より迅速な対応を維持するためにクラウドで共有する必要があるかもしれません。

仕事で遭遇する主な障害は何ですか?

明らかに、ダーティ データが第 1 位にランクされています。つまり、データ サイエンティストが直面する最も一般的な問題は、データに対して大量の前処理を実行する必要があることです。データの前処理に加えて、データ サイエンティストを悩ませる問題は他にもたくさんあります。たとえば、多くの機械学習アルゴリズムには独自の専門分野があるため、そのパフォーマンスを理解するのは難しい場合があります。

初心者のデータサイエンティストはどのようにしてこの分野に参入できるのでしょうか?

新しいキャリアを始めるときは、他の人の成功事例を参考にすると役に立つことがあります。私たちはデータサイエンス業界で働く人々にアンケート調査を行い、彼らがどのようにしてこの業界に参入したかを尋ねました。私たちのお気に入りの提案をいくつかご紹介します。

初心者のデータサイエンティストに学ぶことを勧める言語は何ですか?

データ サイエンティストはそれぞれ、言語の選択に関して独自の考えを持っています。 Python または R のみを使用した人が正しい選択をしたことが判明しました。しかし、R と Python を使用したことがある人に尋ねると、Python を推奨する可能性が 2 倍になります。

どのようなデータサイエンス学習リソースを使用していますか?

データ サイエンスは急速に進化している分野であり、学習して最先端の知識を身に付けるのに役立つ貴重なリソースが数多くあります。すでにデータサイエンスの分野で働いている人は、Stack Overflow の Q&A、カンファレンス、ポッドキャストをより多く利用する傾向があります。コンテンツやオープンソース ソフトウェアを公開する場合は、その分野の初心者は通常、公式ドキュメントを使用したり、YouTube 動画を視聴したりする傾向があることを常に覚えておいてください。

オープンソースのデータはどこから入手していますか?

データがなければ、データサイエンスは存在しません。データ サイエンスのスキルを習得する場合、プロジェクトの練習や開発に使用するクリーンなオープン ソース データセットを見つける方法を知ることが重要です。当社のデータセット アグリゲータがデータ サイエンス コミュニティのメンバーの間で最も使用されるツールになりつつあることを嬉しく思います。

仕事を見つける方法と見つける方法は?

仕事を探すとき、企業の Web サイトにアクセスしたり、特定の技術分野の求人情報で機会を探したりする人もいるかもしれませんが、データ サイエンスの分野で働く人々の経験によると、これらの方法は間違いなく最悪の選択肢です。彼らにとって最善の選択肢は、採用担当者に直接連絡するか、独自のネットワークを構築してその分野に参入することです。

注: 回答者が 50 人未満のグループは「その他」のカテゴリにまとめられました。一部の棒グラフは、美観上の目的で拡大縮小されています。

<<:  ビッグデータの時代では、ソフトウェアエンジニアは徐々に減少し、アルゴリズムエンジニアが増加しています。

>>:  プログラマーは30歳で転職すべきでしょうか?曲がるならどちらの方向がいいでしょうか?

ブログ    
ブログ    
ブログ    

推薦する

AI スタートアップの品質を測定するにはどうすればよいでしょうか?

編集者注: Zetta Venture のパートナーである Ivy Nguyen 氏は最近、Tech...

ついにアルゴリズムが「修正」されました!

[[427083]] 9月29日、中国サイバースペース管理局は他の8つの中央部門とともに、「インタ...

ディープニューラルネットワークのトレーニングが難しいのはなぜですか?

あなたがエンジニアであり、コンピューターをゼロから設計する任務を負っていると想像してください。ある日...

2021年第1四半期のロボット産業の新製品在庫

2021 年の最初の 3 か月間にロボット業界ではどのような新製品が登場しましたか? [[38857...

MITのロボット犬がまた進化しました。砂利や氷の上でも滑らずに走れます。今回は本当に犬と同じくらい安定しています

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

ホスピタリティ業界における職場の変革 - 人間と機械の関係

ホスピタリティ業界は、過去数十年にわたって多くの世界的な混乱を経験してきたサービスベースの業界です。...

データサイエンスにおける ML+ と DL+ の時代へようこそ

企業のデジタル変革は、次々と熱狂の波をもたらしました。国際的な権威ある組織は、今後数年間の企業のデジ...

LangChain と DeepInfra を使用してカスタマー サポート チャットボットを構築するためのガイド

翻訳者 |ブガッティレビュー | Chonglou日常のオンラインのやり取りの中でチャットボットを目...

...

大規模言語モデルが信頼できるかどうかを評価するにはどうすればよいでしょうか? 7つの次元はここにまとめられている

実際の展開においては、大規模言語モデル(LLM)をどのように「整合」させるか、つまりモデルの振る舞い...

OpenAIの初の開発者会議が事前に「公開」され、新しいChatGPTプロトタイプGizmoが公開された

今年9月、OpenAIは初の開発者会議「OpenAI DevDay」を正式に発表した。その時、Ope...

Weilingsi チームは、グラフ同型性の下での同変性と高い計算効率を備えた「自然グラフ ネットワーク」メッセージ パッシング メソッドを提案しました。

最近、ウェリングスチームによる研​​究では、グラフの局所的な対称性を研究することで新しいアルゴリズム...

デジタルヘルスのイノベーションを妨げる5つの主要な課題

現在、医療業界はこれまで以上に、コストの上昇を抑制し、アクセスを向上させ、人材不足による問題を緩和し...