2017年中国・米国データサイエンス比較レポート：Pythonが年間平均給与11万ドルで1位

[[208216]]

***ニュースによると、Kaggleは最近、機械学習とデータサイエンスに関する業界全体の詳細な調査を実施し、16,000件を超える回答を受け取りました。回答者には、最も人気のあるプログラミング言語は何か、さまざまな国のデータサイエンティストの平均年齢はどれくらいか、さまざまな国の平均年収はどれくらいかなどが含まれていました。

ただし、中国のデータ収集は十分に包括的ではなく、米国のデータも十分にクリーンアップされていないため、以下のデータは参考用です。次回は Kaggle がデータをより徹底的、詳細かつ包括的に作成してくれることを期待しています。

以下はAIテクノロジーベースキャンプのデータ収集であり、中国と米国のデータサイエンスと機械学習の比較の観点から提示されています。

中国と米国のデータワーカーのプロフィールの比較

年

世界的に見ると、この調査の回答者の平均年齢は約 30 歳です。もちろん、この値は国によって異なります。

以下は中国とアメリカの調査回答者の年齢の比較です。

中国

中国では、機械学習の実践者の平均年齢は 25 歳で、実践者は 20 ～ 30 歳の年齢層に集中しています。これは中国における実践者の一般的な分布を反映しているのかもしれないが、Kaggle によって収集されたデータの量を考えると、詳細はまだ議論する価値がある。

アメリカ合衆国

米国では、機械学習の実践者の平均年齢は 32 歳で、20 ～ 30 歳の年齢層が最も多くなっています。しかし驚くべきことに、チャートには100歳を超える大物や0歳に近い子供たちが数人登場します。 Kaggle でのデータクリーニングの詳細についてはまだ不明ですが、このような専門家が本当に存在するのであれば、AI Technology Base Camp にご連絡ください。私たちはあなたの存在に非常に興味を持っています。

中国と米国の雇用状況の比較

中国ではフルタイム労働者が53％を占め、米国では70.9％に上ります。

中国

アメリカ合衆国

中国と米国のデータサイエンス職種の比較

データサイエンスの分野には、機械学習エンジニア、データアナリスト、データサイエンティスト、ソフトウェア開発者、データマイナーなど、さまざまな仕事があります。以下はデータサイエンス分野における中国と米国の比較表です。

中国

アメリカ合衆国

年俸

世界的に、データサイエンティストの年間平均給与は 55,441 ドルです。中国では、データサイエンティストの平均年収は29,835ドルです。米国では11万ドルにも上る

中国におけるフルタイムの年収

米国のフルタイムの年収

***教育

一般的に言えば、データサイエンスの実践者の間で最も一般的な学位は修士号ですが、一般的に言えば、博士号を取得すると高給 (15 万ドルから 20 万ドル、20 万ドル以上) が得られます。

中国では修士号取得者が全体の40.5％を占め、博士号取得者はわずか11.2％で、学士号取得者数は修士号取得者数と同じ39.5％と高い。

米国では、実務者のわずか 44.5% が修士号を取得しており、20.7% が博士号、26.5% が学士号を取得しています。

一般的に、米国の博士号取得率は20.7％と高く、中国（11.2％）のほぼ2倍です。

中国

アメリカ合衆国

データサイエンティストは実際にどのように働くのでしょうか?

仕事ではどのような方法を使っていますか？

ロジスティック回帰は、軍事および国家安全保障の分野を除いて、最も一般的に使用されているデータサイエンスの研究方法です。ニューラルネットワークは、軍事や国防安全保障の分野で広く使用されています。

すべての国全体のデータ

データ作業で最もよく使用されるツール言語は何ですか?

全体的に、Python はデータワーカーに最も使用されている言語です。同時に、データ研究者も R 言語に非常に忠実です。

すべての国全体のデータ

あなたの仕事ではどのような種類のデータが使われていますか?

リレーショナルデータは最も一般的に使用されるデータ型です。しかし、学術研究者や国防・安全保障の分野では、テキストと画像が好まれます。

すべての国全体のデータ

職場ではどのようなコード共有およびホスティング方法が使用されていますか?

ほとんどのデータワーカーはコードを共有するために Git を使用します。しかし、大企業の従業員はコードをローカルに保存し、電子メールで共有することを好みます。スタートアップ企業はより高速なクラウド共有方法を使用します。

すべての国全体のデータ

仕事でどんな障害に遭遇しましたか?

汚れたデータが最大の障害です。マシンには焦点がありますが、さまざまなアルゴリズムを理解する能力の欠如もデータワーカーにとって大きな障害となっています。効果的な管理と財政的支援の欠如は、データワーカーが直面する 2 つの大きな外部的な困難です。

新しいデータサイエンティストは、業界でどのように名を馳せることができるでしょうか?

あなたの経験に基づいて、データサイエンスの初心者にどの言語をお勧めしますか?

それは人によって異なります。ユーザーベースが最も大きい 2 つの言語、Python と R のうち、ほとんどの人は Python の方が推奨されると考えています。

データサイエンスの学習リソースはどこで入手していますか?

データサイエンスは急速に変化する分野であり、業界内で一定の地位を維持し、時代に取り残されないようにするために、業界の人々は知識体系を常に更新する必要があります。 Stack Overflow の Q&A、カンファレンス、ポッドキャストは、実践者が頻繁に使用する学習プラットフォームです。新しいソフトウェアがリリースされたら、必ず公式のユーザーガイドを読み、YouTube で使用方法のビデオを視聴してください。

オープンデータセットはどこで入手できますか?

データがなければデータサイエンスはあり得ません。データサイエンスのヒントとしては、練習用のクリーンなオープンソースデータセットとプロジェクトを見つける方法を知ることが非常に重要です。ますます多くの人々が私たちのデータセットアグリゲータ (https://www.kaggle.com/datasets) を使い始めています。

どのような経路でこの仕事に就いたのですか?

データサイエンスの分野に携わってきた人たちの経験からすると、企業サイトや求人サイトに履歴書を提出するよりも、業界内で独自のネットワークを構築するなど、以下のような方法が効率的かもしれません。

上記の内容は kaggle の Web サイトから引用したものです。

<<: 人工知能は大腸がんを診断できる：精度は86％にも達する

>>: 人工知能が悪性脳腫瘍の発症予測にどのように役立つか