2017年中国・米国データサイエンス比較レポート:Pythonが年間平均給与11万ドルで1位

2017年中国・米国データサイエンス比較レポート:Pythonが年間平均給与11万ドルで1位

[[208216]]

***ニュースによると、Kaggleは最近、機械学習とデータサイエンスに関する業界全体の詳細な調査を実施し、16,000件を超える回答を受け取りました。回答者には、最も人気のあるプログラミング言語は何か、さまざまな国のデータサイエンティストの平均年齢はどれくらいか、さまざまな国の平均年収はどれくらいかなどが含まれていました。

ただし、中国のデータ収集は十分に包括的ではなく、米国のデータも十分にクリーンアップされていないため、以下のデータは参考用です。次回は Kaggle がデータをより徹底的、詳細かつ包括的に作成してくれることを期待しています。

以下はAIテクノロジーベースキャンプのデータ収集であり、中国と米国のデータサイエンスと機械学習の比較の観点から提示されています。

中国と米国のデータワーカーのプロフィールの比較

世界的に見ると、この調査の回答者の平均年齢は約 30 歳です。もちろん、この値は国によって異なります。

以下は中国とアメリカの調査回答者の年齢の比較です。

中国

中国では、機械学習の実践者の平均年齢は 25 歳で、実践者は 20 ~ 30 歳の年齢層に集中しています。これは中国における実践者の一般的な分布を反映しているのかもしれないが、Kaggle によって収集されたデータの量を考えると、詳細はまだ議論する価値がある。

アメリカ合衆国

米国では、機械学習の実践者の平均年齢は 32 歳で、20 ~ 30 歳の年齢層が最も多くなっています。しかし驚くべきことに、チャートには10​​0歳を超える大物や0歳に近い子供たちが数人登場します。 Kaggle でのデータクリーニングの詳細についてはまだ不明ですが、このような専門家が本当に存在するのであれば、AI Technology Base Camp にご連絡ください。私たちはあなたの存在に非常に興味を持っています。

中国と米国の雇用状況の比較

中国ではフルタイム労働者が53%を占め、米国では70.9%に上ります。

中国

アメリカ合衆国

中国と米国のデータサイエンス職種の比較

データサイエンスの分野には、機械学習エンジニア、データアナリスト、データサイエンティスト、ソフトウェア開発者、データマイナーなど、さまざまな仕事があります。以下はデータサイエンス分野における中国と米国の比較表です。

中国

アメリカ合衆国

年俸

世界的に、データサイエンティストの年間平均給与は 55,441 ドルです。中国では、データサイエンティストの平均年収は29,835ドルです。米国では11万ドルにも上る

中国におけるフルタイムの年収

米国のフルタイムの年収

***教育

一般的に言えば、データ サイエンスの実践者の間で最も一般的な学位は修士号ですが、一般的に言えば、博士号を取得すると高給 (15 万ドルから 20 万ドル、20 万ドル以上) が得られます。

中国では修士号取得者が全体の40.5%を占め、博士号取得者はわずか11.2%で、学士号取得者数は修士号取得者数と同じ39.5%と高い。

米国では、実務者のわずか 44.5% が修士号を取得しており、20.7% が博士号、26.5% が学士号を取得しています。

一般的に、米国の博士号取得率は20.7%と高く、中国(11.2%)のほぼ2倍です。

中国

アメリカ合衆国

データサイエンティストは実際にどのように働くのでしょうか?

仕事ではどのような方法を使っていますか?

ロジスティック回帰は、軍事および国家安全保障の分野を除いて、最も一般的に使用されているデータ サイエンスの研究方法です。ニューラル ネットワークは、軍事や国防安全保障の分野で広く使用されています。

すべての国全体のデータ

データ作業で最もよく使用されるツール言語は何ですか?

全体的に、Python はデータワーカーに最も使用されている言語です。同時に、データ研究者も R 言語に非常に忠実です。

すべての国全体のデータ

あなたの仕事ではどのような種類のデータが使われていますか?

リレーショナル データは最も一般的に使用されるデータ型です。しかし、学術研究者や国防・安全保障の分野では、テキストと画像が好まれます。

すべての国全体のデータ

職場ではどのようなコード共有およびホスティング方法が使用されていますか?

ほとんどのデータワーカーはコードを共有するために Git を使用します。しかし、大企業の従業員はコードをローカルに保存し、電子メールで共有することを好みます。スタートアップ企業はより高速なクラウド共有方法を使用します。

すべての国全体のデータ

仕事でどんな障害に遭遇しましたか?

汚れたデータが最大の障害です。マシンには焦点がありますが、さまざまなアルゴリズムを理解する能力の欠如もデータワーカーにとって大きな障害となっています。効果的な管理と財政的支援の欠如は、データワーカーが直面する 2 つの大きな外部的な困難です。

新しいデータ サイエンティストは、業界でどのように名を馳せることができるでしょうか?

あなたの経験に基づいて、データサイエンスの初心者にどの言語をお勧めしますか?

それは人によって異なります。ユーザーベースが最も大きい 2 つの言語、Python と R のうち、ほとんどの人は Python の方が推奨されると考えています。

データサイエンスの学習リソースはどこで入手していますか?

データサイエンスは急速に変化する分野であり、業界内で一定の地位を維持し、時代に取り残されないようにするために、業界の人々は知識体系を常に更新する必要があります。 Stack Overflow の Q&A、カンファレンス、ポッドキャストは、実践者が頻繁に使用する学習プラットフォームです。新しいソフトウェアがリリースされたら、必ず公式のユーザーガイドを読み、YouTube で使用方法のビデオを視聴してください。

オープンデータセットはどこで入手できますか?

データがなければデータ サイエンスはあり得ません。データ サイエンスのヒントとしては、練習用のクリーンなオープン ソース データセットとプロジェクトを見つける方法を知ることが非常に重要です。ますます多くの人々が私たちのデータセット アグリゲータ (https://www.kaggle.com/datasets) を使い始めています。

どのような経路でこの仕事に就いたのですか?

データサイエンスの分野に携わってきた人たちの経験からすると、企業サイトや求人サイトに履歴書を提出するよりも、業界内で独自のネットワークを構築するなど、以下のような方法が効率的かもしれません。

上記の内容は kaggle の Web サイトから引用したものです。

<<:  人工知能は大腸がんを診断できる:精度は86%にも達する

>>:  人工知能が悪性脳腫瘍の発症予測にどのように役立つか

ブログ    
ブログ    
ブログ    

推薦する

GNN初心者必読! Google Research が、SOTA グラフ ニューラル ネットワークをゼロから構築する方法を教えます

[[422426]]近年、ニューラル ネットワークは自然言語、画像、音声、その他のデータで大きな進歩...

...

...

Transformerのランクを下げ、LLMのパフォーマンスを低下させることなく、特定のレイヤーのコンポーネントの90%以上を削除する

大規模モデルの時代において、Transformer は科学研究分野全体を一手にサポートします。 Tr...

今年のダブルイレブンでは、ドローン、無人運転車、ロボットがすべて配備されます!

近年、科学技術革命と産業変革の新たな局面の始まりに伴い、わが国の物流業界は情報化、デジタル化、インテ...

...

西アフリカの牧畜民は飢餓危機と戦うためにAIを活用

世界銀行の支援を受けて、国際非営利団体「Action Against Hunger」は人工知能を活用...

2021年、人工知能は再び疫病との戦いで役割を果たすだろう

[[344407]] COVID-19パンデミックが世界を席巻する以前から、人工知能(AI)、特にそ...

MySQL: データ構造とアルゴリズムの原則

[[190898]]この記事では、MySQL データベースを研究対象として取り上げ、データベース イ...

...

スマートカーの「ChatGPTモーメント」はどこまで進んでいるのでしょうか?

今年の「テクノロジー スプリング フェスティバル ガラ」CES で最も注目を集めたものは何かと聞かれ...

ソフトウェア開発プロセスは、路上でのスマートカーの安全な運行を保証するものである。

2021年に入り、自動車の道路事故率を減らし、運転プロセスの快適性を向上させる先進運転支援システム...

バックアップと災害復旧のための生成AIツールはまだ初期段階にある

バックアップ ソフトウェア ベンダーはすでに自動化と仮想アシスタント用の生成 AI ツールを導入して...