本記事では、海外KDnuggetsフォーラムにおけるSimplilearnの統計結果と、国内有名求人サイトの募集要項情報を分析し、データサイエンス業務で習得すべきスキルとツール、現在のデータサイエンス業務で実務家が第一選択とするスキルとツールについて詳しく紹介します。
海外のウェブサイトKDnuggetsはかつてアンケートを実施し、次のような質問をしました。 1) 現在、データサイエンス/機械学習関連のどのようなスキルをお持ちですか? 2) どのようなスキルを学びたい、または向上させたいですか? KDnuggets 調査結果分析この世論調査には 1,500 件を超える有効な回答が寄せられ、サンプル サイズが十分に大きいため、そこから導き出される推論は参考としてより有意義なものとなっています。この調査には 2 つの質問のみがあり、現在習得しているスキルと今後習得する予定のスキルという 2 つの指標に基づいて、この 2 つの質問の結果を分析します。調査結果によると、平均して一人当たり 10 個のスキルを持ち、平均して一人当たり 6.5 個のスキルを習得またはさらに勉強したいと考えています。 下の図 1 は主な調査結果を示しています。X 軸には最初の調査質問の結果に対応する既存のスキルが、Y 軸には 2 番目の調査質問の結果に対応する望ましいスキルが示されています。各円の大きさはそのスキルを持つ人の割合に比例し、色は需要と既に利用可能な比率によって決まります (赤は高く、1 より大きい、青は低く、1 未満)。 この図には 2 つの主なカテゴリがあることがわかります。 グラフの右側にある青い破線の四角形の最初のカテゴリには、所有率が 40% を超え、必要数/所有数の比率が 1 未満のスキルが含まれます。これらをコアデータサイエンススキルと呼びます。 その中でも、追加や改善が最も必要なスキルは機械学習(41%)とPython(37%)です。最も成長が少ないスキルは Excel です。Excel スキルの向上や向上を希望している人はわずか 7% です。 2 番目のクラスター (図 1 の左側に赤い枠でマークされているもの) には、現在はあまり人気がない (所有率 < 30%) ものの、需要/所有率が 1 を超えており、使用率が増加する可能性があるスキルが含まれます。私たちはこれらを新興データサイエンススキルと呼んでいます。 興味深いことに、Hadoop は衰退しているという認識があるにもかかわらず、この調査では Hadoop についてすでに知っている人よりも Hadoop を学びたい人の方が多かったため、Hadoop の人気は依然として高まっている可能性があります。 Julia の需要/存在比は 3.4 と高いのですが、全体の 2% しか占めず、低すぎるうえに有効なデータもないため、ホット/新興スキルには含めませんでした。 残りのスキルは、XGBoost、ソフトウェアエンジニアリング、Java、MATLAB、SASなど、第3カテゴリに分類されます。これらは10%から30%を占め、利用率は低くはありませんが、増加しておらず、需要/既存比は1未満です。 特定のスキルのランキングは、利用可能率と需要率で並べ替えて以下に表示されています。 現在および将来のデータ サイエンティストが最も習得したいスキルは、ディープラーニング、Tensorflow、機械学習、Python であることがわかります。 調査に基づいて、データ サイエンスにはいくつかの中核的かつ安定したスキルがあり、そのうちのいくつかは頻繁に使用され、いくつかは現在非常に重要で人気のあるスキルであることがわかりました。 技術スキル: コンピュータサイエンス1. 教育 データ サイエンティストは高度な教育を受けており、88% が少なくとも修士号を取得しており、46% が博士号を取得しています。例外はありますが、データ サイエンティストになるために必要な深い知識を身に付けるには、通常、非常に強力な教育的背景が必要です。データ サイエンティストになるには、コンピューター サイエンス、社会科学、物理科学、統計学の学士号を取得する必要があります。最も一般的な研究分野は数学と統計学(32%)で、次いでコンピューターサイエンス(19%)、工学(16%)でした。これらのプログラムのいずれかで学位を取得すると、ビッグデータを処理および分析するために必要なスキルが身に付きます。 学位プログラムを修了したからといって成功したということではありません。実際のところ、データ サイエンティストのほとんどは修士号または博士号を取得しており、Hadoop の使用方法やビッグ データのクエリ方法などの特別なスキルを習得するためのオンライン トレーニングも受けています。したがって、データサイエンス、数学、天体物理学、またはその他の関連分野で修士課程を学ぶことができます。大学で学んだスキルを活用して、データ サイエンスへの移行を容易にします。 教室での学習に加えて、アプリの構築、ブログの作成、データ分析の検討など、授業で学んだことを実践して、さらに学習を深めることができます。たとえば、CSDN、Github、Kaggle などです。 2. Rプログラミング 過去には、データ サイエンスの分析ツールとして R 言語がよく好まれていました。 R は、データ サイエンスのニーズに合わせて統計学者によって特別に設計されました。 R を使用すると、データ サイエンスで遭遇するあらゆる問題を解決できます。実際、現在、データ サイエンティストの 43% が統計問題の解決に R を使用しています。ただし、R の学習曲線は急峻です。 最近非常に人気のある Python と比較すると、特にプログラミング言語をすでに知っている場合、R を学習するのは困難です。ただし、インターネット上には学習に役立つリソースが大量に存在し、データ サイエンティストを目指す人にとっては素晴らしいリソースとなります。 3. Pythonコーディング Java、Perl、C/C++ とは異なり、Python はデータ サイエンスの仕事でよく使用される最も一般的なコーディング言語です。 Python はデータ サイエンティストにとって優れたプログラミング言語です。そのため、調査回答者の 40% が Python を主なプログラミング言語として使用していると述べています。 Python は汎用性が高いため、データ サイエンス プロセスに関わるほぼすべてのステップで使用できます。さまざまな形式のデータを取得でき、ユーザーは SQL テーブルをコードに簡単にインポートできます。データセットを作成でき、必要なあらゆる種類のデータセットを Google で見つけることができます。 Hadoop プラットフォーム Hadoop はビッグデータ プラットフォームであるため必須ではありませんが、多くの場合は Hadoop が好まれます。 Hive または Pig の経験も強みとなります。 Amazon S3 などのクラウド ツールに精通していることも役立つ場合があります。 3,490 人のデータ サイエンティストを対象とした調査では、回答者の 49% が Hadoop を選択し、データ サイエンティストにとって 2 番目に重要なスキルとして Hadoop がランク付けされました。 データ サイエンティストとして、保有するデータ量がシステムのメモリを超えたり、データを別のサーバーに送信したりする必要がある状況に遭遇することがあります。ここで Hadoop が役立ちます。ユーザーは Hadoop を使用して、さまざまなサーバーにデータをすばやく転送できます。同時に、Hadoop はデータ探索、データ フィルタリング、データ サンプリング、集約などにも使用できます。 5. データベース/SQLコーディング NoSQL と Hadoop はデータ サイエンスの不可欠な部分となっていますが、それでも SQL で複雑なクエリを記述して実行できる必要があります。 SQL (構造化クエリ言語) は、データベースからのデータの追加、削除、抽出などの操作を実行できるプログラミング言語です。また、分析機能を実行し、データベース構造を変換することもできます。 データ サイエンティストとして、SQL に精通している必要があります。これは、SQL がデータへのアクセス、通信、および処理用に特別に設計されているためです。簡潔なコマンドにより、時間を節約し、難しいクエリを実行するために必要なプログラミングの量を削減します。 6. Apache Spark Apache Spark は世界中で非常に人気のあるビッグデータ テクノロジーになりつつあります。 Hadoop と同様に、ビッグデータ コンピューティング フレームワークです。唯一の違いは、Spark が Hadoop よりも高速であることです。これは、Hadoop はディスクに読み書きするため速度が遅くなりますが、Spark は計算結果をメモリにキャッシュするためです。 Spark はデータ サイエンス向けに特別に設計されており、複雑なアルゴリズムをより高速に実行するのに役立ちます。大量のデータを扱う場合、データ処理を分散して時間を節約するのに役立ちます。また、データ サイエンティストが複雑な非構造化データ セットを処理するのにも役立ちます。 1 台以上のコンピューターで使用できます。 Spark を使用すると、データ サイエンティストはデータ サイエンスにおけるデータ損失を防ぐことができます。 Spark の強みはそのスピードとプラットフォームにあり、データ サイエンス プロジェクトを簡単に実行できます。 Spark を使用すると、データの取得から分散コンピューティングまでの分析を実行できます。 7. 機械学習と人工知能 多くのデータ サイエンティストは、機械学習の分野と技術に精通していません。これには、ニューラル ネットワーク、強化学習、敵対的学習などが含まれます。他のデータ サイエンティストよりも目立つためには、教師あり機械学習、決定木、ロジスティック回帰などの機械学習手法を知っておく必要があります。これらのスキルは、主要な組織成果の予測に基づいてさまざまなデータ サイエンスの問題を解決するのに役立ちます。 データ サイエンスでは、機械学習のさまざまな分野のスキルを適用する必要があります。 Kaggle の調査によると、データ プロフェッショナルのごく一部が、教師あり機械学習、教師なし機械学習、時系列、自然言語処理、外れ値検出、コンピューター ビジョン、推奨エンジン、実行可能性分析、強化学習、敵対的学習などの高度な機械学習スキルを備えていることが明らかになりました。 8. データの視覚化 ビジネスの世界では、定期的に大量のデータが生成されます。このデータは理解可能な形式に変換する必要があります。人は、生のデータよりも、チャートやグラフの形の画像のほうが自然に理解しやすくなります。 データ サイエンティストとして、ggplot、BI、Matplottlib、Tableau などのデータ視覚化ツールを使用してデータを視覚化できる必要があります。これらのツールは、プロジェクトの複雑な結果をわかりやすい形式に変換するのに役立ちます。たとえば、シリアル相関や p 値などのより専門的な用語の意味を理解していない人がたくさんいます。結果の中でこれらの用語が何を表しているかを視覚的に示す必要があります。 データの視覚化により、組織はデータを直接操作し、新しいビジネス チャンスを獲得して競争上の優位性を維持するのに役立つ洞察を迅速に得ることができます。 9. 非構造化データ データ サイエンティストが非構造化データを処理できることは非常に重要です。非構造化データは、データベース テーブルに適合しない未定義のコンテンツです。例としては、ビデオ、ブログ投稿、顧客レビュー、ソーシャル メディア投稿、ビデオ フィード、オーディオなどが挙げられます。それらはテキストと音声の複雑なコレクションです。 これらのタイプのデータは簡略化されていないため、並べ替えが困難です。 多くの人は、その複雑さから、非構造化データを「ダーク アナリティクス」と呼んでいます。非構造化データを使用すると、意思決定に役立つ洞察を得ることができます。データ サイエンティストとして、非構造化データを理解して操作する能力が必要です。 非技術的なスキル10. 好奇心 「私には特別な才能はありません。ただ好奇心があるだけです。」 -- アルバート・アインシュタイン 好奇心は、より多くの知識を獲得したいという欲求と定義できます。データ サイエンティストはデータの発見と準備に約 80% の時間を費やすため、データ サイエンティストとしてデータに関する質問をできる必要があります。これは、データ サイエンスの分野が急速に進化している分野であり、データ サイエンティストはそれに追いつくためにさらに多くのことを学ぶ必要があるためです。 データ サイエンティストは、オンライン コンテンツを読んだり、データ サイエンスのトレンドに関する関連書籍を読んだりして、定期的に知識を更新する必要があります。インターネット上にある膨大な量のデータに圧倒されないでください。データ サイエンティストは、そのすべてを理解する方法を知っていなければなりません。好奇心は、データ サイエンティストとして成功するために必要なスキルの 1 つです。たとえば、収集したデータについてはあまり理解していないかもしれませんが、好奇心があれば、データを精査して答えやさらなる洞察を見つけることができます。 11. ビジネス感覚 データ サイエンティストになるには、自分が従事している業界をしっかりと理解し、会社が解決しようとしているビジネス上の問題を把握する必要があります。データ サイエンスに関しては、企業がデータを活用すべき新しい方法を特定することに加え、どの問題がビジネスにとって重要であるかを識別できることも重要です。 そのためには、解決しようとしている問題がビジネスにどのような影響を与えるかを理解することが重要です。 12. コミュニケーションスキル 優秀なデータ サイエンティストを求める企業は、自社の技術的な調査結果をマーケティングや営業などの非技術チームに明確かつ流暢に伝えられる人材を求めています。データ サイエンティストは、非技術系の同僚がデータを適切に整理する必要があることを理解するだけでなく、定量化された洞察を提供することでビジネス上の意思決定を可能にする必要もあります。 企業が理解できる同じ言語を話すことに加えて、データ ストーリーテリングを使用してコミュニケーションする必要もあります。データ サイエンティストとして、データに基づいて誰にでもわかりやすいストーリーラインを作成する方法を知っておく必要があります。たとえば、データの表を提示するよりも、そのデータから得た洞察をストーリーテリングの方法で共有する方が効果的です。ストーリーテリングは、雇用主に調査結果を適切に伝えるのに役立ちます。コミュニケーションをとるときは、分析データに結果と価値を埋め込むように注意してください。ほとんどのビジネスオーナーは、何を分析したかではなく、それがビジネスにどのようなプラスの影響を与えるかを知りたいのです。コミュニケーションを通じて価値を提供し、永続的な関係を構築することに重点を置くことを学びます。 13. チームワーク データ サイエンティストは単独で作業することはできません。戦略を策定するには会社の幹部と協力し、より優れた製品を作成するには製品マネージャーやデザイナーと協力し、コンバージョン率の高いキャンペーンを実行するにはマーケティング担当者と協力し、データ パイプラインを作成してワークフローを改善するにはクライアントおよびサーバー ソフトウェア開発者と協力する必要があります。実際には、データ サイエンティストは顧客を含め、社内の全員と協力する必要があります。 基本的に、データ サイエンティストはチーム メンバーと協力してデータ製品を開発し、ビジネス目標と問題解決に必要なデータを理解します。そして、問題を解決する正しい方法、問題を解決するために必要なデータ、そして結果を関係者全員が簡単に理解できる形に変換して提示する方法を知っておく必要があります。 有名求人サイトの求人情報のデータ分析 海外の状況と比較して、中国の状況はどうでしょうか。データ分析関連の業務を遂行するには、どのようなスキルが必要ですか。この目的のために、私たちは特に求人ウェブサイト上のデータ分析関連のポジションに関する関連情報をクロールして分析を行い、国内のデータ分析業務に必要なスキルを探りました。 ツールを抽出してワードクラウドチャートにしました。フォントが大きく色が濃いツールは頻繁に表示されるため、このスキルを持つ従業員を採用したい企業が増えていることを意味します。 Python は需要の高いスキルであり、次いで SQL、Spark、Hadoop、Excel などが続くことがはっきりとわかります。 ツールとその出現頻度に基づいて棒グラフを描きます。
|
<<: AI アバターが CES に登場! Samsung の Neon チャットボットは学習、進化、記憶が可能です!
データの爆発的な増加とその利用可能性は、人工知能 (AI) の発展を促進しました。人工ニューラル ネ...
実際、AI と ML はほとんどの人間によるやりとりを置き換えつつあります。市場にはチャットボットや...
[[424946]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitA...
米道路交通安全局(NHTSA)は木曜日、自動運転車メーカーに対し、衝突基準を満たすために完全自動運転...
植物保護ドローンは、現在の農業分野において間違いなく新たな人気機器です。高効率、利便性、精度、環境保...
ハイパーオートメーション、ブロックチェーン、AI セキュリティ、分散クラウド、自律デバイスは、今年の...
人工知能は多くの業界のワークフローを変革しました。デジタル顧客サービスアシスタント、自動運転車、無人...
[[201520]] Silicon Valley Data Science の研究者らは、リカレン...
新型コロナウイルス感染症のパンデミックにより、社会の多くの分野でデジタル変革が加速し、人工知能ツール...
1. マルチタスクとマルチシナリオの背景と課題まず、Huaweiのマルチタスクで推奨されるシナリオを...
今、ボス・マーの「Xユニバース」がまた成長しました。それ以来、Twitter は単なるソーシャル ネ...
機械学習やその他の技術をバックグラウンドで使用することで、AI は私たちの日常生活に多くの素晴らしい...