データサイエンスは、特にコンピューターサイエンス、統計、ビジネス分析、エンジニアリング管理、物理学、数学などのバックグラウンドを持つ若者にとって、常に魅力的な分野です。しかし、霧の中で花を見るというのは、いつもはっきりしないものです。データサイエンスの背後には多くの謎があり、機械学習や統計だけではない、と人々はいつも考えています。 長年にわたり、私は多くの専門家とデータサイエンス分野に参入する方法について議論してきました。データ サイエンスはなぜいつもこれほど話題になっているのでしょうか。この分野に参入するのに役立つのは、今でも統計学と機械学習でしょうか。今後もそうなるでしょうか。 2か月前、私は大学院を卒業してすぐにメディア大手のViacomCBSにデータサイエンティストとして入社しました。研究助手およびインターンシップ以外のフルタイムの業界経験はありません。私の職務は、この記事に記載されている作業方法のほとんどを使用して、ML 製品の構想から開発、製造まで多岐にわたります。この記事が、この分野に参入することに興味を持っているすべてのデータ サイエンティストと機械学習エンジニアに役立つことを願っています。 データサイエンスについてはなぜいつもこれほど大騒ぎになっているのでしょうか? ほぼすべての人がデータサイエンスに携わりたいと思っています。数年前、データサイエンスの分野では需要と供給の問題が発生していました。DJ Patil博士とJeff Hammerbacherがデータサイエンスという用語を作り出して以来、データサイエンティストの需要が大幅に増加し、関連する人材が不足しているようです。 2020年までに状況は改善しました。正式な教育や MOOC 教育を受けたデータサイエンス愛好家の数が増え、人材の需要も高まっていますが、前者ほどではありません。この用語はますます広範囲に及ぶようになり、データ サイエンスの作業に必要な機能のほとんどを網羅するようになりました。誰もがデータサイエンスについて話しますが、ほとんどの人は実際にそれをどのように行うのか知りません。 データ サイエンスが常に話題になっているのには、いくつかの理由があると思います。
自分をデータサイエンティストと呼ぶ人ですか? 人々はいつもこのように自己紹介をするので、業界の現状について真実をお話ししましょう。 求人需要の増加とデータサイエンティストの魅力的な肩書により、多くの企業が製品アナリスト、ビジネスインテリジェンスアナリスト、ビジネスアナリスト、サプライチェーンアナリスト、データアナリスト、統計学者の職をデータサイエンティストに変更し始めています。これは、多くの人が仕事を辞めてデータサイエンティストの職に応募する一方で、実際にはこれらの企業が提供する仕事は同じであることが多いためです。 多くの人は、自分の役職名の言葉が少し変わるだけで、尊重されていると感じます。そのため、企業は、データ サイエンティスト - アナリティクス、製品データ サイエンティスト、データ サイエンティスト - 成長、データ サイエンティスト - サプライ チェーン、データ サイエンティスト - 視覚化、データ サイエンティストなど、自社のポジションをより目立たせ、魅力的にするために、同じように職種名を変更しています。他に何を追加できないでしょうか? 教育やオンライントレーニングを受ける人のほとんどは、すべてのデータサイエンティストが高度な機械学習モデルを構築できると誤解していますが、この認識は完全に正しいわけではありません。これは私が応用データサイエンスの修士課程を始めたときに考えたことで、ほとんどのデータサイエンティストは機械学習を行っていると思っていました。 しかし、アメリカでインターンシップや仕事を始めると、徐々に真実がわかってきました。データ サイエンスへの移行の原動力となっているのは、人工知能とそのビジネスへの影響に関する誇大宣伝です。 次世代のデータサイエンティスト — 機械学習 2020 年現在、博士号を取得せずにデータ サイエンティスト ML トラック (データ サイエンティスト アナリティクス トラックではないためこのように呼ばれています) として応用機械学習を行おうとする人にとっては、データセットに機械学習を適用すること (これは誰でも実行できることです) 以外にも多くの選択肢があります。面接で役立つかもしれない、私の経験からいくつかの重要なポイントをお伝えします。
多くの企業はまだ ML インフラストラクチャを構築しておらず、開始するための人材を探している可能性があります。コース内でも、Docker、Kubernetes に慣れ、Flask などのフレームワークを使用して ML アプリケーションを構築することが標準的な実践になるはずです。 Docker が好きな理由は、そのスケーラビリティと、インフラストラクチャ イメージを構築して Kubernetes クラスター上のサーバー/クラウドにそれを複製する機能があるからです。
現在、業界内で重要なコネクションを持っている(ネットワークは非常に重要です!)か、優れた研究実績を持っているという幸運に恵まれない限り、機械学習や統計を知っているだけでは、データサイエンスの分野に進み、ML を学ぶことはできません。ビジネスアプリケーションやドメイン知識には多くの場合、実務経験が必要ですが、関連業界でのインターンシップ以外では事前に取得することはできません。 私もデータサイエンスの岐路に立っており、現在、次世代のデータサイエンティストがこの分野に参入することへの需要が形になりつつあるのを目の当たりにしています。この業界は日々変化しており、それに追いつくためには常に自分自身を調整する必要があります。 この記事はWeChatの公開アカウント「Reading the Core」から転載したもので、以下のQRコードからフォローできます。この記事を転載する場合は、Duxinshu の公開アカウントにご連絡ください。 |
>>: モノのインターネット向けのデータストリーミング、AI、機械学習プラットフォームを構築する方法
家には鉱山も王座もありませんが、王子様やお姫様になりたいという夢を持たない人がいるでしょうか?最近、...
11月25日(劉亜竹)人が病気になる原因は、外部の病原性因子が細胞に作用することです。病原性因子が一...
過去 10 年間で世界中のスマートフォン ユーザーの数は急増しており、今後も同様の増加傾向が続くと思...
HuggingFace が再びオープンソースの大規模モデルのリストのトップに躍り出ました。最前列は、...
大規模モデルに向けて、テクノロジー大手はより大規模なモデルをトレーニングしており、学界はそれらを最適...
[[433685]]ペアワイズアルゴリズムとは何ですか?次のテストシナリオの場合:ブラウザ: M、O...
この記事では、ロボット開発で使用される最も人気のあるプログラミング言語のトップ10を見ていきます。そ...
国際・国内電話サービス、インターネット事業、通信ネットワーク資源・設備サービスなどを主力事業とする米...
ロボット技術の発展により、ロボットは実生活においてますます重要な役割を果たすようになるでしょう。人間...
著者 | 崔昊レビュー | Chonglouまとめこの記事では、マルチモーダル技術分野における Op...
1. プロジェクトの背景と動機今年初め、OPEN AI の GPT-4 は前例のないマルチモーダル機...
論文リンク: https://arxiv.org/pdf/2309.08504.pdfコードリンク:...