機械学習、データサイエンス、人工知能、ディープラーニング、統計の違いを理解する

この記事では、データサイエンティスト兼アナリストの Vincent Granville が、データサイエンティストのさまざまな役割と、データサイエンスが機械学習、ディープラーニング、人工知能、統計、モノのインターネット、オペレーションズリサーチ、応用数学などの関連分野とどのように比較され、重なり合うかについて説明します。グランビル氏は、データサイエンスは非常に幅広い分野であるため、ビジネス環境で遭遇する可能性のあるデータサイエンティストのタイプを最初に紹介し、自分自身が何らかのデータサイエンティストになることもあるかもしれないと述べました。他の科学分野と同様に、データサイエンスは他の関連分野から技術を借用することがあります。もちろん、データサイエンスでは独自の技術も開発しており、特に、非常に大規模な非構造化データセットを自動で (または人間の介入なしに) 処理して、リアルタイムでトランザクションを実行したり予測を行ったりできる技術やアルゴリズムを開発しています。

1. データサイエンティストにはどのような種類がありますか?

データサイエンティストの種類の詳細については、次の記事を参照してください: http://suo.im/28rlX1 および http://suo.im/3NNUpd。さらに役立つ情報は以下でご覧いただけます。

データサイエンティストとデータアーキテクト: http://suo.im/4bRkRG
データサイエンティストおよびデータエンジニア: http://suo.im/3mpo6E
データサイエンティストおよび統計学者: http://suo.im/2GGtfG
データサイエンティストおよびビジネスアナリスト: http://suo.im/3h0hkX

最近、データサイエンティストの Ajit Jaokar 氏が、タイプ A のデータサイエンティスト (アナリスト) とタイプ B のデータサイエンティスト (ビルダー) の違いについて説明しました。

タイプ A のデータサイエンティストは、データを操作するコードの作成が得意ですが、必ずしも専門家ではありません。タイプ A のデータサイエンティストは、実験設計、予測、モデリング、統計的推論、または統計に関するあらゆる分野の専門家である可能性があります。ただし、一般的に、データサイエンティストの成果物は、学術的な統計が時々示唆するような「P 値と信頼区間」ではありません (従来の製薬業界やその他の業界では、これがよくあるケースです)。 Google では、タイプ A のデータサイエンティストは統計学者、定量分析者、意思決定支援エンジニアリング開発アナリストと呼ばれ、一部はデータサイエンティストと呼ばれています。

タイプ B データサイエンティスト: ここでの B は Building (建物) を表します。タイプ B のデータサイエンティストはタイプ A のデータサイエンティストと同じバックグラウンドを持ちますが、優れたプログラマーや経験豊富なソフトウェアエンジニアでもあります。タイプ B のデータサイエンティストは、主に運用環境でのデータの使用に重点を置いています。彼らは、ユーザーと対話して、通常は推奨事項（製品、知り合いの可能性のある人、広告、映画、検索結果など）を提供するモデルを構築します。

ビジネスプロセスの最適化に関しては、私も独自の見解を持っています。私はそれを ABCD の 4 つの方向に分けています。A は分析科学、B はビジネス科学、C はコンピューター科学、D はデータ科学を表しています。データサイエンスには、プログラミングや数学の実践が含まれる場合と含まれない場合があります。ハイエンドのデータサイエンスとローエンドのデータサイエンスの違いを理解するには、この記事 http://suo.im/11bR7o を参照してください。スタートアップでは、データサイエンティストは通常、さまざまな種類の作業を行います。その職務には、幹部、データマイナー、データエンジニアまたはアーキテクト、研究者、統計学者、モデラー (予測モデリングなどを行う)、開発者などが含まれます。

データサイエンティストは、統計に精通した経験豊富な R、Python、SQL、Hadoop プログラマーと見なされることが多いですが、これは氷山の一角に過ぎません。データサイエンティストに対するこのような認識は、データサイエンスのいくつかの要素を教えることに重点を置いたデータトレーニングプログラムから派生したものにすぎません。しかし、研究室の技術者が自分自身を物理学者と名乗ることができるのと同じように、本物の物理学者はそれ以上のものであり、彼らの専門分野は非常に多岐にわたります。天文学、数理物理学、原子核物理学、力学、電気工学、信号処理（これもデータサイエンスの分野です）などです。同じことは、バイオインフォマティクス、情報技術、シミュレーションと定量的制御、計算金融、疫学、産業工学、さらには数論などの分野を含むデータサイエンスにも当てはまります。

私自身、過去 10 年間、マシン間およびデバイス間の通信に注力し、大規模なデータセットを自動的に処理し、自動トランザクション (Web トラフィックの購入やコンテンツの自動生成など) を実行できるシステムを開発してきました。これは、非構造化データを処理できるアルゴリズムを開発することを意味します。これは、人工知能、モノのインターネット、およびデータサイエンス (ディープデータサイエンスとも呼ばれます) の交差点でもあります。必要な数学は比較的少なく、プログラミングもほとんど必要ありません (主に API 呼び出し) が、データ集約型 (データシステムの構築を含む) であり、このコンテキスト向けに特別に設計された新しい統計手法に基づいています。

以前は、リアルタイムのクレジットカード詐欺検出に取り組んでいました。キャリアの初期（1990 年頃）に、衛星画像内のパターン（湖などの形状や特徴）を認識し、画像セグメンテーションを実行する画像のリモートセンシング技術を開発しました。当時、私の研究は計算統計と呼ばれていましたが、母校の隣のコンピューターサイエンス学部でもほぼ同じことを行っていましたが、彼らはその研究を人工知能と呼んでいました。

現在、この研究はデータサイエンスまたは人工知能と呼ばれており、信号処理やモノのインターネット向けのコンピュータービジョンなどのサブフィールドがあります。

さらに、データサイエンティストは、データ収集フェーズやデータ探索フェーズから、統計モデリングや既存システムの保守に至るまで、さまざまなデータサイエンスプロジェクトに携わっています。

2. 機械学習とディープラーニング

データ学習と機械学習の違いを詳しく説明する前に、まず機械学習とディープラーニングの違いについて簡単に説明しましょう。機械学習は、予測を行ったり、システムを最適化するためのアクションを実行したりするためにデータセットでトレーニングされた一連のアルゴリズムです。たとえば、教師あり分類アルゴリズムは、履歴データに基づいて潜在顧客やローン候補者を分類するために使用されます。与えられたタスク（教師ありクラスタリングなど）に応じて、ナイーブベイズ、サポートベクターマシン、ニューラルネットワーク、アンサンブル、関連ルール、決定木、ロジスティック回帰、またはこれらの方法の組み合わせなど、さまざまな手法が使用されます。

これらはすべてデータサイエンスの分野です。これらのアルゴリズムが自律飛行や自動運転車などの自動化に使用される場合、それは人工知能、より具体的にはディープラーニングと呼ばれます。センサーからデータを収集し、インターネット経由で送信する場合は、IoT に適用される機械学習、データサイエンス、またはディープラーニングになります。

ディープラーニングの定義は人によって異なります。彼らは、ディープラーニングを、より多くの層を持つニューラルネットワーク (ニューラルネットワークは機械学習の技術) であると考えています。ディープラーニングと機械学習の違いについては、Quora でも質問されており、詳細な説明は次のとおりです。

人工知能は、1960 年代に創設されたコンピュータサイエンスのサブフィールドであり、人間にとっては簡単だがコンピュータにとっては難しいタスクを解決することに取り組んでいます。具体的には、いわゆる強力な人工知能システムは、人間ができることは何でもできるはずです。これは非常に一般的なもので、計画、移動、物体や音の認識、会話、翻訳、社会的またはビジネス上のタスクの完了、創造的な作業（絵画、詩の執筆）など、すべてのタスクが含まれます。
自然言語処理は、言語に関係する人工知能の一部にすぎません。
機械学習は人工知能の一側面と考えられています。離散的な用語で記述できる AI の問題 (たとえば、いくつかのアクションのうちどれが正しいか) と、世界に関する大量の情報が与えられると、プログラマーがプログラムしなくても「正しい」アクションを見つけ出します。通常、動作が正しいかどうかを判断するには、何らかの外部プロセスが必要です。数学的には、これは関数と呼ばれ、入力を受け取ると正しい出力を生成します。したがって、全体的な問題は、この数学関数を自動的にモデル化することです。両者を区別する場合: 私が書いたプログラムが人間の動作を表現できるほど賢い場合、それは人工知能です。しかし、そのパラメータがデータから自動的に学習されない場合は、それは機械学習ではありません。
ディープラーニングは、最近非常に人気のある機械学習の一種です。これには特殊なタイプの数学モデルが含まれており、これは、最終出力をより正確に予測するために調整できる特定のタイプの単純なモジュール (関数の組み合わせ) の組み合わせと考えることができます。

3. 機械学習と統計の違い

記事「機械学習と統計」では、この質問に答えようとしています。この記事の著者は、統計を、数量を予測または推定する目的で、信頼区間を使用した機械学習であると考えています。しかし、私は同意しません。私は数学や統計の知識を必要としない、エンジニアリングに適した信頼区間を構築しました。

4. データサイエンスと機械学習

機械学習と統計はどちらもデータサイエンスの一部です。機械学習における「学習」という言葉は、アルゴリズムが何らかのデータ（トレーニングセットとして使用される）に依存してモデルまたはアルゴリズムのパラメータを調整することを意味します。これには、回帰、単純ベイズ、教師ありクラスタリングなどの多くの手法が含まれます。しかし、すべての技術が機械学習に適しているわけではありません。たとえば、統計およびデータサイエンスの手法で適していないものが 1 つあります。それは、分類アルゴリズムを支援するための事前の知識やトレーニングセットなしでクラスターとクラスター構造を検出する、教師なしクラスタリングです。この場合、クラスターをマークするには人間が必要です。半教師あり分類などの一部の手法はハイブリッドです。一部のパターン検出または密度評価技術は機械学習に適しています。

データサイエンスは機械学習よりも広範囲にわたります。データサイエンスにおけるデータは、機械や機械処理から得られるものではないかもしれません（調査データは手動で収集される可能性があり、臨床試験には特殊なタイプの小さなデータが含まれます）、そして先ほど言ったように、「学習」とは何の関係もないかもしれません。しかし、主な違いは、データサイエンスはアルゴリズムや統計の分野だけでなく、データ処理全体をカバーしている点です。詳細には、データサイエンスには次のものも含まれます。

データ統合
分散アーキテクチャ
機械学習の自動化
データの視覚化
ダッシュボードとBI
データエンジニアリング
実稼働モードでの展開
自動化されたデータに基づく意思決定

もちろん、多くの企業ではデータサイエンティストはこれらのプロセスの 1 つだけに焦点を当てています。

この記事に対して、技術コンサルタントの Suresh Babu 氏がコメントを寄せており、Synced がそれを以下のようにまとめ統合しました。

この投稿では、機械/コンピューターを使用して人間の意思決定に似たタスクを処理するための統計学習の基本的な用語を理解するのが面倒な場合があることを示しています。

しかし、記事には「これらのアルゴリズムが自動飛行や無人運転車などの自動化に使用される場合、それは人工知能、より具体的にはディープラーニングと呼ばれます」と書かれています。この発言は少々無頓着で気まぐれなように思われます。

コンピュータ/マシンがコンピュータ/マシンに適しておらず、広く使用されていなかった過去では、統計学者やデータサイエンティストの仕事は、現在この分野で行われている仕事とは大きく異なっていました。たとえば、製造業がコンピューターの支援を利用し始めると、生産のスピードと量は劇的に変化しましたが、それでも製造業であることに変わりはありません。もともと人間が行っていたプログラムされた作業を機械で行うというアイデアは、19 世紀初頭にジャカード、ブションらによって初めて生まれました。ジャカード織機は、今日のコンピュータ制御の織機とほぼ同じように動作しました。

今日のデータサイエンスは、統計、計算方法などをカバーする知識体系です（そして、さまざまな分野の割合は特定の分野によって異なります）。

機械学習（ディープラーニング、コグニティブコンピューティングなどの用語）は、機械が人間のように考え、推論できるようにすることです。基本的には、人間が生まれながらに持っている自然な知能を人工的な方法（つまり人工知能）で置き換えることを意味します。関連するタスクは単純なものから複雑なものまで多岐にわたります。たとえば、自動運転車は（現時点では）人間の運転を模倣しており、運転条件も人間が自然界で遭遇するものと同じです。「現時点では」と言うのは、将来的には人間が機械を直接運転することはほとんどなくなり、「運転」という言葉自体の意味が変わる可能性があるからです。

この分野には、基本的なもの（チェスや囲碁をプレイするためのアルゴリズムなど）が人間の脳の働きを説明すると考えられているなど、ばかげたものもあります。現在の知識の状態からすると、鳥や魚の脳がどのように機能するかを説明するのはすでに困難です。これは、学習のメカニズムを私たちがまだ十分に理解していないことを示しています。なぜショウジョウバエがわずか数百のニューロンでこれほど多くのことを行えるのかは、神経科学において未だに解明されていない謎です。そして、認知とは何か、そしてそれが現実世界でどのように機能するかは、データサイエンスが解決できると傲慢にも信じている大きな謎でもあります。 (次元削減は、教師なし学習の手法です。)

人類の誕生以来、さまざまな意味で、道具とそれを使って行うことが人間の学習を導いてきました。しかし、それは本題から外れています。

オリジナル：

http://www.datasciencecentral.com/profiles/blogs/difference-between-machine-learning-data-science-ai-deep-learning

[この記事は、51CTOコラムニストのMachine Heart、WeChatパブリックアカウント「Machine Heart（id:almosthuman2014）」によるオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<: MITが脳制御ロボットを開発：脳波を使ってロボットのエラーを修正できる

>>: 自動運転のためのニューラルネットワークとディープラーニング

とても早いですね！わずか数分で、10行未満のコードでビデオ音声をテキストに変換します。

機械学習、データサイエンス、人工知能、ディープラーニング、統計の違いを理解する

とても早いですね！わずか数分で、10行未満のコードでビデオ音声をテキストに変換します。

スマートホームからのプライバシー漏洩が心配ですか?エッジAIがあなたを助けてくれることを恐れないでください

合理的強化学習はボトルネックに達しました。進化的アルゴリズムがその後継者となるでしょうか?

AI による効率化: データセンターのエネルギー使用を再定義

2018 年のネットワークイノベーションを推進する 5 つのエンジン

一般化の危機！ LeCunは質問を公開しました: テストセットとトレーニングセットは決して関連していません

メタバースの開発にはどのような重要な技術が必要ですか?

React と DOM - ノード削除アルゴリズム

インターネットで話題！ 23歳の中国人医師が22歳の歴史的弱点を治す、ネットユーザー「この話はいいね」

推薦する

Facebook エンジニアがまとめた 14 種類のアルゴリズム面接モード

なぜ人工知能は未だに愚かなものなのでしょうか?人間のせいにする

新しい3Dバイオプリンティング技術は皮膚と骨の損傷を同時に修復できる

最新の RLHF は言語モデルの「ナンセンス」を救います!微調整効果はChatGPTよりも優れている、と中国の共著者2人が発表

Chain World: シンプルで効果的な人間行動エージェントモデル強化学習フレームワーク

COVID-19により公益事業の人工知能への移行が加速

今は2020年です。ディープラーニングの今後はどうなるのでしょうか?

モデルの過剰適合を防ぐにはどうすればよいですか?この記事では6つの重要な方法を紹介します

家庭では人工知能がどのように活用されているのでしょうか?

マイクロソフトの年次研究レビュー: ML のブレークスルーが到来、人間とコンピューターのインタラクションがより現実的に、そして Shum 氏のお別れ

6144個のTPU、5400億個のパラメータ、バグ修正、ジョーク解釈など、GoogleはPathwaysを使用して大規模なモデルをトレーニングしました

テクノロジー大手は疑似環境の仮面を脱ぎ捨て、AIの積極的な開発によりエネルギー消費が増加している

Github が Octoverse オープンソースレポートを公開しました!インドは米国を抜いて最大の開発者コミュニティとなり、生成AIは248％成長し、CopilotはGitHubを再編