機械学習、データサイエンス、人工知能、ディープラーニング、統計の違いを理解する

機械学習、データサイエンス、人工知能、ディープラーニング、統計の違いを理解する

この記事では、データ サイエンティスト兼アナリストの Vincent Granville が、データ サイエンティストのさまざまな役割と、データ サイエンスが機械学習、ディープラーニング、人工知能、統計、モノ​​のインターネット、オペレーションズ リサーチ、応用数学などの関連分野とどのように比較され、重なり合うかについて説明します。グランビル氏は、データ サイエンスは非常に幅広い分野であるため、ビジネス環境で遭遇する可能性のあるデータ サイエンティストのタイプを最初に紹介し、自分自身が何らかのデータ サイエンティストになることもあるかもしれないと述べました。他の科学分野と同様に、データ サイエンスは他の関連分野から技術を借用することがあります。もちろん、データ サイエンスでは独自の技術も開発しており、特に、非常に大規模な非構造化データ セットを自動で (または人間の介入なしに) 処理して、リアルタイムでトランザクションを実行したり予測を行ったりできる技術やアルゴリズムを開発しています。

1. データ サイエンティストにはどのような種類がありますか?

データ サイエンティストの種類の詳細については、次の記事を参照してください: http://suo.im/28rlX1 および http://suo.im/3NNUpd。さらに役立つ情報は以下でご覧いただけます。

  • データ サイエンティストとデータ アーキテクト: http://suo.im/4bRkRG
  • データ サイエンティストおよびデータ エンジニア: http://suo.im/3mpo6E
  • データ サイエンティストおよび統計学者: http://suo.im/2GGtfG
  • データ サイエンティストおよびビジネス アナリスト: http://suo.im/3h0hkX

最近、データ サイエンティストの Ajit Jaokar 氏が、タイプ A のデータ サイエンティスト (アナリスト) とタイプ B のデータ サイエンティスト (ビルダー) の違いについて説明しました。

タイプ A のデータ サイエンティストは、データを操作するコードの作成が得意ですが、必ずしも専門家ではありません。タイプ A のデータ サイエンティストは、実験設計、予測、モデリング、統計的推論、または統計に関するあらゆる分野の専門家である可能性があります。ただし、一般的に、データ サイエンティストの成果物は、学術的な統計が時々示唆するような「P 値と信頼区間」ではありません (従来の製薬業界やその他の業界では、これがよくあるケースです)。 Google では、タイプ A のデータ サイエンティストは統計学者、定量分析者、意思決定支援エンジニアリング開発アナリストと呼ばれ、一部はデータ サイエンティストと呼ばれています。

タイプ B データ サイエンティスト: ここでの B は Building (建物) を表します。タイプ B のデータ サイエンティストはタイプ A のデータ サイエンティストと同じバックグラウンドを持ちますが、優れたプログラマーや経験豊富なソフトウェア エンジニアでもあります。タイプ B のデータ サイエンティストは、主に運用環境でのデータの使用に重点を置いています。彼らは、ユーザーと対話して、通常は推奨事項(製品、知り合いの可能性のある人、広告、映画、検索結果など)を提供するモデルを構築します。

ビジネスプロセスの最適化に関しては、私も独自の見解を持っています。私はそれを ABCD の 4 つの方向に分けています。A は分析科学、B はビジネス科学、C はコンピューター科学、D はデータ科学を表しています。データ サイエンスには、プログラミングや数学の実践が含まれる場合と含まれない場合があります。ハイエンドのデータ サイエンスとローエンドのデータ サイエンスの違いを理解するには、この記事 http://suo.im/11bR7o を参照してください。スタートアップでは、データ サイエンティストは通常​​、さまざまな種類の作業を行います。その職務には、幹部、データ マイナー、データ エンジニアまたはアーキテクト、研究者、統計学者、モデラー (予測モデリングなどを行う)、開発者などが含まれます。

データ サイエンティストは、統計に精通した経験豊富な R、Python、SQL、Hadoop プログラマーと見なされることが多いですが、これは氷山の一角に過ぎません。データ サイエンティストに対するこのような認識は、データ サイエンスのいくつかの要素を教えることに重点を置いたデータ トレーニング プログラムから派生したものにすぎません。しかし、研究室の技術者が自分自身を物理学者と名乗ることができるのと同じように、本物の物理学者はそれ以上のものであり、彼らの専門分野は非常に多岐にわたります。天文学、数理物理学、原子核物理学、力学、電気工学、信号処理(これもデータサイエンスの分野です)などです。同じことは、バイオインフォマティクス、情報技術、シミュレーションと定量的制御、計算金融、疫学、産業工学、さらには数論などの分野を含むデータサイエンスにも当てはまります。

私自身、過去 10 年間、マシン間およびデバイス間の通信に注力し、大規模なデータセットを自動的に処理し、自動トランザクション (Web トラフィックの購入やコンテンツの自動生成など) を実行できるシステムを開発してきました。これは、非構造化データを処理できるアルゴリズムを開発することを意味します。これは、人工知能、モノのインターネット、およびデータ サイエンス (ディープ データ サイエンスとも呼ばれます) の交差点でもあります。必要な数学は比較的少なく、プログラミングもほとんど必要ありません (主に API 呼び出し) が、データ集約型 (データ システムの構築を含む) であり、このコンテキスト向けに特別に設計された新しい統計手法に基づいています。

以前は、リアルタイムのクレジットカード詐欺検出に取り組んでいました。キャリアの初期(1990 年頃)に、衛星画像内のパターン(湖などの形状や特徴)を認識し、画像セグメンテーションを実行する画像のリモート センシング技術を開発しました。当時、私の研究は計算統計と呼ばれていましたが、母校の隣のコンピューター サイエンス学部でもほぼ同じことを行っていましたが、彼らはその研究を人工知能と呼んでいました。

現在、この研究はデータサイエンスまたは人工知能と呼ばれており、信号処理やモノのインターネット向けのコンピュータービジョンなどのサブフィールドがあります。

さらに、データ サイエンティストは、データ収集フェーズやデータ探索フェーズから、統計モデリングや既存システムの保守に至るまで、さまざまなデータ サイエンス プロジェクトに携わっています。

2. 機械学習とディープラーニング

データ学習と機械学習の違いを詳しく説明する前に、まず機械学習とディープラーニングの違いについて簡単に説明しましょう。機械学習は、予測を行ったり、システムを最適化するためのアクションを実行したりするためにデータセットでトレーニングされた一連のアルゴリズムです。たとえば、教師あり分類アルゴリズムは、履歴データに基づいて潜在顧客やローン候補者を分類するために使用されます。与えられたタスク(教師ありクラスタリングなど)に応じて、ナイーブベイズ、サポートベクターマシン、ニューラルネットワーク、アンサンブル、関連ルール、決定木、ロジスティック回帰、またはこれらの方法の組み合わせなど、さまざまな手法が使用されます。

これらはすべてデータサイエンスの分野です。これらのアルゴリズムが自律飛行や自動運転車などの自動化に使用される場合、それは人工知能、より具体的にはディープラーニングと呼ばれます。センサーからデータを収集し、インターネット経由で送信する場合は、IoT に適用される機械学習、データサイエンス、またはディープラーニングになります。

ディープラーニングの定義は人によって異なります。彼らは、ディープラーニングを、より多くの層を持つニューラル ネットワーク (ニューラル ネットワークは機械学習の技術) であると考えています。ディープラーニングと機械学習の違いについては、Quora でも質問されており、詳細な説明は次のとおりです。

  • 人工知能は、1960 年代に創設されたコンピュータ サイエンスのサブフィールドであり、人間にとっては簡単だがコンピュータにとっては難しいタスクを解決することに取り組んでいます。具体的には、いわゆる強力な人工知能システムは、人間ができることは何でもできるはずです。これは非常に一般的なもので、計画、移動、物体や音の認識、会話、翻訳、社会的またはビジネス上のタスクの完了、創造的な作業(絵画、詩の執筆)など、すべてのタスクが含まれます。
  • 自然言語処理は、言語に関係する人工知能の一部にすぎません。
  • 機械学習は人工知能の一側面と考えられています。離散的な用語で記述できる AI の問題 (たとえば、いくつかのアクションのうちどれが正しいか) と、世界に関する大量の情報が与えられると、プログラマーがプログラムしなくても「正しい」アクションを見つけ出します。通常、動作が正しいかどうかを判断するには、何らかの外部プロセスが必要です。数学的には、これは関数と呼ばれ、入力を受け取ると正しい出力を生成します。したがって、全体的な問題は、この数学関数を自動的にモデル化することです。両者を区別する場合: 私が書いたプログラムが人間の動作を表現できるほど賢い場合、それは人工知能です。しかし、そのパラメータがデータから自動的に学習されない場合は、それは機械学習ではありません。
  • ディープラーニングは、最近非常に人気のある機械学習の一種です。これには特殊なタイプの数学モデルが含まれており、これは、最終出力をより正確に予測するために調整できる特定のタイプの単純なモジュール (関数の組み合わせ) の組み合わせと考えることができます。

3. 機械学習と統計の違い

記事「機械学習と統計」では、この質問に答えようとしています。この記事の著者は、統計を、数量を予測または推定する目的で、信頼区間を使用した機械学習であると考えています。しかし、私は同意しません。私は数学や統計の知識を必要としない、エンジニアリングに適した信頼区間を構築しました。

4. データサイエンスと機械学習

機械学習と統計はどちらもデータサイエンスの一部です。機械学習における「学習」という言葉は、アルゴリズムが何らかのデータ(トレーニング セットとして使用される)に依存してモデルまたはアルゴリズムのパラメータを調整することを意味します。これには、回帰、単純ベイズ、教師ありクラスタリングなどの多くの手法が含まれます。しかし、すべての技術が機械学習に適しているわけではありません。たとえば、統計およびデータ サイエンスの手法で適していないものが 1 つあります。それは、分類アルゴリズムを支援するための事前の知識やトレーニング セットなしでクラスターとクラスター構造を検出する、教師なしクラスタリングです。この場合、クラスターをマークするには人間が必要です。半教師あり分類などの一部の手法はハイブリッドです。一部のパターン検出または密度評価技術は機械学習に適しています。

データサイエンスは機械学習よりも広範囲にわたります。データサイエンスにおけるデータは、機械や機械処理から得られるものではないかもしれません(調査データは手動で収集される可能性があり、臨床試験には特殊なタイプの小さなデータが含まれます)、そして先ほど言ったように、「学習」とは何の関係もないかもしれません。しかし、主な違いは、データ サイエンスはアルゴリズムや統計の分野だけでなく、データ処理全体をカバーしている点です。詳細には、データ サイエンスには次のものも含まれます。

  • データ統合
  • 分散アーキテクチャ
  • 機械学習の自動化
  • データの視覚化
  • ダッシュボードとBI
  • データエンジニアリング
  • 実稼働モードでの展開
  • 自動化されたデータに基づく意思決定

もちろん、多くの企業ではデータ サイエンティストはこれらのプロセスの 1 つだけに焦点を当てています。

この記事に対して、技術コンサルタントの Suresh Babu 氏がコメントを寄せており、Synced がそれを以下のようにまとめ統合しました。

この投稿では、機械/コンピューターを使用して人間の意思決定に似たタスクを処理するための統計学習の基本的な用語を理解するのが面倒な場合があることを示しています。

しかし、記事には「これらのアルゴリズムが自動飛行や無人運転車などの自動化に使用される場合、それは人工知能、より具体的にはディープラーニングと呼ばれます」と書かれています。この発言は少々無頓着で気まぐれなように思われます。

コンピュータ/マシンがコンピュータ/マシンに適しておらず、広く使用されていなかった過去では、統計学者やデータ サイエンティストの仕事は、現在この分野で行われている仕事とは大きく異なっていました。たとえば、製造業がコンピューターの支援を利用し始めると、生産のスピードと量は劇的に変化しましたが、それでも製造業であることに変わりはありません。もともと人間が行っていたプログラムされた作業を機械で行うというアイデアは、19 世紀初頭にジャカード、ブションらによって初めて生まれました。ジャカード織機は、今日のコンピュータ制御の織機とほぼ同じように動作しました。

今日のデータサイエンスは、統計、計算方法などをカバーする知識体系です(そして、さまざまな分野の割合は特定の分野によって異なります)。

機械学習(ディープラーニング、コグニティブコンピューティングなどの用語)は、機械が人間のように考え、推論できるようにすることです。基本的には、人間が生まれながらに持っている自然な知能を人工的な方法(つまり人工知能)で置き換えることを意味します。関連するタスクは単純なものから複雑なものまで多岐にわたります。たとえば、自動運転車は(現時点では)人間の運転を模倣しており、運転条件も人間が自然界で遭遇するものと同じです。「現時点では」と言うのは、将来的には人間が機械を直接運転することはほとんどなくなり、「運転」という言葉自体の意味が変わる可能性があるからです。

この分野には、基本的なもの(チェスや囲碁をプレイするためのアルゴリズムなど)が人間の脳の働きを説明すると考えられているなど、ばかげたものもあります。現在の知識の状態からすると、鳥や魚の脳がどのように機能するかを説明するのはすでに困難です。これは、学習のメカニズムを私たちがまだ十分に理解していないことを示しています。なぜショウジョウバエがわずか数百のニューロンでこれほど多くのことを行えるのかは、神経科学において未だに解明されていない謎です。そして、認知とは何か、そしてそれが現実世界でどのように機能するかは、データサイエンスが解決できると傲慢にも信じている大きな謎でもあります。 (次元削減は、教師なし学習の手法です。)

人類の誕生以来、さまざまな意味で、道具とそれを使って行うことが人間の学習を導いてきました。しかし、それは本題から外れています。

オリジナル:

http://www.datasciencecentral.com/profiles/blogs/difference-between-machine-learning-data-science-ai-deep-learning

[この記事は、51CTOコラムニストのMachine Heart、WeChatパブリックアカウント「Machine Heart(id:almosthuman2014)」によるオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<:  MITが脳制御ロボットを開発:脳波を使ってロボットのエラーを修正できる

>>:  自動運転のためのニューラルネットワークとディープラーニング

ブログ    

推薦する

...

5Gの導入により、インテリジェント交通は4つの大きな質的変化をもたらします。

現在、あらゆるToB市場において、5G+AIが並行して未来を創造しています。 [[331677]] ...

...

電力管理における人工知能の重要性

私たちの生活のあらゆる側面がテクノロジーと絡み合っている時代において、電力業界も例外ではありません。...

革新的な人工視覚脳インプラントが初めて視覚障害者に移植される

現時点では失明を治す方法はないが、初めての人工視覚システムの移植が初めて成功し、失明した人々の視力を...

GenAI はクラウド コンピューティングの ROI を向上できますか?

既存企業は、クラウド コンピューティングの導入を検討する際、ジレンマに直面します。メリットは魅力的か...

...

金融を専攻する学生は人工知能をどのように学ぶべきでしょうか?

[[209094]]大学時代の専攻は自動制御で、当時は人工知能の冬でした。ある日、ニューラルネット...

...

人工知能を成功に導く8つのステップ

AI の実装は一度で終わるものではなく、幅広い戦略と継続的な調整のプロセスが必要です。ここでは、AI...

新しいインフラの推進により、人工知能の応用は新たな段階に入る

レポート概要新しいインフラストラクチャにより人工知能アプリケーションの実装が加速COVID-19パン...

ついに誰かが説明可能な機械学習を明らかにした

[[443127]]ビッグデータの時代において、機械学習は製品の売上向上や人間の意思決定の支援に大き...

コンテストを利用して学習を促進し、エコシステムを共同で構築し、人工知能を普及させましょう。

[元記事は51CTO.comより] 2021年7月12日、上海紫竹コートヤードホテルで、神府改革革...

...

アルゴリズムは AI の進歩の原動力となることができるでしょうか?

2006年以降、ディープラーニングに代表される機械学習アルゴリズムは、マシンビジョンや音声認識など...