機械学習、データサイエンス、人工知能、ディープラーニング、統計などの違い。

機械学習、データサイエンス、人工知能、ディープラーニング、統計などの違い。

データ サイエンスは幅広い分野であるため、まずはあらゆるビジネスで遭遇する可能性のあるデータ サイエンティストのタイプから説明します。このセクションを通じて、データ サイエンティストとしての隠れた可能性を発見できるかもしれません :) 他の科学分野と同様に、データ サイエンティストも関連分野から学ぶことができますが、データ サイエンスにはすでに独自の部分があり、特に、非常に大規模な非構造化データを自動的に処理する方法とアルゴリズム、さらには人間の介入なしでリアルタイムの処理や予測を行う方法やアルゴリズムがあります。

1. データサイエンティストのさまざまなタイプ

始めに歴史的な視点を知るには、2014 年の記事「9 種類のデータ サイエンティスト」、または同じ年の記事でデータ サイエンスと「16 の分析分野」を比較したこの記事をご覧ください。最近 (2016 年 8 月)、Ajit Jaokar が Analytics データ サイエンティスト (タイプ A) と Builder データ サイエンティスト (タイプ B) の違いについて説明しました。

タイプ A のデータ サイエンティストは、仕事でデータ関連の問題に遭遇したときに適切なコードを書くことができますが、必ずしも専門家であるとは限りません。このタイプのデータ サイエンティストは、実験設計、予測、モデリング、統計的推論、または統計研究のその他の一般的な部分を専門とする場合があります。しかし、一般的に、データ サイエンティストの仕事の成果は、学術的な統計学で時々示唆される「p 値と信頼区間」ではありません (従来の製薬統計学者が時々使用するもの)。 Google では、タイプ A のデータ サイエンティストは通常​​、統計学者、定量分析者、意思決定支援技術アナリスト、データ サイエンティストなどを指します。

タイプ B のデータ サイエンティストはデータを構築しています。カテゴリー B はカテゴリー A と同じような統計的背景を持っていますが、より優れたコーディング能力を持ち、専門的なソフトウェア エンジニアリングのトレーニングを受けている場合もあります。彼らは主に製品でデータを使用することに興味があり、ユーザーと対話して通常は推奨事項(製品、知り合いの可能性のある人、映画の広告、検索結果など)を提供するモデルを構築します。

著者は以前、ビジネス プロセス最適化の ABCD について書いています。ここで、D はデータ サイエンス、C はコンピューター サイエンス、B はビジネス サイエンス、A は分析サイエンスを表します。データ サイエンスには、コードの記述や数学の実行が含まれる場合と含まれない場合があります。詳細については、「低レベルのデータ サイエンスと高レベルのデータ サイエンス」を参照してください。スタートアップでは、データ サイエンティストは、データ マイナー、データ エンジニアまたはデータ アーキテクト、研究者、統計学者、モデラー (予測モデリング)、開発者など、複数の肩書きを持つことがよくあります。

データ サイエンティストは、R、Python、SQL、Hadoop、統計に精通したプログラマーと説明されることが多いですが、これは氷山の一角に過ぎず、一部のトレーニング機関によって指導されています。しかし、研究室の技術者が自分自身を物理学者と名乗ることができるのと同じように、本物の物理学者はそれ以上のものであり、天文学、数学、物理学、原子物理学、力学、電気、信号処理(これもデータサイエンスのサブフィールド)など、多岐にわたる分野の専門知識を持っています。データ サイエンティストの場合と同様に、実際に関与する分野は、バイオインフォマティクス、情報技術、シミュレーションと品質管理、金融工学、疫学、産業工学など多岐にわたります。

私は過去 10 年間、ホスト間およびデバイス間の通信に取り組んでおり、大規模なデータセットを自動的に処理し、インターネット トラフィックの購入やコンテンツの自動生成などの自動トランザクションを実行するシステムを構築してきました。これらすべては、AI(人工知能)、IoT(モノのインターネット)、およびディープ データ サイエンスとして知られるデータ サイエンスの交差点でもある、非構造化データ用のアルゴリズムを開発する必要性を隠すものです。この部分は、比較的数学を扱う必要がなく、多くのコーディング (主にいくつかの API) も必要ありませんが、実際にはデータ集約型 (データ システムの構築を含む) であり、この目的のために特別に設計された新しい統計手法に基づいています。

それ以前は、主にリアルタイムのクレジットカード詐欺検出を行っていました。また、キャリアの初期には、衛星画像内のさまざまなものの特定のパターン(または形状、特徴、たとえば湖の特定)を識別してグラフィックセグメンテーションを実現する画像リモートセンシング技術に取り組んでいました。当時、この研究は計算統計と呼ばれ、コンピューターサイエンスで同じことを行う人々は、その研究を人工知能と呼んでいました。今日では、同じ研究はデータ サイエンスや人工知能と呼ばれ、サブフィールドは信号処理、コンピューター ビジョン、モノのインターネットなどと呼ばれることがあります。

さらに、データ サイエンティストは、データ収集フェーズやデータ探索フェーズから統計モデリングや既存システムの保守まで、データ サイエンス プロジェクトのライフ サイクルのあらゆる段階に関与します。

2. 機械学習とディープラーニング

機械学習とデータサイエンスの関係について詳しく説明する前に、機械学習とディープラーニングについて簡単に説明しましょう。機械学習は、データセットをトレーニングして予測を行ったり、システムを最適化するためのアクションを実行したりする一連のアルゴリズムです。たとえば、教師あり分類アルゴリズムは、履歴データに基づいてローン申請者を見込みが良いか悪いかに分類するために使用されます。特定のタスク (教師ありクラスタリングなど) には、ナイーブベイズ、SVM、ニューラル ネット、アンサンブル、関連ルール、決定木、ロジスティック回帰、または多くの手法の組み合わせなど、さまざまな手法が必要です。アルゴリズムの詳細についてはここをクリックしてください。機械学習の問題について知るにはここをクリックしてください。

これらはすべてデータサイエンスのサブセットです。ドローンや自動運転車など、これらのアルゴリズムが自動化されている場合、これは AI、より具体的にはディープラーニングと呼ばれます。機械学習とディープラーニングを比較した別の記事を見るには、ここをクリックしてください。収集されたデータがセンサーから取得され、インターネット経由で送信される場合、これは IoT に適用された機械学習、データ サイエンス、またはディープラーニングです。

ディープラーニングをより深いニューラルネットワーク(機械学習技術)として捉え、異なる定義をする人もいます。最近、誰かが Quora でこの質問をしました。具体的な説明は次のとおりです (出典は Quora)

AI (人工知能) は、1960 年代に生まれたコンピュータ サイエンスのサブフィールドです。人間にとっては非常に簡単だがコンピュータにとっては難しいタスクを解決することを目的としています。いわゆる「強い AI」は、人間ができるすべてのこと(おそらく純粋な物理学の問題を除く)を実行できる可能性があることは言及する価値があります。これはかなり広範囲で、計画を立てること、世界を歩き回ること、物体や音を認識すること、話すこと、翻訳すること、社交やビジネス上の取引、創造的な仕事(詩を書いたり絵を描いたりすることなど)などが含まれます。

NLP (自然言語処理) は、AI が処理しなければならない言語部分、特に文章作成の部分です。

機械学習とは、離散形式で記述できるいくつかの AI 問題 (一連のアクションから正しいものを選択するなど) が与えられ、その後、外部から大量の情報が与えられると、プログラマーが手動でプログラムを記述する必要なく、「正しい」動作が選択される状況です。通常、アクションが正しいかどうかを判断するには、いくつかの外部プロセスが必要です。数学的には、これは関数です。何らかの入力を与え、それを処理して正しい出力を得るようにしたいので、問題全体は、何らかの自動的な方法でこの数学関数モデルを構築することに簡略化されます。 AI と区別するために、人間のように動作する特に賢いプログラムを作成した場合、それは AI になる可能性がありますが、そのパラメータがデータから自動的に学習されない限り、それは機械学習ではありません。

ディープラーニングは機械学習の非常に人気のあるタイプです。これには特別な種類の数学モデルが含まれており、これは最終結果をより正確に予測するために調整できる、特定の種類の単純なブロックの組み合わせ (またはブロック関数の組み合わせ) と考えることができます。

では、機械学習と統計の違いは何でしょうか? この記事では、この質問に答えます。著者らは、統計とは予測または推定される量の信頼区間を用いた機械学習であると書いています。私は、数学や統計の知識を必要としない、エンジニアに優しい信頼区間を構築したため、これに反対する傾向があります。

3. データサイエンスと機械学習

機械学習と統計はどちらもデータサイエンスの一部です。機械学習における「学習」という言葉は、特定のデータに依存し、いくつかのモデルやアルゴリズムのパラメータを調整するためのトレーニング パターンのセットとして使用されるアルゴリズムを意味します。これには、回帰、単純ベイズ、教師ありクラスタリングなどの多くの手法が含まれます。しかし、すべてのテクノロジーがこのカテゴリに当てはまるわけではありません。たとえば、統計およびデータ サイエンスの手法である教師なしクラスタリングは、事前の知識やトレーニング セットに依存せずに、分類アルゴリズムがクラスターまたはクラスター構造を検出できるようにすることを目的としています。誰かが発見されたクラスターに注釈を付ける必要がある。半教師あり分類などの一部の手法はハイブリッドです。いくつかのパターン検出または密度推定技術がこのカテゴリに該当します。

ただし、データ サイエンスは機械学習よりもはるかに広範囲にわたります。データ サイエンスにおける「データ」は、機械や機械的なプロセスから得られる場合もあれば、そうでない場合もあり (調査結果は手動で収集される場合があり、臨床試験には特別な種類の小さなデータが必要になるなど)、上記の「学習」とはまったく関係がない場合もあります。しかし、主な違いは、データ サイエンスは実際にはアルゴリズムや統計だけでなく、データ処理の全範囲をカバーしている点です。

もちろん、多くの組織では、データ サイエンティストはこのプロセスの一部にのみ焦点を当てています。データ サイエンスへの私の独自の貢献について学びたいです。

<<:  アプリオリアルゴリズム原理の要約

>>:  機械学習の基礎知識がゼロでも、TensorFlow で画像認識システムを構築する方法をお教えします (パート 2)

ブログ    
ブログ    

推薦する

Daguan Data: ナレッジグラフと Neo4j の簡単な分析

現在のビッグデータ業界では、アルゴリズムのアップグレード、特に機械学習の導入により、「パターン発見」...

貢献度が最も高い GitHub コレクションとディープラーニング フレームワーク 16 選

ビッグデータ概要編纂者:Jingzhe、Shijintian、Jiang Baoshangディープラ...

ノキア、ネットワーク自動化におけるAI推進のためドバイに「イノベーションラボ」を開設すると発表

9月26日、海外メディアETテレコムによると、ノキアは中東とアフリカでの技術革新を促進し、ネットワー...

PaLMを超えて!北京大学のマスターがDiVeRSeを提案し、NLP推論ランキングを一新した。

1,750億のパラメータを持つGPT-3や5,400億のパラメータを持つPaLMなど、大規模言語モ...

...

...

自己知能ネットワークに向けた大規模モデル技術の応用展望を探る

OpenAIは2022年11月に会話型大規模言語モデルChatGPTをリリースしました。これは、非常...

AIを活用して大気汚染と戦う方法

大気汚染はほぼあらゆる場所で依然として問題となっており、地球温暖化、生物多様性の喪失、土壌劣化、淡水...

Microsoft が大規模コード モデル WaveCoder をリリースしました。 4つのコードタスクと20,000のインスタンスデータセットにより、LLMの一般化能力が大幅に向上しました。

高品質のデータ セットを使用して命令のチューニングを実行すると、大規模なモデルのパフォーマンスを迅速...

2022年の自動運転のトップ10トレンドが発表されました。データインテリジェンスシステムは、自動運転の商用化のクローズドループの鍵となるでしょうか?

「2022年は自動運転産業の発展にとって最も重要な年となるだろう。乗用車の運転支援分野での競争は正...

...

スマートシティにおける低リスクの AI 応用分野 3 つ

スマート シティでは、一部の AI 駆動型システムは統合にコストがかかったり、実装前に複数の規制に準...

今後 10 年間であなたの仕事は人工知能に置き換えられるでしょうか?

近年、インターネットは急速に発展しすぎていると言わざるを得ません。最後に銀行に行ってお金を引き出した...

未来:ビッグデータとAIがあなたをより深く理解する

今の時代の発展は本当に速すぎます、それを今実感していただけると思います。 3G から 4G、そして ...