ついにビッグデータ、機械学習、データサイエンスをわかりやすく説明する人が出てきた

データの爆発的な増加とその利用可能性は、人工知能 (AI) の発展を促進しました。人工ニューラルネットワークに入力する情報が増えるほど、学習速度が速くなり、より強力になります。

AI プロジェクトを開始する前に、プロジェクトでデータが果たす役割とそのデータの使用方法を検討する必要があります。たとえば、単にデータを分析して洞察を得るだけなのか、それとも機械学習技術を使用してデータを処理して予測を行うのかを決める必要があります。これらの決定を行うには、ビッグデータ、データサイエンス、データマイニングなどのいくつかの重要な概念を理解する必要があります。

この記事では、AI プロジェクトにおけるデータの役割を明確にし、現在利用可能な膨大なデータと将来利用可能になるデータ量の増加を活用して AI を適用する方法について情報に基づいた意思決定を行うのに役立ちます。

01 ビッグデータの基本概念を理解する

ビッグデータとは一般的に、コンピューターで分析してパターン、傾向、関連性を明らかにできる膨大なデータセットを指します。しかし、「ビッグデータ」という用語が初めて登場したレポートを読むと、著者は「ビッグデータ」という用語を使用していなかったことがわかります。彼らは、問題を「ビッグデータの問題がある」ではなく「ビッグデータの問題がある」と表現します。

生成される大量のデータを保存および処理する際には、多くの困難に直面します。企業が社内データウェアハウスをアップグレードするとすぐに、データの量がウェアハウスの容量を超える可能性が高くなります。データウェアハウスは、流入するデータの量と種類に対応できないか、そのデータからレポートを生成するための処理能力が不足しています。

現在、多くの企業では、一日の終わりにレポート生成プログラムを実行し、翌朝または午後までにレポートが完成するようにしています。他の企業では、多くの従業員が同時にデータを照会するため、結果が出るまで何時間も待たなければならず、処理能力不足でシステムがクラッシュしたりフリーズしたりすると、最初からやり直さなければなりません。証券取引所などの多くのビジネスでは、競争力を維持するためにリアルタイムのレポートに依存しています。

問題はどんどん増えていくでしょう。今後 10 年以内に、世界中に 1,500 億個以上の接続されたセンサーが設置され、それぞれが 1 日 24 時間、週 7 日、年間 365 日データを生成するようになると予測されています。 Facebook、Twitter、Google、オンラインショッピングサイト、オンラインゲームサイトなどで人間が 1 日で生成するすべてのデータを想像してみてください。データ量がいかに膨大であるかがおわかりいただけるでしょう。

私たちは、ビッグデータは問題であると同時にチャンスでもあると考えています。ビッグデータが問題となるのは、膨大なデータセットを処理するのか、それともより小規模なデータを処理するのかを決定する必要があるためです。おそらく、Web サイトの使用状況を監視および分析したり、より小さなデータセットを使用してマーケティング戦略の有効性を測定したりする必要があるだけでしょう。

ただし、大規模なデータセットを分析する必要がある場合 (たとえば、風邪の治療法を見つける場合)、ストレージと処理の手法を計画する必要があります。しかし、ビッグデータはチャンスでもあります。ビッグデータがなければ、人工知能は膨大なデータを使用して正確なモデルを構築し、パターンを識別して予測を行うことができません。

02. データサイエンティストと協力する

ビッグデータを必要とする AI アプリケーションを開発する場合は、データサイエンティストと協力するか、少なくとも相談するのが最適です。データサイエンティストは、プログラミング、データ管理、統計など、さまざまな分野のトレーニングを受けており、ビジネスの意思決定に役立つデータを収集、分析、解釈する方法を理解しています。

機械学習はデータサイエンティストにとって必須の職務スキルではありません。たとえば、データサイエンティストは、質問への回答、難しい問題の解決策、システム障害の原因となっている可能性のあるさまざまな要因に関する洞察など、データから抽出しようとしている知識をより明確に理解できるように、あなたが尋ねるとは思わなかった質問をすることがあります。

この目標を達成するために、データサイエンティストは、データを収集、分析、解釈するためのツールを使用したり推奨したりすることがあります。データサイエンティストは、あなたがこのデータで何を探しているのか本当にわかっていないことに気づき、あなたが思いもよらなかった洞察を提供できる可能性のあるデータ内のパターンを特定する機械学習システムの開発を手伝ってくれるかもしれません。

つまり、データサイエンティストは、データを評価し、ニーズを分析し、データを最大限に活用できるようにソリューションを提供するのに役立ちます。

03 機械学習とデータマイニングの違い

データを扱う場合 (データセットのサイズに関係なく)、多数の用語に遭遇する可能性があります。よく混同される 2 つの用語は、データマイニングと機械学習です (図 5.1 を参照)。

データマイニングとは、データから有用な情報や洞察を抽出するデータ処理方法です。 (データのマイニングを行っているのではなく、情報や洞察を得るためにデータをマイニングしていることに注意してください。)
機械学習は、コンピューターにプログラムされていないことを実行させる科学です。

データマイニングでは、機械学習を使用してデータから有用な情報や洞察を抽出できますが、必ずしも機械学習技術を使用する必要はありません。

機械学習とデータマイニングのもう 1 つの重要な違いは、使用される手法です。機械学習では、まずモデルをトレーニングし、次に Python、R、またはその他のコンピューター言語で記述された機械学習フレームワークを使用します。

データマイニングでは通常、視覚化ツールやビジネスインテリジェンスツールなどの幅広いツールセットが使用されますが、その多くは、スプレッドシートアプリケーションに類似した、しかしより高度な方法でデータを抽出、並べ替え、要約、および提示するという単一の機能を備えています。

04 データマイニングから機械学習への飛躍

データマイニングから機械学習への移行は、一見するとそれほど難しいことではありません。すでにビッグデータを扱っており、そこから貴重な洞察を抽出している場合は、そのデータを管理するための専門知識をすでに持っていることになります。レポートを作成したりデータを視覚化したりできるソフトウェアは数多くあります。機械学習は、単にデータから価値を抽出するためのツールです。

おそらく、すでにデータ管理チームがあり、そのチームのメンバーは大規模なデータセットを扱うことに慣れているでしょう。これらのデータセットを操作するために、Python で記述されたフレームワークをダウンロードすることに慣れているかもしれません。機械学習を使用するには、そのデータを別の方法で使用するだけで済みます。データから直接貴重な情報をマイニングするのではなく、ニューラルネットワークなどの機械学習モデルをトレーニングし、データ内の貴重なパターンを探す必要があります。

私は長年にわたり、大規模なデータプロジェクトを開発してきたいくつかの企業で働いてきました。彼らは、機械学習への飛躍はビッグデータへの飛躍と同じくらい難しいと考えています。実際、これらのチームはすでに Python と R に精通しており、大規模なデータセットの操作にも慣れていたため、機械学習技術を活用するのは簡単でした。

最大の課題は、チームにデータについて違った考え方をさせることです。トレーニングセットを作成し、人工ニューラルネットワーク内のニューロン (ノード) の重みを再調整する必要がありますが、これは、ビッグデータツールを使用してデータと直接対話するときに慣れている作業モードとは異なります。

警告: 組織がビッグデータを扱っている場合、ピカピカの新しいハンマーを持っているからといって、すべてが釘であるとは限らないことを覚えておいてください。ビッグデータを扱う企業は機械学習の価値に惑わされがちですが、機械学習が常に最善の選択肢であるとは限りません。小規模な AI プロジェクトは、シンボリック手法で達成した方がよい場合があります。データがあるからといって、機械学習が常に最善の選択肢であるとは考えないでください。

05 適切なアプローチを使用する

データに関わるプロジェクトを計画している場合、おそらく最善のアプローチは、データサイエンス、データマイニング、機械学習の用語や違いを無視することです。答えようとしている質問や解決しようとしている質問に焦点を当てるのではなく、データサイエンティストと協力したり相談したりして、できるだけ早く最善のアプローチを決定します。一般的なガイドラインは次のとおりです。

データから貴重な情報を抽出し、何を知りたいか明確にわかっている場合（特定の期間に Web サイトにアクセスした人の数など）、基本的なビジネスインテリジェンスソフトウェアと組み合わせたデータベース（またはデータウェアハウス）で十分な場合があります。
ビッグデータに直面し、質問に答えたり特定の問題を解決したりするための特別なアイデアがない場合 (または質問がまったくなく、頭の中に混乱がない場合)、何らかの (教師ありまたは教師なしの) 機械学習手法を使用する必要があるかもしれません。たとえば、教師なし学習では、すべてのデータを機械学習モデルに入力し、どのような結果が生成されるかを確認できます。

次のことを考えてみましょう。病院を管理していて、患者を効果的に治療する方法を決定する必要があるとします。この課題はいくつかの異なる角度から対処することができます (図 5.2 を参照)。

1 つの選択肢は、独自のデータサイエンスチームを結成し、分析する必要があるデータの種類を把握することです。たとえば、チームのメンバーが「どの医師の成功率が最も高いか」や「どの患者のフォローアッププログラムで再診が最も少ないか」と質問するとします。これらの質問に基づいて、データサイエンスチームは関連するデータセットを選択し、データを分析し、レポートを生成して、調査結果について話し合います。これらのレポートにより、さらなる分析を必要とする追加の質問が発生する可能性があります。プロセス全体には、集中的なコミュニケーションと議論が必要になります。

もう 1 つのアプローチは、人工ニューラルネットワーク上で教師なし機械学習技術を使用することです。すべてのデータを人工ニューラルネットワークに入力し、有用なパターンが認識されることを期待します。これらのパターンを把握したら、あなたとあなたのチームがこれらのパターンがどのように関連しているかを判断し、関連するパターンの背後にある理由を解明する必要があります。

これらの方法にはそれぞれ長所と短所があります。データサイエンスチームは、洞察の背後にあるデータについてより深い洞察を得ることができるようになります。データに対する直感的な感覚が養われ、より興味深い質問をするようになります。人工ニューラルネットワークに基づく機械学習手法では、人間とは異なる方法でデータを処理するため、異なるパターンを認識する場合があります。また、機械にとっては意味をなすが人間には理解できない、説明のつかないパターンを見つけることもできます。

人工ニューラルネットワークを使用する際の大きな欠点の 1 つは、特定のパターンの背後にある理由を説明できないことです。たとえば、人工ニューラルネットワークは、病院で使用されているある抗生物質が、特定の感染症の治療において他の抗生物質よりも成功率が高いことを示すかもしれませんが、その理由を説明することはできません。その理由は、副作用が少ないため効果が高く、患者が服用を継続する可能性が高いためだと考えられます。

もう 1 つの状況は、マシンが結果を出力しても、その結果を見た人がその結果の意味を解釈できないというものです。言い換えれば、結果は機械にとっては意味をなしますが、人間にとっては意味をなさないのです。したがって、リバースエンジニアリングを行って、ネットワークがなぜそのように動作するのかを理解することができます。しかし、「ルール」は解釈できないため、ネットワークがなぜその結果を生成したのか分からない場合があります。

データサイエンスチームは、データに対する理解を深められる可能性が高くなります。彼らは質問をし、自分自身の学習と理解を活用して、データ内の重要な手がかりを発見します。無限の可能性を考慮するのではなく、最も成功率の高い医師、薬、手順など、最も可能性の高い要素に考えを絞ります。

<<: 効率的な整数計画法ソリューション、Kuaishouは多変量因果森林モデルを提案し、インテリジェントなマーケティング効果が顕著です

>>: 人工知能の発展と未来