ついにAI、BI、ビッグデータ、データサイエンスをわかりやすく説明する人が出てきた

ついにAI、BI、ビッグデータ、データサイエンスをわかりやすく説明する人が出てきた

[[427319]]

01 データ

データは、携帯電話に残すデジタルフットプリントから健康記録、買い物履歴、エネルギーなどの資源の使用に至るまで、私たちの生活のほぼすべての側面に浸透しています。今日のデジタル世界では、デジタルなしで生活することは、受け入れられないわけではありませんが、耐えるには大きな犠牲と信じられないほどの忍耐が必要です。

私たちはデータの生産者であるだけでなく、積極的なデータ消費者でもあります。たとえば、オンラインでの支出習慣をチェックしたり、フィットネス ルーチンを監視したり、マイレージ ポイントがカリブ海での休暇に十分かどうかを確認したりすることがよくあります。これらの行動はすべて、データを消費しています。

しかし、データとは一体何でしょうか? 最も一般的な形では、データとは後で使用するために保存される情報です。記録された情報の最も古い形態は、動物の骨に刻まれた記号であったと考えられます。 1950 年代までに、人々は磁気テープ、次にパンチ カード、そして磁気ディスクにデジタル情報を記録するようになりました。現代のデータ処理は比較的新しいものですが、すでに情報の収集、保存、管理、使用方法の基礎が築かれています。

最近まで、計算できない情報(ビデオや画像情報など)しか分類できませんでした。しかし近年、多くの技術的変化により、保存できないデータの種類はますます少なくなっています。実際、保存された情報、つまりデータは、計算目的で使用可能な方法でエンコードされた現実世界のモデルです。

データが現実世界で起こっていることの継続的な記録、つまり「モデル」であるという事実は、分析の重要な特徴です。 「20世紀で最も偉大な統計学者の一人」として広く知られるジョージ・ボックスはかつてこう言いました。「すべてのモデルは間違っているが、いくつかは役に立つ。」

データの中に意味をなさないものや、単に間違っているものが見つかることはよくあります。覚えておいてください、データは現実の物理世界から変換され、現実世界を表すもの、つまりジョージが「モデル」と呼ぶものへと抽象化されます。機械式スピードメーターが速度測定の標準であり(速度の代用として適している)、このモデルは実際には速度ではなくタイヤの回転速度を測定します。

つまり、データは保存された情報であり、すべての分析の基礎となります。たとえば、視覚分析では、視覚化テクノロジーとインタラクティブなインターフェースを使用してデータを分析および推論し、データ自体に存在するパターンを見つけ出します。

02 分析

分析は、おそらくビジネスにおいて最もよく使用されているにもかかわらず、最も理解されていない用語の 1 つです。ある人にとっては、分析とは「データをねじ曲げて自白させる」(データ内のパターンを見つける)ために使用される技術またはスキル、あるいは単にビジネス インテリジェンスとデータ ウェアハウスの拡張です。一方、他の人にとっては、分析とはモデルを開発するために使用される統計的、数学的、または定量的な方法のことです。

メリアム・ウェブスター辞書では、分析を「論理的分析の方法」と呼んでいます。 Dictionary.com では、分析を「論理的分析の科学」と定義しています。残念ながら、どちらの定義も「分析」という言葉の語源を直接使用しており、これは循環解釈の論理的誤謬であると思われます。

分析という言葉は、1580 年代の中世ラテン語 (anal-yticus) とギリシャ語 (anal-ytiks) に由来し、「分解する」または「緩める」という意味です。私は分析を、データ主導の問題を解決するための構造化されたアプローチ、つまり事実 (データ) を注意深く調べることで問題を解決するのに役立つ一連の方法論と定義しています。

分析の定義については多くの議論があります。今回の議論では、分析を次のように定義します。

包括的かつデータ主導の問題解決戦略とアプローチ。

私は分析を「プロセス」、「科学」、または「分野」として定義することを意図的に避けてきました。代わりに、私は分析を、この本のパート II でわかるように、成果物に関するプロセス、ルール、ベスト プラクティスを含む包括的な戦略として定義します。

分析では、論理、帰納的推論、演繹的推論、批判的思考、定量的手法(データと組み合わせて)を使用して現象を調査し、解析し、その本質的な特性を決定します。分析は、問題の特定と理解、理論の生成、仮説の検証、結果の伝達などを含む科学的手法に基づいています。

帰納的推論

帰納的推論は、蓄積された証拠が結論を裏付けるために使用されるが、結論にはまだ不確実性が残っている場合に使用されます。つまり、最終的な結論は(一定の確率で)与えられた前提と矛盾する可能性があります。帰納的推論を通じて、特定の観察やデータに基づいて、広範かつ一般的な一般化と結論を導き出すことができます。

演繹的推論

演繹的推論では、特定の一般的な事例に基づいて主張を行い、その後、統計的推論または実験的方法を使用してデータに依存し、主張を証明または反証します。たとえば、演繹的推論を使用して、世界の仕組みについての基本理論を提案し、次に(データを使用して)仮説の正しさをテストします。

分析はさまざまな問題の解決に使用できます。たとえば、UPS は分析結果を使用して貨物輸送を最適化し、150 万ガロン (1 ガロン = 3.785 × 41 立方デシメートル) 以上の燃料を節約し、二酸化炭素排出量を 14,000 トン削減しました。また、クリーブランド クリニックは分析結果を使用して手術室の運用スケジュールを最適化しました。

これらの成功事例により、分析はテクノロジーベンダー(ハードウェアとソフトウェア)やその他のさまざまな支援者にとって間違いなく非常に魅力的です。もちろん、「分析」という言葉は現在、人々がこの用語を他の単語と組み合わせるさまざまな組み合わせからわかるように、過剰に使用される危険にさらされています。のような:

  • ビッグデータ分析
  • 処方的分析
  • ビジネス分析
  • 運用分析
  • 高度な分析
  • リアルタイム分析
  • エッジまたはアンビエント分析

上記の組み合わせやコロケーションは、分析アプリケーションの種類や説明において独特ですが、特に企業の幹部(CXO レベルの幹部など)にとっては、理解に混乱が生じることがよくあります。テクノロジー ベンダーは、ビジネス上のあらゆる問題点を解決するために、常に最新の分析ソリューションを提供することに熱心です。

私の見解(そして多くの同じような考えを持つ合理的な思想家たちの見解)は、分析はテクノロジーではなく、テクノロジーは分析活動を推進し、可能にする戦略と方法にすぎないというものです。

分析とは一般に、データ間のビジネス上意味のあるパターンや関係を識別できるソリューションを指します。分析は、特定の問題を理解、予測、または最適化するという明確な目的を達成するために、さまざまなサイズ、複雑さ、構造化または非構造化、定量的または定性的なデータを分析するために使用されます。

いわゆる高度な分析も、複雑な分析手法を使用して事実に基づく意思決定プロセスをサポートする分析のサブセットであり、この分析は通常、自動または半自動で実行されます。

高度な分析には通常、データ マイニング、計量経済モデリング、予測、最適化、予測モデリング、シミュレーション、統計、テキスト マイニングなどの手法が含まれます。

03 ビジネスインテリジェンスとレポート

分析とビジネス インテリジェンスの違いについては、ほとんど合意が得られていません。分析をビジネス インテリジェンスのサブセットとして分類する人もいれば、まったく異なるカテゴリに分類する人もいます。私はビジネス インテリジェンス (BI) を次のように定義します。

意思決定に対するより構造化された効果的なアプローチを確立するために使用される管理戦略。BI には、レポート、クエリ、オンライン分析処理 (OLAP)、ダッシュボード、スコアカード、さらには分析などの一般的な要素が含まれます。 BI という包括的な用語は、データの取得、クリーニング、統合、および保存のプロセスを指す場合もあります。

分析とビジネス インテリジェンスの違いを次の 2 つの側面にまとめる人もいます。

使用される定量的手法の複雑さ(アルゴリズム的、数学的、統計的)

生成された結果は、過去に起こったこと、または将来起こることに関するものです。

つまり、ビジネス インテリジェンスの焦点は、比較的単純な数学的手法を使用して履歴データを表示および提示することにあります。一方、分析は、より複雑な計算ロジックを使用して、特定の問題を予測し、因果関係を特定し、最適なソリューションを決定し、実行する必要があるアクションや対策を示すために使用される方法であると考えられています。

ほとんどのビジネス インテリジェンス アプリケーションの制限は、テクノロジの制限ではなく、分析の深さと、アクションの基盤となる実際の洞察にあります。たとえば、すでに起こったことを伝えるだけでは、将来を変えるためにどう行動すべきかを決めるのに役立ちません。これは、オフライン分析でよく見られるケースです。

分析の本当の責任は、何が起こったか(どこで、なぜ、どのような条件下で)を理解し、将来何が起こるかを予測し、将来の結果に影響を与えて最適化するために何ができるかを理解するのに役立つ、実用的な洞察を生み出すことです。

図 1-1 に示す BI ダッシュボードには、売上、通話量、製品、アカウントなどの過去の事実が示されており、組織の売上の現在の状態や活動のスナップショットを簡単に取得できることに注目してください。

▲図1-1 ビジネスインテリジェンスダッシュボード、出典:QlikTech International AB

ビジネス インテリジェンスとそれに近い「レポート」はどちらも、関連する現象を説明するために使用される情報表示テクノロジであり、通常はデータ配信パイプラインの最後にあり、データと結果に直感的にアクセスできます。一方、分析はデータの説明にとどまらず、現象の固有の法則を真に理解し、将来取るべき適切な行動を予測、最適化、予想します。

従来、ビジネス インテリジェンスには、次の事実に起因する 2 つの欠点がありました。

  1. BI は予測や最適化よりも測定と監視に重点を置いているため、過去に何が起こったかを認識することに重点が置かれていることがよくあります。
  2. 多くの場合、定量分析は、正確な洞察を生み出す意味のある変化を確立できるほど洗練されていません (適切なレポートや視覚化も変化に影響を与える可能性がありますが、正確さが十分ではありません)。

単なる事実認識を超えた詳細な「分析」と適切に組み合わせると、BI は分析に近づきますが、高度な分析ソリューションによく見られる洗練された統計的、数学的、または「機械学習」の手法が欠けていることがよくあります。

したがって、分析はビジネス インテリジェンスの全体的なフレームワークに含まれる概念の自然な進化であると私は信じています。行動を促進できる洞察を生み出すために必要なさまざまな活動を完全に実施することに重点が置かれます。分析は、セルフサービス ダッシュボードやレポート インターフェイスで使用される定義済みの視覚化要素をはるかに超えています。

04 ビッグデータ

ビッグデータとは、組織が洞察に変える過程で処理しなければならない不協和な情報を表す方法です。 1997 年、マイケル コックスとデビッド エルズワースが初めてビッグ データという用語を使用しました。当時彼らが言及した「問題」は次のとおりでした。

視覚化は、コンピュータ システムにとって興味深い課題を提示します。データセットは多くの場合非常に大きく、メイン メモリ、ローカル ディスク、さらにはリモート ディスクの容量を大量に消費します。これをビッグデータ問題と呼びます。データ セットが大きくなりすぎてメイン メモリ (コア ストレージ) に収まらなくなったり、ローカル ディスクに保存できなくなったりした場合、最も一般的な解決策はスケール アップして、より多くのリソースを取得することです。

ビッグデータは、従来のデータ分析方法では処理できないほど大規模で複雑なデータの課題を浮き彫りにする概念と考えてください。ビッグデータと従来の「スモール」データは、ボリューム(データの量)、速度(データが生成および取得される速度)、多様性(数値、テキスト、画像、ビデオ、その他のデータ形式を含む)の観点から比較されます。

ビッグデータが今日の情報の複雑さを説明するために使用される概念である場合、分析は、受動的に情報に対応するのではなく、能動的に複雑性を分析するのに役立ちます (つまり、ビジネス インテリジェンスの領域)。

05 データサイエンス

ビッグデータと比較すると、データサイエンスを定義するのは簡単な作業ではありません。データサイエンスには多くの定義があり、一貫した説明を見つけることはまれだからです。データ サイエンスが何を意味するのか、またそれが分析とはまったく異なるものであるかどうかについては多くの議論があります。

データ サイエンティストの仕事、つまり必要なスキル、果たす役割、使用するツールやテクニック、勤務先、学歴などを議論することで、データ サイエンスを定義しようとする人もいます。しかし、これらはデータサイエンスの意味のある定義を与えるものではありません。

データ サイエンスを、人 (データ サイエンティスト) や彼らが取り組む問題の観点から定義するのではなく、次のように定義する方が適切です。

データ サイエンスは、統計や数学などの分野の定量的な方法と最新のテクノロジーを使用して、パターンを発見し、結果を予測し、複雑な問題に対する最適な解決策を見つけるためのアルゴリズムを開発する科学分野です。

データ サイエンスと分析の違いは、データ サイエンスはデータの自動分析を支援し、サポートできるのに対し、分析はデータ サイエンスに見られるツールを含むさまざまなツールを駆使して現象の本質を理解する、人間中心の戦略である点です。

データ サイエンスは、「データ」を扱う科学と実践全体に関連しているため、おそらくこれらの概念の中で最も広範囲にわたります。私はデータ サイエンスをコンピューター サイエンティストが設計した分析だと考えていますが、実際には、データ サイエンスは一般的なマクロの問題に焦点を当てる傾向があり、分析は特定の業界や問題における課題の解決に焦点を当てる傾向があります。

06 エッジ(および環境)分析

多くの現代企業では、分析は中核的なビジネス活動です。これらの企業は、データ主導型で人間中心のビジネス運営と管理プロセスを通じて、データを民主化しています。

エッジ分析は一般に分散分析を指します。このシナリオでは、分析は一部のマシンまたはシステムに組み込まれます。この組み込みアプローチにより、情報の生成と収集は企業の「無意識の」自律的なアクティビティになりました。

エッジ分析は通常、スマート デバイスに関連付けられます。この場合、分析計算はデータ収集ポイント (機器、センサー、ネットワーク スイッチ、その他のデバイスなど) で実行されます。従来のデータ パイプライン伝送方法 (データの収集、データの転送、データのクリーニング、データの統合、データの保存) とは異なり、エッジ分析では、データを収集するデバイスまたは近くでデータを実装するデバイスに分析が埋め込まれます。

データの民主化

データ民主化とは、データを少数の特権グループに限定するのではなく、データにアクセスできる、またはアクセスすべきすべての人がツールを通じてデータを探索およびアクセスする権利を持つようにデータを公開することを意味します。

たとえば、従来のクレジットカード詐欺検出は、マシン (カード リーダーなど) に依存し、トランザクションを確認するために接続を介して承認「エージェント」への要求を送信します。アルゴリズムは、非常に短い時間 (100 分の 1 ミリ秒) で承認を完了するか、トランザクションを不正とラベル付けする必要があります。最後に、カード リーダー デバイスは、承認指示を受信した後、トランザクションを完了するか拒否します。エッジ分析では、アルゴリズムは機器自体で実行されます (分析機能が組み込まれたスマート チップ リーダーなど)。

エッジ分析は、多くの場合、モノのインターネット (IoT) と関連付けられます。最近、IDC はモノのインターネット (IoT) の将来展望に関するレポートで、2018 年までに IoT データの 40% が、データが生成されるネットワークのエッジで保存、処理、分析、応答されるようになると提案しました。

IoT が成長するにつれ、分析によって IoT データに独自の価値をもたらす機会を指す、いわゆる「モノの分析 (AoT)」に今後さらに注目が集まると思われます。

アンビエント分析も関連用語であり、その名前は「あらゆる場所での分析」を意味します。部屋の照明や音響は気づかれないことが多いものの、舞台の雰囲気を決めるのと同じように、環境分析は私たちが働いたり遊んだりする環境に影響を与えます。

血糖値の監視やインスリンの投与など、日常のさまざまな場面でアンビエント インテリジェンスが活用され始めています。同様に、近所に戻ると、ホームオートメーションデバイスがそれを検出し、自動的に温度を調整し、照明をオンにします。環境分析は、単純なルールベースの意思決定を超えて、アルゴリズムを使用して適切な行動方針を決定します。

エッジ分析と環境分析が、従来の人間中心の管理方法とプロセスに挑戦し続けることは間違いありません。従来の管理方法では、分析結果の使用(分析の理解、決定、実行されたアクションなど)は主に人間中心ですが、エッジ分析と環境分析では、ますます自律的な意思決定と実行(人間の介入なし)が行われます。

07 情報科学

情報学は、情報技術と情報管理の間の学際的な科目です。実際には、情報学にはデータの保存と検索のための処理技術が含まれます。本質的に、情報科学は、情報の管理方法について議論し、プロセスベースのワークフローをサポートするシステムとデータ エコシステムを指し、それらの中に含まれるデータの分析ではありません。

情報科学でよく議論される健康情報学は、特に医療と医学研究で使用されています。これは、健康情報技術と健康情報管理の中間に位置する専門技術です。情報技術、通信、医療を統合して、患者ケアの質と安全性を向上させます。それは、人、情報、テクノロジーの交差点の中心にあります。

健康政策とは、社会における特定の健康目標を達成するために行われる決定、計画、行動を指します。医療政策立案者は、医療がより手頃で、より安全で、より質の高いものになることを望んでおり、情報技術と医療情報技術は、この目標を達成するための重要な手段となることがよくあります。

実際、最も重要なタスクの 1 つは、データ リソースを正しく配置して、各患者の健康状態を 360 度完全に把握できるようにすることです。これは、データ共有を通じてのみ実現できます (図 1-2 を参照)。

図1-2 医療情報管理、医療情報技術、情報科学の違い

分析では、これらすべての概念を統合し、基礎となるデータ、サポートするテクノロジー、情報管理プロセスを利用してこの目標を達成します。

08 人工知能と認知コンピューティング

人工知能 (AI) は、人間の知能を必要とする作業をコンピューターに実行させる科学です。

人工知能と機械学習の違いは、人工知能はパターン認識や探索などの「知的な」作業を実行するためにコンピューターを使用するという広い概念を指すのに対し、機械学習は人工知能のサブセットであり、主にコンピューターを使用してデータから学習するという概念を指すことです。

機械学習は、データに基づいて学習し、予測を行うことができる人工知能のサブセットです。特定のルールや指示だけに基づいて事前に計画されたアクションを実行するのではなく、大量のデータ内のパターンを自律的に識別するようにトレーニングされたアルゴリズムを使用します。

AI (および機械学習) は、分析ライフサイクル全体で使用して、検出と探索 (データの構造、存在するパターンなど) をサポートできます。分析における AI の応用は、多くの場合、機械学習 (上記で説明) またはコグニティブ コンピューティングの形で行われます。

認知コンピューティングは、人工知能と機械学習アルゴリズムを組み合わせて、人間の脳の動作を再現(または模倣)しようとする独自のアプリケーションです。

認知コンピューティング システムは、人間と同じように考え、推論し、記憶することで問題を解決するように設計されています。この設計アプローチにより、認知コンピューティング システムは「新しいデータが到着すると学習して適応する」ことができ、「尋ねることを決して知らなかった事柄を探索して発見する」ことができるという利点が得られます。

コグニティブ コンピューティングの利点は、一度学習した機能を決して忘れないことです。これは、人間にはできないことです。

人間とアルゴリズムの競争では、残念ながら人間が負けることが多いです。これが人工知能の利点です。したがって、賢くなりたいのであれば、謙虚になることを学ばなければなりません。なぜなら、コンピュータの世界では、私たちの直感的な判断は、一連の単純なルールによって実装されたアルゴリズムほど優れていない可能性があるからです。

— Farnham Street Blog (Parish、2017 年、「複雑な意思決定においてアルゴリズムは私たちに勝てるか?」)

より狭い意味では、AI は人間の知能を表し、認知コンピューティングは人間の意思決定を支援する情報を提供します。

著者について: ThotWave の創設者兼 CEO である Gregory S. Nelson 氏は、International Institute for Analytics の専門家であり、デューク大学 Fuqua School of Business の客員教授です。

この記事は、「データ分析の未来: エンタープライズ ライフサイクル全体にわたってデータ分析を適用する方法」から抜粋したもので、発行元によって承認されています。

<<:  バブルアルゴリズムよりも単純なソートアルゴリズム:バグだらけに見えるプログラムが実は正しい

>>:  ガートナー:テクノロジープロバイダーの33%が2年以内にAIに100万ドル以上を投資する

ブログ    
ブログ    
ブログ    

推薦する

...

AIによって殺された最初の人々を見てみましょう

過去2日間、「絵を当てようソング」がスクリーンのあちこちで流れていたその背後にあるAIブラックテクノ...

...

より良いAIでより良い社会を築く

人工知能 (AI) には、従来のエンジニアリング システムからヘルスケア、芸術やエンターテイメントの...

確かな情報です! AIテクノロジーアーキテクチャソリューションの実現可能性を判断するのに役立つ3つの重要な要素

近年、人工知能は急速に発展しており、コンピュータービジョンや自然言語処理の分野で画期的な変化をもたら...

Langchain、ChromaDB、GPT 3.5 に基づく検索強化型生成

翻訳者|朱 仙中レビュー | Chonglou概要:このブログでは、検索拡張生成と呼ばれるプロンプト...

...

人工知能は将来の建築をどのように変えるのでしょうか?

自動化された AI システムは、建物の暖房と冷房を最適化して効率性と持続可能性を向上させるのに役立ち...

人工知能は教育にどのように活用されていますか?ここに実際の例をいくつか示しますので、ぜひご覧ください。

教育者、心理学者、親たちが、子どもがスクリーンを見る時間の長さについて議論する一方で、人工知能や機械...

サイバーセキュリティにおける人工知能の役割と6つの製品オプション

現代の IT 環境では、サイバー脅威がますます顕著になっています。サイバーセキュリティとその製品にお...

ハイブリッドクラウド環境でディープラーニングを取り入れたID認証はより柔軟

[51CTO.com からのオリジナル記事] 入れ墨は、秦と漢の時代に広く使用されていた刑法の一種で...

StarCraft II の共同競技ベンチマークが SOTA を上回り、新しい Transformer アーキテクチャがマルチエージェント強化学習の問題を解決

マルチエージェント強化学習 (MARL) は、各エージェントのポリシー改善の方向性を特定するだけでな...

...

自然言語処理にディープラーニングを使用するにはどうすればよいでしょうか?練習チェックリストはこちら

[[198324]]導入この記事は、自然言語処理 (NLP) にニューラル ネットワークを使用する方...

スウェット物流からスマート物流へ、物流業界はよりスマートになっている

2020年は異例の年です。新型コロナウイルスの世界的な蔓延は人々の生活や仕事に多くの不便をもたらし、...