機械学習において統計がなぜそれほど重要なのか？

統計学と機械学習は密接に関連した2つの分野です。実際のところ、この 2 つの境界線は非常に曖昧になることがあります。ただし、統計の領域に明らかに属し、機械学習プロジェクトで役立つだけでなく、非常に価値のある方法もいくつかあります。機械学習予測モデリングプロジェクトを効果的に実行するには、統計的手法が必要であると言っても過言ではありません。

[[285550]]

統計は必須条件

機械学習と統計は密接に関連した2つの研究分野です。このため、多くの統計学者は、機械学習をコンピューターサイエンス中心の名称ではなく、「応用統計学」または「統計学習」と呼んでいます。

すべての機械学習初心者は統計学を少し学ぶ必要があります。これを説明するために、慎重に選んだいくつかの例を示します。

人気の応用機械学習の本『応用予測モデリング』の冒頭にあるこの文章を見てみましょう。

…読者は、分散、相関、単回帰、基本的な仮説検定（例：p値や検定統計）などの基本的な統計に関する知識を持っている必要があります。

— ページ vii、応用予測モデリング、2013

人気書籍『統計学習入門』からの別の例を次に示します。

読者は統計学の初級コースを少なくとも 1 回受講していることが想定されます。

— R でのアプリケーションによる統計学習入門、2013 年、9 ページ。

統計学の前提条件ではありませんが、広く読まれている「Programming Collective Intelligence」からの次の引用からわかるように、ある程度の基本的な事前知識が必要です。

… この本は、読者が […] や統計に関する事前の知識を持っていることを前提としていません。 […] ただし、三角法と基本的な統計に関する知識があれば、アルゴリズムを理解するのに役立ちます。

— 『集合知のプログラミング: スマート Web 2.0 アプリケーションの構築』、2007 年、xiii ページ。

機械学習を理解するには、統計に関する基本的な理解が必要です。

なぜそうなるのかを理解するには、まず統計学の分野がなぜ必要なのかを理解する必要があります。

なぜ統計学を学ぶのでしょうか?

生の観察自体はデータですが、情報や知識ではありません。

データからは次のような疑問が浮かび上がります。

最も一般的な、または予想される観察結果は何ですか?
観察の限界は何ですか?
データはどのようになっているのでしょうか?

単純に思えるかもしれませんが、生の観察結果を、使用および共有できる情報に変換するには、これらの質問に答える必要があります。

生データに加えて、実験を設計することで観察データも収集できます。これらの実験結果から、次のようなより複雑な疑問が生じる可能性があります。

最も関連性の高い変数はどれですか?
2つの実験の結果はどのように違うのでしょうか?
これらの違いは実際のものなのでしょうか、それとも単にデータ内のノイズなのでしょうか?

これらの質問は重要です。これらの質問に対する答えは、プロジェクト、その利害関係者、そして効果的な意思決定にとって重要です。

データに関する質問の答えを見つけるには統計的手法が必要です。

機械学習モデルのトレーニングに使用されるデータを理解し、さまざまな機械学習モデルのテスト結果を解釈するには、統計的手法が必要であることがわかります。

これは氷山の一角に過ぎません。予測モデリングプロジェクトのすべてのステップで統計的手法を使用する必要があります。

統計とは何ですか?

統計学は数学の分野の一つです。

これは、データを処理し、それを使用して質問に答えるための一連の方法を指します。

統計学は、難解な疑問について数値的な推測を行う技術です。 […] この手法は、疑問の答えを探し求めていた人々によって数百年かけて開発されました。

— 統計、第 4 版、2007 年、xiii ページ。

これは、この分野にはデータを処理する一連の方法が含まれており、初心者にとってはそれが大規模で不確実なもののように思えるからです。統計的手法に属する方法と他の研究分野に属する方法との境界を見分けるのは困難です。通常、これらの手法は、統計学における古典的な方法と、特徴選択やモデリングのための最新のアルゴリズムの両方になります。

統計に関する実用的な知識には深い理論的知識は必要ありませんが、いくつかの重要かつよく理解された定理は、統計と確率の関係についての貴重な基礎を提供することができます。

2 つの例としては、大数の法則と中心極限定理が挙げられます。前者は、サンプル数が多いほど一般的に優れている理由を理解するのに役立ち、後者は、サンプル間の期待値 (平均値など) を比較する方法の基礎を提供します。

実際に使用する統計ツールについては、統計の分野を 2 つの大まかなカテゴリ、つまりデータを要約するために使用される記述統計と、データのサンプルから結論を導き出すために使用される推論統計に分けると役立つ場合があります。

統計により、研究者は多数の人々から情報やデータを収集し、彼らの典型的な経験を要約することができます。 […] 統計は、グループ間の一般的な違いについての結論を導き出すためにも使用されます。 […] 統計は、2 つの変数のスコアが関連しているかどうかを確認し、予測を行うためにも使用できます。

2010 年版「Statistics in Plain English」第 3 版、ix-x ページ。

記述統計

記述統計とは、生の観察結果を、理解して共有できる情報にまとめる手法を指します。

通常、記述統計は、共通の期待値 (例: 平均または中央値) やデータの広がり (例: 分散または標準偏差) などのデータサンプルの特性を要約するために、データのサンプルに対して統計値を計算するものと考えられています。

記述統計には、データサンプルを視覚化するために使用できるグラフィカルな手法も含まれる場合があります。チャートとグラフは、観測値の形状や分布、および変数が互いにどのように関連しているかについての定性的な理解に役立ちます。

推論統計

推論統計とは、サンプルと呼ばれるより小さな観測セットからドメインまたは母集団の特性を定量化するのに役立つ方法の総称です。

通常、推論統計は、期待値や広がりの量など、母集団分布から推定される量であると考えられています。

より洗練された統計的推論ツールを使用すると、与えられた仮説に基づいてデータサンプルを観察する可能性を定量化できます。これらのツールは統計的仮説検定と呼ばれることが多く、検定される基礎となる仮説は帰無仮説と呼ばれます。

想定できる仮説の範囲と、テスト結果が正しいという検出力や可能性を高めるためにデータに課す制約を考慮すると、推論統計手法の例は数多くあります。

機械学習プロジェクトにおける統計的手法の使用例

以下では、予測モデリング問題の重要なステップで重要な統計手法の具体的な例をいくつか示します。機械学習手法による予測モデリングの作業を効果的に達成するには、統計的手法が必要であると言っても過言ではありません。

1. 問題のフレーミング

おそらく、予測モデリングの問題において最も影響力のある要因は、問題の枠組みです。

これは、回帰や分類などの問題の種類、および場合によっては問題の入力と出力の構造と種類を選択することです。

問題がどのように表現されているかは必ずしも明らかではありません。ある分野に不慣れな人にとっては、その分野における観察の徹底的な調査が必要になるかもしれません。

従来の視点から問題を見ていないドメイン専門家にとっても、複数の視点からデータを検討することで有用な情報が得られる可能性があります。

問題の分類中にデータを調査するのに役立つ統計的手法には、次のものがあります。

探索的データ分析。要約と視覚化を行って、データのアドホックビューを調査します。
データマイニング。データ内の構造化された関係とパターンを自動的に検出します。

2. データの理解

データを理解するということは、変数の分布とそれらの関係を詳細に理解することを意味します。

この知識の一部はドメインの専門知識から得られるか、解釈するためにドメインの専門知識を必要とする場合があります。それでも、研究分野の専門家と初心者の両方にとって、現場で実際に扱われている現実の問題を実際に観察することは有益です。

データの理解を助けるために、統計的手法の 2 つの大まかな分野が使用されます。彼らです：

要約統計。統計を使用して変数間の分布と関係を要約する方法。
データの視覚化。チャートやグラフなどの視覚的な方法を使用して、変数間の分布と関係を要約する方法。

3. データのクリーニング

現場からの観察は通常、独創的なものではありません。

データはデジタルですが、データの忠実性を損なう可能性のあるプロセスの対象となり、その結果、そのデータを使用する以降のプロセスやモデルに影響を及ぼす可能性があります。

例としては次のようなものがあります:

データの破損。
データが正しくありません。
データ損失。

データの問題を特定して修正するプロセスはデータクリーニングと呼ばれます。

データのクリーニングには統計的手法が使用されます。たとえば、次のようになります。

外れ値の検出。分布内の期待値から遠い観測値を識別する方法。
帰属。観測値内の破損した値や欠損値を修復または入力する方法。

4. データの選択

モデル化する場合、すべての観測値またはすべての変数が関連するとは限りません。

予測を行うために最も役立つ要素にデータを絞り込むプロセスをデータ選択と呼びます。

データ選択に使用される 2 つの統計手法は次のとおりです。

データサンプル。大規模なデータセットからより小さな代表サンプルを体系的に作成する方法。
機能の選択。結果変数と最も相関する変数を自動的に識別する方法。

5. データの準備

通常、データはモデリングに直接使用できません。

多くの場合、問題や学習アルゴリズムの選択されたフレームワークにより適したものにするために、データの形状や構造を変更する何らかの変換が必要になります。

データ準備は統計的手法を使用して実行されました。一般的な例としては次のようなものがあります。

スケーリング比率。標準化および正規化の方法。
コーディング。整数エンコーディングやワンホットエンコーディングなどの方法。
変換する。 Box-Cox 法などのべき乗変換法。

6. モデル評価

予測モデリングの問題の重要な部分は、学習方法を評価することです。

モデルのトレーニング中に確認されなかったデータに対して予測を行う場合、モデルのスキルを推定する必要があることがよくあります。

通常、予測モデルのトレーニングと評価のプロセスを計画することを実験計画と呼びます。これは統計手法の全体的なサブフィールドです。

実験デザイン。予測精度を向上させるために機械学習アルゴリズムを選択するなど、独立変数が結果に与える影響を比較するための体系的な実験を設計する方法。

実験設計の実装の一環として、利用可能なデータを経済的に活用し、モデルのスキルを推定するために、データセットを再サンプリングする方法が使用されました。

再サンプリング方法。予測モデルのトレーニングと評価を目的として、データセットを体系的にサブセットに分割する方法。

7. モデルのハイパーパラメータ設定

特定の機械学習アルゴリズムには通常、ユーザーが特定の問題に合わせて学習方法を調整できるようにするハイパーパラメータのセットがあります。

ハイパーパラメータの構成は、通常、本質的には分析的ではなく経験的であり、さまざまなハイパーパラメータ値がモデルのパフォーマンスに与える影響を評価するには、多くの実験が必要です。

2 つの統計サブフィールドのいずれかを使用して、異なるハイパーパラメータ構成間の結果を解釈および比較します。

統計的仮説検定。結果についての仮定または期待を前提として、結果を観察する可能性を定量化する方法（臨界値と p 値を使用して表現されます）。
推定統計。信頼区間を使用して結果の不確実性を定量化する方法。

8. モデルの選択

特定の予測モデリングの問題に対して、その問題に適した機械学習アルゴリズムが複数存在する場合があります。解決策として方法を選択するプロセスをモデル選択と呼びます。これには、プロジェクト関係者に対する一連の基準や、問題評価方法の見積もりスキルの慎重な説明が含まれる場合があります。

モデル構成と同様に、モデル選択の目的で、2 種類の統計手法を使用して、さまざまなモデルの推定スキルを解釈できます。彼らです：

統計的仮説検定。結果についての仮定または期待を前提として、結果を観察する可能性を定量化する方法（臨界値と p 値を使用して表現されます）。
推定統計。信頼区間を使用して結果の不確実性を定量化する方法。

9. モデルの紹介

最終的なモデルがトレーニングされると、実際のデータに基づいて実際の予測を行うために使用または展開される前に、関係者に提示できます。

最終モデルの提示には、モデルを推定した方法を提示することが含まれます。

推定統計分野の方法を使用すると、許容区間と信頼区間を使用して、機械学習モデルの推定スキルの不確実性を定量化できます。

推定統計。信頼区間を通じてモデルスキルの不確実性を定量化する方法。

10. モデル予測

最後に、最終的なモデルを使用して、実際の結果がわからない新しいデータに対して予測を開始します。

予測を行う一環として、予測の信頼性を定量化することが重要です。

モデル表現プロセスと同様に、信頼区間や予測区間などの推定統計分野の方法を使用して、この不確実性を定量化できます。

推定統計。予測区間を通じて予測の不確実性を定量化する方法。

上記の例から、予測モデリングプロジェクトプロセス全体における統計的手法の重要性がわかります。探索的データ分析、データ要約、およびデータ視覚化を使用すると、予測モデリングの問題を定義し、データをより深く理解するのに役立ちます。統計的手法を使用して、モデリング用のデータをクリーンアップして準備することができます。統計的仮説検定と推定統計は、モデルの選択と最終モデルのスキルと予測の実証に役立ちます。

<<: 人工知能とは何ですか? AIが何なのかまだ知らない人が多い

>>: モノのインターネットの可能性を最大限に引き出す方法