わかりやすく解説: 機械学習と統計モデリングの違い

わかりやすく解説: 機械学習と統計モデリングの違い

これらは互いに大きく異なっており、すべてのデータ サイエンティストはその理由と方法を理解する必要があります。


> 出典: SAS Institute の図からヒントを得た

この投稿では、データ サイエンス分野の重要な要素として理解しておくべき、非常に重要な違いについて説明します。 上記のベン図はもともと SAS Institute によって公開されたものですが、この図では統計と機械学習の間に重複が見られず、私の知る限り、これは見落としです。 私は自分の能力と理解の範囲内で図を再現しました。 このベン図は、データ サイエンスのすべての分野の違いと重複を非常に適切に示しています。

データ サイエンスが今や包括的な用語となり、他のすべての用語はデータ サイエンスの分野として説明できると信じたいです。各分野は異なっていても、他の分野と非常によく似ています。

機械学習と統計モデリング: これは、データ サイエンティストや機械学習エンジニア、またはこれらの分野で働き始めた人が直面する昔からの疑問です。 これらの分野を研究していると、機械学習が統計モデリングと密接に関連しているように感じることがあり、この 2 つをどのように区別するのか、どのラベルがどのモデルに最適なのか疑問に思うことがあります。 もちろん、機械学習は昨今流行語になっていますが、だからといって統計モデルを機械学習モデルと分類するわけではありません。なぜなら、一般的な考えに反して、それらは異なるものだからです。違いを詳しく理解しましょう。

この記事の流れは次のようになります。

  • 機械学習と統計モデリングの定義
  • 機械学習と統計モデリングの違い
  • いつ使うのですか?

意味

機械学習

ルールベースのプログラミングに依存せずにデータをインテリジェントなアクションに変換するコンピューター アルゴリズムの開発に関する研究分野は、機械学習と呼ばれます。

統計モデリング

統計モデルは通常、1 つ以上のランダム変数と他の非ランダム変数間の数学的関係として指定されます。 したがって、統計モデルは「理論の形式的な表現」です。

退屈で長ったらしい定義はこれで終わりにして、これら 2 つのドメインの違いを詳しく見ていきましょう。

機械学習と統計モデリングの違い

1. 歴史的および学術的関連性

統計モデリングは、1950 年代頃に機械学習が普及する前から存在していました。 1950 年代に、最初の機械学習プログラムであるサミュエルの検査プログラムが導入されました。

世界中の大学が現在、機械学習や AI プログラムを立ち上げていますが、統計学部を閉鎖するわけではありません。

機械学習は、コンピュータサイエンス部門と独立した AI 部門と連携して教えられており、事前に指定されたルールなしにデータから「学習」することで自ら「知的になる」ことができる予測アルゴリズムの構築を扱います。 上記のMLの定義。

とすれば

統計モデリングは数学科と共同で教えられており、まず異なる変数間の関係を見つけ、次に他の独立変数の関数として記述できるイベントを予測できるモデルの構築に重点を置いています。

2. 不確実性に対する許容度

これは 2 つのドメイン間の重要な違いです。

統計モデリングでは、多くの不確実性の推定値(信頼区間、仮説検定など)に注意する必要があり、特定のアルゴリズムの結果を信頼する前にすべての仮定が満たされる必要があることを考慮する必要があります。 したがって、不確実性に対する許容度は低くなります。

たとえば、線形回帰モデルを構築する場合、モデルの結果を使用する前に、次の仮定が満たされているかどうかを確認する必要があります。

  • 従属変数と独立変数間の線形関係
  • 誤差項の独立性
  • 誤差項(残差)は正規分布する必要がある
  • 平均的な独立性
  • 多重共線性なし
  • 必要な差異

対照的に、ロジスティック モデルを構築する場合は、次の仮定を考慮する必要があります。

  • バイナリ ロジスティック回帰では従属変数がバイナリである必要がありますが、順序ロジスティック回帰では従属変数が順序である必要があります。
  • 観察は互いに独立していなければなりません。
  • 多重共線性なし
  • 独立変数の線形性と対数オッズ

とすれば

機械学習アルゴリズムでは、仮定はほとんど必要ないか、まったく必要ありません。 ML アルゴリズムには、統計的線形性、残差の正規分布などに対する厳密な要件がないため、統計モデルよりもはるかに柔軟性があります。したがって、不確実性に対する許容度が高くなります。

3. データ要件と方法

統計モデルは非常に大きなデータセットでは動作できないため、属性が少なく、観測数がかなり多い管理しやすいデータセットが必要です。 統計モデルでは、属性の数が 10 ~ 12 を超えないようにしてください。これは、過剰適合 (トレーニング データセットではパフォーマンスが良好でも、トレーニング データセットに非常に近いため、未知のデータではパフォーマンスが低下するという望ましくない状況) が発生する可能性が非常に高いためです。

さらに、ほとんどの統計モデルはパラメトリックアプローチ(例:線形回帰、ロジスティック回帰)に従います。

とすれば

機械学習アルゴリズムは学習アルゴリズムであり、学習するには大量のデータが必要です。 したがって、多数の属性と観察を含むデータが必要になります。 大きいほど良いです! ML アルゴリズムには、ある程度のビッグデータが必要です。

さらに、ほとんどの機械学習モデルは、非パラメトリックアプローチ(K近傍法、決定木、ランダムフォレスト、勾配ブースティング法、SVM など)に従います。

いつ使うのですか?

これは主に、以下に説明する要因によって決まります。 理論的なポイントを説明し、例を挙げて説明します。

次のような場合には、統計モデルが第一の選択肢となります。

  • モデルの構築を開始する時点でほとんどの仮定が満たされているため、不確実性は低い
  • データサイズはそれほど大きくない
  • 少数の変数の影響を分離したい場合
  • 全体的な予測における不確実性/限界誤差は問題ない
  • さまざまな独立変数間の相互作用は比較的少なく、事前に指定できます。
  • 高い解釈可能性が求められる

機械学習はより良い選択肢かもしれない

  • 予測される結果に強いランダム性がない場合。例えば、視覚パターン認識では、オブジェクトはEであるか、Eでないかのいずれかでなければならない。
  • 学習アルゴリズムは、無制限の数の正確な繰り返し(たとえば、各文字の 1,000 回の繰り返し、または単語のドイツ語への翻訳)でトレーニングできます。
  • 全体的な予測が目標である場合、独立変数の影響や変数間の関係を説明することは不可能です。
  • 人々は予測の不確実性や選択された予測因子の影響を推定することにあまり興味がない。
  • 膨大な量のデータ
  • 特定の変数の影響を分離する必要はない
  • 解釈可能性が低いため、モデルが「ブラックボックス」になっても問題ない

たとえば、クレジットカード会社と協力し、顧客離れを追跡するモデルを構築したい場合、ビジネス分野の知識に基づいて解釈および拒否できる 10~12 個の予測変数を持つ統計モデルが好まれる可能性が高くなります。この場合、予測の精度よりも解釈可能性の必要性が高いため、ブラック ボックス アルゴリズムは好まれません。

一方、強力なレコメンデーション エンジンを構築したい Netflix や Amazon などのクライアントのために作業している場合、結果の精度の要件はモデルの解釈可能性よりも高くなるため、ここでは機械学習モデルで十分です。

これでこの記事は終わりです。

データマイニングと機械学習の違いと、上位 4 つの機械学習アルゴリズムの詳細については、次の記事を参照してください。

  • わかりやすく解説: 機械学習とデータマイニングの違い
  • 定義、混乱、区別 - すべて説明
  • わかりやすく解説: 4 つの機械学習アルゴリズム
  • 定義、目的、一般的なアルゴリズム、使用例をすべて説明します

機械学習、データサイエンス、統計に関する詳細については、このページをご覧ください。

楽しく学んでください:)

<<:  マイクロソフト、人間の編集者をAIに置き換え、ジャーナリスト数名を解雇

>>:  データサイエンティストと開発者向けの新しいツールであるAmazon SageMakerが中国で利用可能になりました

ブログ    

推薦する

...

...

超強力なTP-Link!北京大学と清華大学が共同で一般AI実験クラスを設立、朱松春氏が指導

史上最強の集団が力を合わせてAI開発に挑む?最近、北京大学の公式Weiboアカウントは、北京大学と清...

クールなデュオ: AI が金融テクノロジーの進化にどのように役立つかを示す 6 つのケース スタディ

中国では、口座間の送金、銀行ローンの申請、取引の実行にインターネットを利用することが住民にとって日常...

百度、「小度スマートスピーカー」を89元の試用価格で発売

「Xiaodu スマートスピーカーの価格についてお話ししましょうか?」 「売ることがそんなに失礼だな...

デザイナーが危険にさらされています! AI広告デザイン分野におけるSuningの探求と実践

[51CTO.comより引用] 人工知能時代の到来とともに、商業デザイン分野における芸術と技術の競争...

銀行、金融、保険業界に革命をもたらす主要技術

不安定な市場環境、規制上のハードル、そしてBrexitは、好況時でも最も回復力のある企業にさえ課題を...

...

自動運転車の安全基準を緩和?米国上院議員の提案は拒否された

最近、ジョー・バイデン米大統領は1740億ドルの電気自動車提案を行った。バイデン氏は、米国民に電気自...

同義千文の720億パラメータモデルがオープンソース化、初の「フルサイズ・フルモード」オープンソース化を実現

12月1日、アリババクラウド同義千文の720億パラメータモデルQwen-72Bがオープンソース化され...

ロボットは人工知能技術に基づいて人間の表情を作る

信頼関係を築く上で、私たちの表情が果たす役割は非常に大きいにもかかわらず、ほとんどのロボットの顔はプ...

優秀な AI 技術者が不足しています。学生たちはこの波にまだ追いつくことができるでしょうか?

ディープラーニングは、機械学習の最も重要な分野の 1 つとして、近年急速に発展しています。膨大なデー...

2020年世界人工知能会議が開催されます! AI が人間の言語の高度な能力をいかにして習得するかをご覧ください。

2020年7月9日、2020年世界人工知能大会(WAIC)クラウドサミットが正式に開幕しました。I...

自動運転の3D視覚認識アルゴリズムを理解するための1万語

自動運転アプリケーションでは、最終的には 3D シーン認識が必要になります。理由は簡単です。車は画像...

2019年ロボカップのハイライト!人間が4対1で勝利し、中国チームが多くの賞を獲得した

[[271788]]今月、オーストラリアのシドニーで2019年ロボカップ(ロボットワールドカップ)が...