「回帰分析」は本当に「機械学習」なのでしょうか?

「回帰分析」は本当に「機械学習」なのでしょうか?

「統計」と「機械学習」の違いは何ですか?

これは数え切れないほど議論されてきた質問です。この問題については多くの記事があり、それが良いことなのか悪いことなのかについては意見が分かれています。しかし、「統計」と「機械学習」の議論では、人々は「森は見ても木は見ていない」ことが多いように思います。

[[194029]]

Aatash Shah 氏はかつて自身の記事でこれを次のように定義しました。

  • 「機械学習」とは、プログラム的なルールに依存せずにデータから直接学習できるアルゴリズムです。
  • 「統計モデルの構築」とは、数式を使用してデータ変数間の関係を表すことを意味します。

Shah 氏は、「機械学習」と「統計モデル」を、それぞれの目的の違いに基づいて定義しています。彼は「機械学習」を実践的な活動、「統計モデル」を抽象的な理論とみなしています。 (ここで言う「統計モデル」とは、正確には「統計」のことです。)しかし、実際には「統計」と「機械学習」の関係はもっと複雑で、単に概念を定義するだけで両者の関係を分析するだけでは十分ではありません。

この関係についての哲学的思考と研究はすぐに次のような疑問へと発展しました。

  • 「機械学習」は「統計」に基づいていますか?
  • 「機械学習」は単なる従来の統計の集合体なのでしょうか?
  • これら 2 つの概念には共通点がありますか? 比較的統一された概念はありますか?

このように構築され設計された、いわゆる高レベルの方法は、実際には間違っており、時間の無駄であると思います。

では、この場合、「回帰分析」は「機械学習」の特別な形式なのでしょうか?

KDnuggets の社長である Gregory Piatetsky-Shapiro 氏は、この質問に対して素晴らしい反論をしており、回帰は機械学習と呼ぶには単純すぎるかもしれないという誤解を払拭しています。

一部の機械学習研究の専門家の見解では、従来の「線形回帰」は、真の「機械学習」と呼ぶには単純すぎるかもしれないが、「統計」としてしか考えられない。しかし、「機械学習」と「統計」の境界線は実は非常に曖昧で恣意的であると私は思います。たとえば、C4.5 決定木アルゴリズムはそれほど複雑ではありませんが、「機械学習」に分類されます。

実際、「リッジ回帰」、「最小角度回帰」、LASSO など、より高度で洗練されたアルゴリズムが線形回帰から派生しており、これらのアルゴリズムのほとんどは機械学習の専門家によって使用されています。したがって、これらのアルゴリズムをより深く理解するには、まず基本的な「線形回帰」を理解する必要があります。

したがって、「線形回帰」はすべての機械学習研究者にとって必須のツールの 1 つになるはずです。

Diego Kuonen 氏と CStat PStat CSci 氏は、ともにスイスのジュネーブ大学の「データサイエンス」教授です。彼らはそれぞれ「Data Consulting Institute」の CEO と CAO です。彼らはこの問題に関して次のような見解を示しています。

すべての教師あり分析モデル (統計、データ サイエンス、機械学習など) は、モデルの出力の分布がモデルの入力にどのように依存するかについて仮定を立てます。分析モデルが仮定を行わない場合、観測されたデータ以外に合理的な分析の根拠は存在しません。

したがって、正しいアプローチは、「有効なモデル」のみに基づいて結論を導き出すことです (「有効なモデル」とは、仮定が検証されたモデルを指します)。

データを理解するという最終目標を達成するには、「統計モデル」と「機械学習モデル」という 2 つのツールを使用する必要があります。 Diego は、どのツールが使用されるかについてはあまり気にしていないようですが、むしろ、ツールが適切に使用されているかどうか、効果的なモデルが構築されているかどうか、そして、データに対する最終的な理解が深まっているかどうかを重視しているようです。統計と機械学習の関係についての議論は、最終的な結論が無効なモデルに基づいている場合、意味がありません。

私は個人的に長年これらの問題について考えてきました。 「線形回帰」や「決定木」のような単純な概念も「機械学習」とみなせることに初めて気づいたとき、私は衝撃を受けました。なぜなら、それ以前の私の勉強では、誰も私に「機械学習」という言葉を言ったことがなかったからです。私と同じレベルの専門知識を持つ人なら誰でも同じように反応するだろうと思っていました。

「データ研究」と「機械学習」の関係についてよく考えてみると、データ研究は実は研究プロセスであり、機械学習はこの研究を推進するためのツールであると考えます。したがって、「統計」の現代的な定義は、「統計」はデータから学び、不確実性を測定、制御、伝達できる科学であるということです。私は、これらの複雑な概念よりも、「統計研究」の定義を「大規模で高速な統計データ分析」に簡略化することを好みます。

簡単に言えば、機械学習には 3 つの要素があります。1 つ目はデータ、2 つ目はモデルまたは推定関数、3 つ目は最小限に抑える必要のあるコストまたは損失です。機械学習の存在意義のプロセス全体は、実際には、類似の統計的問題を使用して損失関数を最適化するプロセスです。

さて、元の質問に戻りましょう。「回帰分析」の最も基本的な形式である「線形回帰」は、これらの要件を満たしているでしょうか?

もちろん、この問題は完全に解決されたわけではありません。次のようなシナリオを想像してください。データ ポイントが 10 個あり、最初の 9 つのデータ ポイントの結果をプロットし、10 番目のデータ ポイントにテストを戻してもらい、自分で方程式を解いてテスト結果を手作業で描画します。これは機械学習と見なされますか? そうでない場合 (明らかに機械学習ではありません)、「機械学習」とは正確には何でしょうか?

上記の見解とは異なり、マイク・ヨーマンズはかつて自身の記事の中で、機械学習は単に統計学の一分野として捉えるべきだと述べました。クオネン氏もこの見解に同意しており、「データ研究は実際には規模と速度の面での統計である」と言う人もいるかもしれないが (Daryl Pregibon、1999)、そのアプローチには違いがあると指摘しています。私はキャノン・グレイ社の社長ケビン・グレイ氏にアドバイスを求めたが、彼はそれを議論する必要があるのか​​と疑問に思い、話題を別の問題へと導いた。

この記事にご協力いただいた皆様、特に執筆過程でご意見やフィードバックをいただいたDiego Kuonen教授に感謝申し上げます。

<<:  ディープラーニングの19の格闘技を見てください。絶滅危惧動物の保護にも役立ちます

>>:  18年経った今、マイクロソフトの自然言語処理技術はどうなっているのでしょうか?

ブログ    
ブログ    
ブログ    

推薦する

...

大学生が、1時間で600本の鉄筋を結束できる鉄筋結束ロボットを発明。建設労働者は再び失業することになるのだろうか?

人工知能の発展により、肉体労働のみに頼っている労働者の中には、徐々に失業に直面している者もいる。例え...

AI インフラストラクチャ スタックをわかりやすく解説し、AI プロジェクトをより迅速に展開

[51CTO.com クイック翻訳] 多くの企業が AI への投資を増やすにつれて、開発者とエンジニ...

...

インメモリコンピューティング技術に基づく人工知能チップが利用可能:パフォーマンスは数十から数百倍高速

[[249742]]人工知能システム用の新しいコンピュータチップが利用可能になりました。プリンストン...

...

AI の透明性とは何ですか? また、なぜそれが必要なのですか?

AI テクノロジーを利用する組織はますます増えていますが、多くの企業はまだ AI テクノロジーの仕...

嫌がらせ電話をかけてきた相手は実はAIロボットだった?

「ネットワークの向こう側に犬がいるかどうかは分からない」 - テクノロジーの発展により、同じ原理が...

AI を活用した検索と推奨はどれほど強力でしょうか?

著者 | ユン・チャオユーザーと情報の間には、検索か推奨のいずれかが存在します。百度の執行副社長であ...

...

金融分野における機械学習の4つの利点と5つの応用

[[198507]]誰の生活も金融から独立して存在することはできません。テクノロジーの発展により人々...

...

ディープラーニング Pytorch フレームワーク Tensor

[[433522]] 1 テンソル刈り込み操作テンソル内の要素を範囲でフィルタリングする勾配クリッ...

マスク氏:ニューラリンクが初めて人体にチップを埋め込み、製品化へ

マスク氏の脳コンピューターインターフェース企業ニューラリンクがついに人間に対する臨床研究を開始した。...