機械学習に必要な確率論の基礎

機械学習に必要な確率論の基礎

この記事を読んでいただければ、確率の基本原理を機械学習に応用できる可能性が 100% あります。

機械学習は予測を行うことが目的です。 複数の特徴に基づいて住宅価格を予測することから、単一細胞の配列に基づいて腫瘍が悪性であるかどうかを判断することまで。 これらの予測は、まさに予測であり、出力される値はデータ内で見つかった相関関係から導き出されたものであり、現実世界で発生する決定論的な値やイベントではありません。

したがって、機械学習は、特定の入力または認識された相関関係を前提として、最も可能性の高い、または確率的な結果 (条件付き確率 P(x|y) にほぼ相当) を出力するものと考えることができます。したがって、機械学習をより深く理解するには、確率論をしっかりと理解する必要があります。機械学習を使用する多くの人は、機械学習を「ブラック ボックス」としてのみ使用します (モデルがどのように予測を行うかではなく、予測自体のみを気にします)。一方、機械学習モデルがどのように予測を行うかを理解することに関心を持つ人もおり、ML モデルがどのように学習するかについてのこの理解を利用して、研究しているプロセスの仕組みをより深く理解します。

機械学習における「学習」プロセスの多くは、実際には確率と確率分布から導き出されるため、これらの概念の背後にある数学を理解することで、機械学習をより深く理解できるようになります。

このセクションでは、高校レベルの統計を紹介します。条件付き確率とガウス分布の簡単なバージョンをすでに理解している場合は、次のセクションに進んでください。

飛行機に乗っていて、特定の時間に飛行機が目的地に到着する確率を予測しようとしていると想像してください。 最初に行う必要があるのは、到着時間を変更する不確実性 (変動する変数) の原因を理解することです。 例としては次のようなものがあります:

  • 乱気流
  • 航空交通量の増加
  • 稲妻
  • その他の悪天候

これは、モデル化されるシステムの固有のランダム性と呼ばれます。 その他の種類の不確実性は、不完全な観測可能性から生じます。この場合、これは今後の航空交通の流れを予測できない可能性があることを意味します。 最後に、不完全なモデリングは、多くの変数を除外することを意味します。

上記の各変数はランダム変数で表され、ランダム変数は複数の値を持つことができ、それぞれの発生確率は異なります。

確率密度関数と質量関数は、それぞれ連続関数と離散関数に使用されます。

たとえば、X が特定の乱流量に対するランダム変数である場合、P(X = x) はランダム変数 X がその特定の値を取る確率です。

認知コンピューティングは、…の最も重要な現れであると広く考えられているスキルです。

私たちは、テクノロジーのユーザーとして、それを当然のこととして受け止めるようになりました。 最近ではこれより一般的なものはほとんどありません…

結合確率分布は正規分布に似ていますが、両方の変数のランダム性をカプセル化しようとしている点が異なります。

P(x, y) = P(X = x, Y = y)

本質的には、2 つの変数が非常に特定の値を取る確率です。

さて、飛行機に乗って目的地に到着する確率は 0.000000001 だと言ったら、あなたは信じないでしょう。しかし、目的地に到着するのに十分な燃料があり、飛行機がオーバーホールされていることを考慮する必要があります。

P (目的地に時間通りに到着します | 燃料補給、メンテナンス完了)

これを条件付き確率と呼びます。

配布タイプ

ガウス分布

さて、分布を数学的に表現する方法はたくさんあります。 最も一般的なアプローチは、ガウス分布 (または正規分布) を回転させることです。正規分布は他の分布を近似するために最も頻繁に使用される分布であるため、正規という名前が適切です。

次の式を使用して、方程式を直交座標上にプロットできます。

シグマとμはそれぞれ母集団の標準偏差と平均を表します。

2 つの変数の分布を一度にまたは 3 回プロットしたいとします。 物事はすぐにおかしくなる可能性があります。 2D ガウス分布は次のようになります。

> 2次元多変量ガウス分布、x1とx2はtwの値を表す

> 多変量ガウス分布の方程式

ここでは、1 つの変数の「標準偏差」だけでなく、変数間の関係も理解する必要があります。 言い換えると、飛行機の例に戻ると、乱気流が強いほど、状況が悪くなる可能性が高いということでしょうか? 共分散行列を使用します。共分散は次の式で表されます。

本質的には、2 つのランダム変数の標準偏差を掛け合わせて、それらがどれほど比例しているか (互いにどれほど依存しているか) を確認します。

ラプラス分布

ガウス分布とラプラス分布を丘と考えると、ガウス分布の頂上は滑らかになります。 つまり、ボールを一番上に置くと、加速する前にスムーズに転がり始めます。

一方、ラプラス分布は頂点が非常に急峻であり、頂点に置かれたボールはすぐに加速し始めます。

情報理論は、与えられた値と確率のセットがどれだけの情報を取り込むかに関するものです。

たとえば、あなたが今日呼吸していると言ったら、あなたは驚きますか? おそらく驚かないでしょう。なぜなら、あなたが今週生きている可能性は 99.99999% だからです。 したがって、この情報の情報内容は低いです。 一方、他のものは情報量が多く、確率が小さいほど、より多くの情報を持っています。

たとえば、夏に雪が降るだろうと伝えた場合、その情報は非常に高い情報量を持つことになります。

情報をより正式に定義してみましょう(数学的に何を意味するか)。

特定の確率の負の対数を取ることで情報量を計算できます。

さて、夏に実際に雪が降る可能性は非常に低いです(例えば、雪が降る可能性は 0.0001%、雪が降らない可能性は 99.9999%)。 そのため、多くの情報を得られる可能性は非常に低いです。

> 自己情報量の方程式

含まれる情報の平均量または期待量を予測するには、分布内のイベントから期待される情報量を見つけます。

さて、機械学習において情報はなぜ重要なのでしょうか? 場合によっては、確率分布を入力して、同じランダム変数 x に対して別の出力を取得し、それらの分布が互いにどの程度類似しているかを確認したいことがあります。

分布を入力として受け取る変分オートエンコーダーの場合、いくつかの潜在変数をエンコードしてから分解して元の分布を再作成し、常に新しい分布の情報が元の分布より多いか少ないかを確認します。

新しい分布に高い情報量があるかどうかを確認することで、モデルが何かを「学習」したかどうかを確認できます。 KL (Kullback-Leibler) ダイバージェンスを使用して測定できます。

> Kuller-Leibler ダイバージェンスの式

構造化確率モデル

構造化確率モデル (ノードとエッジを含む) は、複数の変数間の相互作用とそれらに関連付けられた条件付き確率を表すために使用されます。

たとえば、以下の構造化された確率モデルを見てみましょう。 ノードは小文字で表され、有向エッジは条件付き関係を表します。 言い換えると、a と b からの矢印が c を指しているため、c は a と b に依存します。

各変数の条件付き確率の積を調べることで、5 つの変数すべての特定の組み合わせが見つかる確率を表すことができます。

「与えられた」記号の右側の変数は、有向矢印を提供するノードを表します。

無向モデルでは、有向エッジ (矢印付き) は必要ありません。 依存関係を表す変数間に線を引くだけです。

無向モデル内の各クリークは相互接続されたノードで構成されます。 たとえば、上の図では、a、b、c がクリークです。 各グループには固有の特徴が関連付けられており、そこから因子を導き出すことができます。

以上が、機械学習における確率について知っておくべきことすべてです :)

<<:  脳コンピューターインターフェースの新発見!眠りに落ちた後、脳は起きている時の経験を再生する

>>:  AIが世界中の産業に及ぼす影響

ブログ    

推薦する

[文字列処理アルゴリズム] 最長連続文字とその出現回数のアルゴリズム設計とCコード実装

1. 要件の説明文字列を入力し、文字列内で連続する最長の文字と、その文字が連続して出現する回数を検索...

C# DES アルゴリズムの暗号化と復号化の例の分析

C# DES アルゴリズムの暗号化と復号化は、開発のセキュリティ部分として、その使用方法を理解する必...

顔の照明を自由に編集:ジェネレーティブモデルに基づく3Dリライティングシステムがリリース

実際の人間の顔の 3 次元モデリング、合成、再照明は、コンピュータ グラフィックスの分野で高い応用価...

医療と人工知能の相互統合が眼科治療に新たな窓を開く

目は体表にある器官の中で画像データを取得しやすい器官であり、その健康状態は人々の生活や学習に与える影...

5分で強力で使いやすいディープラーニング環境を構築

ディープラーニング プロジェクトに適した環境を構築するのは簡単な作業ではありません。処理すべきことは...

物流における人工知能の重要な役割

今日のグローバル社会は絶えず変化しています。 この文脈において、人工知能は物流業務システムの方向性を...

年末ですね!ファーウェイクラウド開発者デーと2023イノベーションサミットが成功裏に開催されました

12月20日、ファーウェイクラウド開発者デーと2023イノベーションシェアリングサミットが成功裏に開...

RedditユーザーがAppleのCSAMツールをリバースエンジニアリングし、アルゴリズムがすでに存在していることを発見

[[418306]]今月初め、アップルはエコシステム全体に新たな子どもの安全機能を導入すると発表し...

Tフロントライン | ZuoyebangのチーフAIアーキテクト、王燕氏との独占インタビュー:AIの包括性は革新的な思考にある

ゲスト | 王 燕著者 | ユン・チャオコラム紹介: 「T最前線」は、51CTOコンテンツセンターが...

AIとローコード/ノーコードのすべきこと、すべきでないこと

ローコードとノーコードは、新しいアプリケーションやサービスを簡単に作成できるようにして、プログラマー...

ブロックチェーンにおける主流のコンセンサスアルゴリズムの簡単な分析

プルーフ・オブ・ワーク最も一般的なブロックチェーンのコンセンサス アルゴリズムは、ビットコインのプル...

...

自動運転分野でファーウェイの「異常運転行動」関連特許が認可:認識精度向上が可能

昨日12月8日、華為技術有限公司は「異常運転行動を識別する方法」の特許権を取得し、公開番号はCN11...

...

2万本の論文が過去5年間の機械学習の変遷を物語る

[[188225]] arXiv.org は、物理学、数学、コンピューターサイエンス、生物学の論文の...