機械学習に必要な確率論の基礎

機械学習に必要な確率論の基礎

この記事を読んでいただければ、確率の基本原理を機械学習に応用できる可能性が 100% あります。

機械学習は予測を行うことが目的です。 複数の特徴に基づいて住宅価格を予測することから、単一細胞の配列に基づいて腫瘍が悪性であるかどうかを判断することまで。 これらの予測は、まさに予測であり、出力される値はデータ内で見つかった相関関係から導き出されたものであり、現実世界で発生する決定論的な値やイベントではありません。

したがって、機械学習は、特定の入力または認識された相関関係を前提として、最も可能性の高い、または確率的な結果 (条件付き確率 P(x|y) にほぼ相当) を出力するものと考えることができます。したがって、機械学習をより深く理解するには、確率論をしっかりと理解する必要があります。機械学習を使用する多くの人は、機械学習を「ブラック ボックス」としてのみ使用します (モデルがどのように予測を行うかではなく、予測自体のみを気にします)。一方、機械学習モデルがどのように予測を行うかを理解することに関心を持つ人もおり、ML モデルがどのように学習するかについてのこの理解を利用して、研究しているプロセスの仕組みをより深く理解します。

機械学習における「学習」プロセスの多くは、実際には確率と確率分布から導き出されるため、これらの概念の背後にある数学を理解することで、機械学習をより深く理解できるようになります。

このセクションでは、高校レベルの統計を紹介します。条件付き確率とガウス分布の簡単なバージョンをすでに理解している場合は、次のセクションに進んでください。

飛行機に乗っていて、特定の時間に飛行機が目的地に到着する確率を予測しようとしていると想像してください。 最初に行う必要があるのは、到着時間を変更する不確実性 (変動する変数) の原因を理解することです。 例としては次のようなものがあります:

  • 乱気流
  • 航空交通量の増加
  • 稲妻
  • その他の悪天候

これは、モデル化されるシステムの固有のランダム性と呼ばれます。 その他の種類の不確実性は、不完全な観測可能性から生じます。この場合、これは今後の航空交通の流れを予測できない可能性があることを意味します。 最後に、不完全なモデリングは、多くの変数を除外することを意味します。

上記の各変数はランダム変数で表され、ランダム変数は複数の値を持つことができ、それぞれの発生確率は異なります。

確率密度関数と質量関数は、それぞれ連続関数と離散関数に使用されます。

たとえば、X が特定の乱流量に対するランダム変数である場合、P(X = x) はランダム変数 X がその特定の値を取る確率です。

認知コンピューティングは、…の最も重要な現れであると広く考えられているスキルです。

私たちは、テクノロジーのユーザーとして、それを当然のこととして受け止めるようになりました。 最近ではこれより一般的なものはほとんどありません…

結合確率分布は正規分布に似ていますが、両方の変数のランダム性をカプセル化しようとしている点が異なります。

P(x, y) = P(X = x, Y = y)

本質的には、2 つの変数が非常に特定の値を取る確率です。

さて、飛行機に乗って目的地に到着する確率は 0.000000001 だと言ったら、あなたは信じないでしょう。しかし、目的地に到着するのに十分な燃料があり、飛行機がオーバーホールされていることを考慮する必要があります。

P (目的地に時間通りに到着します | 燃料補給、メンテナンス完了)

これを条件付き確率と呼びます。

配布タイプ

ガウス分布

さて、分布を数学的に表現する方法はたくさんあります。 最も一般的なアプローチは、ガウス分布 (または正規分布) を回転させることです。正規分布は他の分布を近似するために最も頻繁に使用される分布であるため、正規という名前が適切です。

次の式を使用して、方程式を直交座標上にプロットできます。

シグマとμはそれぞれ母集団の標準偏差と平均を表します。

2 つの変数の分布を一度にまたは 3 回プロットしたいとします。 物事はすぐにおかしくなる可能性があります。 2D ガウス分布は次のようになります。

> 2次元多変量ガウス分布、x1とx2はtwの値を表す

> 多変量ガウス分布の方程式

ここでは、1 つの変数の「標準偏差」だけでなく、変数間の関係も理解する必要があります。 言い換えると、飛行機の例に戻ると、乱気流が強いほど、状況が悪くなる可能性が高いということでしょうか? 共分散行列を使用します。共分散は次の式で表されます。

本質的には、2 つのランダム変数の標準偏差を掛け合わせて、それらがどれほど比例しているか (互いにどれほど依存しているか) を確認します。

ラプラス分布

ガウス分布とラプラス分布を丘と考えると、ガウス分布の頂上は滑らかになります。 つまり、ボールを一番上に置くと、加速する前にスムーズに転がり始めます。

一方、ラプラス分布は頂点が非常に急峻であり、頂点に置かれたボールはすぐに加速し始めます。

情報理論は、与えられた値と確率のセットがどれだけの情報を取り込むかに関するものです。

たとえば、あなたが今日呼吸していると言ったら、あなたは驚きますか? おそらく驚かないでしょう。なぜなら、あなたが今週生きている可能性は 99.99999% だからです。 したがって、この情報の情報内容は低いです。 一方、他のものは情報量が多く、確率が小さいほど、より多くの情報を持っています。

たとえば、夏に雪が降るだろうと伝えた場合、その情報は非常に高い情報量を持つことになります。

情報をより正式に定義してみましょう(数学的に何を意味するか)。

特定の確率の負の対数を取ることで情報量を計算できます。

さて、夏に実際に雪が降る可能性は非常に低いです(例えば、雪が降る可能性は 0.0001%、雪が降らない可能性は 99.9999%)。 そのため、多くの情報を得られる可能性は非常に低いです。

> 自己情報量の方程式

含まれる情報の平均量または期待量を予測するには、分布内のイベントから期待される情報量を見つけます。

さて、機械学習において情報はなぜ重要なのでしょうか? 場合によっては、確率分布を入力して、同じランダム変数 x に対して別の出力を取得し、それらの分布が互いにどの程度類似しているかを確認したいことがあります。

分布を入力として受け取る変分オートエンコーダーの場合、いくつかの潜在変数をエンコードしてから分解して元の分布を再作成し、常に新しい分布の情報が元の分布より多いか少ないかを確認します。

新しい分布に高い情報量があるかどうかを確認することで、モデルが何かを「学習」したかどうかを確認できます。 KL (Kullback-Leibler) ダイバージェンスを使用して測定できます。

> Kuller-Leibler ダイバージェンスの式

構造化確率モデル

構造化確率モデル (ノードとエッジを含む) は、複数の変数間の相互作用とそれらに関連付けられた条件付き確率を表すために使用されます。

たとえば、以下の構造化された確率モデルを見てみましょう。 ノードは小文字で表され、有向エッジは条件付き関係を表します。 言い換えると、a と b からの矢印が c を指しているため、c は a と b に依存します。

各変数の条件付き確率の積を調べることで、5 つの変数すべての特定の組み合わせが見つかる確率を表すことができます。

「与えられた」記号の右側の変数は、有向矢印を提供するノードを表します。

無向モデルでは、有向エッジ (矢印付き) は必要ありません。 依存関係を表す変数間に線を引くだけです。

無向モデル内の各クリークは相互接続されたノードで構成されます。 たとえば、上の図では、a、b、c がクリークです。 各グループには固有の特徴が関連付けられており、そこから因子を導き出すことができます。

以上が、機械学習における確率について知っておくべきことすべてです :)

<<:  脳コンピューターインターフェースの新発見!眠りに落ちた後、脳は起きている時の経験を再生する

>>:  AIが世界中の産業に及ぼす影響

ブログ    

推薦する

AI戦争が近づく中、ChatGPTが軍事禁止を解除

先週末、大手人工知能企業OpenAIは、ChatGPTの使用ポリシーから軍事利用を禁止する条項をひっ...

クラウド コンピューティング テクノロジーの進化において、人工知能はどのような役割を果たすのでしょうか?

[[438415]]クラウド コンピューティング業界が成長を続ける中、クラウド コンピューティング...

Volcano Engineがビヨンドのクラシックコンサートを超高解像度で復元、その技術的能力が一般公開される

7月3日夜、TikTokはユニバーサルミュージック傘下のレーベル、ポリグラムと提携し、ボルケーノエン...

大根畑の問題を解決する C# アルゴリズム

ニンジン畑問題を解決するための C# アルゴリズムは何ですか?まずトピックを見てみましょう:仕事へ向...

AI ライティングの限界はどこにあるのでしょうか?

[[248875]]画像出典: Visual China本質的に、この記事は AI ライティングを...

新しいAI技術がアルツハイマー病の薬のターゲット発見に役立つ

人工知能は10年以上にわたって新薬の発見と開発に使用されてきました。しかし、最近の AI 技術と研究...

サイバー犯罪者はAIを利用してマルウェア攻撃ソフトウェアにサンドボックスを作成

2020 年に世界中の企業の 42% がサイバー攻撃を受けたことをご存知ですか? サイバー犯罪者が...

アプリケーション開発コンサルティングは、企業が人工知能を最大限に活用できるよう支援します

適切なコンサルタント チームが、優れたアプリケーションを選択して AI のメリットを発見できるようお...

...

...

...

アヴネットは18年連続で「トップ10ベスト国際ブランドディストリビューター」の称号を獲得しました。

[[284150]] 深圳でグローバル電子部品販売代理店優秀賞授賞式が開催されました。アヴネット中...

...

AI はあらゆる人間の声を再現できます。これはポッドキャストにとって何を意味するのでしょうか?

ポッドキャスティングは、よりカジュアルな形式のオーディオストーリーテリングへと進化しています。複雑な...

...