機械学習の仕組み

機械学習の仕組み

機械学習は、データセットに基づいて予測モデルを構築し、重要な意思決定に使用できる有用な回答を提供するデータ分析手法です。 統計的概念と数学的手法を使用して、Python や R などのコーディング言語を通じてビッグデータを処理します。機械学習の技術にはさまざまなものがあります。 ただし、この記事では回帰と分類について説明します。

戻る

回帰は連続した数値データを予測するために使用されます。 これは、2 つの変数と少数の要素を含む小さなデータセットに手動で適用できる、広く使用されている統計概念です。 複数の変数と要素の読み込みを含む大規模なデータセットを扱う場合、データセットを含むファイルをコーディング プラットフォームにアップロードし、一連のコードを実行することで回帰が行われます。

線形回帰、多項式回帰、多重線形回帰、多変量多項式回帰など、さまざまな回帰手法があります。 従属変数を予測するために独立変数がいくつ使用されるかによって、その適用は異なります。 次に、回帰に関連するいくつかの便利な用語を示します。

回帰方程式

回帰方程式は、独立変数を使用して従属変数を予測する方程式です。 それぞれ線形回帰、多項式回帰、多重線形回帰、多重多項式回帰を表すには、y = mx + b、y = ax^n + bx^n-1 + … + c、y = ax^n + bx^n-1 + … + c、y = ax^n + bx^n-1 + … + c と表すことができます。

回帰係数

回帰係数は、線形回帰または多重線形回帰に適用される定数値です。 従属変数に対して増加または減少の影響を与える可能性があります。 年齢や身長 (cm) などの変数を使用して体重 (ポンド) を決定する例を見てみましょう。

線形回帰の場合、これは体重 = 5*年齢+30 と表すことができます。この式は、年齢が 1 歳増えるごとに体重が 5 ポンド増えることを示しています。

多重線形回帰の場合、体重 = 4 年齢 + 2.5 身長 + 30 と表すことができます。この式は、年齢が 0 であると仮定すると、体重が 1 cm 増加するごとに 2.5 増加することを意味します。 身長はゼロ、体重は4ポンド増加、年齢は1歳増加します。

Y切片

回帰係数または x がゼロに設定されている場合、これは従属変数の値として記述できます。 y = c と表すことができます。 これは、回帰直線が Y 軸と交差する点でもあります。

トレーニングモデルとテストモデル

データセットは、トレーニング データセットとテスト データセットの 2 つのグループに分かれています。 データセットをいくつかのグループに分割した後、トレーニング データセットを使用して回帰方程式が生成されます。 開発が完了すると、回帰方程式がテスト データセットに適用され、予測が作成されます。

予測値を実際の値と比較して、精度をテストできます。 予測を評価するために使用される指標は次のとおりです。

決定係数

r 二乗の決定係数は、回帰方程式がどれだけ正確に予測を行うかを解釈するための便利なメカニズムです。 これは予測値と実際の値を比較することによって行われます。 独立変数によって説明される従属変数の割合を示す値を提供します。 R 二乗スコアを改善するには、ある回帰スタイルから別の回帰スタイルに切り替えることができます。

相関係数

これは、実際の結果と予測結果の値の関係を説明する、非常に便利な値です。 範囲は -1 ~ 1 です。相関係数が負の場合、予測される結果は増加する一方で実際の結果は減少し、逆もまた同様です。 正の場合、実際の結果が増加するにつれて予測結果も増加します。 値が |1| に近いほど、関係は完璧になります。

二乗平均平方根誤差

平均二乗誤差は、各データ ポイントの予測値と実際の値の間の差の二乗の合計の平均です。 この値は、データ セットの平均が回帰直線にどれだけ近いかを示す尺度です。 この値の平方根は二乗平均平方根誤差と呼ばれます。 目標は、RMS エラーを 0 に近づけて最適な適合を得ることです。

分類

分類は、カテゴリデータセットを予測するために使用できるもう 1 つの優れた機械学習アルゴリズムです。 独立変数は連続的またはカテゴリ的であるのに対し、従属変数はカテゴリ的です。 分類は、はい (1) またはいいえ (0) の回答を提供するモデルを構築するために使用できます。また、ユーザーの目的に応じて複数のカテゴリ (0、1、2…) を構築するために使用することもできます。 回帰と同様に、トレーニング データセットとテスト データセットを使用します。

ローン申請ステータスの予測に関する以前のプロジェクトの結果を使用して、K 近傍法や決定木分類器などの分類方法とその指標について以下に説明します。

K 最近隣

これは、特定のデータ ポイントに最も近いデータ ポイントを使用して、そのデータ ポイントが属するカテゴリを予測する分類方法です。 各データ ポイントの独立変数と従属変数を評価し、それらを最も近い k 個の変数と比較することにより、トレーニング データセットを使用して予測モデルを作成します。 モデルはテスト データセット内の各データ ポイントのクラスを予測するために使用され、その精度が測定されます。

k を 1 に設定して複数の反復を実行し、その精度を測定して、ピーク精度に達するまで k の値を増やします。

この k-max 値予測モデルは、予測モデルをトレーニング モデルに適合させ、その予測モデルを使用してテスト データセット内のデータ ポイントを分類することで、データセットをさらに分析するために使用できます。

決定木分類器

決定木分類器は、K 近傍法とは異なるアプローチを使用します。 まず、トレーニング モデル内のすべてのデータ ポイントを調べて独立変数を評価し、その変数の値に基づいて、はい (1) またはいいえ (0) のラベルを割り当てます。 次に、前の 1 つ以上の独立変数の出力に基づいて追加の独立変数を実行し、予測結果として Y または N の最終ラベルを生成します。

決定木分類器のトレーニング データセットから生成された予測モデルは、テスト データセット内のデータ ポイントのクラスを予測するために使用できます。

混同マトリックス

混同行列は、正しく予測された値の数と誤って予測された値の数を示す分類に使用される表です。 エラーには、タイプ I エラーとタイプ II エラーの 2 種類があります。タイプ I のエラーは偽陽性、つまり陽性として分類される負の値と見なされます。タイプ II のエラーは偽陰性であり、正の値が負として分類されるものです。

分類パフォーマンスは、精度、再現率、正確度などの指標を使用して混同行列で計算できます。

正確な

精度は、記録された正の値のうち実際に正の値がいくつあるかを確認するために使用されます。 式は TP /(TP + FP) です。 上記の混同行列の場合、精度は119 / (119 + 54) = 0.69です。

想起

リコールは真陽性率とも呼ばれます。 真の正の値と実際の正の値の比率を計算します。 式は TP /(TP + FN) です。 上記の混同行列は119 / (119 + 10) = 0.92であることを思い出してください。

マイナスの実質金利

真陰性率は、真陰性と実際の陰性の割合を測定します。 式はTN /(TN + FP)です。 上記の混同行列の場合、9/(9+54)=0.15 となります。

正確さ

精度は、正確に記録されたすべての値の合計を、記録されたすべての値の合計で割ったものです。 式は (TP + TN) / (TP + TN + FP + FN) です。 上記の混同行列の精度は、(119 + 9)/(119 + 9 +54 + 10) = 0.67 です。

F-1スコア

F-1 スコアは r 二乗スコアに似ています。 独立変数が従属変数をどの程度説明するかを測定します。 これは予測値と実際の値を比較することによって行われます。 1 に近いほど、予測モデルは強力になります。 さまざまな分類方法の予測モデルの F-1 スコアを測定して、どの分類方法を使用するかを決定できます。

結論は

機械学習は、私たちが日常の活動において効果的な意思決定を行えるように導いてくれる分野です。 これは、将来、人間や企業が賢明な意思決定を行うのに非常に役立つでしょう。 たとえば、分類によって特定のビジネスに投資するかどうかがわかりますが、回帰によってそのビジネスに投資した場合にどれくらいの利益が得られるかがわかります。

<<:  ハーバード大学とMITが協力し、新型コロナウイルスに遭遇すると自動的に光るスマートマスクを開発

>>:  機械学習に必須: TensorFlow を使用するための 11 のヒント

推薦する

情報フローシナリオにおけるAIGCの実践

1. パーソナライズされたタイトル生成パーソナライズされたタイトル生成とは、ユーザー コンテンツとパ...

...

...

ディープラーニング研究: コードと実験を効率的に管理するには?

回答1著者: イェ・シャオフェイリンク: https://www.zhihu.com/questio...

ストーリーを伝えれば、動画が編集されます。AI による動画編集の自動化により、パンダの目を持つ編集者が解放されます。

ビデオ編集は、編集者が適切なフレームを見つけてつなぎ合わせる必要がある、時間と労力を要する作業です。...

ChatGPTが企業の収益向上にどのように役立つか

ここ数か月、生成型人工知能(ChatGPT)に関するニュースがほぼ毎日のように報道されています。突然...

アルゴリズムエンジニアも35歳でこのハードルにぶつかるのでしょうか?

[[327792]]はじめに: この質問は、実はほとんどのプログラマーに当てはまります。国内のイン...

「アルゴリズムとデータ構造」二分木の美しさ

[[349809]]序文今回レビューする内容は、データ構造トピックの「ツリー」です。ツリーなどのデー...

ゼロサンプルのパフォーマンスが小サンプルのパフォーマンスを上回り、Google の新しい 1370 億パラメータ モデルは GPT-3 よりも強力

[[422681]] NLP の分野では、事前トレーニングの微調整とプロンプトチューニングの手法に...

...

GenAIの有効性に影響を与える主な問題

企業は GenAI をビジネスに適用しようとすると、多くの抵抗と予想外の変更管理の問題に直面します。...

...

AutoML 2.0: データ サイエンティストは時代遅れか?

AutoML はここ数年で急速に成長しました。そして、景気後退が避けられない状況となった今、人工知...

機械学習では自然言語理解を解決できない

経験とデータに基づく革命統計革命は 1990 年代初頭に人工知能 (AI) に広がり、2000 年代...