復活したジャンルのトップ10を数えると、必ず気に入るジャンルが見つかる

統計モデルやその他のアルゴリズムに加えて、回帰は機械学習を正常に動作させるための重要な要素です。回帰の核心は変数間の関係を見つけることであり、機械学習はこの関係に基づいて結果を予測する必要があります。

当然のことながら、有能な機械学習エンジニアであれば回帰を真剣に受け止めるべきですが、回帰にはさまざまな種類があります。線形回帰とロジスティック回帰は、多くの場合、最初に学ぶアルゴリズムですが、回帰には多くの種類があります。それぞれのタイプには独自の重要性と最適な状況があります。では、どれを使うべきでしょうか?

この記事では、最も一般的に使用される回帰タイプをわかりやすく紹介し、特定のタスクに遭遇したときにどの回帰タイプを使用すればよいかがわかるようにします。

[[267540]]

1. 線形回帰

線形回帰は最も古典的なタイプの回帰であり、約 250 年前に登場し、通常最小二乗法 (OLS) や線形最小二乗回帰とも呼ばれます。これを使用すると、手動でも小さなデータセットの計算を実行できます。現在、線形回帰は補間によく使用されますが、実際の予測や能動的な分析には適していません。

さらに、最近のデータは構造化が不十分な場合が多く、線形回帰は「遅れ」が生じやすく、線形回帰は精度が高すぎます。モデルが 1 つのデータセットに対しては正確に計算されるが、別のデータセットに対しては大幅に不正確である場合、線形回帰は一般的なパターンを記述するものと想定されており、精度が高すぎるとほとんどの場合に不安定になります。

2. リッジ回帰

リッジ回帰は線形回帰の重要な改良です。誤差許容度が高まり、回帰係数が制限されるため、より現実的な結果が得られ、結果の解釈が容易になります。この方法は、独立変数が相互に相関している場合（多重共線性）のデータ冗長性の問題を解決するために使用されます。

リッジ回帰では、パラメータを評価するために次の式が必要です。

3. Lasso回帰

Lasso 回帰はリッジ回帰に似ていますが、回帰係数はゼロになることがあります (一部のシンボルはモデルから除外されます)。

4. 部分最小二乗法（PLS）

PLS は、独立変数の数に比べて観測値が少ない場合、または独立変数の相関が高い場合に役立ちます。 PLS は主成分分析と同様に、独立変数を削減して相関をなくします。次に、元のデータの代わりにこれらの独立変数に対して線形回帰を実行しました。

PLS は予測モデルの開発を重視しており、変数のスクリーニングには使用されません。 OLS とは異なり、PLS には複数の連続従属変数を含めることができます。 PLS は相関構造を利用して、より小さな効果を識別し、従属変数の多変量パターンをモデル化します。

[[267543]]

出典: Pexels

5. ロジスティック回帰

ロジスティック回帰は、試験薬やクレジットカード取引に関する情報がバイナリ形式（はい/いいえ）で入手できる場合、臨床試験、定量分析、または不正分析で広く使用されています。また、誤差許容度が低いことやデータセットへの依存性など、線形回帰の固有の欠点もありますが、一般的にはロジスティック回帰の方が優れており、計算を簡素化するために線形回帰の一種に簡略化できます。ポアソン回帰などの一部のバージョンは、分類、年齢グループ、さらには回帰ツリーなど、非バイナリ回答が必要な場合に備えて改良されています。

6. 生態学的退行

生態学的回帰は、データがかなり大きな層またはグループに分割され（回帰が各層またはグループに個別に適用される）、たとえば政治学では集計データに基づいて有権者のグループ行動を評価するために使用されます。

しかし、「ビッグデータの呪い」には注意が必要です。何百万もの回帰を数えると、一部のモデルが完全に不正確になる可能性があり、成功したモデルは、高度に（そして人工的に）一貫性のあるノイズの多いモデルによって「打ち負かされる」ことになります。したがって、このタイプの回帰は、極端な事象 (地震) を予測したり、因果関係 (地球温暖化) を研究したりするには適していません。

7. ベイズ線形回帰

ベイズ線形回帰はリッジ回帰に似ていますが、すべての可能性のある誤差が正規分布に従うと想定します。したがって、データの構造に関する基本的な理解を前提とすると、より正確なモデルを取得することが可能になります (特に線形回帰と比較して)。

しかし、実際には、ビッグデータを扱う場合、データに関する初期の知識は正確性を保証するものではないため、この仮定は共役値に基づいており、これは本質的に人工的であり、このタイプの回帰の大きな欠点です。

観測変数の計算:

誤差は正規分布に従います。

8. 分位回帰

分位回帰は、結果に意図的にバイアスを導入するなど、極端なイベントに使用され、モデルの精度が向上します。

9. 最小絶対偏差（LAD）

最小絶対偏差は、最小絶対誤差 (LAE)、最小絶対値 (LAV)、最小絶対残差 (LAR)、絶対偏差の合計、または L1 ノルム条件とも呼ばれ、最小係数法です。ランダム誤差を含む測定から未知の値を評価し、与えられた関数の表現（近似値）を推定するために使用されます。最小絶対偏差は線形回帰に似ていますが、二乗ではなく絶対値を使用します。したがって、計算を複雑にすることなくモデルの精度が向上します。

10. ジャックナイフリサンプリング

ジャックナイフ再サンプリングは、クラスタリングとデータ間引きのための新しい回帰手法です。この方法には、一般的な回帰タイプの欠点がなく、回帰問題に対して近似的でありながら非常に正確でエラーに強いソリューションを提供できます。独立変数が相関している場合や、正規分布に「従わない」場合に使用できます。

このタイプの回帰は、精度を損なうことなく線形回帰に非常に近いため、ブラックボックス型予測アルゴリズムに適しており、データの性質により従来の回帰仮定 (無相関変数、データの正規分布、一定の条件付き分散) が受け入れられない場合でも使用できます。

サンプルが次のとおりであると仮定します。

確率および統計理論では、これは独立した同一分布のランダム変数の集合であると想定されており、調査対象となるデータは次のとおりです。

1949 年にジョン・テューキーが提案したアイデア (「ジャックナイフ法」) は、サンプルに対して多数の研究を行い、1 つの観察結果を除外する (そして以前に除外した結果を返す) というものです。以下に、元のデータから取得したサンプルを示します。

これらの各項には n 個の新しいサンプルがあり、サンプルサイズは n-1 です。これらを使用して、計量経済学的に興味のある統計の値 (サンプルサイズから 1 を引いた値) を計算できます。

得られた統計値は、期待値、中央値、四分位値、散布図、平均二乗偏差など、その分布や分布の特性を理解するために使用できます。

では、どの回帰を使用すればよいのでしょうか?

[[267552]]

モデルに連続従属変数が必要な場合: 線形回帰は最も一般的で、最も簡単に使用できるタイプです。連続的な従属変数がある場合は、まず線形回帰モデルを検討することをお勧めします。ただし、外れ値に対する敏感さや多重共線性など、線形回帰にはいくつかの欠点があることに注意してください。この場合、リッジ回帰、Lasso 回帰、部分最小二乗回帰 (PLS) などのより高度な線形回帰バリアントを使用することをお勧めします。
モデルにカテゴリ従属変数が必要な場合は、ロジスティック回帰を使用する必要があります。このモデルはバイナリ従属変数に最適です。より複雑な分類モデリングに進む前に、このタイプのモデルを使用するのが最適です。カテゴリ変数の一部の値は、特性に基づいて、数えられる個別のグループに分類できます。ロジスティック回帰は従属変数を変換し、最小二乗法ではなく最大尤度推定法を使用してパラメータを推定します。
モデルにカウント従属変数が必要な場合は、ポアソン回帰を使用する必要があります。カウントデータはポアソン分布に従う傾向があるため、ポアソン回帰が適しています。ポアソン変数を使用すると、発生率を計算して評価できます。

<<: Google が新モデル EfficientNet をオープンソース化: 画像認識効率が 10 倍に向上、パラメータが 88% 削減

>>: 注目の話題 | 3年生が独力でAIモデルを解読