知っておくべき10の機械学習アルゴリズム

機械学習は、確率論、統計、近似理論、凸解析、アルゴリズム複雑性理論など、多くの分野が関わる多分野にわたる学際的な科目です。コンピュータが人間の学習行動をシミュレートまたは実装して新しい知識やスキルを獲得し、既存の知識構造を再編成してパフォーマンスを継続的に向上させる方法を研究することに特化しています。

機械学習・人工知能の分野が今後ますます人気が高まることは間違いありません。ビッグデータは現在テクノロジー業界で最もホットなトレンドであるため、機械学習は非常に強力であり、大量のデータに基づいて予測を行ったり、推奨事項を計算したりすることができます。大量のデータでトレーニングされたディープラーニングアルゴリズムを使用して、人間の言語を理解し、自動的に言語を生成できるモデルを構築します。 ChatGPT、Wenxinyiyan などはすべて機械学習の優れた製品です。

機械学習における大規模モデルの知能は、もちろん、優れた機械学習アルゴリズムと切り離すことはできません。以下では、主に一般的な機械学習アルゴリズムの基礎知識について説明します。

機械学習アルゴリズムは、教師あり学習、教師なし学習、強化学習の 3 つの主要なカテゴリに分けられます。教師あり学習は、データセット (トレーニングセット) に属性 (ラベル) があるが、その属性 (ラベル) が欠落しており、他のインスタンスに対して予測を行う必要がある場合に役立ちます。教師なし学習は、ラベルのない特定のデータセット（項目が事前に割り当てられていない）内の暗黙的な関係を発見することが課題である場合に役立ちます。強化学習は、これら 2 つの両極端の中間に位置します。つまり、各予測ステップまたはアクションには何らかの形のフィードバックがありますが、正確なラベルやエラーメッセージはありません。

1. 主成分分析（PCA）/SVD

PCA は、ベクトルで構成されるデータセットのグローバルプロパティを学習するための教師なし手法です。ここでは、データポイントの共分散行列を分析して、どの次元 (主に) / データポイント (時々) がより重要であるか (つまり、次元間の分散は高いが、他の次元との共分散は低い) を理解します。行列の上位 PC について考える 1 つの方法は、最も高い固有値を持つ固有ベクトルを考慮することです。 SVD は本質的には順序付けられたコンポーネントを計算する方法でもありますが、それを取得するためにポイントの共分散行列は必要ありません。

2. 最小二乗法と多項式フィッティング

大学で数値解析を勉強していたとき、直線や曲線を点に当てはめて方程式を導いていました。これらを使用して、機械学習における低次元の小さなデータセットに曲線を当てはめることができます。 (大規模なデータや次元数の多いデータセットの場合は、過剰適合してしまう可能性がありますが、心配する必要はありません)。 OLS には閉じた形式のソリューションがあるため、複雑な最適化手法を使用する必要はありません。

このアルゴリズムは単純な曲線や回帰を当てはめるために使用できることは明らかである。

制約付き線形回帰

最小二乗法は、データ内の外れ値、浮遊フィールド、ノイズと混同される可能性があります。したがって、データセットに適合する線の分散を減らすための制約が必要です。正しいアプローチは線形回帰モデルを適合させることです。これにより、重みが予期しない動作をしないことが保証されます。モデルには、L1 ノルム (LASSO) または L2 (リッジ回帰)、あるいはその両方 (弾性回帰) を設定できます。平均二乗損失が最適化されます。

これらのアルゴリズムを使用して、制約付きの回帰線を適合させ、過剰適合を回避し、モデル内のノイズの多い次元をマスクします。

3. Kはクラスタリングの略

これは教師なしクラスタリングアルゴリズムです。ベクトル形式のデータポイントのセットが与えられると、それらの間の距離に基づいてポイントのクラスターを形成できます。これは、クラスターの中心を反復的に移動して、各クラスターの中心にポイントを結合する期待値最大化アルゴリズムです。アルゴリズムが受け取る入力は、生成されるクラスターの数と、クラスターに収束しようとする反復回数です。

名前からわかるように、このアルゴリズムはデータセット内にK個のクラスターを作成するために使用できます。

4. ロジスティック回帰

ロジスティック回帰は、重みを適用した後に非線形性（主にシグモイド関数、tanh も使用可能）を適用した制約付き線形回帰であり、出力が +/- クラス（シグモイドの場合は 1 と 0）に近くなるように制約されます。クロスエントロピー損失関数は、勾配降下法を使用して最適化されます。初心者向け注意: ロジスティック回帰は回帰ではなく分類に使用されます。ロジスティック回帰は、単層ニューラルネットワークとして見ることもできます。ロジスティック回帰は、勾配降下法や L-BFGS などの最適化手法を使用してトレーニングされます。 NLP の人々はこれを最大エントロピー分類器という名前でよく使用します。

シグモイドは次のようになります。

LR を使用して、シンプルですが非常に強力な分類器をトレーニングします。

5. SVM（サポートベクターマシン）

SVM は、一般的に使用される教師あり学習アルゴリズムです。線形/ロジスティック回帰のような線形モデルです。違いは、その中心的な考え方は、データを高次元の特徴空間にマッピングし、この空間内で分類に最適な超平面を見つけることです。超平面は n-1 次元の線形部分空間です。ここで、n は特徴の次元です。 SVM は、分類の堅牢性を向上させるために、特徴空間内で最大マージンを持つ超平面を最適な分類境界として選択します。

SVM は、バイナリ分類およびマルチ分類の問題に適しています。マージンを最大化することで最適な分類超平面を見つけ、高次元空間における非線形問題を処理する能力を備えています。実際には、適切なカーネル関数とパラメータ設定を選択することが SVM のパフォーマンスにとって重要です。

6. フィードフォワードニューラルネットワーク

これらは基本的に多層ロジスティック回帰分類器です。非線形性によって分離された多数の重み層 (シグモイド、tanh、relu + softmax、そして新しいクールな selu)。別名は多層パーセプトロンです。 FFNN は、分類や教師なし特徴学習のためのオートエンコーダーとして使用できます。

多層パーセプトロン

オートエンコーダとしてのFFNN

FFNNは分類器を訓練したり、オートエンコーダとして特徴を抽出したりするために使用できる。

7. 畳み込みニューラルネットワーク（Convnets）

現在、世界で最も先進的なビジョンベースの機械学習の結果のほぼすべては、畳み込みニューラルネットワークを使用して達成されています。画像分類、オブジェクト検出、さらには画像セグメンテーションにも使用できます。畳み込みネットワークは、80 年代後半から 90 年代前半にかけて Yann Lecun によって発明され、階層的な特徴抽出器として機能する畳み込み層を特徴としています。テキスト（さらには図）でも使用できます。

畳み込みネットワークを使用して、最先端の画像とテキストの分類、オブジェクトの検出、画像のセグメンテーションを行います。

8. リカレントニューラルネットワーク（RNN）：

RNN は、時刻 t の集約状態と時刻 t の入力に同じ重みセットを再帰的に適用することでシーケンスをモデル化します (シーケンスには時刻 0..t..T の入力があり、各時刻 t には RNN t-1 ステップの出力である隠し状態があると想定します)。純粋な RNN は現在ではほとんど使用されていませんが、その対応する LSTM と GRU は、ほとんどのシーケンスモデリングタスクで最先端の技術です。

RNN (ここに密に接続されたユニットと非線形性がある場合、現在 f は通常 LSTM または GRU です)。 LSTM ユニットは、純粋な RNN 内の通常の密なレイヤーを置き換えるために使用されます。

RNN は、あらゆるシーケンスモデリングタスク、特にテキスト分類、機械翻訳、言語モデリングに使用できます。

9. 条件付きランダムフィールド（CRF）

CRF は、おそらく確率的グラフィカルモデル (PGM) ファミリーの中で最も一般的に使用されているモデルです。これらは RNN のようなシーケンスモデリングに使用され、RNN と組み合わせて使用することもできます。条件付きランダムフィールドは、ニューラルマシン翻訳システムが登場する前の最先端技術であり、小規模なデータセットを使用した多くのシーケンスラベリングタスクでは、一般化に大量のデータを必要とする RNN よりも優れた学習を実現します。また、画像セグメンテーションなどの他の構造化予測タスクにも使用できます。 CRF は、シーケンス (文など) の各要素をモデル化します。すべてのラベルが互いに独立しているのではなく、隣接する要素がシーケンス内のコンポーネントのラベルに影響を与えます。

CRF を使用してシーケンス (テキスト、画像、時系列、DNA など) にラベルを付ける

10. 決定木

これはツリー構造に基づいた分類および回帰アルゴリズムです。機能を分割してツリーモデルを構築します。各内部ノードは機能を表し、各リーフノードはカテゴリまたは値を表します。決定木は特徴をレイヤーごとに判断してセグメント化し、最終的に予測結果を取得します。

簡単な例を使って、決定木がどのように機能するかを説明しましょう。性別、年齢、教育レベルに基づいて、ある人が製品を購入するかどうかを予測するというバイナリ分類問題があるとします。まず、ルートノードから開始し、最初のセグメンテーションポイントとして性別を選択するなど、セグメンテーションの特徴を選択します。性別に基づいてデータを男性と女性の 2 つのブランチに分割できます。次に、年齢などのセグメンテーションの特徴をさらに選択します。男性ブランチでは、データを 30 歳以下と 30 歳以上の 2 つのサブブランチに分割できます。女性ブランチでも、同様の分割を行うことができます。次に、教育レベルなど、セグメンテーションのための別の特徴を選択します。各年齢ブランチ内で、データを高学歴と低学歴の 2 つのサブブランチにさらに分割できます。

このようにして、停止条件が満たされるまで特徴選択とセグメンテーションが継続的に実行されます。停止条件は、所定のツリー深度に達した場合、ノード内のサンプル数が特定のしきい値未満になった場合、または分割可能な機能がなくなった場合です。

最後に、各リーフノードがカテゴリを表す決定木が完成します。新しい未知のサンプルについては、ツリーの枝に沿って判断を下し、最終的にリーフノードに到達し、リーフノードのカテゴリに基づいて予測を行うことができます。

現在使用されている 2 つの一般的な決定木アルゴリズムは、属性のランダムなサブセットに基づいてさまざまな分類子を構築し、それらを組み合わせて出力するランダムフォレストとブースティングツリーです。

決定木はデータポイントを分類（または回帰）するために使用できます。

TDアルゴリズム（時間差分法）

上記の方法を使って、DeepMind のように囲碁の世界チャンピオンに勝つなどの課題をどうやって解決できるのかまだ疑問に思っているなら、それは無理です。上で説明した 10 個のアルゴリズムはすべてパターン認識アルゴリズムであり、ポリシー学習アルゴリズムではありません。 AlphaGO がチェスのゲームに勝つことや ChatGPT 音声ロボットなど、複数のステップから成る問題を解決するための戦略を学びます。このタイプの機械学習は強化学習と呼ばれます。この分野における最近の成功の多く（すべてではない）は、畳み込みネットワーク（LSTM）の知覚能力と、時間差分学習と呼ばれる一連のアルゴリズムを組み合わせた結果です。これらには、Q 学習、SARSA、 DQN およびその他のバリエーションが含まれます。