コレクション | データアナリストがよく使用する機械学習アルゴリズム 10 個!

機械学習の分野では、「世の中にただ飯はない」という格言があります。簡単に言えば、あらゆる問題に対して最高の効果を発揮できるアルゴリズムはないということです。この理論は、教師あり学習において特に重要です。

たとえば、ニューラルネットワークが常に決定木よりも優れているとは言えませんし、その逆も同様です。モデルのパフォーマンスは、データセットのサイズや構造など、多くの要因によって影響を受けます。

したがって、テストデータセットを使用してパフォーマンスを評価し、最適なものを選択しながら、問題に対してさまざまなアルゴリズムを試す必要があります。

もちろん、試すアルゴリズムは問題に関連している必要があり、これが機械学習の主なタスクです。たとえば、家を掃除したい場合、掃除機やほうき、モップを使うかもしれませんが、シャベルを手に取って掘り始めることは絶対にないでしょう。

機械学習の基礎を学びたい機械学習初心者のために、データサイエンティストが使用する機械学習アルゴリズムのトップ 10 を紹介します。これらの 10 個のアルゴリズムの特徴を紹介し、理解を深めて適用できるようにしましょう。ぜひご覧ください。

1. 線形回帰

線形回帰は、おそらく統計学と機械学習において最もよく知られ、よく理解されているアルゴリズムの 1 つです。

予測モデリングは、主にモデルのエラーを最小限に抑えること、つまり解釈可能性を犠牲にして最も正確な予測を行うことに重点を置いています。私たちはさまざまな分野からアルゴリズムを借用、再利用、盗用していますが、その中には統計に関わるものもあります。

線形回帰は、入力変数の特定の重み (B) を見つけることによって、入力変数 (x) と出力変数 (y) 間の線形関係を記述する方程式で表されます。

線形回帰

例: y = B0 + B1 * x

入力 x が与えられると、y を予測します。線形回帰学習アルゴリズムの目的は、係数 B0 と B1 の値を見つけることです。

線形回帰モデルは、通常の最小二乗法や勾配降下法の最適化のための線形代数ソリューションなど、さまざまな手法を使用してデータから学習できます。

線形回帰は 200 年以上前から存在し、広範囲に研究されてきました。この手法を使用する際の経験則としては、非常に類似した（相関のある）変数を削除し、可能であればデータからノイズを除去することが挙げられます。これは迅速かつシンプルな手法であり、最初のアルゴリズムとして適しています。

2. ロジスティック回帰

ロジスティック回帰は、機械学習が統計学の分野から借用したもう 1 つの手法です。これは、バイナリ分類問題（2 つのクラス値を持つ問題）に特化した方法です。

ロジスティック回帰は、両方の目的が各入力変数の重みを見つけることであるという点で線形回帰に似ています。線形回帰とは異なり、出力予測はロジスティック関数と呼ばれる非線形関数を使用して変換されます。

ロジスティック関数は大きな S のような形をしており、任意の値を 0 から 1 の範囲に変換します。これは、ロジスティック関数の出力にルールを適用して値を 0 と 1 に分類し (たとえば、IF が 0.5 未満の場合は 1 を出力する)、クラスの値を予測できるため便利です。

ロジスティック回帰

モデルの学習方法により、ロジスティック回帰による予測を使用して、クラス 0 またはクラス 1 に属する確率を計算することもできます。これは、多くの根拠を必要とする問題に役立ちます。

線形回帰と同様に、ロジスティック回帰では、出力変数に関連しない属性と、互いに非常に類似している (相関している) 属性を削除すると、パフォーマンスが向上します。これは、迅速に学習し、バイナリ分類問題に効果的に機能するモデルです。

3. 線形判別分析

従来のロジスティック回帰は、バイナリ分類問題に限定されています。 2 つ以上のクラスがある場合、線形判別分析 (LDA) が最適な線形分類手法です。

LDA の表現は非常にシンプルです。これは、各カテゴリごとに計算されたデータの統計プロパティで構成されます。単一の入力変数の場合、これには以下が含まれます。

各カテゴリーの平均値。
すべてのカテゴリにわたって計算された分散。

線形判別分析

LDA は、各クラスの判別値を計算し、最適な値を持つクラスの予測を行うことで機能します。この手法では、データがガウス分布（ベル型曲線）を持っていると想定されるため、最初にデータから外れ値が手動で削除されます。これは、分類予測モデリングの問題におけるシンプルでありながら強力なアプローチです。

4. 分類木と回帰木

決定木は機械学習にとって重要なアルゴリズムです。

決定木モデルはバイナリツリーで表すことができます。はい、それはアルゴリズムとデータ構造からのバイナリツリーであり、特別なものではありません。各ノードは、単一の入力変数 (x) とその左と右の子 (変数が数値であると仮定) を表します。

決定木

ツリーのリーフノードには、予測を行うために使用される出力変数 (y) が含まれます。予測は、ツリーをトラバースし、リーフノードに到達したら停止し、リーフノードのクラス値を出力することによって実行されます。

決定木は素早く学習し、素早く予測を行います。また、多くの問題を適切に予測できるため、データに対して特別な準備を行う必要がありません。

5. ナイーブベイズ

ナイーブベイズは、シンプルでありながら非常に強力な予測モデリングアルゴリズムです。

モデルは、トレーニングデータから直接計算できる 2 種類の確率で構成されています。1) 各クラスの確率、2) x の各値が与えられたクラスの条件付き確率です。確率モデルが計算されると、ベイズの定理を使用して新しいデータの予測を行うことができます。データが数値の場合、これらの確率を簡単に推定できるように、ガウス分布 (ベル曲線) を想定するのが一般的です。

ベイズの定理

ナイーブベイズは、各入力変数が独立していると仮定するため、ナイーブと呼ばれます。これは実際のデータに対しては非現実的な強い仮定ですが、この手法はさまざまな複雑な問題に対して非常に有効に機能します。

6. K 最近傍点

KNN アルゴリズムは非常にシンプルで非常に効果的です。 KNN モデルは、トレーニングデータセット全体によって表されます。とても簡単じゃないですか？

トレーニングセット全体で最も類似した K 個のインスタンス (近傍) を検索し、これらの K 個のインスタンスの出力変数を要約することで、新しいデータポイントを予測します。回帰問題の場合、新しいポイントは平均出力変数になる可能性があり、分類問題の場合、新しいポイントはモードカテゴリ値になる可能性があります。

成功の秘訣は、データインスタンス間の類似性をどのように判断するかにあります。属性がすべて同じスケールである場合、最も簡単な方法はユークリッド距離を使用することです。これは、各入力変数間の差に基づいて直接計算できます。

K近傍法

KNN では、すべてのデータを格納するために大量のメモリまたはスペースが必要になる場合がありますが、計算 (または学習) は予測が必要な場合にのみ実行されます。また、予測の精度を維持するために、いつでもトレーニングセットを更新および管理できます。

距離や近さの概念は、高次元の設定（入力変数の数が多い）では崩れる可能性があり、アルゴリズムに悪影響を与える可能性があります。この種のイベントは次元の呪いとして知られています。また、出力変数の予測に最も相関する入力変数のみを使用する必要があることも意味します。

7. ベクトル量子化の学習

K 最近傍法の欠点は、トレーニングデータセット全体を維持する必要があることです。学習ベクトル量子化 (略して LVQ) は、任意の数のトレーニング例を取得して、そこから正確に学習できる人工ニューラルネットワークアルゴリズムです。

ベクトル量子化の学習

LVQ はコードブックベクトルの集合によって表されます。ベクトルは最初にランダムに選択され、その後複数の反復を通じてトレーニングデータセットに適応されます。学習後、コードブックベクトルは K 近傍法と同じように予測に使用できます。各コードブックベクトルと新しいデータインスタンス間の距離を計算することによって最も類似した近傍 (最も近い一致) が見つかり、最も近い一致ユニットのクラス値、または回帰の場合は実際の値が予測として返されます。データを同じ範囲（たとえば、0 から 1 の間）内に制限すると、最適な結果が得られます。

KNN がデータセットに対して良好な結果をもたらすことがわかった場合は、LVQ を使用して、トレーニングデータセット全体を保存するためのメモリ要件を削減してみてください。

8. サポートベクターマシン

サポートベクターマシンは、おそらく最も議論され、最も人気のある機械学習アルゴリズムの 1 つです。

超平面は、入力変数の空間を分割する線です。 SVM では、入力変数空間内のポイントをクラス (0 または 1) に応じて分離するために超平面が選択されます。 2 次元空間では、線として表示でき、すべての入力ポイントはこの線によって完全に分離できます。 SVM 学習アルゴリズムは、超平面でカテゴリの分離が最適になるように係数を見つけることです。

サポートベクターマシン

超平面と最も近いデータポイント間の距離はマージンと呼ばれ、マージンが最小の超平面が最適な選択となります。同時に、これらの近いデータポイントのみが、超平面の定義と分類器の構築に関係します。これらのポイントはサポートベクターと呼ばれ、超平面をサポートまたは定義します。実際には、最適化アルゴリズムを使用して、境界を最大化する係数値を見つけます。

SVM はおそらくすぐに使用できる最も優れた分類器の 1 つであり、データセットで試してみる価値があります。

9. バギングとランダムフォレスト

ランダムフォレストは、最も人気があり、最大の機械学習アルゴリズムの 1 つです。これは、ブートストラップ集約またはバギングとして知られるアンサンブル機械学習アルゴリズムです。

ブートストラップは、データのサンプルから平均などの量を推定するための強力な統計手法です。多数のサンプルデータを抽出し、平均を計算し、すべての平均を平均して、真の平均をより正確に推定します。

バギングでも同じアプローチが使用されますが、統計モデル全体を推定する代わりに、決定木が最もよく使用されます。トレーニングデータの複数のサンプリングを実行し、各データサンプルのモデルを構築します。新しいデータについて予測を行う必要がある場合、各モデルが予測を行い、その予測を平均化して、実際の出力値のより正確な推定値を取得します。

ランダムフォレスト

ランダムフォレストは、決定木を調整したものです。最適な分割ポイントを選択する場合と比較して、ランダムフォレストはランダム性を導入することで、最適ではない分割を実現します。

したがって、各データサンプルに対して作成されたモデルは互いに大きく異なりますが、それ自体は依然として正確です。予測を組み合わせることで、正しい潜在的な出力値をより正確に推定できるようになります。

決定木のような高分散アルゴリズムで良好な結果が得られる場合は、これを追加すると結果がさらに良くなります。

10. ブースティングとAdaBoost

ブースティングは、多数の弱い分類器から強い分類器を作成するためのアンサンブル手法です。まず、トレーニングデータからモデルを構築し、次に 2 番目のモデルを作成して最初のモデルのエラーを修正します。トレーニングセットの予測が最も多くなるか、上限まで追加されるまで、モデルを追加し続けます。

AdaBoost は、バイナリ分類用に開発された最初の本当に成功したブースティングアルゴリズムであり、ブースティングを理解するための最適な出発点でもあります。現在、AdaBoost に基づいて構築された最も人気のあるアルゴリズムは、確率的勾配ブースティングです。

アダブースト

AdaBoost は短い決定木でよく使用されます。最初のツリーが作成された後、そのツリー上の各トレーニングインスタンスのパフォーマンスによって、次のツリーがそのトレーニングインスタンスにどれだけの注意を払うべきかが決まります。予測が難しいトレーニングデータには大きな重みが与えられ、予測が容易なインスタンスには小さな重みが与えられます。モデルは順番に作成され、各モデルの更新はシーケンス内の次のツリーの学習効果に影響します。すべてのツリーが構築された後、アルゴリズムは新しいデータに対して予測を行い、トレーニングデータの精度に応じて各ツリーのパフォーマンスに重み付けを行います。

アルゴリズムはエラー訂正を重視しているため、外れ値のないクリーンなデータが非常に重要です。

***で書かれた

さまざまな機械学習アルゴリズムに直面した初心者がよく尋ねる質問は、「どのアルゴリズムを使用すればよいですか?」です。この質問に対する答えは、次のような多くの要因によって異なります。

データのサイズ、品質、性質。
利用可能な計算時間。
タスクの緊急性。
データを使って何をしたいですか?

経験豊富なデータサイエンティストであっても、さまざまなアルゴリズムを試してみなければ、どのアルゴリズムが最も優れたパフォーマンスを発揮するかを知ることはできません。他にも多くの機械学習アルゴリズムがありますが、これらは最高のものです。機械学習を初めて学ぶ場合は、ここから始めるのが最適です。

<<: 畳み込みニューラルネットワークの「修理工」のための「マニュアル」

>>: ガートナーは、人間と機械の境界を曖昧にする5つの新たな技術トレンドを明らかにした。

AIは人類にとって脅威でしょうか？人工知能には強いものと弱いものがあるが、本当の危険は強い人工知能である

ブログ

BERT は画像事前トレーニングの未来でしょうか? ByteDance iBOT は 12 を超える SOTA 指標を更新し、一部の指標は MAE を上回っています

ブログ

CV の未来はこの 68 枚の写真にかかっているのでしょうか? Google BrainがImageNetを深く掘り下げる：トップモデルはすべて予測に失敗する

コレクション | データアナリストがよく使用する機械学習アルゴリズム 10 個!

AIは人類にとって脅威でしょうか？人工知能には強いものと弱いものがあるが、本当の危険は強い人工知能である

BERT は画像事前トレーニングの未来でしょうか? ByteDance iBOT は 12 を超える SOTA 指標を更新し、一部の指標は MAE を上回っています

CV の未来はこの 68 枚の写真にかかっているのでしょうか? Google BrainがImageNetを深く掘り下げる：トップモデルはすべて予測に失敗する

ウェブ開発のための機械学習フレームワークトップ 5

1つの命令を使用してGPT-3.5またはLlama 2を微調整する方法

Microsoft が Meta との AI および PyTorch の連携を強化

「ドメイン外」テキストは不要、Microsoft: NLP はターゲットを絞った方法で事前トレーニングする必要がある

推薦する

ビッグデータなどの最も中核的なキーテクノロジー：32のアルゴリズム

より優れた LLM ベースのアプリケーションを構築するための 4 つの秘訣

ジェフ・ディーン: 「スパースモデル設計ガイド」を作成しましたので、ぜひご覧ください。

NeurIPS 2023 入学結果が発表され、合格率は 26.1% でした

デジタルセンサーを使用してピンホールカメラを作るにはどうすればいいですか?

自動運転のための2Dおよび3D視覚認識アルゴリズムについて話す

イーブンテクノロジーは、AIアプリケーションシナリオに沿った新世代のデータウェアハウスを構築します。

5 つの人工知能プログラミング言語! Javaはまだ立ち上がっています！

IoT、AI、デジタルツインを建物に統合する方法

ディープラーニングプロジェクトをゼロから構築するにはどうすればよいでしょうか?詳細なチュートリアルはこちら