勉強！機械学習アルゴリズムの長所と短所の概要

正規化アルゴリズム
アンサンブルアルゴリズム
決定木アルゴリズム
回帰
人工ニューラルネットワーク
ディープラーニング
サポートベクターマシン
次元削減アルゴリズム
クラスタリングアルゴリズム
インスタンスベースのアルゴリズム
ベイズアルゴリズム
相関ルール学習アルゴリズム
グラフィカルモデル

正規化アルゴリズム

これは、モデルの複雑さに基づいてモデルにペナルティを課し、より一般化しやすい比較的単純なモデルを優先する別のアプローチ (通常は回帰) の拡張です。

例：

リッジ回帰
最小絶対収縮および選択演算子 (LASSO)
グラッソ
弾性ネット
最小角回帰

アドバンテージ：

そのペナルティは過剰適合を減らすだろう
解決策は常に存在する

欠点:

ペナルティはアンダーフィッティングを引き起こす
調整が難しい

アンサンブルアルゴリズム

アンサンブル法は、複数の弱いモデルで構成されたモデルのグループであり、モデルを個別にトレーニングし、その予測を何らかの方法で組み合わせて全体的な予測を行うことができます。

このアルゴリズムの主な問題は、どの弱いモデルを組み合わせることができるか、またそれらをどのように組み合わせるかを見つけることです。これは非常に強力なテクニックのセットなので、非常に人気があります。

ブースト
ブートストラップ集約（バギング）
アダブースト
積み重ねられた一般化（ブレンディング）
勾配ブースティングマシン (GBM)
勾配ブースティング回帰木 (GBRT)
ランダムフォレスト

アドバンテージ：

現在の最先端の予測のほぼすべてでは、アルゴリズムアンサンブルが使用されています。これは、単一のモデルによって予測される結果よりもはるかに正確です。

欠点:

多くのメンテナンスが必要

決定木アルゴリズム

決定木学習では、決定木を予測モデルとして使用し、項目に関する観察 (枝で表される) を項目のターゲット値に関する結論 (葉で表される) にマッピングします。

ツリーモデルのターゲットは可変であり、分類ツリーと呼ばれる有限の値のセットを取ることができます。これらのツリー構造では、葉はクラスラベルを表し、枝はこれらのクラスラベル間の接続を特徴付ける機能を表します。

例：

分類と回帰ツリー (CART)
反復二分法 3 (ID3)
C4.5 と C5.0 (強力なメソッドの 2 つの異なるバージョン)

アドバンテージ：

説明しやすい
ノンパラメトリック

欠点:

過剰適合する傾向がある
局所的最小値に陥る可能性がある
オンライン学習なし

回帰アルゴリズム

回帰は、2 つの変数間の関係を推定するために使用される統計手法です。従属変数と 1 つ以上の独立変数の関係を分析するために使用すると、このアルゴリズムは複数の変数をモデル化および分析するための多くの手法を提供します。より具体的には、回帰分析は、いずれかの独立変数が変化し、他の独立変数が変化しない場合の従属変数の典型的な値を理解するのに役立ちます。最も一般的には、回帰分析は独立変数が与えられた場合に従属変数の条件付き期待値を推定します。

回帰アルゴリズムは統計学の定番であり、統計機械学習に組み込まれています。

例：

通常最小二乗回帰 (OLSR)
線形回帰
ロジスティック回帰
ステップワイズ回帰
多変量適応回帰スプライン (MARS)
局所推定散布図平滑化 (LOESS)

アドバンテージ：

直接的かつ迅速
注目度の高い

欠点:

厳密な仮定が必要
外れ値を処理する必要性

人工ニューラルネットワーク

人工ニューラルネットワークは、生物学的ニューラルネットワークにヒントを得たアルゴリズムモデルです。

これは、回帰問題や分類問題によく使用されるパターンマッチングの形式ですが、さまざまな種類の問題に対応する何百ものアルゴリズムとバリアントで構成される大規模なサブフィールドがあります。

例：

パーセプトロン
バックプロパゲーション
ホップフィールドネットワーク
ラジアル基底関数ネットワーク (RBFN)

アドバンテージ：

音声、セマンティクス、視覚、さまざまなゲーム (囲碁など) を含むタスクで非常に優れたパフォーマンスを発揮します。
アルゴリズムは新しい問題に適応するために素早く調整できます。

欠点:

トレーニングには大量のデータが必要
トレーニングには高度なハードウェア構成が必要
モデルはブラックボックス状態であり、内部の仕組みを理解することは困難である
メタパラメータとネットワークトポロジを選択するのは困難です。

ディープラーニング

ディープラーニングは、現代のハードウェアの急速な発展の恩恵を受けている人工ニューラルネットワークの最新分野です。

現在、多くの研究者の方向性は、より大規模で複雑なニューラルネットワークの構築に主に焦点を当てています。現在、多くの手法は、トレーニングに使用される大規模なデータセットに少数のラベルしか含まれていない半教師あり学習の問題に焦点を当てています。

例：

ディープボルツマンマシン (DBM)
ディープビリーフネットワーク（DBN）
畳み込みニューラルネットワーク (CNN)
スタック型オートエンコーダ

長所/短所:ニューラルネットワークを参照

サポートベクターマシン

それぞれが 2 つのカテゴリのいずれかに属する一連のトレーニング例が与えられた場合、サポートベクターマシン (SVM) トレーニングアルゴリズムは、新しい例を入力すると、その例を 2 つのカテゴリのいずれかに分類し、非確率的なバイナリ線形分類器として機能します。

SVM モデルは、トレーニング例を空間内の点として表し、2 つのクラスを区別するために可能な限り広い明確なマージンで区切られたグラフにマッピングします。

次に、新しい例が同じ空間にマッピングされ、間隔のどちら側に位置するかに基づいてクラスに属すると予測されます。

アドバンテージ：

非線形分離問題における優れたパフォーマンス

欠点:

訓練が非常に難しい
説明するのは難しい

次元削減アルゴリズム

クラスタリング手法と同様に、次元削減は、より少ない情報を使用してデータを要約または記述することを目的として、データの固有の構造を探して活用します。

このアルゴリズムは、高次元データを視覚化したり、教師あり学習で使用できるようにデータを簡素化したりするために使用できます。これらの方法の多くは、分類や回帰に使用するために適応できます。

例：

主成分分析（PCA）
主成分回帰（PCR）
部分最小二乗回帰 (PLSR)
サモンマッピング
多次元尺度法 (MDS)
投影の追求
線形判別分析 (LDA)
混合判別分析 (MDA)
二次判別分析 (QDA)
柔軟な判別分析 (FDA)

アドバンテージ：

大規模なデータセットを処理できる
データに関する仮定は必要ありません

欠点:

非線形データの扱いの難しさ
結果の意味を理解するのが難しい

クラスタリングアルゴリズム

クラスタリングアルゴリズムは、ターゲットのグループの分類を指します。同じグループ (つまり、クラス、クラスター) に属するターゲットは 1 つのグループに分割されます。他のターゲットグループと比較すると、同じグループ内のターゲットは互いにより類似しています (ある意味で)。

例：

K平均法
k-Mediansアルゴリズム
期待最大化（EM）
期待最大化（EM）
階層的クラスタリング

アドバンテージ：

データに意味を持たせる

欠点:

結果は解釈が難しく、通常とは異なるデータセットには役立たない可能性があります。

インスタンスベースのアルゴリズム

インスタンスベースのアルゴリズム (メモリベースの学習とも呼ばれる) は、明示的な帰納法を行うのではなく、問題の新しい例を、メモリに保存されているトレーニング中に確認された例と比較する学習アルゴリズムです。

トレーニング例から直接仮説を構築するため、インスタンスベースのアルゴリズムと呼ばれます。これは、仮説の複雑さがデータの増加に応じて拡大する可能性があることを意味します。最悪の場合、仮説がトレーニング項目のリストである場合、単一の新しいインスタンスを分類するには計算複雑度O(n)が必要です。

例：

k近傍法 (kNN)
ベクトル量子化の学習 (LVQ)
自己組織化マップ (SOM)
局所重み付け学習 (LWL)

アドバンテージ：

シンプルなアルゴリズムと簡単に解釈できる結果

欠点:

メモリ使用量が非常に高い
計算コストが高い
高次元の特徴空間では使用できません

ベイズアルゴリズム

ベイズ法は、ベイズの定理を明示的に適用して分類や回帰などの問題を解決する方法です。

例：

ナイーブベイズ
ガウス単純ベイズ
多項式ナイーブベイズ
平均 1 依存推定量 (AODE)
ベイジアン信念ネットワーク (BBN)
ベイジアンネットワーク (BN)

アドバンテージ：

速く、トレーニングが簡単で、必要なリソースがあれば優れたパフォーマンスを発揮します

欠点:

入力変数が相関している場合、これは問題となる可能性がある。

相関ルール学習アルゴリズム

関連ルール学習法は、データ内の変数間の関係についての最適な説明を抽出できます。たとえば、スーパーマーケットの販売データに「{玉ねぎ、ジャガイモ}=> {ハンバーガー}」というルールがある場合、顧客が玉ねぎとジャガイモを同時に購入すると、ハンバーガーの肉も購入する可能性が高いことを意味します。

例：

アプリオリアルゴリズム
エクラアルゴリズム
FP成長

グラフィカルモデル

グラフィカルモデルまたは確率グラフィカルモデル (PGM) は、グラフを使用してランダム変数間の条件付き依存構造を表す確率モデルです。

例：

ベイジアンネットワーク
マルコフ確率場
チェーングラフ
祖先グラフ

アドバンテージ：

モデルは明確で直感的に理解できる

欠点:

依存関係のトポロジーを決定することは困難であり、時には曖昧になる。

<<: 蘇寧のデジタルツインプラットフォームが倉庫の効率向上に貢献

>>: コレクションにおすすめ！素晴らしい AWS 機械学習ツールキットの概要

ブログ

1 つの記事で 26 個のニューラルネットワーク活性化関数 (ReLU から Sinc まで) を紹介します

勉強！機械学習アルゴリズムの長所と短所の概要

1 つの記事で 26 個のニューラルネットワーク活性化関数 (ReLU から Sinc まで) を紹介します

人工知能の商業化における問題点をどう解決するか?

チャットボットが消費者と企業に役立つ6つの方法

未来のスマートホームにAIがどのように統合されるか

医学と人工知能が出会うとき、将来の医学の5つの主要なトレンドを知っておく必要があります

マイケル・ブロンスタインは代数的位相幾何学から学び、新しいグラフニューラルネットワークのコンピューティング構造を提案しました。

AIは人間社会のさまざまなビジネスモデルをどのように変えるのでしょうか？

推薦する

NVIDIA はフーリエモデルを使用して前例のない天気予報精度を実現

ロボティックプロセスオートメーションから価値を引き出すためにプロセスをマイニングする方法

ChatGPT で質問するときによくある誤解 10 選

AI特許出願件数は世界第1位で、世界総出願件数の約4分の3を占める。

Python+OpenCVを使用して顔追跡を実装するための50行のコード

ジェネレーティブ AI 初心者ガイド

APOS A5は従業員の健康情報登録管理をインテリジェントに強化します

研究者は特別な画像を使って人工知能を「毒する」

2021 年に企業に影響を与える自然言語処理のトレンド

クアルコム副社長ライナー・クレメント氏：「5G+AI+クラウド」は将来の産業をどのように変えるのでしょうか？

英国メディア：中国と米国の人工知能の覇権争いで欧州は敗退

15 億のコーパスでトレーニングされた 94 億のパラメータモデルは、私をよりよく理解するのでしょうか? Facebookが世界で最も強力なチャットボット「Blender」をオープンソース化