機械学習アルゴリズムのコレクション: ベイズ学習からディープラーニングまで、それぞれの長所と短所

機械学習アルゴリズムのコレクション: ベイズ学習からディープラーニングまで、それぞれの長所と短所

私たちが日常生活で使用する推奨システム、インテリジェントな画像美化アプリケーション、チャットボットなどのアプリケーションでは、さまざまな機械学習およびデータ処理アルゴリズムが懸命にその役割を果たしています。この記事では、最も一般的なアルゴリズムのカテゴリをいくつか選別して簡単に紹介し、各カテゴリの実際のアルゴリズムをいくつかリストし、その長所と短所を簡単に紹介します。

https://static.coggle.it/diagram/WHeBqDIrJRk-kDDY

目次

  • 正規化アルゴリズム
  • アンサンブルアルゴリズム
  • 決定木アルゴリズム
  • 回帰
  • 人工ニューラルネットワーク
  • ディープラーニング
  • サポートベクターマシン
  • 次元削減アルゴリズム
  • クラスタリングアルゴリズム
  • インスタンスベースのアルゴリズム
  • ベイズアルゴリズム
  • 相関ルール学習アルゴリズム
  • グラフィカルモデル

正規化アルゴリズム

これは、モデルの複雑さに基づいてモデルにペナルティを課し、より一般化しやすい比較的単純なモデルを優先する別のアプローチ (通常は回帰) の拡張です。

例:

  • リッジ回帰
  • 最小絶対収縮および選択演算子 (LASSO)
  • グラッソ
  • 弾性ネット
  • 最小角回帰

アドバンテージ:

  • そのペナルティは過剰適合を減らすだろう
  • 解決策は常に存在する

欠点:

  • ペナルティはアンダーフィッティングを引き起こす
  • 調整が難しい

アンサンブルアルゴリズム

アンサンブル法は、複数の弱いモデルで構成されたモデルのグループであり、モデルを個別にトレーニングし、その予測を何らかの方法で組み合わせて全体的な予測を行うことができます。

このアルゴリズムの主な問題は、どの弱いモデルを組み合わせることができるか、またそれらをどのように組み合わせるかを見つけることです。これは非常に強力なテクニックのセットなので、非常に人気があります。

  • ブースト
  • ブートストラップ集約(バギング)
  • アダブースト
  • 積み重ねられた一般化(ブレンディング)
  • 勾配ブースティングマシン (GBM)
  • 勾配ブースティング回帰木 (GBRT)
  • ランダムフォレスト

アドバンテージ:

現在の最先端の予測のほぼすべてでは、アルゴリズム アンサンブルが使用されています。これは、単一のモデルによって予測される結果よりもはるかに正確です。

欠点:

  • 多くのメンテナンスが必要

決定木アルゴリズム

決定木学習では、決定木を予測モデルとして使用し、項目に関する観察 (枝で表される) を項目のターゲット値に関する結論 (葉で表される) にマッピングします。

ツリー モデルのターゲットは可変であり、分類ツリーと呼ばれる有限の値のセットを取ることができます。これらのツリー構造では、葉はクラス ラベルを表し、枝はこれらのクラス ラベル間の接続を特徴付ける機能を表します。

例:

  • 分類と回帰ツリー (CART)
  • 反復二分法 3 (ID3)
  • C4.5 と C5.0 (強力なメソッドの 2 つの異なるバージョン)

アドバンテージ:

  • 説明しやすい
  • ノンパラメトリック

欠点:

  • 過剰適合する傾向がある
  • 局所的最小値に陥る可能性がある
  • オンライン学習なし

回帰アルゴリズム

回帰は、2 つの変数間の関係を推定するために使用される統計手法です。従属変数と 1 つ以上の独立変数の関係を分析するために使用すると、このアルゴリズムは複数の変数をモデル化および分析するための多くの手法を提供します。より具体的には、回帰分析は、いずれかの独立変数が変化し、他の独立変数が変化しない場合の従属変数の典型的な値を理解するのに役立ちます。最も一般的には、回帰分析は独立変数が与えられた場合に従属変数の条件付き期待値を推定します。

回帰アルゴリズムは統計学の定番であり、統計機械学習に組み込まれています。

例:

  • 通常最小二乗回帰 (OLSR)
  • 線形回帰
  • ロジスティック回帰
  • ステップワイズ回帰
  • 多変量適応回帰スプライン (MARS)
  • 局所推定散布図平滑化 (LOESS)

アドバンテージ:

  • 直接的かつ迅速
  • 注目度の高い

欠点:

  • 厳密な仮定が必要
  • 外れ値を処理する必要性

人工ニューラルネットワーク

人工ニューラル ネットワークは、生物学的ニューラル ネットワークにヒントを得たアルゴリズム モデルです。

これは、回帰問題や分類問題によく使用されるパターン マッチングの形式ですが、さまざまな種類の問題に対応する何百ものアルゴリズムとバリアントで構成される大規模なサブフィールドがあります。

例:

  • パーセプトロン
  • バックプロパゲーション
  • ホップフィールドネットワーク
  • ラジアル基底関数ネットワーク (RBFN)

アドバンテージ:

  • 音声、セマンティクス、視覚、さまざまなゲーム (囲碁など) を含むタスクで非常に優れたパフォーマンスを発揮します。
  • アルゴリズムは新しい問題に適応するために素早く調整できます。

欠点:

  • トレーニングには大量のデータが必要
  • トレーニングには高度なハードウェア構成が必要
  • モデルは「ブラックボックス状態」にあり、内部の仕組みを理解することは困難である
  • メタパラメータとネットワークトポロジを選択するのは困難です。

ディープラーニング

ディープラーニングは、現代のハードウェアの急速な発展の恩恵を受けている人工ニューラル ネットワークの最新分野です。

現在、多くの研究者の方向性は、より大規模で複雑なニューラル ネットワークの構築に主に焦点を当てています。現在、多くの手法は、トレーニングに使用される大規模なデータ セットに少数のラベルしか含まれていない半教師あり学習の問題に焦点を当てています。

例:

  • ディープボルツマンマシン (DBM)
  • ディープビリーフネットワーク(DBN)
  • 畳み込みニューラルネットワーク (CNN)
  • スタック型オートエンコーダ

長所/短所:ニューラルネットワークを参照

サポートベクターマシン

それぞれが 2 つのカテゴリのいずれかに属する一連のトレーニング例が与えられた場合、サポート ベクター マシン (SVM) トレーニング アルゴリズムは、新しい例を入力すると、その例を 2 つのカテゴリのいずれかに分類し、非確率的なバイナリ線形分類器として機能します。

SVM モデルは、トレーニング例を空間内の点として表し、2 つのクラスを区別するために可能な限り広い明確なマージンで区切られたグラフにマッピングします。

次に、新しい例が同じ空間にマッピングされ、間隔のどちら側に位置するかに基づいてクラスに属すると予測されます。

アドバンテージ:

  • 非線形分離問題における優れたパフォーマンス

欠点:

  • 訓練が非常に難しい
  • 説明するのは難しい

次元削減アルゴリズム

クラスタリング手法と同様に、次元削減は、より少ない情報を使用してデータを要約または記述することを目的として、データの固有の構造を探して活用します。

このアルゴリズムは、高次元データを視覚化したり、教師あり学習で使用できるようにデータを簡素化したりするために使用できます。これらの方法の多くは、分類や回帰に使用するために適応できます。

例:

  • 主成分分析(PCA)
  • 主成分回帰(PCR)
  • 部分最小二乗回帰 (PLSR)
  • サモンマッピング
  • 多次元尺度法 (MDS)
  • 投影の追求
  • 線形判別分析 (LDA)
  • 混合判別分析 (MDA)
  • 二次判別分析 (QDA)
  • 柔軟な判別分析 (FDA)

アドバンテージ:

  • 大規模なデータセットを処理できる
  • データに関する仮定は必要ありません

欠点:

  • 非線形データの扱いの難しさ
  • 結果の意味を理解するのが難しい

クラスタリングアルゴリズム

クラスタリング アルゴリズムは、ターゲットのグループの分類を指します。同じグループ (つまり、クラス、クラスター) に属するターゲットは 1 つのグループに分割されます。他のターゲット グループと比較すると、同じグループ内のターゲットは互いにより類似しています (ある意味で)。

例:

  • K平均法
  • k-Mediansアルゴリズム
  • 期待最大化(EM)
  • 期待最大化(EM)
  • 階層的クラスタリング

アドバンテージ:

  • データに意味を持たせる

欠点:

  • 結果は解釈が難しく、通常とは異なるデータ セットには役立たない可能性があります。

インスタンスベースのアルゴリズム

インスタンス ベースのアルゴリズム (メモリ ベースの学習とも呼ばれる) は、明示的な帰納法を行うのではなく、問題の新しい例を、メモリに保存されているトレーニング中に確認された例と比較する学習アルゴリズムです。

トレーニング例から直接仮説を構築するため、インスタンスベースのアルゴリズムと呼ばれます。これは、仮説の複雑さがデータの増加に応じて拡大する可能性があることを意味します。最悪の場合、仮説がトレーニング項目のリストである場合、単一の新しいインスタンスを分類するには計算複雑度O(n)が必要です。

例:

  • k近傍法 (kNN)
  • ベクトル量子化の学習 (LVQ)
  • 自己組織化マップ (SOM)
  • 局所重み付け学習 (LWL)

アドバンテージ:

  • シンプルなアルゴリズムと簡単に解釈できる結果

欠点:

  • メモリ使用量が非常に高い
  • 計算コストが高い
  • 高次元の特徴空間では使用できません

ベイズアルゴリズム

ベイズ法は、ベイズの定理を明示的に適用して分類や回帰などの問題を解決する方法です。

例:

  • ナイーブベイズ
  • ガウス単純ベイズ
  • 多項式ナイーブベイズ
  • 平均 1 依存推定量 (AODE)
  • ベイジアン信念ネットワーク (BBN)
  • ベイジアンネットワーク (BN)

アドバンテージ:

  • 速く、トレーニングが簡単で、必要なリソースがあれば優れたパフォーマンスを発揮します

欠点:

  • 入力変数が相関している場合、これは問題となる可能性がある。

相関ルール学習アルゴリズム

関連ルール学習法は、データ内の変数間の関係についての最適な説明を抽出できます。たとえば、スーパーマーケットの販売データに「{玉ねぎ、ジャガイモ}=> {ハンバーガー}」というルールがある場合、顧客が玉ねぎとジャガイモを同時に購入すると、ハンバーガーの肉も購入する可能性が高いことを意味します。

例:

  • アプリオリアルゴリズム
  • エクラアルゴリズム
  • FP成長

グラフィカルモデル

グラフィカル モデルまたは確率グラフィカル モデル (PGM) は、グラフを使用してランダム変数間の条件付き依存構造を表す確率モデルです。

例:

  • ベイジアンネットワーク
  • マルコフ確率場
  • チェーングラフ
  • 祖先グラフ

アドバンテージ:

  • モデルは明確で直感的に理解できる

欠点:

  • 依存関係のトポロジーを決定することは困難であり、時には曖昧になる。

<<:  5行のコードで画像セグメンテーションを素早く実装し、コードを1行ずつ詳細に説明し、画像の処理方法を手取り足取り教えてくれます。

>>:  快手は520で「ボーイフレンド」を送信。GANは敵対的ネットワークを生成し、独身者が「独身から抜け出す」のを助ける

ブログ    

推薦する

単一ニューロンは将来の活動を予測することで学習し、脳の働きを説明するのに役立つ。

何世紀にもわたり、人類は脳がどのように機能し、どのように情報を獲得するかを理解しようとしてきました。...

純粋なテキスト モデルは「視覚的な」表現をトレーニングします。 MITの最新研究:言語モデルはコードで絵を描くことができる

「本を読む」ことしかできない大規模な言語モデルは、現実世界の視覚的認識を備えているのでしょうか?文字...

グラフを考慮した対照学習により多変量時系列分類が改善

本日は、シンガポール科学技術研究庁 (A*STAR) と南洋理工大学 (シンガポール) が AAAI...

ディープラーニングツール: TensorFlow システムアーキテクチャと高性能プログラミング

2015 年 11 月 9 日、Google は人工知能プラットフォーム TensorFlow をオ...

2019年に人工知能はどこに向かうのでしょうか? 120人の幹部が意見を述べた

私: 「アレクサ、2019年に何が起こるか教えてください。」 Amazon AI: 「『この日の歴史...

プログラマーの芸術: ソートアルゴリズムのダンス

1. バブルソート 2. シェルソート 3. 選択ソート 4. 挿入ソート 5. クイックソート 6...

人工知能「XiaoIce」がデザイナーに変身した経緯が明らかに

最近、一部のネットユーザーは、ファッションブランドSELECTEDがWeChat公式アカウントでMi...

ピュー研究所:アルゴリズム時代の7つの主要テーマとその主な影響

世界的に権威のある調査機関であるピュー研究所は最近、「アルゴリズムの時代」と題する報告書を発表し、1...

...

人工知能は祝福か、それとも呪いなのか?事故は急増しており、アップルとグーグルも例外ではない

人工知能は現代の大きな発展のトレンドであり、世界中のほぼすべてのハイテク企業が AI 分野の技術を研...

CPU、GPU、NPU、FPGA はディープラーニングでどのように優位性を発揮するのでしょうか?

AIの応用が広まるにつれ、ディープラーニングは現在のAI研究と応用の主流の方法となっています。膨大...

戦闘計画システムにおける人工知能技術の応用に関する研究

近年、人工知能技術は飛躍的な進歩を遂げており、各国は人工知能技術の戦略的意義を認識し、国家戦略レベル...

スマートロボットについて知っておくべきことすべて

スマートロボットは、タスクをより効率的かつ正確に実行し、生産性を向上させ、人的エラーを削減するように...

さようなら鉄丼!もう一つの業界が混乱に陥っています!中国建設銀行が正式に発表

[[231600]]無人スーパー、無人運転…これらはもう珍しいことではない「無人銀行」って聞いたこと...