声明:このブログ記事はhttp://www.ctocio.com/hotnews/15919.htmlに基づいて編集されており、原作者はZhang Mengであり、独創性を尊重しています。 機械学習は、間違いなく現在のデータ分析分野で注目されている話題です。多くの人が、日常業務で多かれ少なかれ機械学習アルゴリズムを使用しています。この記事では、仕事や勉強の参考として、一般的な機械学習アルゴリズムをまとめています。 機械学習アルゴリズムは数多く存在します。多くの場合、人々を混乱させるのは、多くのアルゴリズムがアルゴリズムのカテゴリに属している一方で、一部のアルゴリズムは他のアルゴリズムから拡張されていることです。ここでは、学習方法とアルゴリズムの分類という2つの側面から紹介します。 ブロガーは元の記事に基づいて遺伝的アルゴリズム (2.9) の紹介を追加し、このブログ記事で取り上げられている機械学習アルゴリズムをより包括的かつ充実したものにしました。このブログ記事は要約記事です。各アルゴリズムの具体的な実装方法を理解したい場合は、各アルゴリズムを一つずつ研究し、熟考する必要があります。 1. 学習方法 データの種類に応じて、問題をモデル化する方法は異なります。機械学習や人工知能の分野では、まずアルゴリズムがどのように学習するかを検討します。機械学習の分野では、学習にはいくつかの主要なスタイルがあります。アルゴリズムをモデル化して選択する際に、入力データに基づいて最も適切なアルゴリズムを選択して良好な結果を得ることができるように、アルゴリズムを学習方法に応じて分類することは良い考えです。 1.1 教師あり学習 教師あり学習では、入力データは「トレーニング データ」と呼ばれ、各トレーニング データ セットには、スパム対策システムにおける「スパム」と「非スパム」、手書き数字認識における「1」、「2」、「3」、「4」など、明確なラベルまたは結果があります。予測モデルを構築する際、教師あり学習では、予測結果と「トレーニング データ」の実際の結果を比較し、モデルの予測結果が期待される精度率に達するまで予測モデルを継続的に調整する学習プロセスを確立します。教師あり学習の一般的な応用シナリオには、分類問題と回帰問題が含まれます。一般的なアルゴリズムには、ロジスティック回帰やバックプロパゲーションニューラルネットワークなどがあります。 1.2 教師なし学習 教師なし学習では、データは具体的に識別されず、学習モデルはデータの固有の構造を推測するように設計されています。一般的なアプリケーション シナリオには、関連ルールの学習とクラスタリングが含まれます。一般的なアルゴリズムには、Apriori アルゴリズムと k-Means アルゴリズムがあります。 1.3 半教師あり学習 この学習方法では、入力データの一部にラベルが付けられ、一部にラベルが付けられません。この学習モデルは予測に使用できますが、予測のためにデータを適切に整理するために、モデルはまずデータの固有の構造を学習する必要があります。アプリケーション シナリオには分類と回帰が含まれ、アルゴリズムには一般的に使用される教師あり学習アルゴリズムのいくつかの拡張が含まれます。これらのアルゴリズムは、最初にラベルなしデータをモデル化しようとし、次にラベル付きデータに対して予測を行います。グラフ推論アルゴリズム (Graph Inference) やラプラシアンサポートベクターマシン (Laplacian SVM) など。 1.4 強化学習 この学習モードでは、入力データはモデルへのフィードバックとして機能します。入力データがモデルが正しいかどうかを確認するための手段にすぎない教師ありモデルとは異なり、強化学習では入力データがモデルに直接フィードバックされ、モデルはすぐに調整を行う必要があります。一般的なアプリケーション シナリオには、動的システムやロボット制御などがあります。一般的なアルゴリズムには、Q 学習と時間差分学習が含まれます。 エンタープライズ データ アプリケーションのシナリオでは、最も一般的に使用されるモデルはおそらく教師あり学習と教師なし学習です。 画像認識などの分野では、識別できないデータが大量に存在する一方で識別できるデータが少ないことから、半教師あり学習が現在注目されています。 強化学習は、ロボット制御などシステム制御が必要な分野で広く使用されています。 2. アルゴリズムの分類 アルゴリズムの機能と形式の類似性に基づいて、ツリーベースのアルゴリズム、ニューラル ネットワーク ベースのアルゴリズムなど、アルゴリズムを分類できます。もちろん、機械学習の範囲は非常に広く、アルゴリズムによっては特定のカテゴリに明確に分類することが難しいものもあります。一部のカテゴリでは、同じカテゴリのアルゴリズムが異なるタイプの問題を対象にすることができます。ここでは、よく使用されるアルゴリズムを最もわかりやすい方法で分類してみます。 2.1 回帰アルゴリズム 回帰アルゴリズムは、誤差の尺度を使用して変数間の関係を調査しようとするアルゴリズムの一種です。回帰アルゴリズムは、統計的機械学習のための強力なツールです。機械学習の分野では、回帰について話すとき、あるタイプの問題を指している場合もあれば、あるタイプのアルゴリズムを指している場合もあり、初心者を混乱させることがよくあります。一般的な回帰アルゴリズムには、通常の最小二乗法、ロジスティック回帰、段階的回帰、多変量適応回帰スプライン、局所的に推定された散布図平滑化などがあります。 2.2 例に基づくアルゴリズム インスタンスベースのアルゴリズムは、意思決定の問題のモデルを構築するためによく使用されます。このようなモデルでは、最初にサンプル データのバッチを選択し、特定の近似値に基づいて新しいデータをサンプル データと比較することがよくあります。これが一致するものを見つける方法です。したがって、インスタンスベースのアルゴリズムは、「勝者総取り」学習または「メモリベースの学習」とも呼ばれることがよくあります。一般的なアルゴリズムには、k-近傍法 (KNN)、学習ベクトル量子化 (LVQ)、自己組織化マップ (SOM) などがあります。 2.3 正規化手法 正規化手法は、複雑さに基づいてアルゴリズムを調整する他のアルゴリズム (通常は回帰アルゴリズム) の拡張です。正規化手法は通常、単純なモデルにメリットを与え、複雑なアルゴリズムにペナルティを与えます。一般的なアルゴリズムには、リッジ回帰、最小絶対収縮および選択演算子 (LASSO)、Elastic Net などがあります。 2.4 決定木学習 決定木アルゴリズムは、ツリー構造を使用して、データの属性に基づいて決定モデルを確立します。決定木モデルは、分類問題や回帰問題を解決するためによく使用されます。一般的なアルゴリズムには、分類および回帰ツリー (CART)、ID3 (反復二分法 3)、C4.5、カイ二乗自動相互作用検出 (CHAID)、決定スタンプ、ランダムフォレスト、多変量適応回帰スプライン (MARS)、勾配ブースティングマシン (GBM) などがあります。 2.5 ベイズ法 ベイズ法アルゴリズムは、ベイズの定理に基づいたアルゴリズムの一種で、主に分類問題や回帰問題を解決するために使用されます。一般的なアルゴリズムには、ナイーブ ベイズ アルゴリズム、平均 1 依存推定量 (AODE)、ベイズ信念ネットワーク (BBN) などがあります。 2.6 カーネルベースのアルゴリズム 最も有名なカーネルベースのアルゴリズムはサポートベクターマシン (SVM) です。 カーネルベースのアルゴリズムは、入力データを高次ベクトル空間にマッピングし、一部の分類問題や回帰問題をより簡単に解決できるようになります。 一般的なカーネルベースのアルゴリズムには、サポートベクターマシン (SVM)、ラジアル基底関数 (RBF)、線形判別分析 (LDA) などがあります。 2.7 クラスタリングアルゴリズム クラスタリングは、回帰と同様に、問題のクラスとして説明される場合もあれば、アルゴリズムのクラスとして説明される場合もあります。クラスタリング アルゴリズムは通常、中心点またはレイヤーに基づいて入力データをクラスターにグループ化します。すべてのクラスタリング アルゴリズムは、データの固有の構造を見つけ、最大の共通性に従ってデータを分類しようとします。一般的なクラスタリング アルゴリズムには、k-Means アルゴリズムと期待値最大化 (EM) アルゴリズムがあります。 2.8 相関ルール学習 関連ルール学習は、データ変数間の関係を最もよく説明するルールを見つけることで、大規模な多変量データセット内で有用な関連ルールを見つけます。一般的なアルゴリズムには、Apriori アルゴリズムと Eclat アルゴリズムがあります。 2.9 遺伝的アルゴリズム 遺伝的アルゴリズムは、生物の繁殖における突然変異、交換、ダーウィンの自然選択(各生態環境における適者生存)をシミュレートします。問題に対する可能な解を個体と呼ばれるベクトルにコード化します。ベクトルの各要素は遺伝子と呼ばれます。目的関数(自然選択基準に相当)を使用して集団(個体の集まり)内の各個体を評価し、評価値(適応度)に基づいて個体に対して選択、交換、突然変異などの遺伝的操作を実行し、新しい集団を取得します。遺伝的アルゴリズムは、ノイズや無関係なデータが多く、物事が絶えず更新され、問題の目標を明確かつ正確に定義できず、現在の動作の値が長い実行プロセスを通じてのみ決定できるような、非常に複雑で困難な環境に適しています。ニューラル ネットワークと同様に、遺伝的アルゴリズムの研究は人工知能の独立した分野に発展しており、その代表的人物は JH Holland です。 2.10 人工ニューラルネットワーク 人工ニューラル ネットワーク アルゴリズムは、生物学的ニューラル ネットワークをシミュレートするものであり、パターン マッチング アルゴリズムの一種です。分類問題や回帰問題を解決するためによく使用されます。人工ニューラル ネットワークは、何百もの異なるアルゴリズムを備えた機械学習の大きな分野です。 (ディープラーニングはアルゴリズムの 1 つですが、これについては別途説明します)。重要な人工ニューラル ネットワーク アルゴリズムには、パーセプトロン ニューラル ネットワーク、バックプロパゲーション、ホップフィールド ネットワーク、自己組織化マップ (SOM) などがあります。 2.11 ディープラーニング ディープラーニングアルゴリズムは人工ニューラルネットワークの進歩です。 最近は特に注目を集めており、特に百度がディープラーニングに注力し始めてからは中国でも大きな注目を集めています。 コンピューティング能力がますます安価になるにつれて、ディープラーニングははるかに大規模で複雑なニューラル ネットワークの構築を試みています。多くのディープラーニング アルゴリズムは半教師あり学習アルゴリズムであり、少量のラベルなしデータを含む大規模なデータ セットを処理するために使用されます。一般的なディープラーニング アルゴリズムには、制限付きボルツマン マシン (RBN)、ディープ ビリーフ ネットワーク (DBN)、畳み込みネットワーク、スタック オートエンコーダーなどがあります。 2.12 次元削減アルゴリズム クラスタリング アルゴリズムと同様に、次元削減アルゴリズムはデータの固有の構造を分析しようとしますが、次元削減アルゴリズムは、教師なし学習方式でより少ない情報を使用してデータを要約または説明しようとします。このようなアルゴリズムは、高次元データを視覚化したり、教師あり学習のためにデータを簡素化したりするために使用できます。一般的なアルゴリズムには、主成分分析 (PCA)、部分最小二乗回帰 (PLS)、サモン マッピング、多次元尺度法 (MDS)、射影追跡などがあります。 2.13 アンサンブルアルゴリズム アンサンブル アルゴリズムは、比較的弱い学習モデルをいくつか使用して同じサンプルを個別にトレーニングし、その結果を統合して全体的な予測を行います。統合アルゴリズムの主な難しさは、どの独立した弱い学習モデルを統合するか、そして学習結果をどのように統合するかにあります。これは非常に強力なアルゴリズムのクラスであり、非常に人気があります。一般的なアルゴリズムには、ブースティング、ブートストラップ集約 (バギング)、AdaBoost、スタック一般化 (ブレンディング)、勾配ブースティング マシン (GBM)、ランダム フォレスト、GBDT (勾配ブースティング決定木) などがあります。 |
<<: アルゴリズムが力を発揮します!なぜ人間と人工知能はますます似てきているのでしょうか?
>>: 調査によると、ヨーロッパ人はロボットに対してますます懐疑的になっている
「人工知能は急速に発展し、10年以内に人間の仕事の50%がAIに置き換えられるだろう」。シノベーショ...
そんな噂もあるんですね。ヘンリー・フォード2世(フォード・モーター社の創設者ヘンリー・フォードの孫)...
現在、製造企業で使用されている人工知能技術は、主にインテリジェント音声対話製品、顔認識、画像認識、画...
COVID-19 パンデミックにより、企業はデジタル変革の取り組みを数か月、場合によっては数年も加速...
人工知能とビッグデータは人々がよく知っている流行語ですが、混乱が生じることもあります。 AI とビッ...
多くの注意深い国民は、気づかないうちに銀行支店の数が減少していることに気づいています。予備統計による...
夏が来ると、人類の最大の敵の一つである蚊が活発になります。彼らは2~3匹で「家に侵入」し、「ブンブン...
OpenAI は最近、次世代の埋め込みモデルである埋め込み v3 をリリースしました。同社では、この...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[51CTO.com からのオリジナル記事] 近年、AR は常に資本追求の焦点となってきました。 2...