【51CTO.com 速訳】機械学習アルゴリズム入門 機械学習アルゴリズムの分野では、分類には通常次の 2 つの方法が使用されます。
一般的に言えば、これら 2 つのカテゴリは同等に重要です。今回は、主に類似性分類に基づくアルゴリズムとそのさまざまなタイプについて説明します。 学習スタイル別に分類した機械学習アルゴリズム 一般的に言えば、同じアルゴリズムでも、異なるインタラクティブなエクスペリエンスに基づいて、問題を異なる方法でモデル化します。これは入力データの呼び出しには影響しません。同時に、機械学習や人工知能の分野では、いくつかのアルゴリズムが一般的な教科書によく登場します。 したがって、さまざまなアプリケーション シナリオに直面したときに最初に考慮する必要があるのは、アルゴリズムが適している学習方法です。以下では、機械学習アルゴリズムのいくつかの主要な学習方法と、さまざまなアルゴリズムを適用できる問題のシナリオとユースケースについて説明します。さまざまな入力データが果たす「役割」とモデル準備のさまざまなプロセスを総合的に考慮することで、問題に最も適したアルゴリズムを選択し、最終的に最良の結果を得ることができます。 3つの異なる学習方法を見てみましょう。 教師あり学習 教師あり学習では、入力データは「トレーニング データ」と呼ばれ、「スパム」、「スパムではない」、特定の時点の株価などの既知のラベルまたは結果を持ちます。教師あり学習は、トレーニング プロセスを通じて予測モデルを構築します。彼らは、「トレーニング データ」の実際の結果と比較することで、予測を継続的に改善します。したがって、モデルが目的のレベルに達するまでトレーニング プロセスは継続されます。
教師なし学習 教師なし学習では、入力データにはラベルが付けられておらず、結果は不明です。入力データの本質的な構造を推測して、対応するモデルを準備する必要があります。数学的なプロセスを通じて、いくつかの一般的なルールを抽出し、冗長性を削減することができます。
半教師あり学習 半教師あり学習では、入力データはラベル付きの例とラベルなしの例が混在したものです。望ましい予測目標も持っています。モデルは予測を行うために、さまざまな構造を学習してさまざまなデータを整理する必要があります。
類似性による分類アルゴリズム 機械学習アルゴリズムは、多くの場合、機能の類似性によって分類され、(決定)ツリーベースの方法やニューラル ネットワークにヒントを得た方法などがあります。個人的には、これが機械学習アルゴリズムにとって最も効果的で実用的な分類方法だと考えています。もちろん、学習ベクトル量子化など、一部のアルゴリズムは複数のカテゴリにまたがります。このアルゴリズムは、ニューラル ネットワーク メソッドとインスタンス ベース メソッドを組み合わせたもので、回帰やクラスタリングの問題、およびアルゴリズムの種類を説明するためによく使用されます。このタイプのアルゴリズムの特徴は、同じアルゴリズムが繰り返し呼び出されないことです。 1. 回帰アルゴリズム 回帰アルゴリズムは、変数間の関係をモデル化することに関係しています。このモデルを使用すると、さまざまな予測で生成されるエラー指標を改善できます。 これらの方法は統計学の「主力」であり、統計機械学習の「武器」でもあります。 「回帰」は問題の種類とアルゴリズムの問題の両方を指す可能性があるため、参照を混同しやすいです。最も人気のある回帰アルゴリズムは次のとおりです。
2. 例に基づくアルゴリズム モデルは、さまざまなインスタンスからのトレーニング データを使用して意思決定の問題を処理します。方法はサンプルデータのデータベースを構築することです。新しいデータとサンプルデータを比較し、類似性メソッドを使用して最適な一致を見つけ、予測を行います。さまざまなインスタンスのパフォーマンス状態を保存し、インスタンス間の類似性測定値を使用します。このため、インスタンスベースのアルゴリズムは、「勝者総取り学習」または「メモリベース学習」とも呼ばれます。最も人気のあるインスタンスベースのアルゴリズムは次のとおりです。
3. 正規化アルゴリズム この方法は、他のアルゴリズム (通常は回帰アルゴリズム) の拡張です。使用する「ペナルティ」モデルはその複雑さに関係しており、つまり、モデルが単純であればあるほど、一般化が容易になります。私がこれをここで取り上げたのは、これが人気があり、強力で、他の方法を簡単に修正したものであるからです。最も人気のある正規化アルゴリズムは次のとおりです。
4. 決定木アルゴリズム 決定木法は、データ属性の実際の値に基づいて構築される決定モデルです。ツリー構造は、指定されたレコードに基づいて予測決定が行われるまで分岐し続けます。決定木は、分類問題と回帰問題の両方のデータでトレーニングされます。決定木は、その高速性と正確な結果により、最も人気のある機械学習アルゴリズムの 1 つです。最も人気のある決定木アルゴリズムは次のとおりです。
5. ベイズアルゴリズム このタイプのアルゴリズムは、分類や回帰など、ベイズの定理を使用する問題に適しています。最も人気のあるベイズアルゴリズムは次のとおりです。
6. クラスタリングアルゴリズム クラスタリングは、回帰と同様に、問題の種類と方法の種類を説明するために使用できます。このアプローチでは、重心ベースや階層型などのモデリング手法が使用されます。これらはすべて、データの固有の構造を利用するものです。目標は、データ間の最大の共通性に従ってデータをグループ化することです。最も人気のあるクラスタリング アルゴリズムは次のとおりです。
7. 相関ルール学習アルゴリズム 相関ルール学習法は、さまざまなルールを抽出すること、つまり、観察を通じてデータ変数間の関係を最もよく記述することを目的としています。これらのルールにより、組織が活用できる大規模な多次元データ セット内の重要かつ有用な関係を発見できます。最も人気のある関連ルール学習アルゴリズムは次のとおりです。
8. 人工ニューラルネットワークアルゴリズム このアルゴリズムは、生物学的ニューラル ネットワークの構造にヒントを得たモデルです。これらは、回帰や分類などの問題を解決するために使用されるパターン マッチングの一種です。何百ものアルゴリズムと変数を組み合わせるため、非常に大きなサブセットを構成することになります。最も人気のある人工ニューラル ネットワーク アルゴリズムは次のとおりです。
9. ディープラーニングアルゴリズム ディープラーニング アルゴリズムは、安価な計算能力を最大限に活用する人工ニューラル ネットワークのアップグレード バージョンです。より大規模で複雑なニューラル ネットワークの構築が含まれます。最も人気のあるディープラーニングアルゴリズムは次のとおりです。
10. 次元削減アルゴリズム クラスタリング手法と同様に、次元削減アルゴリズムはデータ内の固有の構造を探します。一般的に、3 次元データを視覚化する場合に役立ちます。分類や回帰のための教師あり学習法で使用できます。最も人気のある次元削減アルゴリズムは次のとおりです。
11. モデル融合アルゴリズム このアルゴリズムは、複数のトレーニングされた弱いモデルで構成されています。別々の予測を何らかの形で組み合わせて、より良い予測を作成します。モデル融合アルゴリズムは非常に強力で人気のある技術であることがわかります。最も人気のあるモデル融合アルゴリズムは次のとおりです。
一般的な機械学習アルゴリズムの概要 1. ナイーブベイズ分類アルゴリズム 一般的に言えば、Web ページ、ドキュメント、または電子メール、特に長いテキスト メッセージが含まれており、手動での分類が必要なものを正確に分類することは困難です。ここで、まさに Naive Bayes 分類アルゴリズムが登場します。さらに、その分類器には、要素に類似度値を割り当てる機能があります。 たとえば、スパムフィルタリングは、Naive Bayes アルゴリズムの一般的な応用例です。ここでのスパム フィルターは分類子として機能し、すべての電子メールに「スパム」または「スパムではない」というラベルを割り当てます。一般的に言えば、類似性型機械学習アルゴリズムの中で最も人気のあるタイプです。その基本的な動作原理は、ベイズの定理に基づいてさまざまな単語を単純に分類し、コンテンツの主観的な分析を実現することです。 2. K平均法クラスタリングアルゴリズム K-means は、教師なし機械学習を使用するクラスター分析アルゴリズムです。同時に、これは非決定論的な反復手法です。このアルゴリズムは、特定のデータセット内の事前に設定された数のカテゴリ (たとえば k) に対して動作します。したがって、K 平均アルゴリズムの出力は、クラスタリングで入力データから分離された k 個の分割されたクラスターになります。 3. サポートベクターマシンアルゴリズム このアルゴリズムは、分類と回帰分析に使用できる教師あり機械学習アルゴリズムです。 SVM (サポート ベクター マシン、https://data-flair.training/blogs/svm-support-vector-machine-tutorial/) は、あらゆる新しいデータセットを分類できます。その動作原理は、トレーニング データ セットをさまざまなカテゴリに分割して線形特徴を検出し、複数の線形特徴からいくつかの超平面を構築することです。したがって、SVM では、さまざまなカテゴリ間の距離を最大化する必要があります。つまり、識別されたマージンを最大化して、見えないデータの確率を高める必要があります。 SVM は一般的に 2 つのカテゴリに分類されます。
4. 事前アルゴリズム このアルゴリズムは、教師なし機械学習アルゴリズムです。これを使用して、特定のデータセットから関連ルールを生成します。ここでの関連ルールは、「項目 A が発生すると、項目 B も発生する」という一定の確率を指し、通常は IF_THEN の形式で生成されます。 たとえば、iPad を購入する人は、iPad を保護するために iPad ケースも購入するでしょう。したがって、アルゴリズムは基本的に次のように機能します。何かが頻繁に発生する場合、そのサブセットもすべて頻繁に発生します。逆に、ある項目がたまにしか発生しない場合は、そのすべてのスーパーセットもまれにしか発生しません。 5. 線形回帰アルゴリズム このアルゴリズムは、2 つの変数間の関係、つまりそれらの間の依存関係を通じて、1 つの変数 (独立変数) が別の変数 (従属変数) にどのように影響するかを示すことができます。独立変数は常に変化しているにもかかわらず、従属変数には同様の予測子が現れることがよくあります。 6. 決定木アルゴリズム 通常、グラフは意思決定ツリーを表すために、つまり分岐法を使用して意思決定のすべての可能な結果を示すために使用します。決定木では、各ブランチノードは特定の属性のテスト結果を表します。同時に、リーフ ノードは特定のカテゴリのラベル、つまりすべての属性を計算した後に行われた決定を表します。さらに、ルートノードからリーフノードまでのパスを通じて分類を表すこともできます。 7. ランダムフォレストアルゴリズム これは機械学習アルゴリズムの定番のタイプです。バギング アプローチを使用して、データのランダムなサブセットを含む決定木のセットを作成します。最終的な予測効果を高めるには、ランダム フォレスト アルゴリズムを使用して、モデル データ セット上のランダム サンプルに対して複数のトレーニングを実行し、すべての決定木の出力結果を統合し、各決定木の結果をポーリングする必要があります。 8. ロジスティック回帰アルゴリズム このタイプのアルゴリズムは一般化線形回帰であり、ロジスティック関数を特定の特徴の線形結合に適用し、さまざまな予測変数を通じて分類された従属変数の結果を予測し、独立変数の加重確率も記述します。 結論は 要約すると、機械学習アルゴリズムとそのさまざまな分類について説明しました。分類には、回帰アルゴリズム、インスタンスベース アルゴリズム、正則化アルゴリズム、決定木アルゴリズム、ベイズ アルゴリズム、クラスタリング アルゴリズム、関連ルール学習アルゴリズム、人工ニューラル ネットワーク アルゴリズム、ディープラーニング アルゴリズム、次元削減アルゴリズム、モデル融合アルゴリズム、教師あり学習、教師なし学習、半教師あり学習、ナイーブ ベイズ分類アルゴリズム、K 平均法クラスタリング アルゴリズム、サポート ベクター マシン アルゴリズム、事前アルゴリズム、線形回帰、ロジスティック回帰が含まれます。上記の写真とテキストによる説明方法は、間違いなくあなたにとって有益であると信じています。 原題: データサイエンティストになるために知っておくべきトップ機械学習アルゴリズム、著者: Rinu Gour [51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください] |
[元記事は51CTO.comより]「アリスマートスピーカーTmall Genie原価499元、クーポ...
[51CTO.com からのオリジナル記事] ディープラーニングに代表される人工知能は、画像、音声、...
「大リーク:コードネームStubbsというGoogleの謎のAIツールが暴露された」と、Xという名の...
市場の状況がますます複雑化する今日の不安定なビジネス環境では、組織が分析に基づく意思決定を行うために...
人工知能の発展の過程で、常に次のような声が聞かれます。「人工知能によって、特に若者を中心に、失業者が...
OpenAI シリーズは終わりに近づいていますが、イースターエッグがあるとは思っていませんでした。ま...
2000年から10年間の発展を経て、中国のPC時代のインターネットは「交通経済」を生み出しました。...
1956年にアメリカのダートマス大学で開催された学術会議が、世界的なAI研究の始まりとなりました。 ...
1. 教師なし学習教師なし学習の特徴は、モデルが学習するデータにラベルがないことです。そのため、教師...
インターネットの普及は無線技術の発達に伴い、人々のライフスタイルも変えつつあります。モバイル決済、無...