機械学習: 具体的なカテゴリーは何ですか?プロジェクトのプロセスはどのようなものですか?

機械学習と人工知能は近年最もホットなキーワードの 1 つであるはずです。今日は機械学習の基礎知識をいくつか紹介します。何か間違っている点がありましたら、ご訂正いただければ幸いです。

[[383223]]

01 機械学習の定義

機械学習について話す前に、まず人間の学習行動とは何かを明確にしましょう。

まとめると、人間は過去の経験からルールを獲得し、それを新しい類似のシナリオに適用する、これが人間の学習行動であると言えます。

同様に、機械学習とは、機械をトレーニングおよび学習し、大量のデータから固有の特徴を見つけ、新しい事柄について判断を下せるようにすることを指します。

02機械学習の分類

機械学習のカテゴリにはどのようなものがありますか? 分類方法によって、サブカテゴリも異なります。整理してみると、主に以下のような概要図があります。

（１）学習目標による分類

機械学習の目的は何でしょうか? 簡単に言えば、機械学習を通じてどのような結果を達成したいかということです。

学習目標に応じて、主に回帰問題、分類問題、ソート問題の 3 つのカテゴリに分けられます。

回帰問題: 対象が連続変数である問題を解きます。たとえば、身長に基づいて体重を予測する場合、体重は連続変数になります。
分類問題: 解決すべき問題は、離散ラベルの問題です。たとえば、人が男性か女性かを予測するなどです。
ソートの問題: モデルはオブジェクトのソートされたリストを出力します。

（２）学習データの特性に応じた分類

前述のように、機械学習には基礎となるトレーニングデータが必要です (そうでなければ、機械は学習できません)。トレーニングデータの特性に応じて、主に次の 2 つのカテゴリに分類されます。

教師あり学習: 既存のトレーニングサンプルを使用して最適なモデルをトレーニングし、このモデルを使用してすべての入力を対応する出力にマッピングし、出力に対して簡単な判断を下して予測と分類の目的を達成し、未知のデータを予測および分類する機能を実現します。一般的な教師ありアルゴリズムには、線形回帰アルゴリズム、BP ニューラルネットワークアルゴリズム、決定木、サポートベクターマシン、KNN などがあります。
教師なし学習: トレーニングサンプルのラベル情報は不明です。目標は、ラベルのないトレーニングサンプルを学習することでデータの固有の特性と法則を明らかにし、さらなるデータ分析の基礎を提供することです。このタイプの学習タスクで最も研究され、広く使用されているのは「クラスタリング」です。クラスタリングの目的は、類似したものをグループ化することであり、これは主にサンプルとグループ間の距離を計算することによって実現されます。ディープラーニングと PCA はどちらも教師なし学習のカテゴリに分類されます。一般的な教師なしアルゴリズムには、密度推定、異常検出、階層的クラスタリング、EM アルゴリズム、K-Means アルゴリズム、DBSCAN アルゴリズムなどがあります。

（３）モデルの複雑さによる分類

モデルの複雑さに応じて、線形モデルと非線形モデルの 2 つのカテゴリに分けられます。

線形モデル: 決定境界は直線です。たとえば、ロジスティック回帰モデル。
非線形モデル: 決定境界は直線ではありません。たとえば、ニューラルネットワークモデル。

（４）モデル機能による分類

モデルの機能に応じて、主に識別モデルと生成モデルに分けられます。

判別モデル: 予測のためにデータから決定関数 f(x) または条件付き確率分布 P(y|x) を直接学習するモデル。与えられた入力 x に対してどのような出力 y を予測するかを扱います。一般的な k 最近傍法、パーセプトロン、決定木、ロジスティック回帰、線形回帰、最大エントロピーモデル。
生成モデル: データから入力と出力の結合確率分布 P(x, y) を学習し、事後確率分布 P(y|x) を計算して予測するモデル。一般的な生成モデルには、ナイーブベイズと隠れマルコフ (EM アルゴリズム) が含まれます。

03機械学習の基本プロセス

機械学習プロジェクトの主なプロセスは次のとおりです。

（１）データ前処理

データクリーニングとは、データセット内のノイズデータや無関係なデータを検出して削除し、欠損データを処理して、空白のデータドメインや知識背景のホワイトノイズを除去することです。

（２）データのセグメンテーション

機械学習では、通常、すべてのデータはトレーニングデータセット、検証データセット、テストデータセットの 3 つの部分に分割されます。それらの機能は

トレーニングデータセット: 機械学習モデルの構築に使用
検証データセット: モデルの構築を支援し、構築プロセス中にモデルを評価するために使用され、モデルの偏りのない推定値を提供し、モデルのハイパーパラメータを調整します。
テストデータセット: トレーニングされた最終モデルのパフォーマンスを評価するために使用

データを分割する方法については後ほど共有します。

（３）特徴エンジニアリング

特徴構築とは、元のデータから物理的に重要ないくつかの特徴を手動で見つけることを指します。生データを観察し、問題の潜在的な形やデータ構造について考えるには時間がかかります。データに対する感受性と機械学習の実践経験は、特徴の構築に役立ちます。

機械学習について私が言いたいことは以上です。皆様、引き続きご注目ください〜

<<: 考えてみると恐ろしいですね！人工知能は、成功率70％で人間の行動を操作することを学習したと疑われている。

>>: 人工知能によって仕事が置き換えられた後、一般の人々は何をすべきでしょうか?