前回の記事では機械学習の基礎知識について説明しました。この記事ではいくつかのアルゴリズムの探索を始めます。私たちはフロントエンドのR&Dエンジニアなので、コーディングにはml.jsライブラリを選択します。今回取り上げるアルゴリズムは、KNN、決定木、ランダムフォレスト、ナイーブベイズ、サポートベクターマシン、線形回帰、K平均法クラスタリングアルゴリズムなどです。これら7つのアルゴリズムは、教師あり学習アルゴリズム(分類アルゴリズム、回帰アルゴリズム)と教師なし学習アルゴリズムにまたがっています。これらは、フロントエンドの入門機械学習の必修コースとして使用できるだけでなく、エンドインテリジェンスの時代の必読書としても使用できます。 1. 教師あり学習アルゴリズム 1.1 分類アルゴリズム 1.1.1 K近傍法分類アルゴリズム(KNN) 定義 特徴空間内のサンプルの k 個の最も類似したサンプル (つまり、特徴空間内で最も隣接するサンプル) のほとんどが特定のカテゴリに属する場合、サンプルもこのカテゴリに属します。 (通常、kは20以下の整数です) 2. メリットとデメリット 1. 利点
2. デメリット
3. 距離を計算する KNN アルゴリズムの核となる内容は距離を計算することです。2 つのサンプル間の距離はユークリッド距離で計算できます。計算式は次のとおりです。 IV. 応用シナリオ 文字認識、テキスト分類、画像認識などの分野で使用できる小規模データシナリオ(数千から数万のサンプル) 5. コード
1.1.2 決定木 定義 決定木とは、様々な状況の既知の確率に基づいて決定木を構築し、正味現在価値の期待値がゼロ以上となる確率を求め、プロジェクトのリスクを評価し、その実現可能性を判断する意思決定分析手法の一つで、確率分析を直感的に利用するグラフィカルな手法です。決定木は、各内部ノードが属性のテストを表し、各ブランチがテスト出力を表し、各リーフノードがカテゴリを表すツリー構造です。 2. メリットとデメリット 1. 利点
2. デメリット
3. 応用シナリオ これは、分類問題や回帰問題を解決するためによく使用されます。このアルゴリズムを使用するための前提条件は次のとおりです。 1. 意思決定者が達成したい明確な目標を持つ 2. 意思決定者が選択できる実行可能な選択肢が2つ以上ある 3. 意思決定者が制御できない不確実な要因が2つ以上ある 4. 異なる要因による異なるプランの利益または損失を計算できる 5. 意思決定者は不確実性の発生確率を推定できる 4. 重要な知識ポイント 1. 情報エントロピー 情報は非常に抽象的な概念であり、定量化が困難です。情報の量的測定の問題を解決するために、シャノンは「情報エントロピー」という概念を提唱しました。情報エントロピーは情報に基づいており、可能性のある情報をランダム変数として定義します。変数の期待値が情報エントロピーです。情報エントロピーの計算式は(ビット単位)次のとおりです。 注: エントロピーは不確実性を測定するために使用されます。エントロピーが大きいほど不確実性も大きくなり、逆もまた同様です。2. 情報ゲイン 情報ゲインは、決定木アルゴリズムで特徴を選択するために使用される指標です。情報ゲインが大きいほど、その特徴の選択性は高くなります。確率論では、分類するセットのエントロピーと特定の特徴を選択する条件付きエントロピーの差として定義されます。計算式は次のとおりです。 注記:
3. 一般的なアルゴリズム (1)ID3アルゴリズム ID3 アルゴリズムは、特徴選択の基準として情報ゲインを使用します。情報ゲインが大きいほど、この機能による分類後に情報の不確実性を排除できます。 (2)C4.5アルゴリズム ID3 アルゴリズムには 2 つの大きな欠点があります。1 つは、特徴のカテゴリが増えるほど、計算される情報ゲインが大きくなり、生成される決定木が広く浅くなりやすいことです。もう 1 つは、離散変数しか処理できず、連続変数は処理できないことです。 C4.5はID3アルゴリズムに基づく特徴選択として情報利得率を使用します。カテゴリのペナルティ係数を増やすことで、カテゴリが増えると情報利得が大きくなる問題を回避します。同時に、連続変数の平均を離散化することで連続変数を処理できない問題も解決できます。 (3)CARTアルゴリズム C4.5 には回帰問題を処理できないという欠点がありますが、これは CART によって解決されます。 CART は情報エントロピーを通じて最適な分割特徴を選択するのではなく、ジニ係数 (ジニ不純度) を使用します。この 2 つは情報量を同様の方法で測定しますが、ジニ係数は対数演算がないため、計算オーバーヘッドを大幅に削減できます。 5. コード
1.1.3 ランダムフォレスト 定義 機械学習において、ランダムフォレストとは複数の決定木を含む分類器であり、その出力のカテゴリは個々の木が出力するカテゴリの大多数によって決定されます(ランダムフォレストは、アンサンブル学習の考え方によって複数の木を統合するアルゴリズムであり、その基本単位は決定木です)。 2. メリットとデメリット 1. 利点
2. デメリット
3. 重要な知識ポイント 1. ランダムフォレストの各ツリーの生成ルール(Aはトレーニングセット内のサンプルの総数、Nはトレーニングサンプルの数、Mは特徴の数を表す) (1)各ツリーについて、そのツリーのトレーニングセットとして、トレーニングセットからN個のトレーニングサンプルをランダムに選択する。 (2)定数m<を指定する。 2. トレーニング セットをランダムにサンプリングする必要があるのはなぜですか? ランダム サンプリングは、各ツリーのトレーニング セットが異なることを保証するためです。ランダム サンプリングを使用しない場合、トレーニングの最終的な分類結果はまったく同じになります。 3. 置換抽出法はなぜ必要なのでしょうか? 復元サンプリングにより、各抽出の確率が同じになり、独立した同一の分布が実現され、各決定木が互いに独立していることが保証されます。 4. ランダムフォレストの分類効果(エラー率)に関連する要因は何ですか? (1)森の中の2つの木の間の相関:相関が大きいほど、エラー率は高くなる (2)フォレスト内の各ツリーの分類能力:各ツリーの分類能力が強いほど、フォレスト全体のエラー率は低くなります。 (注:特徴選択数mが減少すると、ツリーの関連性と分類能力もそれに応じて低下し、逆もまた同様です) 4. コード
1.1.4 ナイーブベイズ 定義 ナイーブベイズ法 (NBC) は、ベイズの定理と特徴条件付き独立性の仮定に基づく分類方法です。まず、与えられたトレーニング セットを通じて、特徴語の独立性を前提として、入力から出力までの結合確率分布を学習し、学習したモデルに基づいて、入力 X から事後確率を最大化する出力 Y を見つけます。 2. メリットとデメリット 1. 利点
2. デメリット
3. 応用シナリオ
IV. 重要な知識ポイント 1. ベイズの公式 注: ベイズの公式はP(W|C)とP(C|W)をつなぐものである。 2. ラプラス平滑化係数を導入する理由は何ですか? 計算された分類確率が 0 にならないようにするために、ラプラス平滑化係数が導入されます。つまり、P(W1|C) は 0 ではありません。計算式は次のとおりです。 注: αは指定された係数で、通常は1です。mはトレーニング文書でカウントされる特徴語の数です。 3つのベイズモデル (1)ガウス分布ナイーブベイズ - 一般的な分類問題に使用される (2)多項分布ナイーブベイズ - テキストデータに適している(特徴量は頻度を表す) (3)ベルヌーイ分布ナイーブベイズ - ベルヌーイ分布とテキストデータに適用可能(特徴はそれが発生するかどうかを示す) 5. コード
1.1.5 サポートベクターマシン 定義 サポート ベクター マシン (SVM) は、教師あり学習方式でデータのバイナリ分類を実行する一般化線形分類器です。その決定境界は、学習サンプルに対して解決された最大マージン超平面です。 2. メリットとデメリット 1. 利点
2. デメリット
3. 応用シナリオ SVM は、肖像認識、テキスト分類、手書き文字認識、バイオインフォマティクスなど、さまざまな分野のパターン認識問題に応用されています。 IV. 重要な知識ポイント 1. 重要な概念 (1)線形分離可能性:二次元空間において、2種類の点は直線によって完全に分離される。これを線形分離可能性という。 (2)最大マージン超平面:2次元空間から多次元空間に拡張し、2つの点集合を完全に正しく分割した超平面を形成する。この超平面をよりロバストにするために、最適な超平面(すなわち、2種類のサンプルを最大マージンで分離する超平面である最大マージン超平面)を求める。 (2種類のサンプルを超平面の両側に分割し、両側の超平面に最も近いサンプルポイントから超平面までの距離を最大化する) (3)サポートベクター:サンプル内の超平面に最も近い点をサポートベクターと呼ぶ。 (4)ソフトマージン:完全に線形分離できないサンプルに対しては、ソフトマージンを導入することができます。ハードマージンの厳しい条件と比較して、ソフトマージンでは、個々のサンプルが間隔帯域内に現れることが許可されます。 (注: ハード間隔とソフト間隔はどちらも、サンプルの完全な線形分離可能性またはほとんどのサンプル ポイントの線形分離可能性を指します) 2. 線形分離処理の場合 線形分離不可能なサンプルを高次元空間にマッピングして、サンプルを高次元空間で線形分離可能にします。このとき、次元の増加は計算量の増加につながるため、カーネル関数を使用して対処する必要があります。カーネル関数を導入すると、高次元空間や無限次元空間の内積を計算する必要がなくなります。 3. カーネル関数導入のメリット (1)計算負荷の軽減 (2)データ保存時のメモリ使用量の削減 4. 一般的なカーネル関数の分類 (1)線形カーネル関数 (2)多項式カーネル関数 (3)ガウスカーネル関数 5. コード
1.2 回帰アルゴリズム 1.2.1 線形回帰 定義 線形回帰は、回帰方程式 (関数) を使用して、1 つ以上の独立変数 (固有値) と従属変数 (目標値) の関係をモデル化する分析方法です。独立変数が 1 つの場合を単変量回帰、独立変数が複数の場合を重回帰と呼びます。 2. メリットとデメリット 1. 利点
欠点
3. 応用シナリオ
IV. 重要な知識ポイント
(1)定義:他の仮説よりもトレーニングデータに適合するが、テストデータセットのデータには適合しない仮説は、過剰適合であると考えられる。 (モデルが複雑すぎる) (2)理由:独自の機能が多すぎる、ノイズの多い機能もある (3)解決策:正規化 4. アンダーフィッティング (1)定義:仮説がトレーニングデータセットで良好な適合を得られず、テストデータセットでもデータにうまく適合しない場合、その仮説は適合不足であるとみなされる。 (モデルが単純すぎる) (2)理由:学習データの特徴が少なすぎる (3)解決策:データ特徴量を増やす 5. 正規化 (1)L2正則化 L2 正則化により、一部の W が非常に小さく (0 に近く) なり、特定の機能の影響が弱まります。リッジ回帰では L2 正則化が使用されます。 (2)L1正則化 L1 正則化により、W 値の一部を 0 に直接等しくすることができるため、特徴全体の影響が除去されます。 LASSO 回帰では L1 正則化が使用されます。 5. コード
2. 教師なし学習アルゴリズム 2.1 K平均法クラスタリングアルゴリズム 定義 K 平均法クラスタリング アルゴリズムは反復的なクラスタリング分析アルゴリズムであり、その手順は次のとおりです。 特徴空間内のK点を初期クラスタリング中心としてランダムに設定する 他の各ポイントについては、K 中心までの距離を計算し、最も近いクラスター中心ポイントをラベル カテゴリとして選択します。 次に、各クラスターの新しい中心点(平均値)を再計算します。 計算された新しい中心点が元の中心点と同じであれば、プロセスは終了します。それ以外の場合は、2 番目の手順を繰り返します。 2. メリットとデメリット 1. 利点
2. デメリット
3. コード
この記事はWeChatの公式アカウント「Zhiyuanzhe」から転載したもので、以下のQRコードからフォローできます。この記事を転載する場合は、Zhiyuanzheの公式アカウントまでご連絡ください。 |
<<: Apple Watchも新型コロナウイルスを検知可能:症状が出る7日前に検知可能
>>: 2020 年に人気の機械学習プロジェクト トップ 10
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
何?大手テクノロジー企業の面接の質問が漏洩した?そんなわけないですよね~。海外の有名なブログプラット...
最近、中国科学技術大学の研究チームは中国地震局と協力し、世界初の人工知能地震監視システム「スマート地...
農産物における人工知能の応用人工知能は、次のような農産物のあらゆる段階と側面に適用できます。農業: ...
COVID-19 パンデミック、メンタルヘルス危機、医療費の高騰、人口の高齢化により、業界のリーダ...
2023年の科学技術の世界は、(偽の室温超伝導を除いて)大型モデルが主流であると言えます。私たちは...
最近、ルカン氏を含む一群の大物が再びLLMを攻撃し始めた。最新のブレークスルーは、LLM にはまった...
最近のGithubトレンドホットリストでは、Microsoft Research AsiaのAI教育...
人類が人工知能の時代に突入したことは否定できません。人工知能技術が急速に発展するにつれ、私たちの周り...
AIの助けを借りれば、月に10万元、年に100万元稼ぐことができます。想像できますか?信じないでく...
近年、スマートカーの事故が多発しており、事故の原因は主にいわゆる「自動運転」機能に関連しており、必然...