分類アルゴリズムの概要

分類アルゴリズムの概要

[[151327]]

決定木分類アルゴリズム

決定木誘導は古典的な分類アルゴリズムです。これは、トップダウン、再帰、ブレークダウン方式で決定木を構築します。情報ゲイン メトリックは、ツリーの各ノードでテスト属性を選択するために使用されます。結果として得られた決定木からルールを抽出できます。

KNN法(K近傍法):

KNN 法、または K 最近傍法は、1968 年に Cover と Hart によって初めて提案され、理論的には比較的成熟した方法です。

この方法の考え方は非常にシンプルで直感的です。サンプルの最も類似したk個のサンプル(つまり、特徴空間内の最も近いサンプル)のほとんどが特定のカテゴリに属する​​場合、サンプルもこのカテゴリに属します。

この方法では、分類決定における 1 つまたは複数の最も近いサンプルのカテゴリに基づいて、分類するサンプルのカテゴリのみを決定します。

KNN 法も原理的には極限定理に依存していますが、カテゴリ決定を行う際にはごく少数の隣接サンプルにのみ関連します。

したがって、この方法により、サンプルの不均衡の問題をより適切に回避できます。

さらに、KNN 法は、カテゴリを決定するためにクラス領域を区別する方法ではなく、限られた隣接サンプルに主に依存するため、KNN 法は、より多くの交差または重複したクラス領域で分類されるサンプル セットに他の方法よりも適しています。

この方法の欠点は、分類するテキストごとに、K 個の最近傍を取得するためにすべての既知のサンプルとの距離を計算する必要があるため、大量の計算が必要になることです。

現在一般的に使用されている解決策は、既知のサンプルポイントを事前にクリップし、分類にほとんど影響のないサンプルを削除することです。

また、リバース KNN 方式もあり、これにより KNN アルゴリズムの計算の複雑さが軽減され、分類の効率が向上します。

このアルゴリズムは、サンプル サイズが大きいドメインの自動分類に適していますが、サンプル サイズが小さいドメインにこのアルゴリズムを使用すると、誤分類が発生する可能性が高くなります。

SVM法:

SVM 法、すなわちサポート ベクター マシン法は、1995 年に Vapnik らによって提案され、比較的優れたパフォーマンス指標を持っています。

この方法は、統計学習理論に基づいた機械学習手法です。

学習アルゴリズムにより、SVM は分類に優れた識別能力を持つサポート ベクトルを自動的に見つけることができます。このようにして構築された分類器はクラス間の間隔を最適化できるため、適応性が向上し、分類精度が高くなります。

この方法では、各ドメインの境界サンプルのカテゴリに基づいて最適な分類結果を決定するだけです。

サポートベクターマシンアルゴリズムの目的は、トレーニングセット内のデータを分離でき、超平面に垂直な方向に沿ってクラスドメイン境界からの距離が最小となる超平面 H(d) を見つけることです。そのため、SVM メソッドは最大マージンアルゴリズムとも呼ばれます。

分類するサンプル セット内のサンプルのほとんどはサポート ベクターではありません。これらのサンプルを削除または削減しても、分類結果には影響しません。サンプルが小さい場合、自動分類では SVM 方式の方が分類結果が良くなります。

VSM方式:

VSM 法、すなわちベクトル空間モデル法は、1960 年代後半に Salton らによって提案されました。これは情報検索のための最も初期かつ最も有名な数学モデルです。

基本的な考え方は、ドキュメントを重み付けされた特徴ベクトルとして表現することです: D=D(T1, W1; T2, W2; ...; Tn, Wn)、次にテキストの類似度を計算して分類するサンプルのカテゴリを決定します。

テキストを空間ベクトルモデルとして表現すると、テキストの類似性は特徴ベクトル間の内積で表現できます。

実際のアプリケーションでは、VSM メソッドは一般に、コーパス内のトレーニング サンプルと分類システムに基づいてカテゴリ ベクトル空間を確立します。

分類するサンプルを分類する必要がある場合、分類するサンプルと各カテゴリ ベクトル間の類似度、つまり内積を計算し、最も類似度の高いカテゴリを分類するサンプルに対応するカテゴリとして選択するだけで済みます。

VSM 法では、事前にカテゴリ空間ベクトルを計算する必要があり、空間ベクトルの設定はカテゴリベクトルに含まれる特徴項目に大きく依存します。

研究によると、カテゴリに含まれる非ゼロの特徴項目の数が多いほど、そのカテゴリの各特徴項目の表現力は弱くなります。

したがって、他の分類方法と比較して、VSM 法は専門文献の分類に適しています。

ベイズ法:

ベイズ法は、既知の事前確率とクラス条件付き確率を条件とするパターン分類法です。分類対象となるサンプルの分類結果は、各クラスドメイン内のサンプルの総数に依存します。

トレーニング サンプル セットが M 個のカテゴリに分割され、C={c1,…,ci,…cM} と表されるとします。各カテゴリの事前確率は P(ci)、i=1,2,…,M です。サンプル セットが非常に大きい場合、P(ci) = クラス ci のサンプル数 / サンプルの総数と考えることができます。

分類するサンプル X について、クラス cj に属するクラス条件付き確率は P(X|ci) です。ベイズの定理によれば、クラス cj の事後確率 P(ci|X) は次のように得られます。

P(ci|x)=P(x|ci)·P(ci)/P(x)(1)

P(ci|X)=Ma**(cj|X)、i=1,2,…,M、j=1,2,…,Mの場合、x∈ci(2)

式(2)は事後確率決定基準である。式(1)を式(2)に代入すると、次のようになる。

P(x|ci)P(ci)=Maxj[P(x|cj)P(cj)], i=1,2,…,M, j=1,2,…,Mならばx∈ci

これは一般的に使用されるベイズ分類の決定基準です。長期にわたる研究の結果、ベイズ分類法は理論的に完全に実証され、非常に広く使用されるようになりました。

ベイズ法の弱点は、実際の状況では、カテゴリ母集団の確率分布と各サンプルタイプの確率分布関数(または密度関数)が不明なことが多いことです。それらを取得するには、サンプルが十分に大きくなければなりません。

また、ベイズ法では、テキストを表現するキーワードが互いに独立していることが求められますが、この条件を実際のテキストで満たすことは一般的に困難です。そのため、この方法では効果の面で理論上の最適値を達成できないことがよくあります。

ニューラルネットワーク:

ニューラル ネットワーク分類アルゴリズムの重要なポイントは、しきい値ロジック ユニットを構築することです。値ロジック ユニットは、重み付けされた係数のセットを入力し、それらを合計し、合計が特定のしきい値に達するか超過した場合に量を出力できるオブジェクトです。

入力値X1、X2、…、Xnとそれらの重み係数W1、W2、…、Wnがある場合、計算されたXi*Wiの合計は励起層a = (X1 * W1)+(X2 * W2)+…+(Xi * Wi)+…+ (Xn * Wn)を生成します。ここで、Xiは各レコードまたはその他のパラメータの発生頻度、Wiはリアルタイム機能評価モデルで取得された重み係数です。

ニューラル ネットワークは、経験的リスク最小化の原理に基づく学習アルゴリズムです。層とニューロンの数を決定するのが難しい、局所的最小値に陥る傾向がある、過剰学習現象など、いくつかの固有の欠陥があります。これらの固有の欠陥は、SVM アルゴリズムでうまく解決できます。

<<:  教師なし学習アルゴリズム: 異常検出

>>:  SDNアプリケーションルーティングアルゴリズムを実装するためのツールであるNetworkx

ブログ    

推薦する

ChatGPT-4 に基づく IDEA スマート アシスタントの使い方を教えます

遅れて気づいて申し訳ありません。この記事を読んでいる友人の中には、すでにこのプラグインをインストール...

...

ADMap: 干渉防止オンライン高精度マップへの新しいアプローチ

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

ブロックチェーンを使用して AI スマートエコノミーを構築するにはどうすればよいでしょうか?

人工知能(AI)は、機械によって発揮される知能であるという点で人間の知能とは異なります。しかし、直接...

ディープラーニングが世界に浸透し、世界を変えるほど強力なのはなぜでしょうか?

[[190140]]子供の頃、果物、動物、車、その他のものを認識することを学び始めたときのことを覚...

日本のメディアは、監視と保護に加えて感染症の予防にも役立つ鳥類識別AIの中国での推進に注目している。

日本のメディアZDNETは6月29日、中国が全国規模で鳥類識別AIの普及を推進しているとの記事を掲載...

AI研究 | 陸宇:人工知能はオンライン教育を改善する大きな可能性を秘めている

工業情報化部科学技術庁は、感染予防・抑制に努め、感染拡大を阻止するために、「人工知能の力を十分に発揮...

人工知能について - AIに関するあまり知られていない事実

人工知能(AI)は60年前の1956年の夏に誕生しました。今日の科学技術の発展により、人工知能は人間...

中国AIGCデータラベリングパノラマレポート:市場規模100億、求人数100万

データラベリングは重大な再編の時期を迎えています。ビッグモデル時代の到来により、データ中心の AI ...

【ビッグガイがやってくるエピソード7】スマートショッピングガイド対話ロボットの実践

[51CTO.com からのオリジナル記事] 現在の電子商取引業界は比較的成熟しており、さまざまな形...

アルゴリズムの改善とハードウェアの反復、どちらがより収益性が高いでしょうか? MITの最新の研究結果がこの答えを提供している

コンピューターが登場する前には、アルゴリズムがありました。コンピュータの誕生により、コンピュータの強...

アルゴリズムエンジニアとして働くために養豚場に行く?月20,000

[[282855]]皆さんご存知の通り、今年の「ブラザーツー」の値段は大変高く、信じられないほど高...

2020 年以降のソフトウェア開発のトレンド

今後8年間の8つの重要なトレンドを予測[[322666]] UnsplashのHarpal Sing...

...