分類アルゴリズムの概要

分類アルゴリズムの概要

[[154315]]

決定木分類アルゴリズム

決定木誘導は古典的な分類アルゴリズムです。

これは、トップダウン、再帰、ブレークダウン方式で決定木を構築します。

情報ゲイン メトリックは、ツリーの各ノードでテスト属性を選択するために使用されます。

生成された決定木からルールを抽出できます。
KNN法(K近傍法):

KNN 法、または K 最近傍法は、1968 年に Cover と Hart によって初めて提案され、理論的には比較的成熟した方法です。

この方法の考え方は非常にシンプルで直感的です。サンプルの最も類似したk個のサンプル(つまり、特徴空間内の最も近いサンプル)のほとんどが特定のカテゴリに属する​​場合、サンプルもこのカテゴリに属します。

この方法では、分類決定における 1 つまたは複数の最も近いサンプルのカテゴリに基づいて、分類するサンプルのカテゴリのみを決定します。

KNN 法も原理的には極限定理に依存していますが、カテゴリ決定を行う際にはごく少数の隣接サンプルにのみ関連します。

したがって、この方法により、サンプルの不均衡の問題をより適切に回避できます。

さらに、KNN 法は、カテゴリを決定するためにクラス領域を区別する方法ではなく、限られた隣接サンプルに主に依存するため、KNN 法は、より多くの交差または重複したクラス領域で分類されるサンプル セットに他の方法よりも適しています。

この方法の欠点は、分類するテキストごとに、K 個の最近傍を取得するためにすべての既知のサンプルとの距離を計算する必要があるため、大量の計算が必要になることです。

現在一般的に使用されている解決策は、既知のサンプルポイントを事前にクリップし、分類にほとんど影響のないサンプルを削除することです。

また、リバース KNN 方式もあり、これにより KNN アルゴリズムの計算の複雑さが軽減され、分類の効率が向上します。

このアルゴリズムは、サンプル サイズが大きいドメインの自動分類に適していますが、サンプル サイズが小さいドメインにこのアルゴリズムを使用すると、誤分類が発生する可能性が高くなります。


SVM法:

SVM 法、すなわちサポート ベクター マシン法は、1995 年に Vapnik らによって提案され、比較的優れたパフォーマンス指標を持っています。

この方法は、統計学習理論に基づいた機械学習手法です。

学習アルゴリズムにより、SVM は分類に優れた識別能力を持つサポート ベクトルを自動的に見つけることができます。このようにして構築された分類器はクラス間の間隔を最適化できるため、適応性が向上し、分類精度が高くなります。

この方法では、各ドメインの境界サンプルのカテゴリに基づいて最適な分類結果を決定するだけです。

サポートベクターマシンアルゴリズムの目的は、トレーニングセット内のデータを分離でき、超平面に垂直な方向に沿ってクラスドメイン境界からの距離が最小となる超平面 H(d) を見つけることです。そのため、SVM メソッドは最大マージンアルゴリズムとも呼ばれます。

分類するサンプル セット内のサンプルのほとんどはサポート ベクターではありません。これらのサンプルを削除または削減しても、分類結果には影響しません。サンプルが小さい場合、自動分類では SVM 方式の方が分類結果が良くなります。

VSM方式:

VSM 法、すなわちベクトル空間モデル法は、1960 年代後半に Salton らによって提案されました。これは情報検索のための最も初期かつ最も有名な数学モデルです。

基本的な考え方は、ドキュメントを重み付けされた特徴ベクトルとして表現することです: D=D(T1, W1; T2, W2; ...; Tn, Wn)、次にテキストの類似度を計算して分類するサンプルのカテゴリを決定します。

テキストを空間ベクトルモデルとして表現すると、テキストの類似性は特徴ベクトル間の内積で表現できます。

実際のアプリケーションでは、VSM メソッドは一般に、コーパス内のトレーニング サンプルと分類システムに基づいてカテゴリ ベクトル空間を確立します。

分類するサンプルを分類する必要がある場合、分類するサンプルと各カテゴリ ベクトル間の類似度、つまり内積を計算し、最も類似度の高いカテゴリを分類するサンプルに対応するカテゴリとして選択するだけで済みます。

VSM 法では、事前にカテゴリ空間ベクトルを計算する必要があり、空間ベクトルの設定はカテゴリベクトルに含まれる特徴項目に大きく依存します。

研究によると、カテゴリに含まれる非ゼロの特徴項目の数が多いほど、そのカテゴリの各特徴項目の表現力は弱くなります。

したがって、他の分類方法と比較して、VSM 法は専門文献の分類に適しています。

ベイズ法:

ベイズ法は、既知の事前確率とクラス条件付き確率を条件とするパターン分類法です。分類対象となるサンプルの分類結果は、各クラスドメイン内のサンプルの総数に依存します。

トレーニング サンプル セットが M 個のカテゴリに分割され、C={c1,…,ci,…cM} と表されるとします。各カテゴリの事前確率は P(ci)、i=1,2,…,M です。サンプル セットが非常に大きい場合、P(ci) = クラス ci のサンプル数 / サンプルの総数と考えることができます。

分類するサンプル X について、クラス cj に属するクラス条件付き確率は P(X|ci) です。ベイズの定理によれば、クラス cj の事後確率 P(ci|X) は次のように得られます。

P(ci|x)=P(x|ci)·P(ci)/P(x)(1)

P(ci|X)=Ma**(cj|X)、i=1,2,…,M、j=1,2,…,Mの場合、x∈ci(2)

式(2)は事後確率決定基準である。式(1)を式(2)に代入すると、次のようになる。

P(x|ci)P(ci)=Maxj[P(x|cj)P(cj)], i=1,2,…,M, j=1,2,…,Mならばx∈ci

これは一般的に使用されるベイズ分類の決定基準です。長期にわたる研究の結果、ベイズ分類法は理論的に完全に実証され、非常に広く使用されるようになりました。

ベイズ法の弱点は、実際の状況では、カテゴリ母集団の確率分布と各サンプルタイプの確率分布関数(または密度関数)が不明なことが多いことです。それらを取得するには、サンプルが十分に大きくなければなりません。

また、ベイズ法では、テキストを表現するキーワードが互いに独立していることが求められますが、この条件を実際のテキストで満たすことは一般的に困難です。そのため、この方法では効果の面で理論上の最適値を達成できないことがよくあります。
ニューラルネットワーク:

ニューラル ネットワーク分類アルゴリズムの重要なポイントは、しきい値ロジック ユニットを構築することです。値ロジック ユニットは、重み付けされた係数のセットを入力し、それらを合計し、合計が特定のしきい値に達するか超過した場合に量を出力できるオブジェクトです。

入力値X1、X2、…、Xnとそれらの重み係数W1、W2、…、Wnがある場合、計算されたXi*Wiの合計は励起層a = (X1 * W1)+(X2 * W2)+…+(Xi * Wi)+…+ (Xn * Wn)を生成します。ここで、Xiは各レコードまたはその他のパラメータの発生頻度、Wiはリアルタイム機能評価モデルで取得された重み係数です。

ニューラル ネットワークは、経験的リスク最小化の原理に基づく学習アルゴリズムです。層とニューロンの数を決定するのが難しい、局所的最小値に陥る傾向がある、過剰学習現象など、いくつかの固有の欠陥があります。これらの固有の欠陥は、SVM アルゴリズムでうまく解決できます。

<<:  Java でよく使われる 7 つのソート アルゴリズムの概要

>>:  人工知能アルゴリズムを採用したGoogle検索は恐ろしい

ブログ    
ブログ    
ブログ    

推薦する

ヘルスケア分野で人工知能がどのように台頭しているか

人工知能は世界のほぼすべての分野に変革をもたらしたようです。ヘルスケア業界は長年にわたって大きく変化...

AESアルゴリズムを簡単に説明すると

AESアルゴリズムAES (Advanced Encryption Standard) は、2001...

人工知能研究における大きな進歩は人類に大きな変化をもたらすだろう

アメリカのテクノロジーの天才イーロン・マスク氏は、彼の研究チームが脳と機械の相互接続を可能にする脳・...

機械学習を学ぶ必要がない5つの理由

機械学習を学び始めるべきだと言うインフルエンサーが増えています。彼らの言うことを聞くべきでしょうか?...

TensorFlow 2.8.0が正式にリリースされ、多くのバグが修正され、50以上の脆弱性パッチがリリースされました

最近、TensorFlow は公式バージョン 2.8.0 をリリースしました。バージョン 2.7 の...

サプライチェーン管理においてAIがすでに優れた成果を上げている分野

サプライ チェーンは、製品の設計から調達、製造、流通、配送、顧客サービスまで、さまざまなアクションを...

海外メディア:米国の研究者がAIでジェスチャーを認識する新しいセンサーデバイスを発明

海外メディアの報道によると、カリフォルニア大学バークレー校の研究者らは、ウェアラブルセンサーと人工知...

GitHub Wanxing の中国語機械学習リソース: ロードマップ、ビデオ、学習提案がすべてここにあります

[[263087]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

ガートナー:世界のAIチップの収益は2023年に530億ドル、2027年には1194億ドルに達する

8月24日、市場調査会社ガートナーの最新予測によると、 AI向けハードウェアの世界販売収益は2023...

新しい消費者向け IoT と人工知能の開発を加速させる機会は何でしょうか?

近年、世界的な技術開発の加速化が進み、新世代の情報通信技術が次々と導入され、数多くの新たなビジネスモ...

2019 年に学ぶべき 10 個の機械学習 API

最近では、携帯電話の写真からメールの受信トレイのフィルターまで、機械学習はあらゆるところに存在してい...

...

MLCommonsがAI安全ワーキンググループを発表

人工知能ベンチマーク組織 MLCommons は、人工知能安全性 (AIS) ワーキング グループの...

...

GitHub のホット プロジェクト: 実稼働レベルのディープラーニング プロジェクトを構築するには?

ディープラーニング モデルを本番環境に導入することは、優れたパフォーマンスのモデルをトレーニングする...