データマイニング分野のトップ10の古典的なアルゴリズムの1つであるC4.5アルゴリズム(超詳細なコード付き)

データマイニング分野のトップ10の古典的なアルゴリズムの1つであるC4.5アルゴリズム(超詳細なコード付き)

古典的なデータマイニングアルゴリズムのトップ 10 は次のとおりです。

導入

C4.5 は決定木アルゴリズムの一種です。分類アルゴリズムとしての決定木アルゴリズムの目的は、p 次元の特徴を持つ n 個のサンプルを c 個のカテゴリに分類することです。一般的な決定木アルゴリズムには、ID3、C4.5、CART などがあります。

基本的な考え方

次の例では、C4.5 の基本的な考え方を詳しく説明します。

上記のデータセットには、属性セット A = {天気、気温、湿度、風速} の 4 つの属性と、カテゴリ セット L = {出発、キャンセル} の 2 つのカテゴリ ラベルがあります。

1. カテゴリ情報エントロピーを計算する

カテゴリ情報エントロピーは、すべてのサンプル内のさまざまなカテゴリの不確実性の合計を表します。エントロピーの概念によれば、エントロピーが大きいほど不確実性が増し、物事を明確にするために必要な情報が多くなります。

2.各属性の情報エントロピーを計算する

各属性の情報エントロピーは条件付きエントロピーと同等です。これは、特定の属性におけるさまざまなカテゴリの不確実性の合計を表します。属性の情報エントロピーが大きいほど、この属性のサンプル カテゴリの「純粋さ」は低くなります。

3. 情報ゲインを計算する

情報ゲイン = エントロピー - 条件付きエントロピー、つまりカテゴリ情報エントロピー - 属性情報エントロピー、つまり情報の不確実性の低減度合いを示します。属性の情報ゲインが大きい場合、サンプル分割にこの属性を使用すると、分割されたサンプルの不確実性をより適切に削減できることを意味します。もちろん、この属性を選択すると、分類の目標をより迅速かつ適切に達成できます。

情報ゲインは、ID3 アルゴリズムの特徴選択指標です。

ただし、各属性の各カテゴリにはサンプルが 1 つしかないと仮定すると、属性情報エントロピーはゼロになり、情報ゲインに基づいて効果的な分類機能を選択することは不可能になります。したがって、C4.5 は情報ゲイン率を使用して ID3 を改善することを選択します。

4. 属性分割情報メジャーを計算する

分割情報メトリックは、特定の属性が分割されるときに、ブランチの数とサイズ情報を考慮するために使用されます。この情報を属性の固有情報と呼びます。情報ゲイン比率は、情報ゲイン/固有情報を使用しており、固有情報が増えるほど属性の重要性が低下します(つまり、この属性自体の不確実性が非常に大きい場合は、それを選択する傾向が低くなります)。これは、情報ゲインを単純に使用することに対する補償と見なすことができます。

5. 情報利得率を計算する

(以下は誤りです。IGR = Gain / H のはずです)

天気は情報取得率が最も高いため、分割属性として選択されます。分割後、天気が「曇り」のときにカテゴリが「純粋」であることがわかったので、それをリーフ ノードとして定義し、「純粋」でないノードを選択して分割を続行しました。

子ノードでプロセス 1 から 5 を繰り返します。

この時点で、このデータセットに対する C4.5 の計算プロセスが完了し、ツリーが構築されます。

アルゴリズムのフローは次のように要約されます。

長所と短所

アドバンテージ

生成された分類ルールは理解しやすく、精度も高いです。

欠点

ツリーを構築するプロセスでは、データセットを複数回スキャンして順番にソートする必要があり、アルゴリズムの非効率性につながります。

コード

コードはgithubに実装されており、ここにも投稿されています。

テストデータセットはMNISTデータセットであり、取得アドレスはtrain.csvである。

運用結果

<<:  中国初の人工知能教科書が注目を集める:人材育成が鍵

>>:  軍事用AIは普及するだろうか?公共の安全を重視すべきか、住民のプライバシーを重視すべきか?

ブログ    
ブログ    
ブログ    

推薦する

機械学習とディープラーニングの違いは何ですか? なぜ機械学習を選択する人が増えるのでしょうか?

機械学習とディープラーニングの違いは何でしょうか?この記事から答えを見つけてみましょう。ターゲットこ...

ハイブリッドAIは企業がデータの価値を掘り出すための好ましい方法である

人工知能については、誰もがよくご存知だと思います。実際、人工知能には幅広い知識が含まれており、さまざ...

AI モデルにバックドアがある可能性があります。チューリング賞受賞者が53ページの論文を発表「悪意ある予測には注意」

「敵対的事例」は古くからある問題です。画像内の数ピクセルを変更するなど、通常のデータにわずかな外乱...

2020 年の国内トップ 10 の人工知能イベントのレビュー: 政策と規制、技術的成果、産業への応用などを網羅。

人工知能業界では、今年多くの出来事がありましたが、その中には慎重に検討する価値のあるものもありました...

2024年のAIに関する5つの予測

2023 年には、AI、ML、特に GenAI があらゆるところに存在しますが、内容よりもパフォーマ...

分散ストレージシステムにおけるDHTアルゴリズムの改善

1. 概要通常、分散ストレージ システムや分散キャッシュ システムでは、分散ハッシュ (DHT) ア...

UiPath: 自動化とは、退化を拒否し、価値の高い仕事の創出に専念することです

【51CTO.comオリジナル記事】近年、RPAの開発はかつてないほど注目を集めています。 Mark...

...

人工知能時代のアルゴリズムガバナンスの核心と道筋

2021年12月末、4つの部門が共同で「インターネット情報サービスのアルゴリズム推奨管理に関する規則...

アクセス制御における生体認証の応用と開発

現在、アクセス制御にはより高度な技術と新しいアプリケーション市場があります。アクセス制御システムで現...

...

2021年、ついにスマートグラスの普及が到来

[[391934]]スマートグラスの技術は長い間、SF作家たちの想像力をかき立ててきました。理論上、...