データマイニング分野のトップ 10 の古典的なアルゴリズムの 1 つ - CART アルゴリズム (コード付き)

導入

CART は C4.5 に似ており、決定木アルゴリズムの一種です。さらに、一般的な決定木アルゴリズムである ID3 があります。3 つの違いは、特徴の分割にあります。

ID3: 情報ゲインに基づく特徴分割
C4.5: 情報利得比に基づく特徴分割
CART: ジニ係数に基づく特徴分割

基本的な考え方

CART では、決定木がバイナリツリーであり、内部ノード機能の値が「はい」と「いいえ」であり、左のブランチが「はい」の値を持つブランチ、右のブランチが「いいえ」の値を持つブランチであると想定しています。このような決定木は、各特徴を再帰的に 2 つに分割し、入力空間、つまり特徴空間を有限数のユニットに分割し、これらのユニット上の予測確率分布、つまり、与えられた入力条件下での出力の条件付き確率分布を決定することと同等です。

CART アルゴリズムは次の 2 つのステップで構成されます。

決定木の生成: トレーニングデータセットに基づいて決定木を生成します。生成される決定木はできるだけ大きくする必要があります。
決定木の剪定: 検証データセットを使用して、生成されたツリーを剪定し、最適なサブツリーを選択します。このとき、最小損失関数が剪定基準として使用されます。

CART 決定木の生成は、バイナリ決定木を再帰的に構築するプロセスです。 CART 決定木は分類と回帰の両方に使用できます。この記事では、分類のための CART についてのみ説明します。分類ツリーの場合、CART はジニ係数最小化基準を使用して特徴選択を実行し、バイナリツリーを生成します。 CART 生成アルゴリズムは次のとおりです。

入力: トレーニングデータセットD、計算停止条件:
出力: CART 決定ツリー。

トレーニングデータセットに従って、ルートノードから開始して、各ノードに対して次の操作を再帰的に実行し、バイナリ決定木を構築します。

ノードのトレーニングデータセットが D であると仮定し、データセットの既存の特徴のジニ係数を計算します。このとき、各特徴 A について、各可能な値 a について、サンプルポイントが A=a を「はい」とテストするか「いいえ」とテストするかに応じて、D を D1 と D2 の 2 つの部分に分割し、A=a の場合のジニ係数を計算します。

すべての可能な特徴 A とすべての可能な分割点 a の中で、ジニ係数が最小の特徴とそれに対応する分割点が最適な特徴と最適な分割点として選択されます。最適な特徴と最適な分割ポイントに基づいて、現在のノードから 2 つの子ノードが生成され、特徴に基づいてトレーニングデータセットが 2 つの子ノードに配布されます。

停止条件が満たされるまで、2 つの子ノードに対して手順 1 ～ 2 を再帰的に呼び出します。

CART 決定ツリーを生成します。

アルゴリズムが計算を停止する条件は、ノード内のサンプル数が所定のしきい値未満であるか、サンプルセットのジニ係数が所定のしきい値未満であるか (サンプルは基本的に同じカテゴリに属している)、またはそれ以上の特徴がないこととなります。

コード

コードはgithub（sklearn呼び出し）に実装されており、ここにも投稿されています。

テストデータセットはMNISTデータセットであり、取得アドレスはtrain.csvである。

運用結果

<<: 2030年までに、仕事の70％が人工知能に置き換えられるでしょう。子どもたちが競争力を維持できるよう、私たちはどう支援できるでしょうか？

IBM、投資先企業とフォーチュン500企業とのつながりを支援するブロックチェーン投資ファンドを立ち上げ

データマイニング分野のトップ 10 の古典的なアルゴリズムの 1 つ - CART アルゴリズム (コード付き)

IBM、投資先企業とフォーチュン500企業とのつながりを支援するブロックチェーン投資ファンドを立ち上げ

豊富なインテリジェントビデオ分析システムは、豊富なAIアルゴリズムでよりインテリジェントなシナリオを実現します。

オープンソースフレームワークとコンピューティング能力の向上により、AI は第 3 のクライマックスを迎えています。AI を教育とどのように組み合わせることができるでしょうか?

OpenAIはニューヨークタイムズの声明は一方的であると不公平だと叫び、アンドリュー・ン氏もそれを擁護した。

Dropbox のエンジニアがロスレス圧縮アルゴリズム「Pied Piper」を開発

人工知能によって人々の仕事が失われることは確実だが、仕事がなくなることはないと言われているのはなぜでしょうか。

RTX 4090が制限されている時代に、大規模モデルにRLHFを使用するより効率的な方法が登場

署名アルゴリズムに基づくシンプルで安全なAPI認証メカニズム

AIコンテンツゼロ！純粋なランダム数学は現実的な3D世界を無限に生成する、プリンストン大学の中国人による研究

20B大型モデルの性能はLlama2-70Bに匹敵します！完全にオープンソースで、ベースからツールまですべてが明確に整理されています

推薦する

ロボティックプロセスオートメーションから価値を引き出すためにプロセスをマイニングする方法

人工知能: キャリア開発のための3つの戦略

瞳に秘められた市場、虹彩認証は100億のブルーオーシャンを歓迎します！

WeChat OCR（2）：ディープシーケンス学習がテキスト認識を助ける

ロボット市場はかつてないほど活況を呈しており、これらの5つのトレンドが今後の方向性となる可能性がある。

最も孤独なニューラルネットワーク: たった 1 つのニューロンですが、「クローンをシャドウ」することができます

人気のLlama 2は1週間で15万回以上ダウンロードされ、誰かがRust実装をオープンソース化した。

DAMOアカデミーは、初めて半教師あり知識注入を使用して、新しい事前トレーニング済み対話モデルを立ち上げ、大幅な改善を達成しました。

DAMOアカデミーが大規模モデルテストベンチマークを発表: GPT-4はかろうじて合格、他のモデルはすべて不合格

人材に余裕がないわけではありませんが、AI 検査の方がコスト効率が良いのです。

これにより、あなたの写真は顔認識アルゴリズムを「ブロック」することができます