ジニ不純度: 決定木の構築にジニ不純度をどのように活用するか?

ジニ不純度: 決定木の構築にジニ不純度をどのように活用するか?

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)から転載したものです。

決定木は、機械学習で使用される最も人気があり強力な分類アルゴリズムの 1 つです。名前が示すように、決定木は特定のデータ セットに基づいて決定を下すために使用されます。つまり、適切な特徴を選択して、人間の思考の流れに似たサブパーツにツリーを分割するのに役立ちます。

決定木を効率的に構築するために、エントロピー/情報ゲインとジニ不純度の概念を使用します。ジニ不純度とは何か、そしてそれが決定木の構築にどのように使用できるかを見てみましょう。

[[375443]]

ジニ純度とは何ですか?

ジニ不純度は、ルート ノードと後続の分割に最適な分割を決定するために決定木アルゴリズムで使用される方法です。これは、決定木を分割する最も一般的かつ最も簡単な方法です。バイナリ分割のみを実行するため、カテゴリ ターゲットにのみ適しています。

ジニ不純度の式は次のとおりです。


ジニ不純度が低いほど、ノードは均質になります。純粋なノード (同じクラス) のジニ不純度は 0 です。ジニ不純度を計算するための例としてデータ セットを取り上げます。

データ セットには、男子 8 名と女子 10 名の計 18 名の生徒が含まれています。パフォーマンスに応じて次のように分類されます。


上記のジニ不純度の計算は次のとおりです。


上記の計算では、分割(ルートノード)の加重ジニ不純度を見つけるために、子ノードの学生の確率を使用しました。 「平均以上」ノードと「平均以下」ノードの場合、各ノードの男子生徒と女子生徒の数はクラスでの成績に応じて異なりますが、2 つの子ノードの生徒数は等しいため、確率は 9/18 のみです。

ジニ不純度を使用して決定木を分割する手順は次のとおりです。

  • エントロピー/情報ゲインで行われることと同様です。各分割ごとに、子ノードごとにジニ不純度が個別に計算されます。
  • 各分割のジニ不純度は、子ノードの加重平均ジニ不純度として計算されます。
  • ジニ不純度値が最も低い分割を選択します。
  • 同じタイプのノードが得られるまで、手順 1 ~ 3 を繰り返します。

ジニ不純度の要約:

  • ルート ノード、中間ノード、およびリーフ ノードを見つけて、決定木を作成するのに役立ちます。
  • 分類ツリーの CART (分類および回帰ツリー) アルゴリズムによって使用されます。
  • ノード内のすべてのケースが 1 つの目標に属する場合、最小値 (ゼロ) に達します。

要約すると、ジニ不純度は、より単純であり、計算コストが高く難しい対数を使用しないため、エントロピー/情報ゲインよりも好まれます。

<<:  機械学習の博士課程での私の経験から得た洞察

>>:  海運業界は人工知能を活用して海賊行為と戦うことができる

推薦する

...

自動運転車の分野での課題は何ですか?

テスラが2015年に量産を開始して以来、わずか5、6年で自動運転(インテリジェントアシスト運転とも呼...

IDCの予測: 今年のAI市場規模は1565億ドルに達し、前年比12.3%増となる

市場調査会社IDCは、2020年の世界の人工知能市場の規模は2019年に比べて12.3%増加すると予...

9 つの SOTA GNN よりも強力です。 Google Brainが新しいグラフニューラルネットワークGKATを提案

[[413820]]グラフは、ソーシャル ネットワークからバイオインフォマティクス、ロボット工学の...

AIがデータ侵害やデータ損失の防止にどのように役立つか

サイバーセキュリティは長期にわたる戦いです。 日々新たな脅威が出現し、最高情報セキュリティ責任者 (...

...

再トレーニングなしでモデルを6倍圧縮:数学者チームが新しい量子化法を提案

RUDN大学の数学者チームは、再トレーニングに余分なリソースを費やすことなく、ニューラルネットワーク...

データ センターは生成 AI に対応できる準備ができていますか?

プロンプトに応じてテキスト、画像、その他のコンテンツを生成できる生成型人工知能 (AI) の企業導...

大規模モデル幻覚率ランキング:GPT-4は3%と最も低いが、Google Palmは最大27.2%

人工知能は急速に発展していますが、問題も頻繁に発生しています。 OpenAI の新しい GPT ビジ...

将来の知能社会に向けた人工知能の基礎教育の強化

人工知能の基礎教育を強化することは、将来の社会の発展に備えるための避けられない選択であり、要件です。...

データ時代の金採掘者になりましょう。Analysysアルゴリズムコンペティションがあなたの実力を披露するのを待っています。

もっと多くのアルゴリズムの才能とつながりたいですか?業界の最先端の技術を知りたいですか?インターネッ...

ChatGPT の最強の代替手段が無料に別れを告げます!クロード会員版は月額140円で会話量が5倍に増える

ChatGPT の最強の代替手段が、純粋な無料に別れを告げる——皆さん、Claude には有料版もあ...

インテルのAIが破壊された万里の長城の修復にどのように貢献したか、その背後にある秘密が発見された

人工知能がテクノロジーと人文科学の交差点に到達したとき、どのようなエネルギーが解き放たれるのでしょう...

人工知能の数学的基礎 - 線形代数における行列

この記事は、行列の性質、行列の原理、行列の応用という 3 つの側面から、人工知能の数学的基礎である線...