ジニ不純度: 決定木の構築にジニ不純度をどのように活用するか?

ジニ不純度: 決定木の構築にジニ不純度をどのように活用するか?

この記事は、公開アカウント「Reading the Core」（ID: AI_Discovery）から転載したものです。

決定木は、機械学習で使用される最も人気があり強力な分類アルゴリズムの 1 つです。名前が示すように、決定木は特定のデータセットに基づいて決定を下すために使用されます。つまり、適切な特徴を選択して、人間の思考の流れに似たサブパーツにツリーを分割するのに役立ちます。

決定木を効率的に構築するために、エントロピー/情報ゲインとジニ不純度の概念を使用します。ジニ不純度とは何か、そしてそれが決定木の構築にどのように使用できるかを見てみましょう。

[[375443]]

ジニ純度とは何ですか?

ジニ不純度は、ルートノードと後続の分割に最適な分割を決定するために決定木アルゴリズムで使用される方法です。これは、決定木を分割する最も一般的かつ最も簡単な方法です。バイナリ分割のみを実行するため、カテゴリターゲットにのみ適しています。

ジニ不純度の式は次のとおりです。

ジニ不純度が低いほど、ノードは均質になります。純粋なノード (同じクラス) のジニ不純度は 0 です。ジニ不純度を計算するための例としてデータセットを取り上げます。

データセットには、男子 8 名と女子 10 名の計 18 名の生徒が含まれています。パフォーマンスに応じて次のように分類されます。

上記のジニ不純度の計算は次のとおりです。

上記の計算では、分割（ルートノード）の加重ジニ不純度を見つけるために、子ノードの学生の確率を使用しました。「平均以上」ノードと「平均以下」ノードの場合、各ノードの男子生徒と女子生徒の数はクラスでの成績に応じて異なりますが、2 つの子ノードの生徒数は等しいため、確率は 9/18 のみです。

ジニ不純度を使用して決定木を分割する手順は次のとおりです。

エントロピー/情報ゲインで行われることと同様です。各分割ごとに、子ノードごとにジニ不純度が個別に計算されます。
各分割のジニ不純度は、子ノードの加重平均ジニ不純度として計算されます。
ジニ不純度値が最も低い分割を選択します。
同じタイプのノードが得られるまで、手順 1 ～ 3 を繰り返します。

ジニ不純度の要約:

ルートノード、中間ノード、およびリーフノードを見つけて、決定木を作成するのに役立ちます。
分類ツリーの CART (分類および回帰ツリー) アルゴリズムによって使用されます。
ノード内のすべてのケースが 1 つの目標に属する場合、最小値 (ゼロ) に達します。

要約すると、ジニ不純度は、より単純であり、計算コストが高く難しい対数を使用しないため、エントロピー/情報ゲインよりも好まれます。

<<: 機械学習の博士課程での私の経験から得た洞察

>>: 海運業界は人工知能を活用して海賊行為と戦うことができる

中国と米国の人工知能の格差はどれほど大きいか：米国の人材総数は中国の約20倍

中国と米国の人工知能の格差はどれほど大きいか：米国の人材総数は中国の約20倍

ブログ

指紋と顔は本当に生体認証を表現できるのでしょうか?

指紋と顔は本当に生体認証を表現できるのでしょうか?

ブログ

人工知能がとても人気ですが、機械学習とディープラーニングの違いがわかりますか?

人工知能がとても人気ですが、機械学習とディープラーニングの違いがわかりますか?

ブログ

技術的負債の高利クレジットカード: 最もよく知られているエンドツーエンドの機械学習プラットフォームを詳しく調べる

技術的負債の高利クレジットカード: 最もよく知られているエンドツーエンドの機械学習プラットフォームを詳しく調べる

ブログ

ブログ

障害検出におけるデータ機械学習の応用

障害検出におけるデータ機械学習の応用

ブログ

機械学習の3つの時代におけるコンピューティングのトレンド

機械学習の3つの時代におけるコンピューティングのトレンド

ブログ

今年のノーベル賞はアルトゥール・エケルト氏が受賞すると見られている。百度研究所の科学者の力を過小評価すべきではない。

今年のノーベル賞はアルトゥール・エケルト氏が受賞すると見られている。百度研究所の科学者の力を過小評価すべきではない。

ブログ

人工知能の知能を実現する方法

人工知能の知能を実現する方法

ブログ

人工知能翻訳は、障害なく外国人と恋に落ちるのに役立ちます

人工知能翻訳は、障害なく外国人と恋に落ちるのに役立ちます

ブログ

推薦する

Claude3はマイクロソフトとOpenAIに警鐘を鳴らした

編纂者 | Yan Zheng制作：51CTO テクノロジースタック（WeChat ID：blog）...

ビッグデータナレッジグラフの実践経験のまとめ

データサイエンティストとして、業界の新しい知識グラフをまとめ、技術専門家と共有し、ビッグデータの知識...

なぜ人工知能が将来主流になるのか、これを読めば分かる

人工知能と自動化は将来のトレンドではないでしょうか?機械に人体の複雑な筋肉や動作を認識させる方法を考...

Python vs R: 機械学習とデータ分析の比較

[[187351]]新しいツールの出現を促すために、機械学習やデータ分析の分野は「オープンソース」の...

ビジネスにおけるAIベースの音声認識アプリケーション

[[342735]] [51CTO.com クイック翻訳] 人工知能（AI）が今日、さまざまな業界で...

畳み込みニューラルネットワークのパフォーマンス最適化

導入畳み込みはニューラルネットワークのコア計算の 1 つです。コンピュータービジョンにおける畳み...

...

新しいAGVロボットナビゲーション技術！屋内ナビゲーション用の新しいロボットフレームワークが登場しました。

移動ロボットは、人間が設計したタスクを完了するために、現実世界の環境を効果的にナビゲートし、周囲の人...

グーグルの従業員は米国の人工知能プロジェクトへの参加に反対する公開書簡を発表した。「私たちは違う」

[[225697]]最近、テクノロジーの世界で、米国防総省をも巻き込み、大きな騒動を引き起こす出来...

マスク氏と陳天橋氏の両者が期待している脳コンピューターインターフェースは、将来いつ実現するのだろうか？

[[415853]]失語症の人は再び話せるようになり、聴覚障害の人は再び聞こえるようになり、四肢麻...

囲碁をプレイするのはとても簡単です。AlphaZero は量子コンピューティングをプレイし始めます!

過去数十年にわたる量子物理学技術の探求において、最も注目を集めているのは量子コンピュータです。 [[...

...

決まりました！国は人工知能に関する重要なニュースを発表し、これらの人々は集団的に失業することになるだろう...

1寝耳に水！ 11月15日、国からビッグニュースが発表されました！科学技術部は、新世代人工知能開発...

...

2024年にIT業界は成長を遂げる：AIとサイバーセキュリティが最大のホットスポット

IDCは、2024年のIT市場はチャンスに満ちていると指摘した。インフレや経済などの要因が懸念材料と...