機械学習: 決定木について

機械学習: 決定木について

ロジスティック回帰の基本原理と勾配降下法の導出プロセスについて説明しました。このコードは、分類アルゴリズムであるロジスティック回帰の勾配降下法アルゴリズムを実装しています。今日は、分類アルゴリズムへの旅を続けます。これは効率的で簡潔な分類アルゴリズムです。これに基づいた統合アルゴリズムがあります。これは視覚化効果に優れたアルゴリズムです。このアルゴリズムは決定木です。

[[210752]]

1 例

バナナ、リンゴ、アプリコットなど、たくさんの果物があります。次に、それらを分類する必要があります。選択できる特徴は、形とサイズの 2 つです。形は丸い場合も不規則な場合もあり、サイズは比較的大きい場合も比較的小さい場合もあります。これを分類するには、次のようにします。

まず、特徴に基づきます。形状が丸くない場合はバナナであり、これが葉ノードです。

円であれば、

さらに、サイズの特徴に基づいて判断します。比較的大きい場合はリンゴ、そうでない場合はアプリコットです。これまでに 2 つの葉ノードを取得しており、この分類位置で 3 種類の果物を分割する正しい方法を取得しました。

プロセスはこれでおわかりいただけたと思います。これは決定の分類であり、ツリーを構築するプロセスです。ツリーと呼ぶのは少々大袈裟に聞こえます。よく考えてみると、これは単にネストされた一連の if と else です。ツリーと呼ぶのは、単に論理的な類似性があるだけです。

先ほど示した例では、形状とサイズの 2 つの機能があり、最初の機能の形状が最初の分割ポイントとして選択され、サイズが 2 番目の分割ポイントとして選択されています。では、2 番目の機能を最初の分割ポイントとして選択することはできないのでしょうか。この選択のための式はありますか。

2. 分割ポイントの選択基準

前の例では、果物は3種類あります。今、赤ちゃんがアプリコットをすべて食べてしまい、残っている果物はバナナとリンゴの2種類だけになったとします。このとき、それらを分類する必要があります。このとき、賢いあなたは間違いなく、形という特徴に従ってそれらを分類するでしょう。なぜなら、これにより、それらをすぐに分離できるからです。このとき、このタイプのセットの純度はより高く、形の特徴の点で前の3種類の果物とは異なります。

純度の概念は分かりやすいです。種類が少ないほど純度が高くなります。当然、2種類のほうが純度が高くなります。 このとき、それとは反対だが理解しにくい概念「エントロピー」を提唱した人がいました。これらは敵です。エントロピーが大きいほど純度は低くなり、エントロピーが小さいほど純度は高くなります。

これは概念なので、式を使用してエントロピーを定量化する方法について説明します。

ここで、i はリンゴ、バナナ、アプリコットに等しく、P(i) はセット内で特定の果物が出現する確率です。

セットをより適切に分類したい場合、どうすればよいか想像してみてください。特徴の選択を優先して、その特徴で分類すると、エントロピーが最大限に削減され、分類の純度が向上します。極端なケースでは、セットに 100 個の要素があります (セットには 2 種類の果物しかありません)。特定の最適な特徴に従って、それらは直接 2 つのカテゴリに分類され、1 つはリンゴ、もう 1 つはアプリコットになります。このように、エントロピーは直接 0 になります。

この特性はいわゆる情報ゲインです。エントロピーが減少するほど、情報ゲインは大きくなります。多くの場合、上記の極端な状況は発生しません。記事の冒頭の例のように、形状による分割後、エントロピーは小さくなりますが、0 にはなりません。たとえば、3 種類の果物のエントロピーは、最初は 0.69 でした。形状による分割後、エントロピーは 0.4 になり、情報ゲインは 0.69-0.4=0.29 になります。サイズで分割したときに情報ゲインが 0.1 の場合、最初の分割機能である形状に戻ることができます。

このアプローチに問題はありますか?

3 情報ゲインが大きいほど、分類効果は高くなりますか?

これは、情報ゲインのみに基づいて分割された特徴点を選択する際のバグです。以下の例を参照してください。

特徴が果物の一意の識別属性(番号)である場合、この機能を選択すると、合計 100 個のリーフ ノードが取得されます(この山には 100 個の果物があると仮定)。各リーフ ノードには 1 つのサンプルのみが含まれ、この時点での最大情報ゲインは 0.69 – 0 = 0.69 です。

しかし、これは適切な分類でしょうか? 各サンプルは別々の葉節です。果実 101 番が来たとき、どの葉節に分類すべきか、どのカテゴリに属する​​かはわかりません。

したがって、この問題は、この状況の存在を排除するために何らかの変数で分割する必要があると思われます。

これは情報ゲイン率です。特定の分割ポイントを選択した後に得られる情報ゲインを考慮するだけでなく、分割ノードのエントロピー値で割ります。これはどういう意味ですか? 100 個のノードを分割したのではありませんか? では、これらのノード自体の合計エントロピーはいくらですか?

上記の数値で割ると、情報利得率はそれほど大きくならないことがよくあります。これは、ID3 から C4.5 への伝説的な改良です。

4 ジニ係数、エントロピーの概念に似ている

ジニ係数とエントロピーは似た概念ですが、定量的な計算式は異なるということだけ知っていれば十分です。つまり、理解したということです。計算式がどのようなものかは、使用時に調べればよいのです。

遠くの海や海沿いの美しい景色を眺めながら、リラックスしましょう!

5 展望

上記では、決定木の概念と分割ポイントを選択する基本的な方法について説明しました。明日は、sklearn ライブラリの API を使用して、決定木の構築プロセスを視覚化し、決定木の最も重要な部分である剪定戦略を分析する予定です。

<<:  人工知能はデータセンター管理における破壊的技術となる

>>:  ディープラーニングのためのヘテロジニアス アクセラレーション テクノロジー (パート 2): カタツムリの殻の中に道場を構築する

ブログ    
ブログ    
ブログ    

推薦する

...

完璧な意思決定ツリーを作成する方法

[51CTO.com クイック翻訳] ご存知のとおり、決定木は実生活で多くの実用的なシナリオで利用さ...

ワイヤレス ネットワークと人工知能が出会うと何が起こるでしょうか?

人工知能(AI)は未来の技術ではなく、すでに存在している技術です。機械学習のイノベーションにより A...

心でタイピング、中国で脳コンピューターインターフェースの新記録が樹立されました!

手やキーボードを使わず、思考だけに頼って、1分間に691.55ビットをコンピューター画面に出力できま...

北京航空航天大学はモードの壁を打ち破り、可視光と赤外線モードにわたる普遍的な物理的対抗手段を開発しました。

近年、視覚システムのセキュリティ評価の研究が徐々に深まっています。研究者は、メガネ、ステッカー、衣服...

銀行の二重生体認証実験:二重のトラブルか二重のセキュリティか?

2つの生体認証技術は顔認証と指紋認証です。実験では、両方ともモバイルデバイスを通じて実装され、2つ...

新しい機械学習アプローチによりエネルギー消費を20%削減

エンジニアは、エネルギー消費を20%以上削減できる新しい機械学習手法を開発した。このアプローチにより...

...

2019年に主流となった10のAIテクノロジー

1956年にコンピューターの専門家ジョン・マッカーシーが「人工知能」という言葉を作り出して以来、わず...

ディープラーニングを使用した音声分類のエンドツーエンドの例と説明

サウンド分類は、オーディオのディープラーニングで最も広く使用されている方法の 1 つです。音を分類し...

2020年の人工知能の時代へようこそ

2019 年は AI にとって非常に素晴らしい年でしたが、これはすべて 2020 年にさらに大きな影...

機械学習に基づく自動ネットワークトラフィック分析

1. 概要現在、機械学習はネットワーク トラフィック分析タスクで広く使用されています。特徴抽出、モデ...

マシンビジョンは人工知能の次のフロンティアとなる

人工知能は過去1年間で大きな進歩を遂げ、人々にますます多くの利益をもたらしました。将来的には、マシン...

...