いくつかの特徴選択方法を比較すると、どれが優れているでしょうか?

いくつかの特徴選択方法を比較すると、どれが優れているでしょうか?

[[403820]]

この記事はWeChat公式アカウント「DATA STUDIO」から転載したもので、著者はYun Duojunです。記事の転載についてはDataSTUDIO公式アカウントまでご連絡ください。

この記事では、さまざまな解釈不可能な (ブラック ボックス) 機械学習手法と解釈可能な機械学習手法における機械学習モデルの特徴の重要度を評価することに基づく特徴選択手法のパフォーマンスに焦点を当てます。 CART、最適ツリー、XGBoost、SHAP が関連する特徴サブセットを正しく識別する能力を比較しました。

ネイティブの特徴重要度法も、SHAP や XGBoost も、関連する特徴と関連しない特徴を明確に区別することはできません。解釈可能な方法は、無関係な特徴を正確かつ効果的に識別できるため、特徴選択のパフォーマンスが大幅に向上します。

機能選択

モノのインターネットの時代では、データは日々ますます速い速度で作成、収集されており、各データ ポイントに関連付けられた何千もの機能を持つデータセットが生成されます。多くの機械学習や人工知能の手法には強力な予測機能がありますが、このような高次元のデータセットでは、さまざまな機能の相対的な品質を理解するモデルが複雑になる可能性があります。実際、モデルをトレーニングするときにすべての高次元データセットを使用する必要はなく、少数の特徴を使用してモデルをトレーニングすることでも、予測パフォーマンスの大部分またはすべてを得ることができます。

特徴選択では、すべての特徴からモデルに役立つ意味のある特徴を選択し、トレーニングのためにすべての特徴をモデルにインポートする必要を回避します。

一般的に、フィルタリング、埋め込み、パッケージ化、次元削減の 4 つの方法から選択できます。パッケージ化方法と埋め込み方法はどちらもアルゴリズム自体の選択に依存しており、つまり機械学習モデルの機能の重要度を評価し、重要度スコアに基づいて予測を行うためにどの機能が最も関連しているかを理解することに基づいています。これは、最も一般的に使用される特徴選択方法の 1 つでもあります。

特徴選択の重要性については多くの説明は必要ないため、モデルによって計算された重要度スコアが実際の状況を反映することが重要です。無関係な特徴の重要性を誤って過大評価すると、誤った発見につながる可能性があります。一方、関連する特徴の重要性を過小評価すると、重要な特徴が破棄され、モデルのパフォーマンスが低下する可能性があります。

さらに、XGBoost のようなブラック ボックス モデルはより高度な予測パフォーマンスを提供しますが、その内部原理は人間にとって理解しにくいため、特徴選択における動作を研究するには、特徴重要度スコアや SHAP などの解釈可能な方法に頼る必要があります。

評価者に基づいて特徴の重要度を計算する原理

前述したように、最も一般的に使用される特徴選択方法の 1 つは、機械学習モデルにおける特徴の重要度を評価することに基づいており、ターゲット変数を予測する際の各特徴の相対的な重要度を定量化しようとします。機能の重要度は、モデル内の各機能の使用によってもたらされるパフォーマンスの増分的な改善を測定し、この情報をモデル全体で要約することによって計算されます。これを使用して、重要性が低い、またはまったくないと考えられる特徴を識別し、モデルから削除することができます。

欠点: 特徴選択方法は、正確である場合にのみ役立ちます。

CARTツリー特徴選択の利点と欠点

ツリーベースのモデルは、その強力さと解釈可能性により、機械学習で最も一般的に使用される方法の 1 つです。 CART などの単一ツリー モデルは、最終的な決定ツリーの分割を観察することで予測ロジックを簡単に追跡できるため、完全に解釈可能です。

ただし、CART は、一度に 1 つの分割でツリーを形成する貪欲なヒューリスティック アプローチを使用してモデルをトレーニングしますが、これには多くの欠点があります。

  • まず、貪欲ヒューリスティックの任意の時点での最適な分割は、ツリーの将来の成長コンテキストでは最適ではないことが示されているため、これにより、グローバルに最適とはほど遠いツリーが生成される場合があります。
  • 第二に、CART アルゴリズムは、すべての特徴を徹底的に検索して各ステップで選択方法を分割するため、より多くの分割ポイントを持つ特徴を選択する傾向があります。特徴選択は一意の値の数が多い特徴に偏る傾向があるため、貪欲アルゴリズムでは、ツリーのルート付近でデータを分割するために使用される特徴(多くの場合、最も重要な特徴)が誤って選択される可能性があります。

ツリーベースのアンサンブル学習者

ランダム フォレストや勾配ブースティング (XGBoost など) などのツリーベースのアンサンブル手法は、多数の個別のツリー モデルの予測を統合することで CART のパフォーマンスを向上させます。これにより、パフォーマンスは確かに向上しますが、モデルの解釈可能性が犠牲になります。何百、何千ものツリー モデル間の相互作用やその他の動作を人間が理解することはほぼ不可能だからです。したがって、これらのモデルの動作メカニズムを理解して説明するには、変数重要度法に頼る必要があることがよくあります。

これらのモデルは、特に多くの潜在的な分割ポイントを持つ機能や、バイアスが発生しやすいデータを含む機能の場合、機能の重要度を計算するときに敏感になる可能性があります。

シャープ

SHAP は、多くの以前のアプローチを統合し、アンサンブル ツリー モデルのバイアスの問題に対処することを目的とした最近の手法であり、ゲーム理論的手法を使用して、各機能が最終的な予測にどのように影響するかを理解し、説明します。 SHAP は、その堅牢性とバイアスの問題への対処能力により、ブラック ボックス モデルの説明や特徴選択の実行に急速に広く使用されるようになりました。

最適ツリー

前述のように、CART はアンサンブル法に比べて予測性能が低くなりますが、アンサンブル法では予測性能を高めるために個々の決定木の解釈可能性を犠牲にせざるを得ず、実践者は性能と解釈可能性のどちらかを選択する必要があります。

Optimal Tree は、混合整数最適化を使用して、1 つのステップでグローバルに最適な決定木を構築します。結果として得られるモデルは、単一の決定木の解釈可能性を維持するだけでなく、ブラック ボックス モデルと同じ高いパフォーマンスも実現します。

この方法では、ツリー内のすべての分割を貪欲に 1 つずつ最適化するのではなく、同時に最適化することを考慮するため、分割の選択は CART と同じバイアスの問題の影響を受けにくいと予想されます。

比較結果

SHAP と XGBoost は、主要な特徴の重要性を一貫して過小評価し、無関係な特徴に大きな重要性を割り当て、ノイズが多い状況では関連する特徴と無関係な特徴を完全に区別することができません。当然ながら、これらは特徴の選択や解釈には使用できません。そうしないと、深刻な結果が生じます。

一方、解釈可能な単一ツリー モデルは、予測に関係のない特徴を識別することに優れており、比較的少ないトレーニング データでそれらの重要度をゼロに減らします。

CART ツリーと比較すると、最適ツリーはグローバル最適化に重点を置いているため、無関係な特徴をより速く識別し、特徴選択のバイアスの問題に対する感度が低くなります。

解釈可能な単一ツリー モデルは完全に透過的であり、無関係な機能の排除に効果的です。最適なツリーを使用すると、パフォーマンスの低下をほとんどまたはまったく伴わずにこれを実現できる場合がよくあります。

参照:

特徴選択における解釈可能性と説明可能性の比較

Interpretable AI Cambridge、MA 02142、Jack Dunn 等

<<:  AI、IoT、クラウド コンピューティング、ブロックチェーンは従業員エクスペリエンスをどのように向上させることができるのでしょうか?

>>:  野生生物の保護: ドローン、ロボット、AI

ブログ    
ブログ    

推薦する

...

人工知能が小売業界にどのような変化をもたらしているかをこの記事で学びましょう。2018年は新しい小売技術の元年になります

現代の小売業は第二次世界大戦後に始まりました。カルフールによるハイパーマーケット モデルの先駆的導入...

詳細な分析: AI LLM フレームワークの通信モジュール - なぜそれがコア モジュールなのか

この記事は、AI LLMフレームワークアーキテクチャシリーズの第2弾です。通信モジュール人工知能 (...

App Storeのランキングアルゴリズムの変更、開発者は準備が必要

[[80451]]数日前、AppleのApp Storeの検索アルゴリズムが変わり始めたかもしれない...

...

無人公共交通機関が議題に上がっており、自動運転はまだ改善の余地がある

10月21日、蘇州で5G無人バスの定期運行が開始された。蘇州高速鉄道新城でデビューしたこの無人バスは...

...

ラマ2 ビッグバン!バークレーは実機テストで8位、iPhoneでローカル実行可能、多数のアプリが無料でプレイ可能、ルカンも夢中

昨日、Meta は Llama 2 の無料商用バージョンをリリースし、再びオープンソース コミュニテ...

生産効率が50%アップ!ファーウェイはAI機能を活用して大東コイルのデジタル変革を推進し、コスト削減と効率向上に貢献している。

デジタル変革は、現在の企業、特にハイテクの伝統的な製造業の主なテーマとなっています。人工知能、クラウ...

なぜ人工知能 + ヘルスケアは投資家に人気があるのでしょうか? 人工知能は医療問題を解決できるのでしょうか?

2018 年には、製薬会社上位 10 社だけで 3,000 億ドルを超える収益を生み出すでしょう。...

人工知能とビッグデータを開発する際に留意すべき12のこと

人工知能は近年の科学技術発展の重要な方向です。ビッグデータの時代において、データの収集、マイニング、...

...

...

信用デフォルト予測モデリングでは、ランダムフォレストが 91.1% でトップに!

みなさんこんにちは、ピーターです〜この記事は、Kaggle での機械学習の実践的なケーススタディです...