いくつかの特徴選択方法を比較すると、どれが優れているでしょうか?

いくつかの特徴選択方法を比較すると、どれが優れているでしょうか?

[[403820]]

この記事はWeChat公式アカウント「DATA STUDIO」から転載したもので、著者はYun Duojunです。記事の転載についてはDataSTUDIO公式アカウントまでご連絡ください。

この記事では、さまざまな解釈不可能な (ブラック ボックス) 機械学習手法と解釈可能な機械学習手法における機械学習モデルの特徴の重要度を評価することに基づく特徴選択手法のパフォーマンスに焦点を当てます。 CART、最適ツリー、XGBoost、SHAP が関連する特徴サブセットを正しく識別する能力を比較しました。

ネイティブの特徴重要度法も、SHAP や XGBoost も、関連する特徴と関連しない特徴を明確に区別することはできません。解釈可能な方法は、無関係な特徴を正確かつ効果的に識別できるため、特徴選択のパフォーマンスが大幅に向上します。

機能選択

モノのインターネットの時代では、データは日々ますます速い速度で作成、収集されており、各データ ポイントに関連付けられた何千もの機能を持つデータセットが生成されます。多くの機械学習や人工知能の手法には強力な予測機能がありますが、このような高次元のデータセットでは、さまざまな機能の相対的な品質を理解するモデルが複雑になる可能性があります。実際、モデルをトレーニングするときにすべての高次元データセットを使用する必要はなく、少数の特徴を使用してモデルをトレーニングすることでも、予測パフォーマンスの大部分またはすべてを得ることができます。

特徴選択では、すべての特徴からモデルに役立つ意味のある特徴を選択し、トレーニングのためにすべての特徴をモデルにインポートする必要を回避します。

一般的に、フィルタリング、埋め込み、パッケージ化、次元削減の 4 つの方法から選択できます。パッケージ化方法と埋め込み方法はどちらもアルゴリズム自体の選択に依存しており、つまり機械学習モデルの機能の重要度を評価し、重要度スコアに基づいて予測を行うためにどの機能が最も関連しているかを理解することに基づいています。これは、最も一般的に使用される特徴選択方法の 1 つでもあります。

特徴選択の重要性については多くの説明は必要ないため、モデルによって計算された重要度スコアが実際の状況を反映することが重要です。無関係な特徴の重要性を誤って過大評価すると、誤った発見につながる可能性があります。一方、関連する特徴の重要性を過小評価すると、重要な特徴が破棄され、モデルのパフォーマンスが低下する可能性があります。

さらに、XGBoost のようなブラック ボックス モデルはより高度な予測パフォーマンスを提供しますが、その内部原理は人間にとって理解しにくいため、特徴選択における動作を研究するには、特徴重要度スコアや SHAP などの解釈可能な方法に頼る必要があります。

評価者に基づいて特徴の重要度を計算する原理

前述したように、最も一般的に使用される特徴選択方法の 1 つは、機械学習モデルにおける特徴の重要度を評価することに基づいており、ターゲット変数を予測する際の各特徴の相対的な重要度を定量化しようとします。機能の重要度は、モデル内の各機能の使用によってもたらされるパフォーマンスの増分的な改善を測定し、この情報をモデル全体で要約することによって計算されます。これを使用して、重要性が低い、またはまったくないと考えられる特徴を識別し、モデルから削除することができます。

欠点: 特徴選択方法は、正確である場合にのみ役立ちます。

CARTツリー特徴選択の利点と欠点

ツリーベースのモデルは、その強力さと解釈可能性により、機械学習で最も一般的に使用される方法の 1 つです。 CART などの単一ツリー モデルは、最終的な決定ツリーの分割を観察することで予測ロジックを簡単に追跡できるため、完全に解釈可能です。

ただし、CART は、一度に 1 つの分割でツリーを形成する貪欲なヒューリスティック アプローチを使用してモデルをトレーニングしますが、これには多くの欠点があります。

  • まず、貪欲ヒューリスティックの任意の時点での最適な分割は、ツリーの将来の成長コンテキストでは最適ではないことが示されているため、これにより、グローバルに最適とはほど遠いツリーが生成される場合があります。
  • 第二に、CART アルゴリズムは、すべての特徴を徹底的に検索して各ステップで選択方法を分割するため、より多くの分割ポイントを持つ特徴を選択する傾向があります。特徴選択は一意の値の数が多い特徴に偏る傾向があるため、貪欲アルゴリズムでは、ツリーのルート付近でデータを分割するために使用される特徴(多くの場合、最も重要な特徴)が誤って選択される可能性があります。

ツリーベースのアンサンブル学習者

ランダム フォレストや勾配ブースティング (XGBoost など) などのツリーベースのアンサンブル手法は、多数の個別のツリー モデルの予測を統合することで CART のパフォーマンスを向上させます。これにより、パフォーマンスは確かに向上しますが、モデルの解釈可能性が犠牲になります。何百、何千ものツリー モデル間の相互作用やその他の動作を人間が理解することはほぼ不可能だからです。したがって、これらのモデルの動作メカニズムを理解して説明するには、変数重要度法に頼る必要があることがよくあります。

これらのモデルは、特に多くの潜在的な分割ポイントを持つ機能や、バイアスが発生しやすいデータを含む機能の場合、機能の重要度を計算するときに敏感になる可能性があります。

シャープ

SHAP は、多くの以前のアプローチを統合し、アンサンブル ツリー モデルのバイアスの問題に対処することを目的とした最近の手法であり、ゲーム理論的手法を使用して、各機能が最終的な予測にどのように影響するかを理解し、説明します。 SHAP は、その堅牢性とバイアスの問題への対処能力により、ブラック ボックス モデルの説明や特徴選択の実行に急速に広く使用されるようになりました。

最適ツリー

前述のように、CART はアンサンブル法に比べて予測性能が低くなりますが、アンサンブル法では予測性能を高めるために個々の決定木の解釈可能性を犠牲にせざるを得ず、実践者は性能と解釈可能性のどちらかを選択する必要があります。

Optimal Tree は、混合整数最適化を使用して、1 つのステップでグローバルに最適な決定木を構築します。結果として得られるモデルは、単一の決定木の解釈可能性を維持するだけでなく、ブラック ボックス モデルと同じ高いパフォーマンスも実現します。

この方法では、ツリー内のすべての分割を貪欲に 1 つずつ最適化するのではなく、同時に最適化することを考慮するため、分割の選択は CART と同じバイアスの問題の影響を受けにくいと予想されます。

比較結果

SHAP と XGBoost は、主要な特徴の重要性を一貫して過小評価し、無関係な特徴に大きな重要性を割り当て、ノイズが多い状況では関連する特徴と無関係な特徴を完全に区別することができません。当然ながら、これらは特徴の選択や解釈には使用できません。そうしないと、深刻な結果が生じます。

一方、解釈可能な単一ツリー モデルは、予測に関係のない特徴を識別することに優れており、比較的少ないトレーニング データでそれらの重要度をゼロに減らします。

CART ツリーと比較すると、最適ツリーはグローバル最適化に重点を置いているため、無関係な特徴をより速く識別し、特徴選択のバイアスの問題に対する感度が低くなります。

解釈可能な単一ツリー モデルは完全に透過的であり、無関係な機能の排除に効果的です。最適なツリーを使用すると、パフォーマンスの低下をほとんどまたはまったく伴わずにこれを実現できる場合がよくあります。

参照:

特徴選択における解釈可能性と説明可能性の比較

Interpretable AI Cambridge、MA 02142、Jack Dunn 等

<<:  AI、IoT、クラウド コンピューティング、ブロックチェーンは従業員エクスペリエンスをどのように向上させることができるのでしょうか?

>>:  野生生物の保護: ドローン、ロボット、AI

ブログ    
ブログ    
ブログ    

推薦する

Google PaLM モデルも素人によって覚醒したと宣言されましたか?業界関係者:Rational テストは GPT よりわずか 3% 優れている

「汎用人工知能」は、今や2020年代の「水から石油」の技術になりつつあります。ほぼ2週間ごとに、大規...

国連の高レベル人工知能諮問機関が設立され、曽毅と張玲漢が専門家グループのメンバーに選ばれた。

国連のアントニオ・グテーレス事務総長は現地時間10月26日、ニューヨークの国連本部で、AIがもたらす...

5 年以内に、8,000 万の仕事が機械に置き換えられるでしょう。インダストリアル インターネットは治療薬でしょうか、それとも毒でしょうか?

時代の発展は常に要求と矛盾の中で発展しています。あらゆる産業革命は発展の力をもたらすだけでなく、大き...

人工知能がメディア業界に破壊的変化をもたらし、10の新たな雇用を生み出す

九寨溝マグニチュード7.0の地震、ロボット記者が25秒間で540語と写真4枚を執筆!人間記者、揺れて...

自由に歩き回るロボット掃除機は密かにあなたを監視しているかもしれない

一日中懸命に働いた労働者たちは、疲れた体を引きずりながら家に戻り、ついに「解放された農奴が歌う」生活...

...

...

人工知能は今日私たちに何をもたらすのでしょうか?知らないブラックテクノロジーをチェック

人工知能といえば、映画「アイアンマン」に登場する賢い執事ジャービスを思い浮かべる人もいるかもしれませ...

自然言語処理の商業的価値を示す5つの成功事例

これら 5 つの組織は、自然言語処理 (NLP) を使用して、顧客へのサービスの向上、反復的なタスク...

ソラが「莫大な富」をもたらす、AIインフラ:今度は私の番です!

春節期間中、OpenAIの最新の技術的成果であるVincentのビデオモデルSoraが衝撃的なデビュ...

Pythonでゲームボーイエミュレーターを作成し、AIモデルをトレーニングする:デンマーク人の大学のプロジェクトが大ヒット

Atari ゲームを使って人工知能を研究するのは、ちょっと現実的ではないと感じますか?これでゲームボ...

一般化の危機! LeCunは質問を公開しました: テストセットとトレーニングセットは決して関連していません

[[431567]]長い間、テスト セットで優れたパフォーマンスを発揮するモデルは、一般化のパフォー...

...

...