いくつかの特徴選択方法を比較すると、どれが優れているでしょうか?

[[403820]]

この記事はWeChat公式アカウント「DATA STUDIO」から転載したもので、著者はYun Duojunです。記事の転載についてはDataSTUDIO公式アカウントまでご連絡ください。

この記事では、さまざまな解釈不可能な (ブラックボックス) 機械学習手法と解釈可能な機械学習手法における機械学習モデルの特徴の重要度を評価することに基づく特徴選択手法のパフォーマンスに焦点を当てます。 CART、最適ツリー、XGBoost、SHAP が関連する特徴サブセットを正しく識別する能力を比較しました。

ネイティブの特徴重要度法も、SHAP や XGBoost も、関連する特徴と関連しない特徴を明確に区別することはできません。解釈可能な方法は、無関係な特徴を正確かつ効果的に識別できるため、特徴選択のパフォーマンスが大幅に向上します。

機能選択

モノのインターネットの時代では、データは日々ますます速い速度で作成、収集されており、各データポイントに関連付けられた何千もの機能を持つデータセットが生成されます。多くの機械学習や人工知能の手法には強力な予測機能がありますが、このような高次元のデータセットでは、さまざまな機能の相対的な品質を理解するモデルが複雑になる可能性があります。実際、モデルをトレーニングするときにすべての高次元データセットを使用する必要はなく、少数の特徴を使用してモデルをトレーニングすることでも、予測パフォーマンスの大部分またはすべてを得ることができます。

特徴選択では、すべての特徴からモデルに役立つ意味のある特徴を選択し、トレーニングのためにすべての特徴をモデルにインポートする必要を回避します。

一般的に、フィルタリング、埋め込み、パッケージ化、次元削減の 4 つの方法から選択できます。パッケージ化方法と埋め込み方法はどちらもアルゴリズム自体の選択に依存しており、つまり機械学習モデルの機能の重要度を評価し、重要度スコアに基づいて予測を行うためにどの機能が最も関連しているかを理解することに基づいています。これは、最も一般的に使用される特徴選択方法の 1 つでもあります。

特徴選択の重要性については多くの説明は必要ないため、モデルによって計算された重要度スコアが実際の状況を反映することが重要です。無関係な特徴の重要性を誤って過大評価すると、誤った発見につながる可能性があります。一方、関連する特徴の重要性を過小評価すると、重要な特徴が破棄され、モデルのパフォーマンスが低下する可能性があります。

さらに、XGBoost のようなブラックボックスモデルはより高度な予測パフォーマンスを提供しますが、その内部原理は人間にとって理解しにくいため、特徴選択における動作を研究するには、特徴重要度スコアや SHAP などの解釈可能な方法に頼る必要があります。

評価者に基づいて特徴の重要度を計算する原理

前述したように、最も一般的に使用される特徴選択方法の 1 つは、機械学習モデルにおける特徴の重要度を評価することに基づいており、ターゲット変数を予測する際の各特徴の相対的な重要度を定量化しようとします。機能の重要度は、モデル内の各機能の使用によってもたらされるパフォーマンスの増分的な改善を測定し、この情報をモデル全体で要約することによって計算されます。これを使用して、重要性が低い、またはまったくないと考えられる特徴を識別し、モデルから削除することができます。

欠点: 特徴選択方法は、正確である場合にのみ役立ちます。

CARTツリー特徴選択の利点と欠点

ツリーベースのモデルは、その強力さと解釈可能性により、機械学習で最も一般的に使用される方法の 1 つです。 CART などの単一ツリーモデルは、最終的な決定ツリーの分割を観察することで予測ロジックを簡単に追跡できるため、完全に解釈可能です。

ただし、CART は、一度に 1 つの分割でツリーを形成する貪欲なヒューリスティックアプローチを使用してモデルをトレーニングしますが、これには多くの欠点があります。

まず、貪欲ヒューリスティックの任意の時点での最適な分割は、ツリーの将来の成長コンテキストでは最適ではないことが示されているため、これにより、グローバルに最適とはほど遠いツリーが生成される場合があります。
第二に、CART アルゴリズムは、すべての特徴を徹底的に検索して各ステップで選択方法を分割するため、より多くの分割ポイントを持つ特徴を選択する傾向があります。特徴選択は一意の値の数が多い特徴に偏る傾向があるため、貪欲アルゴリズムでは、ツリーのルート付近でデータを分割するために使用される特徴（多くの場合、最も重要な特徴）が誤って選択される可能性があります。

ツリーベースのアンサンブル学習者

ランダムフォレストや勾配ブースティング (XGBoost など) などのツリーベースのアンサンブル手法は、多数の個別のツリーモデルの予測を統合することで CART のパフォーマンスを向上させます。これにより、パフォーマンスは確かに向上しますが、モデルの解釈可能性が犠牲になります。何百、何千ものツリーモデル間の相互作用やその他の動作を人間が理解することはほぼ不可能だからです。したがって、これらのモデルの動作メカニズムを理解して説明するには、変数重要度法に頼る必要があることがよくあります。

これらのモデルは、特に多くの潜在的な分割ポイントを持つ機能や、バイアスが発生しやすいデータを含む機能の場合、機能の重要度を計算するときに敏感になる可能性があります。

シャープ

SHAP は、多くの以前のアプローチを統合し、アンサンブルツリーモデルのバイアスの問題に対処することを目的とした最近の手法であり、ゲーム理論的手法を使用して、各機能が最終的な予測にどのように影響するかを理解し、説明します。 SHAP は、その堅牢性とバイアスの問題への対処能力により、ブラックボックスモデルの説明や特徴選択の実行に急速に広く使用されるようになりました。

最適ツリー

前述のように、CART はアンサンブル法に比べて予測性能が低くなりますが、アンサンブル法では予測性能を高めるために個々の決定木の解釈可能性を犠牲にせざるを得ず、実践者は性能と解釈可能性のどちらかを選択する必要があります。

Optimal Tree は、混合整数最適化を使用して、1 つのステップでグローバルに最適な決定木を構築します。結果として得られるモデルは、単一の決定木の解釈可能性を維持するだけでなく、ブラックボックスモデルと同じ高いパフォーマンスも実現します。

この方法では、ツリー内のすべての分割を貪欲に 1 つずつ最適化するのではなく、同時に最適化することを考慮するため、分割の選択は CART と同じバイアスの問題の影響を受けにくいと予想されます。

比較結果

SHAP と XGBoost は、主要な特徴の重要性を一貫して過小評価し、無関係な特徴に大きな重要性を割り当て、ノイズが多い状況では関連する特徴と無関係な特徴を完全に区別することができません。当然ながら、これらは特徴の選択や解釈には使用できません。そうしないと、深刻な結果が生じます。

一方、解釈可能な単一ツリーモデルは、予測に関係のない特徴を識別することに優れており、比較的少ないトレーニングデータでそれらの重要度をゼロに減らします。

CART ツリーと比較すると、最適ツリーはグローバル最適化に重点を置いているため、無関係な特徴をより速く識別し、特徴選択のバイアスの問題に対する感度が低くなります。

解釈可能な単一ツリーモデルは完全に透過的であり、無関係な機能の排除に効果的です。最適なツリーを使用すると、パフォーマンスの低下をほとんどまたはまったく伴わずにこれを実現できる場合がよくあります。

参照:

特徴選択における解釈可能性と説明可能性の比較

Interpretable AI Cambridge、MA 02142、Jack Dunn 等

<<: AI、IoT、クラウドコンピューティング、ブロックチェーンは従業員エクスペリエンスをどのように向上させることができるのでしょうか?

>>: 野生生物の保護: ドローン、ロボット、AI

李開復、胡宇、張亜琴の GMIC 2018 対談: AI 戦略と AI 人材育成における中国と米国の違いは何ですか?

ブログ

AIを拡張するための3つの成功要因

ブログ

いくつかの特徴選択方法を比較すると、どれが優れているでしょうか?

機能選択

評価者に基づいて特徴の重要度を計算する原理

CARTツリー特徴選択の利点と欠点

ツリーベースのアンサンブル学習者

シャープ

最適ツリー

比較結果

李開復、胡宇、張亜琴の GMIC 2018 対談: AI 戦略と AI 人材育成における中国と米国の違いは何ですか?

人工知能の70年間で、研究者が最も直面したくない痛い教訓は...

公開されたマイクロソフトのチャットボットの特許はユーザーの言語スタイルや表現を模倣できる

将来、仮想現実、人工知能、そして人体はどのように融合するのでしょうか?

AIエンジニアリングは組織がAIを最大限に活用するのに役立ちます

AIを拡張するための3つの成功要因

推薦する

電子犬は無残に捨てられたので、VRヘッドセットを装着して古い友達を探しました！メタはメタバースの感情カードを切る

AI時代になっても、あなたのキャリアは存続できるでしょうか?

時間変換に基づく初のビデオ移行攻撃アルゴリズム、復旦大学の研究がAAAI 2022に選出

世界初の電動ロボットが「宙返り」を練習し、ボストン・ダイナミクス・アトラスに挑戦！コーヒーアートも作れます。

ニューラルネットワークアルゴリズムの利点と応用

AIは科学者のツールになり得るか？ Nature がトップクラスの学者 5 人にインタビュー: コードの書き方を学び、期待を下げよう

上級幹部との対話で洞察を得る - IBM アジア太平洋地域社長ブレンダ・ハーベイ氏による変革、クラウドコンピューティング、自動化に関する講演

「中国製チップ」の20年と新たな時代

科学データ研究のための人工知能アシスタントMATAが特許を取得

平均年収35万元、2018年のビッグデータAIの発展動向分析

「深く」「鮮明に」見る - 画像の超高精細化におけるディープラーニングの応用

4Paradigm、ビジネス担当者がAIアプリケーションを開発できるようにする新しいAIプラットフォームツールをリリース

ガートナーは、世界のIT支出が2024年に6.8%増加すると予測している。

人間の脳に似た新しい注意メカニズムである Meta により、大規模なモデルはタスクに関係のない情報を自動的にブロックできるようになり、精度が 27% 向上します。