ケーキを食べて、ケーキも残すことはできないのですか?清華大学チーム、非常に正確で解釈可能な分類モデルを提案

[[432462]]

既存の機械学習分類モデルは、性能と解釈可能性に基づいて、大まかに 2 つのカテゴリに分類できます。ディープラーニングやアンサンブル学習 (ランダムフォレストや XGBoost など) に代表される分類モデルは、分類性能は優れていますが、モデルの複雑性が高く、解釈可能性が低く、決定木やロジスティック回帰に代表されるモデルは、解釈可能性は高いものの、分類性能が不十分です。

清華大学（第一著者は王建勇教授の博士課程学生である王超）は、華東師範大学（2016年に清華大学で博士号を取得した張偉）および山東大学（2021年に清華大学で博士号を取得した劉寧）と共同で、ルール表現学習に基づく分類モデルRRLを提案しました。 RRL は、決定木モデルと同様の高い解釈可能性と、ランダムフォレストや XGBoost などのアンサンブル学習器と同様の分類パフォーマンスの両方を備えています。関連論文がNeurIPS2021に選出されました。

論文リンク: https://arxiv.org/abs/2109.15103
コードリンク: https://github.com/12wang3/rrl

優れた解釈可能性と分類性能を同時に実現するために、この論文では新しい分類モデルであるルール表現学習器 (RRL) を提案しています。 RRL は、解釈可能な非ファジールールを自動的に学習することで、データを表現および分類できます。微分不可能な RRL モデルを効率的にトレーニングするために、この論文では新しいトレーニング方法である勾配グラフティング法を提案しています。勾配グラフティングの助けを借りて、勾配降下法を使用して離散 RRL を直接最適化できます。さらに、この論文では、ロジスティック活性化関数の改良版も設計しており、これにより RRL のスケーラビリティが向上するだけでなく、連続的な特徴をエンドツーエンドで離散化できるようになります。

9 つの小規模データセットと 4 つの大規模データセットでの実験により、RRL の分類パフォーマンスは、他の解釈可能な方法 (第 2 回目の「AI ノーベル賞」受賞者である Cynthia Rudin 教授のチームが提案した SBRL など) よりも大幅に優れており、解釈不可能な複雑なモデル (アンサンブル学習モデルのランダムフォレストや XGBoost、区分線形ニューラルネットワーク PLNN など) と同様の分類パフォーマンスを達成できることが示されました。さらに、RRL は、さまざまなシナリオのニーズに合わせて分類精度とモデルの複雑さのバランスを簡単に取ることができます。

研究の背景と動機

ディープニューラルネットワークは多くの機械学習タスクで目覚ましい成果を上げていますが、解釈不可能な性質があるとして依然として批判されています。代理モデル、隠れ層の調査、その他の事後手法を使用して深層ネットワークを説明することはできますが、これらの手法の忠実度、一貫性、特異性には多かれ少なかれ問題があります。

対照的に、決定木などのルールベースのモデルは、その透明な内部構造と優れたモデル表現能力のおかげで、高いモデル解釈可能性が求められる医療、金融、政治などの分野で依然として重要な役割を果たしています。しかし、従来のルールベースモデルは、離散的なパラメーターと構造のため、特に大規模なデータセットでは最適化が難しく、ルールベースモデルの適用範囲が大幅に制限されます。統合モデル、ソフトルール、ファジールールによって分類予測機能が向上しますが、モデルの解釈可能性は犠牲になります。

ルールベースモデルの利点をより多くのシナリオで活用するためには、解釈可能性を維持しながらルールベースモデルのスケーラビリティを向上させる方法という問題に早急に対処する必要があります。

図1: 従来のルールベースモデルとその拡張モデル

ルール表現学習者

上記の問題を解決するために、本論文では、解釈可能な分類タスクのための新しいルールベースモデル、ルールベース表現学習器 (RRL) を提案します。優れたモデルの透明性と表現力を実現するために、RRL は、バイナリレイヤー、複数の論理レイヤー、線形レイヤー、およびレイヤー間のエッジで構成される階層モデルとして設計されています (図 2 を参照)。

二値化レイヤー

連続値の特徴を分割するために使用されます。
ロジック層と組み合わせることで、機能のエンドツーエンドの離散化を実現できます。

論理層

ルール表現の自動学習に使用されます。
各論理層は結合層と分離層で構成されます。
2 つの論理レイヤーは、連言正規形と選言正規形を表すことができます。

リニアレイヤー

分類結果を出力するために使用されます。
これにより、データの線形部分により適合できるようになります。
重みを使用してルールの重要性を測定できます。

接続をスキップ

不要なレイヤーを自動的にスキップするために使用されます。

図 2: ルール表現学習器の例。破線のボックスは、個別のロジックレイヤーとそれに対応するルールを示しています。

論理層

論理レイヤーは、論理ルールを使用してデータ表現を自動的に学習します。これを実現するために、ロジック層は離散バージョンと連続バージョンの両方を持つように設計されています。両方ともパラメータを共有しますが、離散バージョンはトレーニング、テスト、説明に使用され、連続バージョンはトレーニングにのみ使用されます。

ディスクリートロジック層

ロジックレイヤーの各ノードは、論理積や論理和などの論理演算を表し、レイヤー間のエッジは、演算に関係する変数を示します。個別ロジック層ノードに対応する論理演算は次のとおりです。

そして

はそれぞれ結合層と分離層のノードであり、

そして

隣接行列です。図 2 は、破線のボックス内のディスクリートロジックレイヤーの具体的な例を示しています。

エッジ接続を学習することにより、ロジック層は、連言正規形または選言正規形で離散分類ルールを柔軟に表現できます。しかし、問題は、離散ロジック層は解釈が容易であるものの、微分化できず、トレーニングが難しいことです。このため、対応する連続バージョンのロジック層が必要になります。

連続論理層

連続ロジック層は微分可能である必要があり、連続ロジック層のパラメータを 2 値化すると、対応する離散ロジック層を直接取得できます。これを行うには、次のものが必要です。

0/1隣接行列を[0, 1]間の実重み行列に置き換える
論理演算をロジスティック活性化関数に置き換える

従来のロジスティック活性化関数（Payani and Fekri, 2019）は以下のとおりである。

そして

それぞれ連続結合層と連続分離層のノードです。

そして

、両方を通じて

サイズによって決まる

最終結果への影響の大きさ。

もし

=0の場合

最終結果には影響しません。

これら 2 つの論理活性化関数は、微分可能な実数演算による論理演算をより適切にシミュレートできますが、深刻な勾配消失問題があり、多数の機能がある状況を処理できず、スケーラビリティが低くなります。ロジスティック活性化関数の分析

そして

また、対応する導関数は、連続乗算を使用して論理演算をシミュレートすることが勾配の消失の主な理由であることを示しています。

による

たとえば、対応する導関数は次のようになります。

なぜなら

、乗算すると

数が大きい場合（一般的には特徴数が多い、またはノード数が多い場合）、微分結果は 0 に近づく傾向があり、つまり勾配消失の問題が発生します。

ロジスティック活性化関数の改善

従来のロジスティック活性化関数は、連続乗算を使用して論理演算をシミュレートしますが、これにより、より多くの機能を処理するときに勾配消失問題が発生し、モデルのスケーラビリティが著しく損なわれます。簡単な改善アイデアとしては、対数関数を使用して連続乗算を連続加算に変換することです。しかし、対数関数では、活性化関数が論理演算の特性を維持することが不可能になります。したがって、マッピング関数が必要である

マッピング関数は少なくとも次の 3 つの条件を満たす必要があります。

条件(i)と(ii)はロジスティック活性化関数の範囲と傾向を維持するために使用され、条件(iii)は

はい

高次の無限小は主に

その速度は0に近づきます。

選ぶ

、ロジスティック活性化関数の改善は

総括する

改良された論理活性化関数は次のようになります。

二値化レイヤー

二値化レイヤーは主に連続した特徴値を複数の単位に分割するために使用されます。 j番目の連続値特徴について

、k個のランダムな下限値が存在する

およびk個のランダム上限

これを割ると次の2進ベクトルが得られる。

、で

論理層のエッジ接続は学習可能であるため、二値化層と論理層を組み合わせることで、モデルは特徴の離散化 (二値化) に適切な境界を自動的に選択し、つまりエンドツーエンドで特徴を二値化することができます。例えば：

結合層ノードがとに接続されている場合、それは区間を表す
選言ノードがとに接続されている場合、それは区間を表す。

勾配接ぎ木

ロジック層の連続値バージョンでは RRL 全体を微分化できますが、連続空間で離散値ソリューションを探すのは依然として大きな課題です。さらに、ロジスティック活性化関数の特性により、離散点における RRL の勾配には有用な情報がほとんど含まれないため、Straight-Through Estimator (STE) などの方法では RRL をトレーニングできません。

本論文では、微分不可能な RRL を効率的にトレーニングするために、新しい勾配ベースの離散モデルトレーニング法である勾配グラフティング法を提案します。植物の接ぎ木では（図 3a 参照）、1 つの植物の枝または芽を接ぎ穂として使い、別の植物の根または茎を台木として使います。接ぎ木すると、両方の植物の長所を組み合わせた「新しい植物」が得られます。勾配接ぎ木法は、植物接ぎ木法にヒントを得たものです。離散モデルの出力に対する損失関数の勾配を接ぎ穂として使用し、連続モデルの出力に対するモデルパラメータの勾配を台木として使用することで、損失関数からパラメータまでの完全な逆伝播パスを構築します（図 3b を参照）。作る

は時刻tにおけるパラメータであり、

そして

はそれぞれ離散モデルと連続モデルの出力です。

勾配グラフティング法は、パラメータ空間内の連続点と離散点の両方の勾配情報を使用し、2 つを分割して組み合わせることで離散モデルの直接的な最適化を実現します。

図3：（a）植物の接ぎ木の例（Chen et al., 2019）。 (b) 勾配接木法の簡略計算図。実線と破線の矢印はそれぞれ前方伝播と後方伝播を表します。緑の矢印はグラフトされたグラデーションを表し、これは赤い矢印で表されるグラデーションのコピーです。グラフト後、損失関数とパラメータの間にバックプロパゲーションパスが存在します。

実験

この論文では、実験を通じて RRL を評価し、以下の質問に答えます。

RRL の分類パフォーマンスとモデルの複雑さはどれくらいですか?
他の離散モデルトレーニング方法と比較して、勾配グラフティングはどのように収束しますか?
改良されたロジスティック活性化関数はどの程度スケーラブルでしょうか?

著者らは、9 つの小規模データセットと 4 つの大規模データセットで実験を実施しました。これらのデータセットは、モデルの分類パフォーマンスと解釈可能性をテストするために広く使用されています。表 1 は、これら 13 のデータセットの基本情報をまとめたものです。これら 13 のデータセットは、データの多様性を十分に反映していることがわかります。インスタンス数は 178 ～ 102944、カテゴリ数は 2 ～ 26、オリジナル機能数は 4 ～ 4714 です。さらに、データセットは特徴の種類とスパース性が異なります。

表1: データセットの統計

分類効果

この論文では、RRL の分類効果 (F1 スコア) を 6 つの解釈可能なモデルと 5 つの複雑なモデルと比較しています。結果は表 2 に示されています。このうち、C4.5 (Quinlan、1993)、CART (Breiman、2017)、Scalable Bayesian Rule Lists (SBRL) (Yang et al.、2017)、Certifiably Optimal Rule Lists (CORELS) (Angelino et al.、2017)、Concept Rule Sets (CRS) (Wang et al.、2020) はルールベースのモデルであり、ロジスティック回帰 (LR) (Kleinbaum et al.、2002) は線形モデルです。これら 6 つのモデルは解釈可能であると考えられます。区分線形ニューラルネットワーク (PLNN) (Chu ら、2018 年)、サポートベクターマシン (SVM) (Scholkopf と Smola、2001 年)、ランダムフォレスト (Breiman、2001 年)、LightGBM (Ke ら、2017 年)、XGBoost (Chen と Guestrin、2016 年) は、解釈が難しい複雑なモデルであると考えられています。 PLNN は、区分線形活性化関数を使用する多層パーセプトロン (MLP) の一種です。 RF、LightGBM、XGBoost はすべて統合モデルです。

ご覧のとおり、RRL は他の解釈可能なモデルよりも大幅に優れており、LightGBM と XGBoost の 2 つの複雑なモデルのみが同等の結果を示しています。さらに、RRL はすべてのデータセットで良好な結果を達成しており、これも RRL の優れたスケーラビリティを証明しています。

表2: 13データセットにおける各モデルの分類効果（5分割交差検証のF1スコア）

モデルの複雑さ

解釈可能なモデルは、許容できる精度を確保しながら、モデルの複雑さを可能な限り軽減することを目的としています。モデル分類の効果が低すぎる場合、モデルの複雑度を低くしても意味がありません。したがって、実践者が本当に気にするのは、モデル分類のパフォーマンスと複雑さの関係です。

この論文では、ルールの再利用の存在を考慮して、ルールの総数ではなくエッジの総数を使用して、ルールベースモデルの複雑さ (解釈可能性) を測定します。 RRL、CART、CRS、XGBoost のモデル複雑度とモデル分類効果の関係を図 4 に示します。横軸は複雑度、縦軸は分類効果です。他のルールモデルや統合モデルと比較すると、RRL はルールをより効率的に活用でき、つまり、モデルの複雑さを抑えながら、より優れた分類結果を達成できることがわかります。結果はまた、RRL がパラメータ設定を通じてモデルの複雑さと分類パフォーマンスの間で簡単にトレードオフできることを示しています。

図 4: RRL およびベースラインモデルのモデル複雑性と分類効果の散布図。

アブレーション実験

離散モデルトレーニング法

同じ構造の RRL をトレーニングすることで、著者らは勾配グラフティング法を 3 種類の離散モデルトレーニング法 (STE (Courbariaux 他、2015、2016)、ProxQuant (Bai 他、2018)、RB (Wang 他、2020)) と比較しました。トレーニング損失関数の結果を図 5 に示します。 RRL 自体の特殊な構造 (つまり、離散点の勾配にはほとんど情報がない) により、勾配グラフティング法を使用してトレーニングされた RRL のみが適切に収束できます。

改良されたロジスティック活性化関数

改善前後のロジスティック活性化関数の結果も図 5 に示されています。大規模なデータを処理する場合、ロジスティック活性化関数では勾配消失の問題が発生し、収束しなくなることがわかります。改良されたロジスティック活性化関数はこの問題を克服します。

図 5: 勾配グラフティングと他の 3 つの離散モデルトレーニング方法のトレーニング損失、および改善前後のロジスティック活性化関数を使用したトレーニング損失。

表示例

重量配分

図6は、異なる正則化項係数に対応するRRL線形層の重み（ルールの重要度）の分布を示しています。正則化項係数が比較的小さい場合、RRL によって生成されるルールはより複雑になり、数も多くなります。しかし、分布から、ほとんどのルールの重みの絶対値が小さくなっていることがわかります。したがって、最初に重みが大きい重要なルールを理解し、モデル全体とデータをよりよく理解した後で、重みが小さいルールを理解することができます。正則化項係数が大きい場合、RRL の全体的な複雑さは低くなり、モデル全体を直接理解できます。

図 6: 異なる正則化係数に対応する線形層の重み分布。

具体的なルール

図 7 は、銀行マーケティングデータセットから学習したルールの一部を示しています。これらのルールは、電話による営業コール中にユーザーが銀行ローンを受け入れるかどうかを予測するために使用されます。これらのルールにより、どのユーザーのステータスと企業の行動が販売結果に影響を与えるかを直感的に理解できます。たとえば、預金が少ない中年の既婚ユーザーは、ローンを受け入れる可能性が高くなります。銀行は、これらの解釈可能なルールに基づいてマーケティング戦略を調整し、売上を増やすことができます。

RRL は画像分類タスク用に特別に設計されたものではありませんが、優れたスケーラビリティのおかげで、視覚化を通じて画像分類タスクの直感的な説明を提供できます。図 8 は、fashion-mnist 画像データセットで RRL によって学習されたルールを視覚化したものです。これにより、袖の長さでTシャツとプルオーバーを区別するなど、モデルの意思決定パターンを直感的にまとめることができます。

図 7: 銀行マーケティングデータセットで RRL が学習したルールの一部。

図 8: fashion-mnist 画像データセットで RRL によって学習されたルールの視覚化。

要約する

この論文では、新しいスケーラブルな分類器であるルール表現学習器 (RRL) を提案しています。 RRL は、解釈可能な非ファジールールを自動的に学習することで、データを表現および分類できます。 RRL は独自のモデル構造設計、勾配グラフト法、改良された論理活性化関数の使用により、強力なスケーラビリティを備えているだけでなく、モデルの複雑性が低い状態でより優れた分類結果を達成できます。

RRL の導入により、解釈可能なルールモデルをより大規模なデータスケールとより幅広いアプリケーションシナリオに適用できるようになるだけでなく、モデルの複雑さと分類効果のバランスをとるためのより優れた方法が実務者に提供されます。今後の作業では、RRL を画像やテキストなどの非構造化データに拡張し、そのようなデータモデルの解釈可能性を向上させる予定です。

<<: 古典へのオマージュ！ボストンダイナミクスのロボットが40年前のローリングストーンズのダンスを正確に再現

>>: 人工知能の開発を加速するための9つのヒント