機械学習と感度分析を組み合わせてビジネス戦略を策定するにはどうすればよいでしょうか?

数え切れないほど多くの企業が、意思決定を支援するために機械学習 (ML) を日常的に使用しています。しかし、ほとんどの場合、機械学習システムによる予測やビジネス上の意思決定には、依然として人間のユーザーの直感による判断が必要です。

[[285825]]

この記事では、ML と感度分析を組み合わせてデータ駆動型のビジネス戦略を策定する方法を説明します。この投稿では、顧客離れに焦点を当てながら、ML ベースの分析を使用する際によく発生する問題について説明します。これらの問題には、不完全で不均衡なデータの処理、モデルの選択の導出、およびこれらの選択の潜在的な影響の定量的な評価の難しさなどが含まれます。

具体的には、ML を使用して解約する可能性のある顧客を特定し、機能の重要性をシナリオ分析と組み合わせて使用して、定量的および定性的な推奨事項を導き出します。組織はその結果を使用して、将来の顧客離れを減らすための適切な戦略的および戦術的決定を下すことができます。このユースケースは、データサイエンスの実践で発生する次のようないくつかの一般的な問題を示しています。

信号対雑音比が低く、機能と解約率の間に明確な相関関係がない
非常に不均衡なデータセット（顧客の 90% が解約しない）
確率的予測と調整を使用して意思決定メカニズムを決定し、顧客離脱問題への過剰投資のリスクを最小限に抑えます。

エンドツーエンドの実装コードは、Amazon SageMaker または Amazon EC2 上のスタンドアロンで使用できます。

このユースケースでは、さまざまな種類の製品を提供する架空の会社を検討します。同社の 2 つの主要製品を製品 A と製品 B と呼ぶことにします。会社の製品と顧客についての情報は部分的しかありません。同社では最近、顧客離れが増加している。データセットには、数か月にわたって収集され分類された、数千人の顧客のさまざまな属性に関する情報が含まれています。これらの顧客の中にはすでに解約した顧客もいれば、解約していない顧客もいます。特定の顧客リストを使用して、個々の顧客が解約する可能性を予測します。その過程で、私はいくつかの質問に答えようとしました。信頼できる解約予測モデルを作成できるか？顧客解約の可能性を説明できる変数は何か？企業は顧客解約を減らすためにどのような戦略を採用できるか？

この投稿では、ML モデルを使用して解約削減戦略を作成するための次の手順について説明します。

1. データを調査して新しい機能を設計する

まず、さまざまな入力機能と顧客離脱ラベル間の単純な相関関係を調べることで、顧客データを調査する方法を示します。また、特徴間の関連性（相互相関または共分散と呼ばれる）も調べました。これにより、特にどの機能を導出、変更、または削除する必要があるかを決定するアルゴリズムの決定が可能になります。

2. MLモデルのセットを開発する

次に、自動特徴選択を含む複数の機械学習アルゴリズムを構築し、複数のモデルを組み合わせてパフォーマンスを向上させました。

3. MLモデルのパフォーマンスを評価し、改善する

3 番目のセクションでは、開発したさまざまなモデルのパフォーマンスをテストしました。ここから、解約する顧客数を過大評価するリスクを最小限に抑える意思決定メカニズムを特定しました。

4. MLモデルをビジネス戦略設計に適用する

最後に、パート IV では、ML の結果を使用して、顧客離脱に影響を与える要因を理解し、機能の選択を導き出し、これらの選択が顧客離脱率に与える影響を定量的に評価します。私は感度分析を実行してこれを行います。感度分析では、現実世界で制御できるいくつかの要素 (割引率など) を変更し、その制御要素のさまざまな値に対して予想される解約の対応する減少を予測します。すべての予測は、セクション 3 で特定された優れた ML モデルを使用して行われます。

データの探索と新しい機能の作成

ML モデルの開発中に問題を引き起こすことが多い主な問題には、入力データ内の共線性と低分散性の特徴の存在、外れ値の存在、および欠損データ (一部の特徴の欠損した特徴と値) などがあります。このセクションでは、Amazon SageMaker を使用して Python 3.4 の各問題を処理する方法について説明します。 (Deep Learning AMI を介して Amazon EC2 インスタンス上のスタンドアロンコードも評価しました。どちらも利用可能です。)

このタイムスタンプ付きデータには、特定のメトリック内の重要なパターンが含まれている場合があります。私はこれらの指標を日別、週別、月別に分類し、指標の動的な性質を考慮した新しい機能を開発することができました。

次に、元の機能と新しい機能の間の単純な 1 対 1 (限界とも呼ばれる) の関連と関連の尺度をそれぞれ調査します。また、機能と解約ラベルの相関関係も調べました。（下の写真をご覧ください）。

低分散特徴 (解約ラベルが変更されても大幅に変化しない特徴) は、次の表に示すように、限界相関とハミング/ジャカード距離を使用して処理できます。ハミング/ジャカード距離は、バイナリ結果専用に設計された類似度測定です。これらの指標は、各特性が顧客離脱に関してどの程度有益であるかを示します。

予測対象において、変動の少ない特徴はそれほど大きく変化しないため、そのような特徴は削除することをお勧めします。したがって、それらの存在は分析に役立たず、実際には学習プロセスの効率を低下させる可能性があります。

次の表は、機能と解約率の間の最も高い相関関係とバイナリ差異を示しています。 48 個のオリジナル機能と派生機能のうち最も重要な機能のみが表示されます。「フィルター済み」列には、外れ値や欠損値をフィルター処理したときに得られた結果が含まれます。

上記の表から得られる主な結論は、3 つの販売チャネルは顧客離脱と逆相関しているようであり、顧客離脱との限界相関のほとんどは小さい (≤0.1) ということです。外れ値と欠損値にフィルターを適用すると、限界相関の統計的有意性が向上します。上記の表の右の列にこの効果が記載されています。

共線的特徴の問題は、下の図に示すように、すべての特徴間の共分散行列を計算することによって解決できます。このマトリックスは、特定の機能が持つ冗長性の量を決定するための新しい視点を提供します。冗長な特徴はバイアスを生み出し、より多くの計算を必要とし、学習プロセスの効率を低下させるため、削除することをお勧めします。

上図の左側のグラフは、一部の特徴 (価格や一部の予測子など) が共線的であり、ρ > 0.95 であることを示しています。次のセクションで説明する ML モデルを設計する際には、そのうちの 1 つだけを保持したため、上図の右側に示すように、約 30 個の機能が残りました。

欠損データや外れ値データの問題は、通常、特定のレコードデータ値が欠損している場合やサンプル標準偏差の 3 倍を超えている場合に観測値 (顧客) を削除するなどの経験則によって処理されます。

欠損データはよくある問題なので、観測値を削除する代わりに、サンプルまたは母集団の平均または中央値を使用して欠損値を補完することができます。ここで私が行ったのは、欠損値が 40% を超える特徴を削除し、残りの各特徴の欠損値を中央値に置き換えたことです。読者は、欠損データの補完に対するより高度なベストプラクティスのアプローチは、他の特徴に基づいて教師あり学習モデルをトレーニングすることであることに注意してください。ただし、これには多くの作業が必要になる可能性があり、ここでは説明しません。データに外れ値が見つかった場合、平均値より 6 標準偏差以上高い値を持つ顧客を削除しました。合計で、16,096 件の観測値のうち 140 件 (<1%) が削除されました。

MLモデルのセットを開発する

このセクションでは、複数の ML モデルを開発して組み合わせ、複数の ML アルゴリズムのパワーを活用します。アンサンブルモデリングでは、次のフローチャートに示すように、解約ラベルの分布が非常に不均衡な場合でも、データセット全体の情報を使用することもできます。

分散の低い特徴を削除するための良い方法として、簡単でシンプルな分散フィルターを適用して、特徴空間を最も重要な特徴にさらに制限しました。このフィルターは、95% の顧客にとって違いが見られない機能を除外します。解約に対する複合的な影響（限界的な影響ではなく）に基づいて機能をフィルタリングするために、段階的回帰によるグリッド検索を使用して ML ベースの機能選択を実行しました。詳細については次のセクションを参照してください。

ML モデルを実装する前に、データをランダムに 2 つのグループに分割し、30% のテストセットを特定しました。次のセクションで説明するように、70%/30% の分割に加えて、10 倍のクロス検証も使用しました。 K フォールディングは、それぞれ個別の K% ホールドアウトデータセットで K 評価のパフォーマンスを平均化する反復サイクルです。

3 つの ML アルゴリズム (ロジスティック回帰、サポートベクターマシン、ランダムフォレスト) が個別にトレーニングされ、前のフローチャートに示すように結合されました。アンサンブルアプローチは、さまざまなモデルの平均確率を取得し、それを顧客分類に使用するため、文献では「ソフト投票」と呼ばれています (前のフローチャートにも示されています)。

顧客離脱はデータのわずか 10% を占めるため、データセットは不均衡です。クラスの不均衡に対処するために 2 つのアプローチをテストしました。

最初の最も単純なアプローチでは、豊富なクラス (解約しなかった顧客) をランダムにサンプリングして、希少なクラス (解約した顧客) のサイズに一致させることでトレーニングを行います。
2 番目のアプローチ (以下に示す) では、各モデルが 9 つの豊富なクラスのランダムサンプル (置換なし) と希少クラスの完全なサンプル 1 つを使用するモデルのアンサンブルをトレーニングします。クラスの不均衡が約 1 対 9 であるため、9 回を選択しました (下のヒストグラムに示すように)。したがって、1-9 は、豊富なクラスのデータのすべてまたはほぼすべてを使用するために必要なサンプリング量です。このアプローチはより複雑ですが、利用可能なすべての情報を使用するため、一般性が高まります。次のセクションでその有効性を評価します。

どちらの方法でも、クラスの不均衡を考慮しながら、テストセットでモデルのパフォーマンスが評価されます。

MLモデルのパフォーマンスを評価し、改善する

このセクションでは、前のセクションで開発したさまざまなモデルのパフォーマンスをテストします。次に、解約する可能性のある顧客数を過大評価するリスク (偽陽性率と呼ばれる) を最小限に抑える意思決定メカニズムを特定しました。

いわゆる受信者動作特性 (ROC) 曲線は、分割表を補完するために ML パフォーマンス評価でよく使用されます。 ROC 曲線は、正のクラスと負のクラス (このプロジェクトでは、それぞれ解約クラスと非解約クラス) を推論するための確率しきい値を変更するときに、不変の精度の尺度を提供します。すべての正確な陽性予測 (真陽性) と偽陽性のグラフをプロットします。下の表をご覧ください。

デフォルトでは、異なる ML モデルによって予測される確率は、p>0.5 の値が 1 つのクラスに対応し、p<0.5 の値が他のクラスに対応するように調整されます。このしきい値は、1 つのクラスの誤分類を最小限に抑えるために微調整できるハイパーパラメータです。これには別の種類の誤分類が追加されるという犠牲が伴い、さまざまなパフォーマンスメトリックの精度と正確性に影響を及ぼします。対照的に、ROC 曲線の下の領域は、どのしきい値でも一定のままである不変のパフォーマンスの尺度です。

次の表は、希少クラスの 9 倍のトレーニングポピュレーションを使用したさまざまな ML モデルのパフォーマンスを示しています。ランダムフォレストのパフォーマンスは優れており、ROC AUC スコアが 0.68 で全体的に 9 倍優れていることがわかります。このモデルの方がパフォーマンスが優れています。

次の図は、全体的に優れたモデル（9 倍人口ランダムフォレストモデル）のパフォーマンスと、精度とエラーの最適化を示しています。確率しきい値 0.5 を使用すると、最良の結果で解約した顧客の 69% を正確に予測できます。

ROC 曲線を見ると、同じモデルが 30% の確率で解約を正確に予測できる一方で、解約していない顧客を解約した顧客として予測できる確率は 10% であることがわかります。グリッド検索を使用して、しきい値が p = 0.56 であることがわかりました。解約する顧客数を過大評価するリスクを最小限に抑えたい場合 (たとえば、これらの顧客を維持するために実行するアクティビティにコストがかかる可能性がある場合) は、このモデルを使用することをお勧めします。

ML モデルをビジネス戦略設計に適用する

このセクションでは、私が開発した ML モデルを使用して、顧客離脱に影響を与える要因をより深く理解し、離脱を減らす機能の選択を導き出し、これらの選択が離脱率に与える影響を評価します。

機能の顧客離脱に対する複合的な影響を考慮して、段階的ロジスティック回帰を使用して機能の重要性を評価しました。下の図に示すように、回帰分析により 12 の主要な特徴が特定されました。これらの 12 個の特徴を回帰モデルに含めると、予測スコアはより高くなりました。

12 の要因のうち、純利益率、製品 A と製品 B の予測購入量、複数の製品顧客指標が、顧客離脱を引き起こす可能性が最も高い特性でした。解約を減らす要因には、3 つの販売チャネル、マーケティングキャンペーン、割引額、全体の注文額、顧客ロイヤルティ、購入された製品の合計数などがあります。

したがって、解約する可能性が最も高い顧客に割引を提供するというのは、シンプルで効果的な戦略であるように思われます。もちろん、A と B を超えた製品の強化、販売チャネル 1 ～ 3、マーケティング活動と長期契約の相乗効果など、他の戦略的手段もあります。データによると、これらの戦術を活用することで顧客離れを減らすことができる可能性がある。

最後に、感度分析を使用しました。ML モデルによって解約の可能性があると判断された顧客に最大 40% の割引を適用し、モデルを再実行して、割引を組み込んだ後に解約すると予想される顧客数を評価しました。

損失を 10% に最小化するためにモデルの p しきい値を 0.6 に設定したところ、分析では 20% の割引で解約が 25% 減少すると予測されました。このしきい値での真陽性率が約 30% であると仮定すると、この分析では、20% 割引のアプローチによって顧客離脱を少なくとも 8% 削減できることが示唆されます。詳細については次の図を参照してください。割引戦略は、顧客離れを経験している企業が問題を軽減するために検討できるシンプルな最初のステップです。

結論は

この投稿では、次の方法を説明しました。

データを調査して新しい機能を導き出し、データの欠落や信号対雑音比の低さによって生じる問題を最小限に抑えます。
大きく不均衡なデータセットを処理するための ML モデルのセットを設計します。
最もパフォーマンスの高いモデルを選択し、決定しきい値を最適化して、精度を最大化し、解約を最小限に抑えます。
結果を使用して機能選択を導き出し、顧客離脱率への影響を定量的に評価します。

この特定のユースケースでは、誤検出率を 10% に制限しながら、解約する可能性が 30% の顧客を識別できるモデルを開発しました。この研究は、割引を提供する短期的な戦術を展開し、サービスと販売チャネル間の相乗効果を生み出すことに基づいて長期戦略を策定し、より多くの顧客を維持することの有効性を裏付けています。

<<: データサイエンスの面接で必ず知っておくべき 5 つの質問

>>: 人工知能にとって2019年は厄介な年だった。資金は必要だったが、使えるお金がなかったのだ。