フィンテック企業はリスク管理に AI をどのように活用しているのでしょうか?

[51CTO.com からのオリジナル記事] 金融テクノロジーのブームは 21 世紀以降急増しています。人工知能とインターネット技術の台頭により、伝統的な金融業界は破壊的な影響に見舞われています。特に金融リスク管理の分野では、機械学習理論の発展と成熟、そして人々のテクノロジーへの信頼の高まりに伴い、ますます多くの金融会社や機関が伝統的なビジネス上の問題に対処するために人工知能を採用しています。

人工知能の観点から見ると、リスク管理自体は不均衡な分類問題です。いわゆる不均衡な分類問題とは、分類プロセス中に陽性サンプルと陰性サンプルが極端に不均一に分布することを指します。銀行融資のプロセスにおいて、詐欺行為をするユーザーは結局少数派です。インターネット金融の公開データの詐欺率は10％から20％の間であり、従来の銀行の詐欺率は通常それより低いです。したがって、金融テクノロジー企業が解決する必要があるのは、データの分布が不均一な場合に、分類を通じて悪意のあるユーザーをどのように排除するかということです。

これは本質的に分類問題であるため、任意の分類アルゴリズムを使用して問題を解決することができます。ロジスティック回帰、ランダムフォレスト、xgboost などの従来の浅いモデル、および後続のハイブリッドモデルとディープラーニングモデルはすべて、リスク管理に使用できます。ここでは、金融業界のリスク管理を紹介する2018年の国際会議DMKD 2018でHengchang Litongの研究者が発表した「P2P金融市場における不正ユーザーの検出」と題する論文を共有したいと思います。

論文の著者らが入力したデータは、主にオフライン店舗でユーザーが入力した情報であり、ユーザーの家族情報、勤務先情報、ローン情報などが含まれます。著者はランダムフォレストとxgboostの手法を試し、比較しました。比較では主にグリッド検索を使用してモデルパラメータを列挙します。評価指標はAUCです。

入力データには合計 97 個の特徴があり、そのうち 33 個の特徴はカテゴリ特徴です。カテゴリ機能はワンホット方式で処理されます。実験データは、データ比率が 4:1:1 で、トレーニングセット、テストセット、検証セットに分割されます。データの全体的な次元が高いため、分類前に PCA を使用してデータの次元を削減します。ランダムフォレスト + PCA のグリッド検索効果図は次のとおりです。

テストセットでのランダムフォレスト + PCA の AUC は 0.78 で、トレーニングセットでの AUC は 0.797 です。次に著者らは xgboost + PCA の効果を比較しました。データセットの分布スパンが非常に大きいため、tanh を使用してデータを正規化することを検討します。正規化後、xgboost + tanh の効果は最高になります。特異点を除外すると、次の図に示すように、AUC は基本的に 0.88 前後になります。

筆者もPCA + tanhの組み合わせを試してみましたが、効果がxgboost + tanhほど理想的ではなかったため、最終的にxgboost + tanhモデルを採用しました。

リスク管理と詐欺防止の分野における人工知能の研究は長年にわたって続けられてきました。2000 年代初頭には、米国の研究者がすでに関連分野の技術を研究していました。しかし、関連技術が本当に人々の信頼を得るには、何年ものテストが必要でした。人工知能技術がますます成熟しつつある今日でも、多くの偏見が残っています。例えば、金融業務に精通した人だけが本当にリスク管理を行える、リスク管理データとモデルのどちらが重要かなどです。深刻な偏見を伴うこれらの退屈な社内政治の話題は、多くの場合、社内の正常な業務運営に影響を与えます。

2018年、Home Credit社はKaggleで不正防止コンテストを開催しました。提供された基本データは同じで、参加者は基本的に技術者でした。唯一の違いは、特徴エンジニアリングとモデルの選択と処理でした。最終結果は大きく異なりました。このようなコンテストは、人工知能技術に対する多くの人々の偏見や誤解を払拭することができます。したがって、多くの場合、テクノロジーやキャリアの進歩に影響を与えるのはテクノロジーそのものではなく、人々の本来の執着心です。

もちろん、これは、技術が成熟していなくても、無理に前進すべきだという意味ではありません。たとえば、金融リスク管理の分野では、ディープラーニングモデルはまだ xgboost モデルや浅いモデルよりも優れた結果を達成していません。パフォーマンスや虚栄心のためだけにディープラーニングモデルを使用することは、会社のリソースと開発者の貴重な時間を無駄にすることになります。

つまり、金融テクノロジー業界は近年急速に発展していますが、発展の過程では良い面もあれば悪い面もありました。フィンテックの実践者として、自分のキャリアを明確に理解し、位置づける必要があります。

著者について:

[[263763]]

ブロックチェーン企業の科学者であり、恒昌利通のビッグデータ部門の元責任者である王昊氏は、ユタ大学で学士号/修士号を取得しています。百度、新浪、網易、豆瓣などの企業で長年の研究開発と技術管理の経験があります。機械学習、ビッグデータ、推奨システム、ソーシャルネットワーク分析などの技術に長けています。 TVCGやASONAMなどの国際会議やジャーナルに10本の論文を発表している。私の学部論文は 2008 IEEE SMI *** 論文賞を受賞しました。

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<: 半日で2000件のいいねを獲得、李菲菲の弟子が33のニューラルネットワークトレーニングの秘密を公開

>>: AIは追いつこうと努力しているが、5Gはカーブで追い越しつつある。トランプ氏が不安にならないわけがない。