フィンテック企業はリスク管理に AI をどのように活用しているのでしょうか?

フィンテック企業はリスク管理に AI をどのように活用しているのでしょうか?

[51CTO.com からのオリジナル記事] 金融テクノロジーのブームは 21 世紀以降急増しています。人工知能とインターネット技術の台頭により、伝統的な金融業界は破壊的な影響に見舞われています。特に金融リスク管理の分野では、機械学習理論の発展と成熟、そして人々のテクノロジーへの信頼の高まりに伴い、ますます多くの金融会社や機関が伝統的なビジネス上の問題に対処するために人工知能を採用しています。

人工知能の観点から見ると、リスク管理自体は不均衡な分類問題です。いわゆる不均衡な分類問題とは、分類プロセス中に陽性サンプルと陰性サンプルが極端に不均一に分布することを指します。銀行融資のプロセスにおいて、詐欺行為をするユーザーは結局少数派です。インターネット金融の公開データの詐欺率は10%から20%の間であり、従来の銀行の詐欺率は通常それより低いです。したがって、金融テクノロジー企業が解決する必要があるのは、データの分布が不均一な場合に、分類を通じて悪意のあるユーザーをどのように排除するかということです。

これは本質的に分類問題であるため、任意の分類アルゴリズムを使用して問題を解決することができます。ロジスティック回帰、ランダムフォレスト、xgboost などの従来の浅いモデル、および後続のハイブリッド モデルとディープラーニング モデルはすべて、リスク管理に使用できます。ここでは、金融業界のリスク管理を紹介する2018年の国際会議DMKD 2018でHengchang Litongの研究者が発表した「P2P金融市場における不正ユーザーの検出」と題する論文を共有したいと思います。

論文の著者らが入力したデータは、主にオフライン店舗でユーザーが入力した情報であり、ユーザーの家族情報、勤務先情報、ローン情報などが含まれます。著者はランダムフォレストとxgboostの手法を試し、比較しました。比較では主にグリッド検索を使用してモデル パラメータを列挙します。評価指標はAUCです。

入力データには合計 97 個の特徴があり、そのうち 33 個の特徴はカテゴリ特徴です。カテゴリ機能はワンホット方式で処理されます。実験データは、データ比率が 4:1:1 で、トレーニング セット、テスト セット、検証セットに分割されます。データの全体的な次元が高いため、分類前に PCA を使用してデータの次元を削減します。ランダム フォレスト + PCA のグリッド検索効果図は次のとおりです。

テスト セットでのランダム フォレスト + PCA の AUC は 0.78 で、トレーニング セットでの AUC は 0.797 です。次に著者らは xgboost + PCA の効果を比較しました。データセットの分布スパンが非常に大きいため、tanh を使用してデータを正規化することを検討します。正規化後、xgboost + tanh の効果は最高になります。特異点を除外すると、次の図に示すように、AUC は基本的に 0.88 前後になります。

筆者もPCA + tanhの組み合わせを試してみましたが、効果がxgboost + tanhほど理想的ではなかったため、最終的にxgboost + tanhモデルを採用しました。

リスク管理と詐欺防止の分野における人工知能の研究は長年にわたって続けられてきました。2000 年代初頭には、米国の研究者がすでに関連分野の技術を研究していました。しかし、関連技術が本当に人々の信頼を得るには、何年ものテストが必要でした。人工知能技術がますます成熟しつつある今日でも、多くの偏見が残っています。例えば、金融業務に精通した人だけが本当にリスク管理を行える、リスク管理データとモデルのどちらが重要かなどです。深刻な偏見を伴うこれらの退屈な社内政治の話題は、多くの場合、社内の正常な業務運営に影響を与えます。

2018年、Home Credit社はKaggleで不正防止コンテストを開催しました。提供された基本データは同じで、参加者は基本的に技術者でした。唯一の違いは、特徴エンジニアリングとモデルの選択と処理でした。最終結果は大きく異なりました。このようなコンテストは、人工知能技術に対する多くの人々の偏見や誤解を払拭することができます。したがって、多くの場合、テクノロジーやキャリアの進歩に影響を与えるのはテクノロジーそのものではなく、人々の本来の執着心です。

もちろん、これは、技術が成熟していなくても、無理に前進すべきだという意味ではありません。たとえば、金融リスク管理の分野では、ディープラーニング モデルはまだ xgboost モデルや浅いモデルよりも優れた結果を達成していません。パフォーマンスや虚栄心のためだけにディープラーニング モデルを使用することは、会社のリソースと開発者の貴重な時間を無駄にすることになります。

つまり、金融テクノロジー業界は近年急速に発展していますが、発展の過程では良い面もあれば悪い面もありました。フィンテックの実践者として、自分のキャリアを明確に理解し、位置づける必要があります。

著者について:

[[263763]]

ブロックチェーン企業の科学者であり、恒昌利通のビッグデータ部門の元責任者である王昊氏は、ユタ大学で学士号/修士号を取得しています。百度、新浪、網易、豆瓣などの企業で長年の研究開発と技術管理の経験があります。機械学習、ビッグデータ、推奨システム、ソーシャルネットワーク分析などの技術に長けています。 TVCGやASONAMなどの国際会議やジャーナルに10本の論文を発表している。私の学部論文は 2008 IEEE SMI *** 論文賞を受賞しました。

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<:  半日で2000件のいいねを獲得、李菲菲の弟子が33のニューラルネットワークトレーニングの秘密を公開

>>:  AIは追いつこうと努力しているが、5Gはカーブで追い越しつつある。トランプ氏が不安にならないわけがない。

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

快手とインテルが提携し、KGNN プラットフォームでの大規模リアルタイム動的グラフトレーニングの効率を向上

ショートビデオの推奨やソーシャル推奨などのアプリケーションシナリオでは、推奨システムは大量の急速に変...

AIがIT運用に大きな影響を与える仕組み

AI が IT 運用に直接影響を与えることができる分野を考えるとき、他のアプリケーションよりも際立っ...

DIYのセルフバランススクーターの事故で左足を失った男は、義足を改造してワイルドなアイアンマンに変身した。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

A*、ダイクストラ、BFS 経路探索アルゴリズムの視覚的な説明

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

人工知能時代に対応するための知識と技術の蓄積を向上させる

記者がインタビューした専門家によると、人工知能などの知能化技術の応用が加速するにつれ、雇用への構造的...

GPT-4 はタイプ I の性格を持っていることが判明しました。ビッグモデルMBTIテストがByteから登場

誰かが実際に大規模モデルで MBTI をテストしたというのは驚くべきことです。結果は良好です。 Ch...

ビジュアルトランスフォーマーのより深い理解: ビジュアルトランスフォーマーの解剖学

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

機械学習の仕事を探すとき、学歴はどの程度重要ですか?

[[254426]]機械学習の分野における知識とツールの主な特徴は、無料かつオープンであることです...

リカレントニューラルネットワークの父:未来のロボットはアリを見るように人間を見るだろう

4月19日、ガーディアン紙は、ロボットの将来について語ったインタビューで、再帰型ニューラルネットワー...

...

...

人工知能とコンピュータービジョンの違いは何ですか?

人工知能 (AI) アプリケーションは、テクノロジーとの関わり方を変え始めており、私たちの生活をより...

ソラを解剖:技術的な詳細を推測するための37ページのリバースエンジニアリング、マイクロソフトも参加、中国チームが制作

ソラは発売後すぐにリバースエンジニアリングによって「解剖」されたのでしょうか? !リーハイ大学とマイ...