フィンテック企業はリスク管理に AI をどのように活用しているのでしょうか?

フィンテック企業はリスク管理に AI をどのように活用しているのでしょうか?

[51CTO.com からのオリジナル記事] 金融テクノロジーのブームは 21 世紀以降急増しています。人工知能とインターネット技術の台頭により、伝統的な金融業界は破壊的な影響に見舞われています。特に金融リスク管理の分野では、機械学習理論の発展と成熟、そして人々のテクノロジーへの信頼の高まりに伴い、ますます多くの金融会社や機関が伝統的なビジネス上の問題に対処するために人工知能を採用しています。

人工知能の観点から見ると、リスク管理自体は不均衡な分類問題です。いわゆる不均衡な分類問題とは、分類プロセス中に陽性サンプルと陰性サンプルが極端に不均一に分布することを指します。銀行融資のプロセスにおいて、詐欺行為をするユーザーは結局少数派です。インターネット金融の公開データの詐欺率は10%から20%の間であり、従来の銀行の詐欺率は通常それより低いです。したがって、金融テクノロジー企業が解決する必要があるのは、データの分布が不均一な場合に、分類を通じて悪意のあるユーザーをどのように排除するかということです。

これは本質的に分類問題であるため、任意の分類アルゴリズムを使用して問題を解決することができます。ロジスティック回帰、ランダムフォレスト、xgboost などの従来の浅いモデル、および後続のハイブリッド モデルとディープラーニング モデルはすべて、リスク管理に使用できます。ここでは、金融業界のリスク管理を紹介する2018年の国際会議DMKD 2018でHengchang Litongの研究者が発表した「P2P金融市場における不正ユーザーの検出」と題する論文を共有したいと思います。

論文の著者らが入力したデータは、主にオフライン店舗でユーザーが入力した情報であり、ユーザーの家族情報、勤務先情報、ローン情報などが含まれます。著者はランダムフォレストとxgboostの手法を試し、比較しました。比較では主にグリッド検索を使用してモデル パラメータを列挙します。評価指標はAUCです。

入力データには合計 97 個の特徴があり、そのうち 33 個の特徴はカテゴリ特徴です。カテゴリ機能はワンホット方式で処理されます。実験データは、データ比率が 4:1:1 で、トレーニング セット、テスト セット、検証セットに分割されます。データの全体的な次元が高いため、分類前に PCA を使用してデータの次元を削減します。ランダム フォレスト + PCA のグリッド検索効果図は次のとおりです。

テスト セットでのランダム フォレスト + PCA の AUC は 0.78 で、トレーニング セットでの AUC は 0.797 です。次に著者らは xgboost + PCA の効果を比較しました。データセットの分布スパンが非常に大きいため、tanh を使用してデータを正規化することを検討します。正規化後、xgboost + tanh の効果は最高になります。特異点を除外すると、次の図に示すように、AUC は基本的に 0.88 前後になります。

筆者もPCA + tanhの組み合わせを試してみましたが、効果がxgboost + tanhほど理想的ではなかったため、最終的にxgboost + tanhモデルを採用しました。

リスク管理と詐欺防止の分野における人工知能の研究は長年にわたって続けられてきました。2000 年代初頭には、米国の研究者がすでに関連分野の技術を研究していました。しかし、関連技術が本当に人々の信頼を得るには、何年ものテストが必要でした。人工知能技術がますます成熟しつつある今日でも、多くの偏見が残っています。例えば、金融業務に精通した人だけが本当にリスク管理を行える、リスク管理データとモデルのどちらが重要かなどです。深刻な偏見を伴うこれらの退屈な社内政治の話題は、多くの場合、社内の正常な業務運営に影響を与えます。

2018年、Home Credit社はKaggleで不正防止コンテストを開催しました。提供された基本データは同じで、参加者は基本的に技術者でした。唯一の違いは、特徴エンジニアリングとモデルの選択と処理でした。最終結果は大きく異なりました。このようなコンテストは、人工知能技術に対する多くの人々の偏見や誤解を払拭することができます。したがって、多くの場合、テクノロジーやキャリアの進歩に影響を与えるのはテクノロジーそのものではなく、人々の本来の執着心です。

もちろん、これは、技術が成熟していなくても、無理に前進すべきだという意味ではありません。たとえば、金融リスク管理の分野では、ディープラーニング モデルはまだ xgboost モデルや浅いモデルよりも優れた結果を達成していません。パフォーマンスや虚栄心のためだけにディープラーニング モデルを使用することは、会社のリソースと開発者の貴重な時間を無駄にすることになります。

つまり、金融テクノロジー業界は近年急速に発展していますが、発展の過程では良い面もあれば悪い面もありました。フィンテックの実践者として、自分のキャリアを明確に理解し、位置づける必要があります。

著者について:

[[263763]]

ブロックチェーン企業の科学者であり、恒昌利通のビッグデータ部門の元責任者である王昊氏は、ユタ大学で学士号/修士号を取得しています。百度、新浪、網易、豆瓣などの企業で長年の研究開発と技術管理の経験があります。機械学習、ビッグデータ、推奨システム、ソーシャルネットワーク分析などの技術に長けています。 TVCGやASONAMなどの国際会議やジャーナルに10本の論文を発表している。私の学部論文は 2008 IEEE SMI *** 論文賞を受賞しました。

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<:  半日で2000件のいいねを獲得、李菲菲の弟子が33のニューラルネットワークトレーニングの秘密を公開

>>:  AIは追いつこうと努力しているが、5Gはカーブで追い越しつつある。トランプ氏が不安にならないわけがない。

ブログ    
ブログ    
ブログ    

推薦する

ハルビン工科大学と快手が共同でCogGPTを提案:大規模モデルにも認知反復が必要

認知科学の分野では、人間が継続的な学習を通じて認知を変化させるプロセスを認知ダイナミクスと呼びます。...

2022年の主要イベントが近づいています。ビッグネームの共演をお見逃しなく

2022年、デジタル化の東風が到来し、新たな技術・産業革命が本格化します。デジタル化の波に立ち、絶え...

...

...

Ctrip旅行言語モデルシステムの紹介と応用

著者についてCtrip の自然言語処理と大規模言語モデル アルゴリズムの専門家である Terry は...

OSPFはSPFアルゴリズムを使用してルートを伝播します

SPF アルゴリズムは、各ルータをルートとして使用して、各宛先ルータまでの距離を計算します。各ルータ...

...

GitHubが11,000スターを獲得、ソフトウェア開発プロセスをシミュレート、オープンソースフレームワークMetaGPTが爆発的に増加

大規模言語モデル (LLM) が成熟するにつれて、それを使用して AI エージェントを構築することが...

人間の目に匹敵する視覚:この画期的な光学センサーは人間の網膜を模倣し、AIに大きな進歩をもたらすことが期待されています。

視覚、聴覚、嗅覚、味覚、触覚は、人間の最も基本的な五感です。その中でも、視覚は極めて重要です。結局の...

ソートアルゴリズムを簡単に学ぶ: よく使われるソートアルゴリズムを視覚的に体験

1. クイックソート導入:クイックソートは、Tony Hall によって開発されたソートアルゴリズム...

中国の新世代人工知能レポートが発表:中国はAI論文数で世界一

[[266390]] 5月24日、浦江イノベーションフォーラムで「中国の新世代人工知能発展報告書20...

2020年AIの現状調査:25%の企業がAI導入により大幅な収益増加を達成

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

ビデオ管理システム (VMS) を使用して複数ブランドのデバイス管理を強化するにはどうすればよいですか?

今日の環境では、インテグレーターとインストーラーは、古いセキュリティ プログラムをアップグレードし...

AIビッグモデルがインテリジェント交通の未来を切り開く?

2023年の初め、OpenAIが開発したChatGPTの出現により、インターネット業界の微妙なバラ...