Antの信用リスク管理の実践

Antの信用リスク管理の実践

1. 信用リスク管理業務の背景と事例

まず、当社の事業シナリオについて簡単にご紹介させていただきます。

1. 事業背景

当社が行うクレジット グラフ リスク管理は、主にローン詐欺やキャッシュアウトの防止と管理に使用されます。

  • ローン詐欺とは、返済の意思がないのにローンを取得するために犯罪者が資金を悪用することを指します。この状況はより高い財務リスクにつながり、業界全体で延滞ローン全体の約 30% ~ 40% を占めています。
  • 現金引き出しとは、ユーザーが偽の取引シナリオを通じて信用限度額を現金に変換することを指します。この行為は、クレジットカードや華北などの消費者ローンの利用規定に違反しており、資金の使用範囲を制御できず、多重借入を引き起こしやすく、財務リスクを引き起こします。

一般的な現金化詐欺ローンの手口には次のようなものがあります。

  • スキャンコードモード: オフラインストアで支払いコードを開き、ローカルに保存するか、ストアでスキャンして、Huabei 支払いを使用して現金化します。
  • タオバオモデル:仲介業者がオンラインで店舗を開設し、商品を棚に並べ、現金化したい人は華北決済を利用して仮想オンラインショッピングを完了し、信用限度額を増やす。
  • 事前注文モード:サードパーティのアプリを使用して、支払いをせずに注文し、キャッシュアウト担当者にサードパーティのアカウントのパスワードを伝えます。キャッシュアウト担当者はログインして、Huabei を使用して支払いを行い、キャッシュアウトを完了します。

信用業務の特性に基づき、事前、事中、事後の総合的な予防と管理を設計しました。各リンクの主な内容は次のとおりです。

  • 事前に: リスクを事前に認識します。これには、販売業者のリスク分析とユーザーのリスク レベルの評価が含まれます。作業のこの部分では、近似線グラフ分析機能が使用されます。
  • プロセス中: ユーザーがローンを申請したり、ローンを使用して支払いを希望したりすると、トランザクション要求に基づいてリアルタイムの分析と計算が実行され、リスク戦略、モデル アプリケーション、グラフが相互検証されます。
  • その後:資金の用途、換金の可能性、ギャングの摘発など、信用事業の総合的なリスク分析を実施します。

2. ビジネスアプリケーションのグローバルな視点

イベント前、イベント中、イベント後のビジネスシステムに基づいて、対応する技術フレームワークを設計しました。

  • 事前: グラフ バッチ コンピューティングとイベント駆動型ニアライン コンピューティングの T+1 スケジューリング。
  • プロセス中: オンラインのリアルタイム コンピューティング要求に基づいて、グラフ データベースの機能を使用してクエリ パフォーマンスが確保されます。
  • その後: ニアライン メッセージの監視、T+1 の完全な分析、インタラクティブなグラフ分析。

上記のモジュールで使用されるグラフ テクノロジには、グラフの多次関係集約機能 (Traversal & Aggregate)、パターン マッチング (Pattern Matching)、グラフ コミュニティ検出アルゴリズム (Community Detection)、グラフ学習、グラフ推論などがあります。

3. 華北反キャッシュアウト事件

以下では、Huabei のキャッシュアウト防止の事例を使用して、イベント後およびイベント中の予防および制御対策を説明します。

その後

リスク管理シナリオでは Y ラベルが不足しているため、ラベル付けを専門家の手動作業に頼ると、専門家によって識別されないキャッシュアウト パターンがカバーされなくなります。そこで、T+1オフラインデータとリアルタイムデータを通じて大規模なリスクグラフを開発しました。「類は友を呼ぶ」という考えに基づき、パターンマッチングで特定された黒とグレーの種をグラフ上にさらに広げて、よりリスクの高いユーザーを特定し、リスクを単一点からコミュニティに変換します。

イベント中

従来のリアルタイムのリスク管理計算では、多くの場合、Flink を使用して統計的特徴を生成しますが、多次関係を記述することはできません。さらに、グラフ パターンが専門家の定義に完全に依存している場合、効率性とカバレッジに問題が発生します。そのため、買い手サブグラフ、売り手サブグラフ、買い手と売り手が接続されたサブグラフなどのオンラインサブグラフをニューラルネットワークへの入力として使用し、オンラインでスコア付けして、リアルタイムの予防と制御を実施しました。

2. リスク管理のスケール化された実施

1. マイクロローンプラットフォーム

リスク管理技術の大規模なビジネス実装に関しては、当初は効率の低い単純な試みしか行っていませんでした。信用シナリオは比較的厳密であるため、オンライン化する前にオフライン計算とバイパス検証が必要でした。これには、グラフ シミュレーション機能を実現するために、オフラインとオンラインのデータ ソースが一貫しており、コンピューティング セマンティクスが一貫していることを保証することが必要です。そうしないと、グラフはオフライン テーブル JOIN を通じてのみ構築できるため、3 ~ 6 か月のグラフ バックテストをサポートすることが難しくなります。

技術的な検証を経て、次のような一連の機能を開発しました。

  • グラフ モデリング: オフライン、ニアライン、オンライン グラフ アセットの統合。
  • インタラクティブなグラフ分析: 専門家はインタラクティブなグラフ分析を使用して判断を下します。
  • グラフシミュレーションバックテスト: 分析されたケースに基づいて、3〜6 か月のグラフシミュレーションバックテストを実施します。
  • グラフ コンピューティング サービスが開始されました。グラフ機能とグラフ演算子がワンクリックでオンラインで公開されます。

分析、シミュレーション、オンライン展開における統合グラフ資産のセマンティック一貫性により、スケールされたグラフのリスク管理の効率が保証されます。

2. スケーリング効率のボトルネック

スケールアップを達成した後、ビジネス プロセスの前にあるモジュールはすべてオフラインの T+1 バッチ実行またはイベント トリガーであり、すべて自動化されていることがわかりました。最後のステップのみ、人間による分析が必要です。このリンクが手作業に依存していると、グラフの大規模な適用が妨げられるため、次のステップではリスクを自動的に探索します。

3. サブグラフマイニング

これまでのビジネス分析や計算はすべて、専門家が提示した明確なリスク モデルに基づいて行われていましたが、実際には、このようなプロセス サイクルは非常に長く、非効率的です。そのため、現在、私たちはリスクパターンを自動的にマイニングし、それを専門家に分析を推奨しています。

1. 全体的な技術的解決策

全体的な技術的ソリューションは、次のステップに分かれています。

  • オフライン T+1 とリアルタイム データに基づいてベース マップを構築します。
  • グラフ内の各ノードの表現ベクトルを計算し、p値とさまざまなビジネス指標を計算します。
  • シードノードに基づいてノードをフィルタリングし、拡散して重要なリスクサブグラフを取得します。
  • サブグラフ内のリスクパターンのマイニング、リスクパターンの候補セットの取得、バックテスト
  • バックテストの結果は、想定される指標のリスクモデルと一致しており、ビジネス側はインタラクティブな分析を行い、オンライン利用に採用するかどうかを決定します。
  • この一連のプロセスを通じて、アルゴリズムと計算能力を組み合わせることで、リスク パターンのマイニングを自動化しました。

このプロセスには 2 つの大きな課題があります。

  • 情報混乱問題: ベースマップデータは膨大で、多くのノイズが含まれています。
  • 計算の複雑さの問題: サブグラフ同型性アルゴリズムの複雑さは指数関数的です。

2. 情報混同問題

情報混雑問題に関しては、元々の大きなグラフを元にマイニングを行うと、まずグラフの規模が比較的大きく、マイニングが困難になります。また、グラフには毎日買うコーヒーや朝食など、多くのノイズが含まれています。頻度に基づいてマイニングする場合、このパターンはマイニングされやすいですが、リスク情報を提供しないため、排除する必要があります。

私たちのアプローチは、完全なベースマップに基づいてノード表現ベクトルを計算することです。次に、ノードの p 値とビジネス指標に基づいてノードの重要度を計算し、最終的に特定の重要度未満のノードをトリミングします。通常、私たちがマイニングするグラフのサイズは現在約 10 億です。これにより、ノイズが除去され、採掘効率が向上します。

3. 複雑な計算能力の問題

計算の複雑さは主に組み合わせ爆発から生じます。たとえば、あるタイプのエッジは 10 万個しかありませんが、それに対応するパターンは 11 億個ある場合があります。当社のマイニングでは、次数が増えるごとに、対応するビジネス指標を繰り返し検証する必要があるため、計算量が非常に大きくなります。

この問題には2つの解決策があります。 1 つ目は、ビジネス セマンティクスに基づいて不合理なパターンを削除することです。ビジネス アプリケーションの観点からグラフを整理するこの方法は、比較的良好な結果を達成しました。第二に、技術的な観点からは、外部グラフ ストレージの導入により、大規模なグラフ マイニングのメモリ負荷が軽減されます。

4. 部分グラフ自己同型問題

サブグラフの自己同型性は、本来、比較のためにすべてのサブグラフを走査する必要があり、これは NP 問題であり、最適な解決策を見つけるのは困難です。私たちは大学と協力し、数学的なアイデアを使用してサブグラフを数学的な関数にマッピングし、比較的迅速に比較できるようにしました。この方法ですべての問題を解決できるわけではありませんが、ほとんどの問題は解決できます。この考えに基づいて、グラフマイニングとグラフパターンマッチングをより適切に実行するための分散実装を実行しました。

IV. レビューと要約

当社のクレジットグラフリスク管理構築は2018年に開始されました。専門家がまとめたリスクモデルをもとに、リスクマイニング用のグラフパターンマッチングに変換しました。その特徴は、精度は高いものの、リスクカバレッジが比較的低いことです。そこで、2019 年にクラスター リスクに対処するためのクラスター アルゴリズムを開発しました。 2020 年には、グラフの現在の情報を静的レベルで分析することから、グラフの時間的変化を分析することに移行し、ギャングの発展と変化に関する情報をさらに把握できるようになりました。 2021年にはグラフプラットフォームの大規模実装を実施し、3つのラインの統合を実現しました。 2022年と2023年の主な仕事は、自動グラフマイニングと分析でした。

5. 質疑応答

Q1. 先ほど、傍受はプロセス中にオンラインで行われ、遅延は 120 ミリ秒であるとおっしゃいました。オンラインではどのようなアルゴリズムが使用されるのでしょうか。あるいは、パターン マッチングにエキスパート システムが使用されるのでしょうか。 120 ミリ秒を達成するにはどうすればよいでしょうか?

A: パターンマッチングとギャング検出は後から行われ、コミュニティの計算には数十秒かかります。このプロセスでは、主にグラフ データベース内の買い手サブグラフ、売り手サブグラフ、買い手と売り手が接続されたサブグラフを検索し、主にトラバーサルと集計を実行し、表現ベクトルを抽出して、ディープラーニング モデルにスコアを付けました。このプロセスには約 20 ミリ秒かかります。もちろん、リスク管理リンクでも多くの最適化を行っており、全体のプロセスには約 70 ~ 80 ミリ秒かかります。

Q2. 20 ミリ秒のクエリにはいくつの近隣クエリが含まれますか?

A: 買い手と売り手のサブグラフは外側に 2 度拡張し、買い手と売り手を接続するサブグラフはそれぞれ 2 度拡張し、それぞれ 2 度拡張した後に接続できます。

Q3. インプロセスクエリ中にグラフスライスを選択するにはどうすればよいですか?

A: グラフは複数のスレッドによって継続的に更新され、書き込まれます。アクセス要求があると、アクセスされたノードに対してリアルタイムでトラバーサルと集計が実行されます。

Q4. グラフ内のノード表現の更新頻度はどれくらいですか?

A: グラフ ノードの表現はリアルタイムで抽出され、計算されます。

Q5. サブグラフ マイニング ソリューション全体において、ブルー モジュールの評価タスクは自動化されていますか、それともビジネス エキスパートが関与しますか?

A: この評価部分は自動評価です。 リスク候補セットに基づいて 3 ~ 6 か月のチャートでバックテストを実行し、履歴データで一致したパターンに基づいてユーザーとマーチャントのさまざまなリスクとビジネス指標を計算します。 その後、ビジネスから提供された能力に基づいて自動評価を実行します。

<<:  オープンソースプロジェクト向けのChatGPTベースのコードレビューロボットプログラム

>>: 

ブログ    
ブログ    
ブログ    

推薦する

GenAI時代のサイバー軍拡競争を生き残る方法

GenAIの急速な出現はすでにサイバーセキュリティに大きな変化をもたらし、各国政府に対策を取らせてお...

機械学習アルゴリズムを使用して「実験室地震」を予測するにはどうすればよいでしょうか?

[[186458]]機械学習アルゴリズムが「実験室の地震」を予測できるという事実は、間違いなく画期...

...

テンセント、初のAI+医療製品「テンセントミイン」の発売を発表

テンセントは本日、初のAI医療支援診断・治療オープンプラットフォーム(以下、AI支援診断オープンプラ...

機械学習モデルを評価する際にデータ漏洩を防ぐ方法

この記事では、モデルのパフォーマンスを評価する際のデータ漏洩の問題と、データ漏洩を回避する方法につい...

AI を活用した新たなフィッシング攻撃に対抗するにはどうすればよいでしょうか?

サイバーセキュリティは、攻撃と防御の継続的なゲームです。防御戦略が進化し続ける一方で、攻撃者も攻撃の...

...

...

Google GeminiのRAW画像機能が緊急停止され、その評判は一夜にして崩壊した。ヤン・ルカン「ずっと前からわかっていた」

昨年末、Google Geminiが業界に衝撃を与えた。これはGoogleの「最大、最も有能、最も多...

人工知能の時代に著作権はどのように機能するのでしょうか?

今日、私たちはあらゆるツールを利用でき、AI を使って望むものを何でも作成する自由と力を持っています...

不動産会社のデジタル変革は差し迫っています。これらの AI イノベーションは試してみる価値があるかもしれません。

不動産会社のデジタル変革は差し迫っています。試してみるべき革新的な方法をいくつかご紹介します。今日の...

人工知能産業の急速な発展の背後にある4つの大きな無駄

[[258526]]過去7年間、中国のプライベートエクイティ投資市場における人工知能分野への投資額は...

2021 年の世界トップ 10 の人工知能アプリケーション

人工知能は、過去 10 年間にわたって年間を通じて最もホットな話題の 1 つとなっています。そして、...

データガバナンスとビッグモデル統合の実践

コスト削減と効率向上の観点から、機械学習チームの構成を例に挙げ、Dipu TechnologyのDe...