1. 信用リスク管理業務の背景と事例まず、当社の事業シナリオについて簡単にご紹介させていただきます。 1. 事業背景当社が行うクレジット グラフ リスク管理は、主にローン詐欺やキャッシュアウトの防止と管理に使用されます。
一般的な現金化詐欺ローンの手口には次のようなものがあります。
信用業務の特性に基づき、事前、事中、事後の総合的な予防と管理を設計しました。各リンクの主な内容は次のとおりです。
2. ビジネスアプリケーションのグローバルな視点イベント前、イベント中、イベント後のビジネスシステムに基づいて、対応する技術フレームワークを設計しました。
上記のモジュールで使用されるグラフ テクノロジには、グラフの多次関係集約機能 (Traversal & Aggregate)、パターン マッチング (Pattern Matching)、グラフ コミュニティ検出アルゴリズム (Community Detection)、グラフ学習、グラフ推論などがあります。 3. 華北反キャッシュアウト事件以下では、Huabei のキャッシュアウト防止の事例を使用して、イベント後およびイベント中の予防および制御対策を説明します。 その後リスク管理シナリオでは Y ラベルが不足しているため、ラベル付けを専門家の手動作業に頼ると、専門家によって識別されないキャッシュアウト パターンがカバーされなくなります。そこで、T+1オフラインデータとリアルタイムデータを通じて大規模なリスクグラフを開発しました。「類は友を呼ぶ」という考えに基づき、パターンマッチングで特定された黒とグレーの種をグラフ上にさらに広げて、よりリスクの高いユーザーを特定し、リスクを単一点からコミュニティに変換します。 イベント中従来のリアルタイムのリスク管理計算では、多くの場合、Flink を使用して統計的特徴を生成しますが、多次関係を記述することはできません。さらに、グラフ パターンが専門家の定義に完全に依存している場合、効率性とカバレッジに問題が発生します。そのため、買い手サブグラフ、売り手サブグラフ、買い手と売り手が接続されたサブグラフなどのオンラインサブグラフをニューラルネットワークへの入力として使用し、オンラインでスコア付けして、リアルタイムの予防と制御を実施しました。 2. リスク管理のスケール化された実施1. マイクロローンプラットフォームリスク管理技術の大規模なビジネス実装に関しては、当初は効率の低い単純な試みしか行っていませんでした。信用シナリオは比較的厳密であるため、オンライン化する前にオフライン計算とバイパス検証が必要でした。これには、グラフ シミュレーション機能を実現するために、オフラインとオンラインのデータ ソースが一貫しており、コンピューティング セマンティクスが一貫していることを保証することが必要です。そうしないと、グラフはオフライン テーブル JOIN を通じてのみ構築できるため、3 ~ 6 か月のグラフ バックテストをサポートすることが難しくなります。 技術的な検証を経て、次のような一連の機能を開発しました。
分析、シミュレーション、オンライン展開における統合グラフ資産のセマンティック一貫性により、スケールされたグラフのリスク管理の効率が保証されます。 2. スケーリング効率のボトルネックスケールアップを達成した後、ビジネス プロセスの前にあるモジュールはすべてオフラインの T+1 バッチ実行またはイベント トリガーであり、すべて自動化されていることがわかりました。最後のステップのみ、人間による分析が必要です。このリンクが手作業に依存していると、グラフの大規模な適用が妨げられるため、次のステップではリスクを自動的に探索します。 3. サブグラフマイニングこれまでのビジネス分析や計算はすべて、専門家が提示した明確なリスク モデルに基づいて行われていましたが、実際には、このようなプロセス サイクルは非常に長く、非効率的です。そのため、現在、私たちはリスクパターンを自動的にマイニングし、それを専門家に分析を推奨しています。 1. 全体的な技術的解決策全体的な技術的ソリューションは、次のステップに分かれています。
このプロセスには 2 つの大きな課題があります。
2. 情報混同問題情報混雑問題に関しては、元々の大きなグラフを元にマイニングを行うと、まずグラフの規模が比較的大きく、マイニングが困難になります。また、グラフには毎日買うコーヒーや朝食など、多くのノイズが含まれています。頻度に基づいてマイニングする場合、このパターンはマイニングされやすいですが、リスク情報を提供しないため、排除する必要があります。 私たちのアプローチは、完全なベースマップに基づいてノード表現ベクトルを計算することです。次に、ノードの p 値とビジネス指標に基づいてノードの重要度を計算し、最終的に特定の重要度未満のノードをトリミングします。通常、私たちがマイニングするグラフのサイズは現在約 10 億です。これにより、ノイズが除去され、採掘効率が向上します。 3. 複雑な計算能力の問題計算の複雑さは主に組み合わせ爆発から生じます。たとえば、あるタイプのエッジは 10 万個しかありませんが、それに対応するパターンは 11 億個ある場合があります。当社のマイニングでは、次数が増えるごとに、対応するビジネス指標を繰り返し検証する必要があるため、計算量が非常に大きくなります。 この問題には2つの解決策があります。 1 つ目は、ビジネス セマンティクスに基づいて不合理なパターンを削除することです。ビジネス アプリケーションの観点からグラフを整理するこの方法は、比較的良好な結果を達成しました。第二に、技術的な観点からは、外部グラフ ストレージの導入により、大規模なグラフ マイニングのメモリ負荷が軽減されます。 4. 部分グラフ自己同型問題サブグラフの自己同型性は、本来、比較のためにすべてのサブグラフを走査する必要があり、これは NP 問題であり、最適な解決策を見つけるのは困難です。私たちは大学と協力し、数学的なアイデアを使用してサブグラフを数学的な関数にマッピングし、比較的迅速に比較できるようにしました。この方法ですべての問題を解決できるわけではありませんが、ほとんどの問題は解決できます。この考えに基づいて、グラフマイニングとグラフパターンマッチングをより適切に実行するための分散実装を実行しました。 IV. レビューと要約当社のクレジットグラフリスク管理構築は2018年に開始されました。専門家がまとめたリスクモデルをもとに、リスクマイニング用のグラフパターンマッチングに変換しました。その特徴は、精度は高いものの、リスクカバレッジが比較的低いことです。そこで、2019 年にクラスター リスクに対処するためのクラスター アルゴリズムを開発しました。 2020 年には、グラフの現在の情報を静的レベルで分析することから、グラフの時間的変化を分析することに移行し、ギャングの発展と変化に関する情報をさらに把握できるようになりました。 2021年にはグラフプラットフォームの大規模実装を実施し、3つのラインの統合を実現しました。 2022年と2023年の主な仕事は、自動グラフマイニングと分析でした。 5. 質疑応答Q1. 先ほど、傍受はプロセス中にオンラインで行われ、遅延は 120 ミリ秒であるとおっしゃいました。オンラインではどのようなアルゴリズムが使用されるのでしょうか。あるいは、パターン マッチングにエキスパート システムが使用されるのでしょうか。 120 ミリ秒を達成するにはどうすればよいでしょうか?A: パターンマッチングとギャング検出は後から行われ、コミュニティの計算には数十秒かかります。このプロセスでは、主にグラフ データベース内の買い手サブグラフ、売り手サブグラフ、買い手と売り手が接続されたサブグラフを検索し、主にトラバーサルと集計を実行し、表現ベクトルを抽出して、ディープラーニング モデルにスコアを付けました。このプロセスには約 20 ミリ秒かかります。もちろん、リスク管理リンクでも多くの最適化を行っており、全体のプロセスには約 70 ~ 80 ミリ秒かかります。 Q2. 20 ミリ秒のクエリにはいくつの近隣クエリが含まれますか?A: 買い手と売り手のサブグラフは外側に 2 度拡張し、買い手と売り手を接続するサブグラフはそれぞれ 2 度拡張し、それぞれ 2 度拡張した後に接続できます。 Q3. インプロセスクエリ中にグラフスライスを選択するにはどうすればよいですか?A: グラフは複数のスレッドによって継続的に更新され、書き込まれます。アクセス要求があると、アクセスされたノードに対してリアルタイムでトラバーサルと集計が実行されます。 Q4. グラフ内のノード表現の更新頻度はどれくらいですか?A: グラフ ノードの表現はリアルタイムで抽出され、計算されます。 Q5. サブグラフ マイニング ソリューション全体において、ブルー モジュールの評価タスクは自動化されていますか、それともビジネス エキスパートが関与しますか?A: この評価部分は自動評価です。 リスク候補セットに基づいて 3 ~ 6 か月のチャートでバックテストを実行し、履歴データで一致したパターンに基づいてユーザーとマーチャントのさまざまなリスクとビジネス指標を計算します。 その後、ビジネスから提供された能力に基づいて自動評価を実行します。 |
<<: オープンソースプロジェクト向けのChatGPTベースのコードレビューロボットプログラム
GenAIの急速な出現はすでにサイバーセキュリティに大きな変化をもたらし、各国政府に対策を取らせてお...
過去 6 か月間、ChatGPT の爆発的な人気により、Meta は完全に黙っていられなくなっていま...
[[186458]]機械学習アルゴリズムが「実験室の地震」を予測できるという事実は、間違いなく画期...
テンセントは本日、初のAI医療支援診断・治療オープンプラットフォーム(以下、AI支援診断オープンプラ...
この記事では、モデルのパフォーマンスを評価する際のデータ漏洩の問題と、データ漏洩を回避する方法につい...
サイバーセキュリティは、攻撃と防御の継続的なゲームです。防御戦略が進化し続ける一方で、攻撃者も攻撃の...
昨年末、Google Geminiが業界に衝撃を与えた。これはGoogleの「最大、最も有能、最も多...
今日、私たちはあらゆるツールを利用でき、AI を使って望むものを何でも作成する自由と力を持っています...
不動産会社のデジタル変革は差し迫っています。試してみるべき革新的な方法をいくつかご紹介します。今日の...
[[258526]]過去7年間、中国のプライベートエクイティ投資市場における人工知能分野への投資額は...
人工知能は、過去 10 年間にわたって年間を通じて最もホットな話題の 1 つとなっています。そして、...
コスト削減と効率向上の観点から、機械学習チームの構成を例に挙げ、Dipu TechnologyのDe...