[NCTSサミットレビュー] Rong360 Ai Hui: AIモデルテストの秘密を探る

[NCTSサミットレビュー] Rong360 Ai Hui: AIモデルテストの秘密を探る

2019年10月26日、Testinが主催する第2回NCTS中国クラウドテスト業界サミットが北京で開催されました。「AI+未来」をテーマにしたこのサミットには、国内外のテスト分野の著名な専門家や学者、大手企業の意思決定者、上級技術管理者、メディア関係者などが集まり、ハイエンドのクラウドテスト技術について議論し、テスト担当者が最先端の業界動向と最新の業界慣行を理解できるようにしました。

[[283753]]

会議では、Rong360のシニアテクニカルマネージャーであるAi Hui氏が「AIモデルテストの秘密を探る」と題した基調講演を行いました。アイ・フイ氏は、金融テクノロジーにおけるAIの応用シナリオを紹介し、金融業界の商業シナリオの収益化の分野ではAIが比較的成熟していると指摘した。これは主に、データの質と豊富さによるもので、モデルの有効性に極めて重要な役割を果たしている。

以下は艾慧氏のスピーチの記録です。

過去一定期間にわたる AI モデル評価に基づいた当社のテスト実践を皆様と共有できることを大変嬉しく思います。簡単に自己紹介をさせていただきます。私はこれまで、クラウドコンピューティングとストレージ、越境電子商取引、O2O食品配達、金融リスク管理事業における品質保証とエンジニアリング効率化に携わってきました。

まず、今日の AI の主な応用シナリオをご紹介します。金融分野における AI の実装には、主に物流、広告推奨、パーソナライズ推奨、倉庫管理、無人運転などが含まれます。現在、金融業界の商業シナリオ収益化の分野では、AI は比較的成熟しています。これは主に、モデルの有効性に極めて重要な役割を果たしているデータの品質と豊富さによるものです。金融技術分野における AI の主なシナリオには、インテリジェント マーケティング、インテリジェント詐欺、インテリジェント リスク管理、クレーム、支払いシナリオでの指紋認識、顔認識などがあります。

AIの基本的な概念と相互関係についてさらに説明しましょう。一般的に言えば、私たちはインテリジェントなアプリケーションをシミュレートしており、機械学習は AI の単なる一分野です。機械学習と画像認識を組み合わせたものは視覚分野のアプリケーションであり、機械学習と音声認識を組み合わせたものは自然言語処理です。機械学習を他の奇妙なアプリケーションと組み合わせると、それはデータマイニングになります。

機械学習とは、コンピュータを使用して、いわゆるニューロンの統計的仮説検定と分布関数検索を実行し、ベクトルを別のベクトルで乗算し、その結果を事前に決定された変換関数に代入することです。ディープラーニングとは、ニューラルネットワークを複数層構築し、いくつかの学習アルゴリズムを変更することです。機械学習の分類に関しては、金融分野では依然として教師あり学習が主流です。私たちは、より予測指向の分類問題をいくつか行っています。分類と回帰の区別は比較的直感的です。今日が曇りか、晴れか、曇りかといった定性的な予測をする場合は分類問題です。明日の気温が 10 ~ 15 度か 0 ~ 5 度かを予測する場合は回帰問題です。金融リスク管理の分野では、トレーニングのほとんどは、主にクレジット スコア カードを使用したロジスティック回帰モデル手法に基づいています。金融リスク管理の分野では、ニューラルネットワークやディープラーニングなどの応用は多くありません。リスク管理を適切に行うには、トレーニングと予測に必ずしも最も複雑なモデルを使用する必要はありません。

ここまで述べてきた後、金融リスク管理における機械学習の応用にはどのような違いがあるのか​​と疑問に思う人もいるかもしれません。金融リスク管理システムには、いくつか特別なものがあります。例えば、金融リスク管理における信用リスク管理について話すとき、通常は融資前、融資中、融資後について話します。私たちが最もよく使うモデルは、スコアリングカードモデルです。これは、200年から300年の歴史があるはずです。これは、機械学習アプリケーションが今日ほど発達していなかった時代に、特に米国で使用されていました。スコアカードとは何ですか?クレジット スコア カードは、ロジスティック回帰分類を使用して、0 から 1 の間で良い人物か悪い人物かの確率を予測し、この確率を 1 から 100 などのスコア (クレジット スコア) にマッピングします。お金を貸せるかどうかはリスクの確率によって決まり、過去のデータを使用して将来の債務不履行を予測します。スコアが高いほど、安全性が高まります。スコアリングカードは安定性と予測能力に優れています。ロジスティック回帰をよく使用します。

私たちが使用する信用スコアは、信用リスクを表すリスク管理定量ツールにすぎません。

私たちがAI関連事業に取り組み始めた当初は、多くの課題に直面しました。これまでは、データ、機能、モデル全体に​​対する詳細な特別なテストは行われていませんでした。データや機能の効果に品質上の問題があれば、モデルは減衰し、ドリフトします。最も直接的な結果は、悪人を阻止すべきだったのに阻止されず、悪人に融資が行われ、不良債権や不良資産の発生につながる可能性があることです。

データ品質の面で私たちが何をしてきたかを詳しく見てみましょう。主な考慮事項は、データの整合性、一貫性、適時性、正確性などです。私が強調したいのは、データ品質分析の次元で何が行われたかということです。データ品質分析では、データ干渉分析、単一列データの精度の分析、単一テーブルデータの分析、クロステーブルデータ、クロス列データなど、より豊富な次元を考慮します。データの全体的な特徴分布と離散性を評価し、上記の外れ値を使用して、これらの外れ値に基づいてデータの異常を発見することができます。

リレーショナル データベースからデータ ウェアハウスまでのデータの整合性、重大なデータ損失はありますか?一貫性、対応する口径が一貫しているかどうかを確認します。正確性と適時性。前日の夜にバッチ実行が失敗する可能性が非常に高いです。監視が行われていない場合、翌日のデータに大きな影響を与える可能性があります。そのほとんどはオフライン タスクであり、オンライン タスクの適時監視も含まれます。

データにはこれらの問題があるため、データを修正する必要があります。たとえば、欠損データが多すぎて補完処理が行われない場合、機能は使用できず、モデルは使用できず、重複レコードを削除する必要があります。定性データと定量データは扱いが異なりますので、その特徴を踏まえてさらに説明していきます。

データ分析方法は、さまざまなデータテーブル間の相関関係を見て、血縁関係ベースの分析を実行します。データに大きな問題がないか確認し、データ変動分析を実行します。特定のフィールドに問題があるかどうかを評価し、範囲分析や分布分析を実行すると、いくつかの問題が発見されることもあります。データの一貫性を評価し、一貫性の比較 diff を実行してこれらの問題を検出します。

プロジェクトにおけるデータ分析の血統基数分析を通じて、表 A のログイン アカウント数が表 B より 7,000 万少なく、A と B の間に 600 万件のデータの不一致があることが直感的にわかりました。このような問題を定量的、定性的に分析せず、逆にモデル問題に基づいて分析すると、影響は大きくなります。

値の範囲、最大値、最小値の分析を見てみましょう。たとえば、年齢が 150 のフィールドがありますが、これは異常かもしれません。これには、データの分布、一定期間内の最大値と最小値、異常の割合の確認が含まれます。データベースに保存されている中国語の異常、特に中国語の文字形式の割合。分布分析、金額の割合、間隔のドメイン値、さまざまなコード値もあります。

データテストのポイントを簡単に見てみましょう。これらを踏まえて、日々のテストではデータ品質テストを行っています。金融のデータ品質要件は非常に厳しく、インターネット広告データよりも厳しいと言えます。たとえば、シャオミンが検索していたとき、女性用の衣料品が彼に推奨されましたが、これはあまり重要ではないかもしれません。ただし、データ品質の問題は信用リスクにつながり、直接的な金銭的損失を引き起こす可能性があるため、財務データに対する品質要件は非常に高くなります。

データ品質プラットフォームの設計について簡単に説明します。ここにアーキテクチャ図を掲載しました。データ品質プラットフォーム全体の重要な核心は、データ品質のルール エンジンがどのように機能するかです。データ品質は、さまざまなデータを比較し、いくつかのルールを構成し、開発をカスタマイズします。対応するレポートやトリガー アラームは、カスタマイズに基づいて作成されます。 Drools などの他のオープンソース ツールをベースにしたルール エンジン ソリューションは多数存在し、その原理はほぼ同様です。

機能モデルのテストに関しては、最初にデータ、次に機能、最後にモデルについて説明しました。なぜでしょうか?これは、モデルをトレーニングするときに使用するプロセスとルーチンです。モデルについてお話ししました。モデルをトレーニングする場合、タスクの 80% は特徴量エンジニアリングで、20% はモデル トレーニングです。オーバーフィッティングとアンダーフィッティングという用語について、科学的な説明をしてみましょう。オーバーフィッティングとは、モデルが複雑すぎて追加のデータ属性を学習することを意味し、アンダーフィッティングとは、データ特性が捕捉されないことを意味します。

モデリングとは一体何でしょうか?モデリングと動物の訓練の類似点は、たとえば動物を訓練するときに、サルに命令を与え、プロセスの期待と現実が一致するまでサルが行動を調整できるようにすることです。この類推から、モデリングと動物の訓練は、そのような循環的な訓練プロセスであると言えます。

これまで何度もデータ機能について説明してきました。データと機能の違いは何でしょうか?左側はデータで、右側は特徴です。180 日以内に成功したタクシー配車数や、180 日以内に成功したタクシー配車数の最小値など、対応する変換をいくつか行いました。データを、機械が学習して通常の情報を発見できる属性に変換しました。機械学習は主に、X を使用して Y を予測する予測問題を解決することです。ここでの X はデータではなく特徴を表します。これは、最もオリジナルのデータをモデルに直接入力しても、データのパターンと情報を十分に捉えることができないからです。ただし、特徴はモデルのトレーニングとフィッティングに使用できる貴重な属性です。業界には、データ特性によって機械学習の上限が決まるという専門用語がありますが、私たちのモデルはすべてこの上限に近似しているにすぎません。データと特徴の品質が低い場合、モデルがどれだけ優れていても、トレーニングの効果は損なわれます。

特徴マイニングからモデル構築まで、このプロセスは日々のテスト開発で頻繁に注意を払う必要があるものです。簡単に説明しましょう。前の部分のデータ収集、データ分析、およびデータクリーニングは、主にデータ ウェアハウスによって行われ、一部の機能マイニングも行われます。前の部分は、データを分析して保存することです。データクリーニングが完了すると、特徴マイニングが始まります。図のすべての特徴について、特徴マイニングのプロセス中に、データ ウェアハウス内のビジネスに関連性の高いデータを選択し、特徴エンジニアリングを確立します。多くの問題が見つかりました。たとえば、欠損値が多かったため、何らかの補完が必要でした。たとえば、定量的データの場合、平均値または中央値に基づいて補完することができます。固定データの場合は、直接 NaN などに変換されます。確認値が完了したら、定量特性値の二値化を行う必要があります。また、定型的な特徴に対してもダミーコーディングを行います。たとえば、病気を予測する場合、特定の病気にかかる確率は高、中、低のいずれかになり、モデルに組み込むことができます。特徴の選択や次元削減など、多くの特徴の基準が異なるため、データをよりよく吸収するために、高次元から低次元に削減する必要があります。

クレジットカードスコアリングモデルには、いくつかの重要な指標が使用されています。1つは、リスク差別化能力(KS)で、優良ユーザーと悪質ユーザーの違いを判断するものです。違いが大きいほど、モデルの効果は高くなります。なぜなら、差別化が高ければ、張三と善良な人を、李思と悪質な人を区別できるからです。次に、サンプル偏差の度合いを表すカイ二乗があります。 PSI はモデル安定性の重要な指標です。モデルの予測値と実際の値の偏差を示す指標です。PSI が小さいほど、モデルは安定しています。一般的に、 PSIが 0.1 未満の場合はモデルの安定性が非常に高く、0.1 ~ 0.25 は平均的であり、0.25 を超える場合はモデルの安定性が低く、やり直すことが推奨されます。 IV(情報価値)は、特徴を選択する際にモデルが細心の注意を払うポイントです。これは、特徴がモデルの予測能力にどの程度貢献するかを指します。モデルの予測能力に大きく貢献する特徴を選択する必要があります。たとえば、年齢、教育、収入、出身地など、100 の特徴があります。その中で、年齢、教育、収入の特徴は信用貸付リスク管理モデルに大きく貢献していますが、出身地の特徴は平均的です。

特定の機能のテストの重要なポイントは、いくつかの部分に分かれています。一般的に、機能には、機能計算ロジック、機能スケジュール、機能の起動が含まれます。機能計算では、計算時間に加えて、機能全体のパーティショニング、エンコード、例外処理も考慮する必要があります。私が強調したいのは、特徴のバックトラッキングであり、これは信用スコアリング モデルの有効性にとって非常に重要です。信用リスク管理では、ユーザーの過去の時間枠、たとえば前月のデータを使用して、将来の借入リスクを予測します。最新の信用データを使用して明日を予測したり、今日のデータを使用して今日を予測したりする場合、機能効果は高くなる可能性がありますが、それは人為的に高くなります。そのため、履歴に基づいて将来を予測するための時間枠の概念があります。シャッフル障害もあります。モデルによっては特徴量の順序に相関関係があるものもあります。問題があるとモデルの効果が変動します。また、機能のスケジュール例外、機能のオンライン起動、さまざまな一貫性、オンラインとオフラインの範囲、機能の値などの処理も​​あります。この一貫性は非常に重要です。また、特徴に基づいたさまざまな特別な分析も行います。そのほとんどは、特徴指標、特徴分布、特徴サイズなどに関するものです。

モデルをテストするにはどうすればいいですか?モデルのテストでは、注意すべき点がいくつかあります。1つは変換です。入力を直接構築して出力を見ると、問題を見つけるのが難しい場合があります。モデルはOracle問題(未知の問題)をテストしており、明確な基準はありません。入力を変更して、環境で出力が変化するかどうかを確認すると、モデルの問題を見つけることができます。たとえば、ラベルをいくつかシャッフルしたり、属性をシャッフルしたり、情報のない属性を追加したりして、モデル出力の問題を確認できます。また、機能エンジニアリング プロセスにも依存します。モデル エンジニアリング テストのほとんどは、インターフェイスを公開できるサーバー側とは異なり、ホワイト ボックスです。信用スコア全体の分布が正規分布に従うかどうかを確認するための非常に効果的な小規模サンプル実験もあります。

モデル効果の評価設計に関しては、評価プロセスにおける唯一の変数としてアルゴリズムのバージョンを制御する必要があります。

モデルの監視とモデルの起動は、エンジニアリング サービスと同じくらい重要です。モデルは時間の経過とともに劣化するため、主要な指標やカバレッジと精度の監視など、さまざまな種類の監視を行う必要があります。返済サンプルを抽出し、サンプルにラベルを付け、オンライン モデルを要求し、KS を計算します。金融リスク管理モデルのテストは、インターネット 2C 広告推奨モデルのテストよりも比較的困難です。ほとんどのインターネット金融プラットフォームでは、クレジット返済パフォーマンスのサンプルを取得することが困難です。

モデルテストの問題点は何ですか? 1 つ目は、困難であり、敷居が非常に高いことです。従来のエンジニアリング テスト方法は完全に再利用できず、非常に抽象的です。モデルはブラック ボックスです。問題を特定したい場合、モデルは効果的ではなく、トラブルシューティング リンクは非常に長くなります。特定のデータが失われていることがわかる場合があります。これはデータと強く関連しています。データの特徴品質によって、モデル効果の上限が決まります。モデル評価についてはよく話しますが、ここには非常に重要なつながりがあります。まず、データと特徴品質について説明しなければなりません。これは非常に重要な情報源です。作業の 80% は特徴エンジニアリングです。さらに、遅さの問題もあります。金融企業などの従来の企業では、実験の繰り返し、環境の変化、顧客ベースの変化により、モデルの反復に半月、1 か月、または 2 か月かかる場合があります。スコアや指標に基づいてモデルの良し悪しを完全に評価することは不可能であり、ローンチはまだ始まったばかりであるため、不確実な問題です。そのため、評価にはさまざまなデータ指標が総合的に活用されます。

AI製品の品質システムについては何をすべきでしょうか?これはオンラインとオフラインに分かれており、オフライン モジュールには、モデル品質、データ品質、エンジニアリング品質の 3 つがあります。各種モデル効果、機能監視、一貫性監視、カバレッジ監視、ビジネスパフォーマンス監視のオンライン監視が実行されます。オンラインおよびオフライン モデルのテストをより専門的かつ効率的にしたいと考えているため、ツールの自動化とプラットフォーム化が必要です。たとえば、モデルの評価を視覚化し、既存のオープン ソース プラットフォームのモデル評価モジュールの機能を十分に参照し、統計的な次元に基づいてデータ分析と品質分析を視覚化して測定することで、モデル展開プロセス全体を自動的にリリースできます。 。

最後に、AI時代において、テストと開発はどのように技術を確保し、変革できるのでしょうか? AIを学ぶには、高度な数学から機械学習までを学ばなければなりません。社内にも機械学習グループを設置しており、講座スケジュールは全部で18クラスあります。次に、データ分析とマイニングがあります。先ほど述べた特徴マイニングでは、主にデータマイニング技術が使用されます。データ品質分析は本質的にデータ分析であり、関連する多数の理論とツールを熟練して使用する必要があります。機械学習をやる場合は、動画教材をいくつか見れば、大体どんなものかは理解できます。左側のディープラーニングと強化学習はさらに複雑です。右側の 1、2、3 は、モデルの品質保証を開始するのに十分です。本を読むのが退屈だと感じる場合は、優れたビデオリソースがたくさんある Bilibili に行くことができます。 PPT には詳細な AI 学習ロードマップも提供されており、興味のある学生は学習の際に参照できます。

上記は、私が今日皆さんに共有したモデル評価に関するすべての内容です。皆さんに何らかの利益とインスピレーションを与えることができれば幸いです。 AIモデルの評価とテストに関しては、現在、さまざまな企業のチームが試行錯誤しながら進めており、その過程で同業者とコミュニケーションを取り、さらに学んでいきたいと考えています。

<<:  とてもかっこいいですね! Python で人工知能の最適化アルゴリズムを 5 分で理解する

>>:  [NCTS サミット レビュー] Ele.me Qiu Huafeng: バグの検出における人工知能の応用

ブログ    
ブログ    
ブログ    

推薦する

心理測定?犯罪の予感? AIは京都の痛みを軽減できるか?

[[271752]]画像出典: Qilu.com一つの火、二本の涙。 7月18日午前10時半頃(現...

アメリカの人工知能の簡単な分析

米国の人工知能戦略配置と発展パターンは、高度に体系化され、段階が明確であり、世界の人工知能発展の最新...

...

人工知能の「想像力」を実現する

[[416371]] [51CTO.com クイック翻訳]まず、オレンジ色の猫を頭の中で想像してくだ...

...

...

TensorFlow、危険です! Google自身が放棄している

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

...

マイクロソフトとパートナーは、AIへのアクセスを制限するデータ砂漠の縮小に取り組んでいる。

Microsoft は、多くの非営利団体のパートナーと協力して、これらのツールが失明や運動障害など...

...

マッキンゼーの中国人工知能レポートは3つの大きな課題に直面している

BAT の幹部は、先日終了した IT リーダーシップ サミットで人工知能に焦点を当てました。ロビン・...

大規模機械学習のためのプログラミング手法、計算モデル、Xgboost および MXNet の事例

[[191977]]現在、機械学習のトレンドは、従来の方法のシンプルなモデル + 少量データ (手動...

...

人間の言語を話せる人工知能はより価値がある

[[187065]]ここ数年でビッグデータが徐々に登場してきました。しかし、TDWI の調査によると...