機械学習モデルの品質を保証し、その有効性を評価する方法

[[396139]]

近年、機械学習モデルアルゴリズムは、ますます多くの産業実践に実装されるようになりました。 Didiでは、多数のオンライン戦略が従来のアルゴリズムから機械学習モデルアルゴリズムに移行されています。機械学習モデルアルゴリズムの品質保証システムをどのように構築するかは、品質チームが緊急に解決しなければならない課題の 1 つになっています。この記事では、機械学習モデルアルゴリズムの品質保証ソリューションの全体的な概要を示し、さらに、機械学習モデルの有効性を評価するための Didi 品質チームの調査と実践の一部を紹介します。

1. 背景

近年、技術の発展に伴い、機械学習モデルアルゴリズムはますます多くの産業実践に実装されており、特にディープラーニングに基づく音声インテリジェンスと画像インテリジェンスで優れたパフォーマンスを発揮しています。当社では、相乗り待ち行列予測モデル、ドライバー派遣制御バッドケースモデル、キャンセル率モデルなど、多数のオンライン戦略をルールベースのアルゴリズムから機械学習モデルアルゴリズムに移行し、実際に複数の方向で良好な結果を達成しています。機械学習は、さまざまな入力に基づいて動作が事前に決定され、動作ロジックが説明可能な従来のソフトウェアとは異なります。入力が与えられると、期待される出力結果を事前に決定できます。機械学習モデル、特に分類モデルでは、モデルは大量のデータに基づいてトレーニングされ、入力はデータとそれに対応するラベルです。トレーニングプロセスは人間にとってブラックボックスであり、人間は結果を事前に判断することはできません。一般的に言えば、モデルテストの難しさは次のような側面に反映されます。

（１）サンプルの取得：証券注文分割モデルなど、一部のモデルサンプルは比較的まばらである。

（２）データ品質は、主にモデルのトレーニングと使用の段階で反映されます。一般的に、関係するデータの量が多く、きめ細かいレベルでデータ品質を制御することは困難です。

（３）機能の品質、機能の有効性、機能の関連性の測定

（4）モデルの有効性検証：業界企業の品質チームは主にいくつかの主要なビジネス指標を通じてモデルを評価し、検索推奨、財務リスク管理などの分野で良好な結果を達成しました。ただし、ビジネス指標は通常、モデルの有効性の「表面」を測る指標です。モデルが反復の方向を見つけるのを支援する点では、比較的弱いです。

2.モデル品質保証計画

ある程度、データと特徴が機械学習の上限を決定しますが、モデルとアルゴリズムは単にこの上限に近づくための手段にすぎません。モデルをテストする前に、次のような疑問が生じる場合があります。

（１）モデルが承認されるためにはどのような基準を満たす必要がありますか？

（２）どのようなテストデータがモデルの能力を適切に測定できるか？

（３）特徴量の品質をどのように評価するか？

（４）ユーザーの視点からオンラインモデルの有効性をより適切に評価するにはどうすればよいでしょうか？

モデルトレーニングからオンラインアプリケーションまでの基本的なプロセスは次のとおりです。

上の図からわかるように、機械学習モデルの品質保証は、主にデータ品質、特徴品質、モデルアルゴリズム品質、モデル効果評価の側面に分類されます。モデルインターフェースレイヤーに関しては、インターフェースのパフォーマンスと安定性も考慮する必要があります。さらに、オンラインモデル、特に教師なしディープニューラルネットワークなどのモデルのセキュリティも考慮する必要があります。たとえば、攻撃者は、慎重に設計されたサンプルを通じてモデルのトレーニングデータを破壊したり、ノイズや干渉を導入してモデルを「騙す」ことで、最終的にモデルが誤った判断を下すようにする可能性があります。

さらに改良を加えると、次のような全体的なモデル品質保証ソリューションが得られます。

3.当社のモデル品質保証の現状

弊社の機械学習モデルの品質保証の方向への実装は、主にデータ品質、インターフェース品質、モデル監視、モデル効果評価の 4 つの方向に反映されています。その中で、モデル監視の構築はさまざまな品質チームで広く使用されており、現在では主な安全対策となっています。モデルアルゴリズムの品質は現在、主に戦略を学ぶ学生自身によって測定されていますが、ユーザーの観点から見た機能の有効性や機能の関連性などの機能品質メトリックには、まだ改善の余地が残っています。

現在顕著な問題は、モデルがトレーニングから起動まで依存する基本サービスがさまざまな品質チームに分散しており、それらの間にギャップがあり、体系的なモデル品質保証プラットフォームが形成されていないことです。現時点での朗報としては、もともとさまざまなチームに分散していた機械学習モデルのトレーニングおよび展開プラットフォームが、徐々に統一された戦略センターに収束しつつあり、バージョン 1.0 がリリースされたことです。そのため、今後の機械学習モデルの品質保証の焦点は、体系的なモデル品質保証プラットフォームを構築し、特徴品質とモデル効果の評価をさらに深め、一般的な評価機能を抽象化してプラットフォーム上に実装することに置かれるでしょう。以下は、機械学習モデルの品質保証に関する当社の現状をまとめた図です。

4.モデル効果評価の実践

▍ 4.1背景

当社はオンライン戦略評価と不良事例マイニングに深く関わっており、戦略のオンライン効果を評価する豊富な経験を蓄積してきました。偶然、私は相乗りETDモデルの有効性を評価し始めました。実際の進化ルートは、オンライン→オフラインです。オンラインでは、主に都市+業務ライン+シナリオの多次元からモデル効果適用指標層を評価し、戦略担当者が主な逸脱シナリオをより直感的に見つけられるようにします。次に、モデルの業務リンクをモデル化し、実際のサンプルデータを対応するノードにマッピングして、主要な逸脱パスを測定します。最後に、これまでに蓄積してきた不良ケースのドリルダウン機能を再利用し、モデルビジネスチェーン内の主要な逸脱ノードの根本原因までドリルダウンして、モデルの効果に影響を与えるいくつかの新しい機能を特定しました。

▍ 4.2 計画と実施

具体的なスキームマップは以下のとおりです。

モデル偏差クリティカルパスのコアアルゴリズムは次のとおりです。

▍ 4.3 モデル効果評価の価値

一般的に、機械学習モデルのパフォーマンス評価に関して、私たちの価値ポイントは主に以下の側面に反映されます。

（１）シナリオベースモデルの効果測定

（２）逸脱のクリティカルパスを見つける

（３）モデルの潜在的な新機能の発掘

（４）モデル性能への悪影響の依存性測定

5.まとめ

モデルの品質保証は、国内外の大手企業の間では概ね試作段階にあります。主な理由は、従来の品質保証と比較して、より困難であり、より高い技術要件があり、モデルの適用背景が大きく異なることです。当社では、モデル全体の品質保証に関して体系的な構築が不足しており、モデル機能測定の実践的な実施がされていません。オンライン戦略評価とバッドケースマイニングにおける長年の蓄積により、当社はモデルの有効性という点で業界に深く入り込み、業界の最前線に立っています。当社が行った作業は、実際のモデル効果の向上に優れた補助的な役割を果たしてきました。ただし、モデル評価の一般的な機能を抽象化してプラットフォームに実装し、戦略チームがモデルの有効性を向上させるための入り口をより簡単に見つけられるように、さらに検討する必要があります。

<<: 人工知能技術が教育業界に与える主な影響は何ですか?

>>: Java プログラミングスキル - データ構造とアルゴリズム「非再帰的バイナリ検索」