人間の介入によってモデルのパフォーマンスをどのように向上できるでしょうか?この記事を読んでみてください

金融業界など、一部の業界は誤検知に非常に敏感です。クレジットカード詐欺を検出する際に、検出システムがユーザーの行動を誤って詐欺と分類すると、金融機関の評判に悪影響を及ぼします。もう 1 つの例は医療分野です。医療分野では、がんの診断は偽陽性に非常に敏感です。また、GPT-3などのモデルを使用する場合、顧客と自動でチャットするロボットの応答テキストには不適切な言語が含まれていてはなりません。

[[397783]]

以下では、まず機械学習モデルを使用してシステムについて推論し、次に人間の介入による推論ループの技術的な導入について詳しく説明します。

モデルベース推論

図1. 古典的なモデル推論システム

上記は、クレジットカード詐欺のユースケースの典型的な機械学習モデルです。これはシステムと一連のイベントを簡略化したビューであり、特定のアクティビティが詐欺であるかどうかを判断するのはモデルのみの役割です。

しきい値をどのように選択するのですか?

閾値の大きさは、精度と再現率の要件に基づいて選択される[5]。図 1 の例では、精度は、正しく予測された不正行為の数 (真陽性サンプル) を、不正行為であると予測された行為の総数 (真陽性サンプル + 偽陽性サンプル) で割ったものとして定義されます。再現率は、不正行為であると正しく予測された数 (真陽性例の数) を、不正行為であると正しく予測された行為の数と不正行為ではないと予測された実際の不正行為の数 (真陽性例の数 + 偽陰性例の数) の合計で割ったものとして定義されます。

システムの目標を達成するには、精度と再現率の間でトレードオフを行う必要があります。図 2 に示す適合率-再現率 (PR) 曲線は効果的なツールです。

図 2. 適合率-再現率 (PR) 曲線

リコールが高くなると、精度はどのように低下するのでしょうか? リコールが 0.72 になると、精度は徐々に 0.4 程度まで低下します。詐欺事件の 70% を検出するには、精度率 40% で大量の誤検知サンプルを生成する必要があります。この場合、誤検出の数は許容範囲を超えています。妥当な再現率でより高い精度を達成する必要があるため、図 1 から始めると、0.99 を超える精度が必要です。

トレードオフとしてより高い精度を選択しましたが、精度 0.99 では再現率は 0.15 となり、十分とは言えません。次に、人間の介入を利用して、より高い精度とより高い再現率を達成する方法について説明します。

人間の介入

図3. 人間とコンピュータの相互作用によるモデルのパフォーマンスの向上

リコールを高める 1 つの方法は、推論ループに手動で介入することです。この方法では、信頼性の低いモデル結果のサブセットが人間のエージェントに送信され、手動でレビューされます。予測のどのサブセットが不明確とみなされるかを決定するためのしきい値を選択するときは、人的リソースの方が高価になることが多いため、サンプルのどの程度を人間のエージェントに引き渡す必要があるかを考慮する必要があります。したがって、しきい値を選択する際には、次の図を参考にしてください。

図4. 精度再現閾値曲線

上記の例では、1.0 に近いスコアは肯定的なラベル (不正行為) を表し、0.0 に近いスコアは否定的なラベル (不正行為ではない) を表すと仮定します。図 4 には 2 つの領域が示されています。

緑色の領域は、陽性サンプルラベルの高信頼領域を示します。つまり、モデルは独自の決定を下すことができ、結果として得られるモデルの精度は許容範囲内です (影響を受けるエンドユーザーは通常、より低い偽陽性率を許容できます)。
黄色の領域は、陽性サンプルラベルの信頼性が低い領域を表し、モデルの自動決定の精度レベルは許容できません（偽陽性率が高いと、ビジネスに大きな悪影響を及ぼします）。

黄色の領域は、人間の介入により手動検査によって精度が向上した領域です。同じアプローチを使用して、負のラベルを処理することもできます。0.0 に近い領域は信頼性の高い領域です。黄色の領域内のすべての項目または項目のサブセットは、手動で検査できます。手動レビュープロセスでは、人間のエージェントがサンプル識別の最終結果を決定します。重要な前提は、曖昧なケースでの意思決定においては、人間の要素が機械学習モデルよりも優れているということです。

ただし、人的資源は不足しているため、しきい値を選択する際には、人間のエージェントに送信されるリクエストの量が重要な考慮事項となります。図 5 は、しきい値に対してプロットされたカウントとリコールの例を示しています。「数量」とは、レビューのために人間のエージェントに送信される 1 時間あたりのアイテム数として定義されます。図 5 から、しきい値 0.7 でのアイテム数 (1 時間あたり) は 16,000 であることがわかります。

図 5. 容量グラフ (1 時間あたりのリクエスト数) としきい値に対する呼び出し数

図 4 と 5 の両方のグラフを使用すると、許容可能な手動レビューの量を満たし、予想されるリコール率を満たす適切なしきい値を選択できます。リコール率が 0.59 (しきい値 0.7) の場合、レビュー量 (図 5 を参照) は 1 時間あたり約 16,000 項目であることがわかります。同じ再現レベルでは、モデルの精度は約 0.6 です (図 4 を参照)。人間のエージェントプールの容量が 1 時間あたり 16,000 項目であり、また人間のエージェントの精度と再現率が 95% であると仮定すると、手動レビュー後、再現率 0.59 で得られる精度は 0.95 ～ 0.99 になります。この設定を使用することで、精度を 0.95 以上維持しながら、再現率を 0.15 から 0.56 (0.59 [モデル] * 0.95 [人]) に向上させることができました。

人間の介入を利用するためのベストプラクティス

人間による検査の質を高めるには、人間による検査プロジェクトを担当する人間のエージェントに対して明確に定義されたトレーニングを確立することが重要です。トレーニングプログラムと定期的なフィードバックループは、長期にわたって手動検査プロジェクトの高品質を維持し、人的エラーを最小限に抑え、すべてのプロジェクト決定に対する SLA 要件を維持するのに役立ちます。

もう 1 つの少しコストのかかる戦略は、3 人の人間のエージェントに同じアイテムをレビューさせ、3 人のエージェントの決定に基づいて多数決で最終結果を決定することです。

同じアプローチがマイクロサービスにも適用され、次の適切な監視が含まれます。

アイテムがシステムに受信されてから、そのアイテムに関する決定が下されるまでの時間
エージェントプールの全体的な健全性
人間によるレビューに送られたアイテムの数
時間別プロジェクト分類統計

モデルの精度と再現率は、さまざまな理由により時間の経過とともに変化する可能性があります。精度/再現率を追跡して、選択したしきい値を再検討することが重要です。

機械学習推論システムへの人間の介入が、高い精度を維持しながら再現率を向上させるのにどのように役立つかについて説明しました。このアプローチは、誤検知の影響を受けやすいビジネスシナリオのケースで特に役立ちます。精度-再現しきい値曲線は、人間によるレビューと自動モデルによる意思決定の両方のしきい値を選択するための優れたツールです。しかし、人間のエージェントが関与すると開発コストが増加し、急成長を遂げているシステムにボトルネック領域が追加される可能性があります。あらゆる側面を評価し、検討する必要があります。

<<: あなたの「読書」は他の人に読まれている。清華大学の研究者はWeChatの「Look」からこれらのパターンを発見した。

>>: 防衛分野で人工知能はどのような役割を果たすのでしょうか?