AI プロジェクトの成功を測定するために使用できる KPI は何ですか?

調査会社IDCが2020年6月に発表した調査レポートによると、人工知能の取り組みの約28%が失敗していることがわかりました。報告書で挙げられている理由としては、専門知識の不足、関連データの不足、十分に統合された開発環境の不足などが挙げられます。機械学習の継続的な改善プロセスを確立し、行き詰まりを回避するために、主要業績評価指標 (KPI) を特定することが現在優先事項となっています。

業界の上流では、データサイエンティストがモデルの技術的なパフォーマンス指標を定義できます。それらは、使用されるアルゴリズムの種類によって異なります。たとえば、年齢の関数として人の身長を予測することを目的とした回帰分析の場合、線形決定係数に頼ることができます。

予測の質を測定するための式を使用できます。相関係数の二乗がゼロの場合、回帰線はポイントの分布の 0% を決定します。逆に、係数が 100% の場合、その数値は 1 になります。したがって、これは予測の品質が非常に優れていることを示しています。

予測と現実のギャップ

回帰を評価するためのもう 1 つのメトリックは、損失関数を参照する最小二乗法です。実際の値と予測線の間の偏差の二乗和を計算して誤差を定量化し、二乗誤差を最小化することでモデルを適合させます。同じロジックで、偏差の基本値の平均を計算する平均絶対誤差法を利用することもできます。

「いずれにせよ、それは私たちが予測しようとしていることとのギャップを測定することに等しい」と、フランスのコンサルティング会社キャップジェミニで戦略、データ、AIサービスを率いるシャルロット・ピエロン・ペルレス氏はまとめた。

たとえば、スパム検出の分類アルゴリズムでは、スパムの誤検知と誤検知の両方を見つける必要があります。「たとえば、私たちは化粧品グループ向けに、生産ラインの効率を最適化する機械学習ソリューションを開発しました。その目的は、生産中断の原因となる可能性のある不良化粧品をラインの最初に特定することでした。私たちは工場のオペレーターと話し合い、たとえ誤検知、つまり不良品と誤って識別される可能性のある合格化粧品を検出することになったとしても、検査を実行できるモデルを見つけました」とピエロン・ペルレスは説明します。

偽陽性と偽陰性の概念に基づいて、分類モデルを評価するための他の 3 つのメトリックがあります。

（１）再現率（R）はモデルの感度の尺度である。これは、正しく特定された真陽性（陽性コロナウイルス検査を例にとると）と、検査されるべきすべての真陽性（陽性コロナウイルス検査 + 実際には陽性である陰性コロナウイルス検査）の比率です。R = 真陽性 / 真陽性 + 偽陰性。

（２）精度（P）は正確さの尺度を指す。これは、正しい真陽性（陽性の COVID-19 検査）と確認されたすべての陽性結果（陽性の COVID-19 検査 + 陰性の COVID-19 検査）の比率です。P = 真陽性 / 真陽性 + 偽陽性。

（３）調和平均（Fスコア）は、モデルが正しい予測を行い、他の予測を拒否する能力を測定する：F = 2 × 精度 × 再現率 / 精度 + 再現率

モデルの一般化

フランスのESN Keyrusの主任上級データサイエンティスト、David Tsang Hin Sun氏は、「モデルが構築されると、その一般化能力が重要な指標となる」と強調した。

それで、どうやって見積もるのでしょうか?予測された結果と期待される結果の差を測定し、この差が時間の経過とともにどのように変化するかを理解します。彼は、「しばらくすると、乖離に遭遇する可能性があります。これは、トレーニングデータセットの質と量が不十分なために、学習が不十分（または過剰適合）になったことが原因である可能性があります」と説明しました。

それで解決策は何でしょうか?たとえば、画像認識モデルの場合、生成的敵対的ネットワークを使用して、画像を回転させたり歪ませたりすることで、画像からの学習量を増やすことができます。もう 1 つの手法 (分類アルゴリズムに適用可能) は、合成少数派オーバーサンプリングです。これは、オーバーサンプリングによってデータセット内の出現頻度の低い例の数を増やすものです。

過剰学習の場合にも発散が発生する可能性があります。この構成では、モデルはトレーニング後に予想される相関関係に限定されませんが、特化しすぎるため、フィールドデータによって生成されたノイズが取り込まれ、一貫性のない結果が生成されます。 David Tsang Hin Sun氏は、「その後、トレーニングデータセットの品質を確認し、変数の重みを調整する必要がある」と述べています。

そして、経済の主要業績指標（KPI）はそのまま残ります。フランスのコンサルティング会社 AIBuilders の CEO、ステファン・ロダー氏は、次のように考えています。「エラー率がビジネス課題に見合っているかどうかを自問する必要があります。たとえば、保険会社 Lemonade は、顧客が請求してから 3 分以内に、伝えられた情報 (写真を含む) に基づいて顧客に保険金を支払うことができる機械学習モジュールを開発しました。一定のエラー率には、節約を考慮するとコストがかかります。モデルのライフサイクル全体にわたってこの測定値をチェックすることが非常に重要です。特に、開発から保守までの総所有コスト (TCO) と比較することが重要です。」

採用レベル

同じ会社内であっても、期待される主要業績評価指標 (KPI) は異なる場合があります。キャップジェミニのシャルロット・ピエロン・ペルレス氏は次のように指摘しています。「私たちは、国際的に展開するフランスの小売業者向けに消費予測エンジンを開発しました。モデルの正確なターゲット設定は、百貨店で販売される製品と新製品とでは異なることが判明しました。後者の販売動向は、特に市場の反応に関連する要因に依存しており、定義上、制御が困難です。」

最後の KPI は採用レベルです。シャルロット・ピエロン・ペルレス氏は、「たとえモデルの品質が優れていたとしても、それだけでは十分ではありません。ビジネスに即応でき、機械学習の期待に応えることができる、ユーザーエクスペリエンスを重視した AI 製品の開発が必要です」と述べています。

「このユーザーエクスペリエンスにより、ユーザーはフィードバックを提供することも可能になり、日常の生産データフローの外部で AI の知識を提供するのに役立ちます」とステファンロダー氏はまとめています。

<<: 「Painted Skin」の悪夢が現実に？「人間の皮膚」で覆われたこのロボットはCell誌に掲載された。

>>: AIは大学入試で高得点のエッセイを書けるようになったが、小説を書くにはまだ遠い