機械学習モデルのパフォーマンスを測定する 10 の指標

大規模モデルは非常に強力ですが、実際の問題を解決するには必ずしも大規模モデルに完全に依存する必要はありません。あまり正確ではない類推としては、現実世界の物理現象を説明するために量子力学が必ずしも必要ではない、というものがあります。比較的単純な問題の場合、統計分布で十分な場合もあります。機械学習の場合、ディープラーニングやニューラルネットワークについて話す必要はありません。重要なのは、問題の境界を明確にすることです。

では、ML を使用して比較的単純な問題を解決する場合、機械学習モデルのパフォーマンスをどのように評価すればよいのでしょうか?ここでは、比較的よく使われる評価指標を 10 個紹介します。業界や研究に携わる学生の皆さんのお役に立てれば幸いです。

1. 正確性

精度は機械学習の分野における基本的な評価指標であり、モデルのパフォーマンスを素早く把握するためによく使用されます。精度は、モデルが正しく予測したインスタンスの数とデータセット内のインスタンスの合計数の比率を計算するだけで、モデルの精度を直感的に測定する方法を提供します。

写真

ただし、評価指標としての精度は、不均衡なデータセットには対応できない可能性があります。不均衡なデータセットとは、あるクラスのインスタンスの数が他のクラスのインスタンスの数を大幅に上回るデータセットです。この場合、モデルはより大きな数値を持つカテゴリを予測する傾向があり、結果として不自然に高い精度が得られる可能性があります。

さらに、精度では偽陽性や偽陰性に関する情報は提供されません。偽陽性は、モデルが陰性のインスタンスを陽性のインスタンスとして誤って予測する場合であり、偽陰性は、モデルが陽性のインスタンスを陰性のインスタンスとして誤って予測する場合です。モデルのパフォーマンスを評価する際には、偽陽性と偽陰性がモデルのパフォーマンスに異なる影響を与えるため、これらを区別することが非常に重要です。

要約すると、精度はシンプルでわかりやすい評価指標ですが、不均衡なデータセットを扱う場合には精度の結果を解釈する際により注意する必要があります。

2. 正確性

精度は、陽性サンプルに対するモデルの予測精度を測定することに重点を置いた重要な評価メトリックです。精度とは異なり、精度は、モデルが陽性サンプルであると予測したインスタンスのうち、実際に陽性サンプルであるインスタンスの割合を計算します。言い換えれば、精度は「モデルがインスタンスを陽性と予測した場合、その予測が正しい可能性はどの程度か」という質問に答えます。精度の高いモデルとは、インスタンスを陽性と予測した場合、そのインスタンスが陽性である可能性が非常に高いことを意味します。

写真

医療診断や不正検出などの一部のアプリケーションでは、モデルの精度が特に重要です。このようなシナリオでは、偽陽性（つまり、陰性のサンプルを陽性のサンプルとして誤って予測すること）の結果は非常に深刻になる可能性があります。たとえば、医療診断では、偽陽性の診断によって不必要な治療や検査が行われ、患者に不必要な精神的および身体的ストレスを与える可能性があります。不正行為の検出では、誤検知により無実のユーザーが不正行為者として誤って分類され、ユーザーエクスペリエンスと企業の評判に影響を及ぼす可能性があります。

したがって、これらのアプリケーションでは、モデルの精度が高いことを確認することが重要です。精度を向上させることによってのみ、誤検知のリスクを減らし、誤った判断による悪影響を軽減することができます。

3. 思い出す

リコールは、実際のすべての陽性サンプルを正しく予測するモデルの能力を測定するために使用される重要な評価メトリックです。具体的には、リコールは、モデルによって真陽性として予測されたインスタンスの数と実際の陽性サンプルの総数の比率を計算します。このメトリックは、「実際に陽性であったすべてのインスタンスのうち、モデルが正しく予測したものはいくつありましたか?」という質問に答えます。

精度とは異なり、再現率は実際の陽性サンプルを検出するモデルの能力に重点を置いています。モデルが正の例に対してより低い確率を予測したとしても、その例が実際に正の例であり、モデルによって正の例として正しく予測されている限り、この予測はリコール率の計算に含められます。したがって、リコールは、予測確率が高いサンプルだけでなく、モデルが可能な限り多くの陽性サンプルを見つけられるかどうかに関係します。

写真

一部のアプリケーションシナリオでは、リコールの重要性が特に顕著になります。たとえば、病気の検出において、モデルが実際に病気の患者を見逃した場合、病気の遅延や悪化につながり、患者に深刻な結果をもたらす可能性があります。たとえば、顧客離脱予測において、モデルが離脱する可能性のある顧客を正しく識別できない場合、企業は顧客維持策を講じる機会を失い、重要な顧客を失う可能性があります。

したがって、これらのシナリオでは、リコールが重要な指標になります。再現率の高いモデルは、実際の陽性サンプルをより適切に見つけることができ、それらを見逃すリスクを軽減し、起こり得る深刻な結果を回避できます。

4. F1レーティング

F1 スコアは、精度と再現率のバランスを見つけることを目的とした総合的な評価指標です。これは実際には精度と再現率の調和平均であり、これら 2 つのメトリックを 1 つのスコアに組み合わせて、偽陽性と偽陰性の両方を考慮した評価を提供します。

写真

多くの実際のアプリケーションでは、精度と再現率の間でトレードオフを行う必要があることがよくあります。精度はモデルの予測の正確さに焦点を当てていますが、再現率はモデルが実際の陽性サンプルをすべて見つけられるかどうかに焦点を当てています。ただし、1 つの指標を過度に重視すると、他の指標のパフォーマンスが低下することがよくあります。たとえば、再現率を向上させるために、モデルは陽性サンプルの予測を増やすことがありますが、これにより偽陽性の数も増え、精度が低下する可能性があります。

F1 スコアはこの問題を解決するために設計されています。精度と再現率の両方を考慮し、ある指標を犠牲にして別の指標を最適化する状況を回避します。 F1 スコアは、精度と再現率の調和平均を計算することで両者のバランスを取り、どちらか一方に偏ることなくモデルのパフォーマンスを評価できるようにします。

したがって、F1 スコアは、精度と再現率の両方を考慮し、どちらか一方を優先したくないメトリックが必要な場合に非常に便利なツールです。単一のスコアを提供することで、モデルのパフォーマンスを評価するプロセスが簡素化され、実際のアプリケーションでモデルがどのように機能するかをより深く理解できるようになります。

5. ROC-AUC

ROC-AUC は、バイナリ分類問題で広く使用されているパフォーマンス測定です。これは、ROC 曲線の下の領域を測定し、さまざまなしきい値での真陽性率 (感度またはリコールとも呼ばれる) と偽陽性率の関係をプロットします。

写真

ROC 曲線は、さまざまなしきい値設定でのモデルのパフォーマンスを直感的に観察する方法を提供します。しきい値を変更することで、モデルの真陽性率と偽陽性率を調整し、異なる分類結果を得ることができます。 ROC 曲線が左上隅に近いほど、モデルが陽性サンプルと陰性サンプルを区別するパフォーマンスが向上します。

AUC (曲線下面積) は、モデルの識別能力を評価するための定量的な指標を提供します。 AUC 値は 0 から 1 の間で、1 に近いほどモデルの識別能力が強くなります。 AUC スコアが高いということは、モデルが陽性サンプルと陰性サンプルを適切に区別できることを意味します。つまり、モデルが陽性サンプルに対して予測する確率は、陰性サンプルに対して予測する確率よりも高くなります。

したがって、ROC-AUC は、モデルのカテゴリ間の区別能力を評価する場合に非常に便利なメトリックです。他の指標と比較して、ROC-AUC にはいくつかの独自の利点があります。しきい値の選択による影響を受けず、さまざまなしきい値の下でのモデルのパフォーマンスを総合的に考慮できます。さらに、ROC-AUC はクラスの不均衡の問題に対して比較的堅牢であり、陽性サンプルと陰性サンプルの数が不均衡な場合でも、意味のある評価結果を得ることができます。

ROC-AUC は、特にバイナリ分類問題において非常に価値のあるパフォーマンス測定です。さまざまなモデルの ROC-AUC スコアを観察して比較することで、モデルのパフォーマンスをより包括的に理解し、より優れた識別能力を持つモデルを選択できます。

6. PR-AUC

PR-AUC (適合率-再現率曲線の下の領域) は、ROC-AUC に似たパフォーマンスメトリックですが、焦点が少し異なります。 PR-AUC は、さまざまなしきい値での精度と再現率の関係をプロットする、精度-再現率曲線の下の領域を測定します。

写真

ROC-AUC と比較して、PR-AUC は精度と再現率のトレードオフに重点を置きます。精度は、モデルが陽性であると予測したインスタンスのうち実際に陽性であったインスタンスの割合を測定します。一方、再現率は、実際に陽性であったすべてのインスタンスのうち、モデルが陽性であると正しく予測したインスタンスの割合を測定します。精度と再現率のトレードオフは、不均衡なデータセットの場合、または偽陽性が偽陰性よりも大きな懸念がある場合に特に重要です。

不均衡なデータセットでは、1 つのクラスの例の数が他のクラスの例の数を大幅に上回る場合があります。この場合、ROC-AUC はカテゴリの不均衡を直接考慮せずに、主に真陽性率と偽陽性率の関係に焦点を当てているため、モデルのパフォーマンスを正確に反映しない可能性があります。対照的に、PR-AUC は、精度と再現率のバランスをとることでモデルのパフォーマンスをより包括的に評価し、不均衡なデータセットに対するモデルの効果をより適切に反映できます。

さらに、偽陽性が偽陰性よりも懸念される場合、PR-AUC はより適切な指標です。一部のアプリケーションシナリオでは、負のサンプルを誤って正のサンプルとして予測すると (偽陽性)、より大きな損失や悪影響が生じる可能性があります。例えば、医療診断において、健康な人を誤って病気と診断すると、不必要な治療や不安につながる可能性があります。この場合、誤検出の数を減らすために、モデルの精度が高いことが望ましいです。

要約すると、PR-AUC は、データセットのバランスが取れていないシナリオや、誤検知が懸念されるシナリオに適したパフォーマンス測定です。これにより、モデルの精度と再現率のトレードオフをよりよく理解し、実際のニーズを満たす適切なモデルを選択できるようになります。

7. FPR/TNR

偽陽性率 (FPR) は、実際のすべての陰性サンプルのうち、モデルが誤って陽性と予測したサンプルの割合を測定する重要な指標です。これは特異度の補完的な尺度であり、真陰性率 (TNR) に相当します。 FPR は、モデルの誤検知を回避する能力を評価する際に重要な要素になります。誤検知は不必要な心配やリソースの浪費につながる可能性があるため、モデルの FPR を知ることは、実際のアプリケーションでの信頼性を判断する上で非常に重要です。 FPR を減らすことで、モデルの精度と正確性を向上させ、肯定的な例が実際に存在する場合にのみ肯定的な予測が発行されるようにすることができます。

写真

一方、真陰性率 (TNR) は特異度とも呼ばれ、モデルが陰性サンプルをどれだけ正確に識別できるかを測る指標です。実際の陰性の合計のうち、モデルによって真陰性であると予測されたインスタンスの割合を計算します。モデルを評価する際、モデルが正のサンプルをどれだけ正確に認識するかに重点を置くことがよくありますが、モデルが負のサンプルをどれだけ正確に認識するかも同様に重要です。 TNR が高いということは、モデルが負のサンプルを正確に識別できることを意味します。つまり、実際に負のサンプルであるインスタンスの中で、モデルは負のサンプルの割合が高いと予測します。これは、誤分類を回避し、モデルの全体的なパフォーマンスを向上させるために非常に重要です。

8. マシューズ相関係数（MCC）

MCC（マシューズ相関係数）は、バイナリ分類問題で使用される指標であり、真陽性、真陰性、偽陽性、偽陰性の関係を総合的に考慮した評価方法を提供します。 MCC が他のメトリックよりも優れている点は、-1 から 1 までの範囲の単一の値であることです。-1 はモデルの予測が実際の結果と完全に一致しないことを意味し、1 はモデルの予測が実際の結果と完全に一致していることを意味します。

写真

さらに重要なことは、MCC はバイナリ分類の品質を測定するためのバランスの取れた方法を提供することです。バイナリ分類の問題では通常、モデルの正のサンプルと負のサンプルを識別する能力に重点が置かれますが、MCC では両方の側面を同時に考慮します。これは、モデルが陽性サンプル (つまり、真陽性) を正しく予測する能力だけでなく、モデルが陰性サンプル (つまり、真陰性) を正しく予測する能力にも重点を置いています。同時に、MCC は偽陽性と偽陰性も考慮して、モデルのパフォーマンスをより包括的に評価します。

実際のアプリケーションでは、MCC は不均衡なデータセットを処理するのに特に適しています。不均衡なデータセットでは、あるカテゴリのサンプル数が別のカテゴリのサンプル数よりもはるかに多く、モデルはより大きな数値を持つカテゴリを予測する傾向にあることが多いためです。ただし、MCC は 4 つのメトリック (真陽性、真陰性、偽陽性、偽陰性) すべてをバランスよく考慮するため、通常、不均衡なデータセットに対してより正確で包括的なパフォーマンス評価を提供します。

全体として、MCC はバイナリ分類のための強力で包括的なパフォーマンスメトリックです。すべての可能性のある予測結果を考慮するだけでなく、予測と実際の結果の一貫性を測定するための直感的で明確に定義された数値も提供します。バランスの取れたデータセットでも不均衡なデータセットでも、MCC はモデルのパフォーマンスをより深く理解するのに役立つ便利なメトリックです。

9. クロスエントロピー損失

クロスエントロピー損失は、特にモデルの出力が確率値である場合に、分類問題でよく使用されるパフォーマンスメトリックです。この損失関数は、モデルによって予測された確率分布と実際のラベル分布の差を定量化するために使用されます。

写真

分類問題では、モデルの目標は通常、例が異なるカテゴリに属する確率を予測することです。クロスエントロピー損失は、モデルの予測確率と実際のバイナリ結果間の一貫性を評価するために使用されます。予測された確率の対数を取り、それを実際のラベルと比較することで損失値を計算します。したがって、クロスエントロピー損失は対数損失とも呼ばれます。

クロスエントロピー損失の利点は、確率分布のモデルの予測精度を適切に測定できることです。モデルの予測確率分布が実際のラベル分布に近い場合、クロスエントロピー損失の値は低くなります。逆に、予測確率分布が実際のラベル分布と大きく異なる場合、クロスエントロピー損失の値は高くなります。したがって、クロスエントロピー損失値が低いということは、モデルの予測がより正確である、つまりモデルがより適切に調整されていることを意味します。

実際のアプリケーションでは、通常、クロスエントロピー損失値が低いことが求められます。これは、分類問題に対するモデルの予測がより正確で信頼できることを意味するためです。クロスエントロピー損失を最適化することで、モデルのパフォーマンスを向上させ、実際のアプリケーションでより優れた一般化機能を実現できます。したがって、クロスエントロピー損失は分類モデルのパフォーマンスを評価するための重要な指標の 1 つであり、モデルの予測精度をさらに理解し、モデルのパラメータと構造をさらに最適化する必要があるかどうかを判断するのに役立ちます。

10. コーエンのカッパ係数

Cohen の Kappa 係数は、モデル予測と実際のラベル間の一貫性を測定するために使用される統計ツールであり、分類タスクの評価に特に適しています。他のメトリックと比較して、モデル予測と実際のラベル間の単純な一致を計算するだけでなく、偶然に発生する可能性のある一致も修正するため、より正確で信頼性の高い評価結果が提供されます。

実際の応用では、Cohen の Kappa 係数は、特に複数の評価者が同じサンプルセットをカテゴリ別に評価する場合に非常に役立ちます。この場合、モデル予測と実際のラベル間の一貫性だけでなく、異なる評価者間の一貫性にも焦点を当てる必要があります。評価者間で大きな矛盾がある場合、モデルのパフォーマンスの評価結果が評価者の主観に左右され、不正確な評価結果になる可能性があるためです。

Cohen の Kappa 係数を使用すると、偶然に発生する可能性のあるこの一致を修正でき、モデルのパフォーマンスをより正確に評価できます。具体的には、-1 から 1 の間の値が計算されます。1 は完全な一貫性、-1 は完全な不一致、0 はランダムな一貫性を示します。したがって、カッパ値が高いということは、モデルの予測と実際のラベルの一致が偶然に予想されるものを超えていることを意味し、モデルのパフォーマンスが良好であることを示します。

写真

Cohen の Kappa 係数は、偶然に発生する可能性のある一致を修正しながら、分類タスクにおけるモデル予測と実際のラベル間の一致をより正確に評価するのに役立ちます。より客観的で正確な評価結果を提供できるため、複数の評価者が関与するシナリオでは特に重要です。

まとめ

機械学習モデルを評価するための指標は数多くあります。この記事では、主な指標のいくつかを紹介します。

精度: 正しく予測されたサンプル数とサンプル総数の比率。
精度: 真陽性 (TP) サンプルと陽性と予測されたすべてのサンプル (TP と FP) の比率。これは、陽性サンプルを識別するモデルの能力を反映します。
リコール: 真陽性 (TP) サンプルとすべての真陽性 (TP および FN) サンプルの比率。これは、モデルの陽性サンプルを検出する能力を反映します。
F1 値: 精度と再現率の両方を考慮した、精度と再現率の調和平均。
ROC-AUC: ROC 曲線の下の領域。ROC 曲線は、真陽性率 (TPR) と偽陽性率 (FPR) の関数です。 AUC が大きいほど、モデルの分類パフォーマンスは向上します。
PR-AUC: 精度と再現率のトレードオフに焦点を当てた、精度-再現率曲線の下の領域で、不均衡なデータセットに適しています。
FPR/TNR: FPR はモデルが誤検知を報告する能力を測定し、TNR はモデルが陰性サンプルを正しく識別する能力を測定します。
クロスエントロピー損失: モデルの予測確率と実際のラベルの差を評価するために使用されます。値が低いほど、モデルのキャリブレーションと精度が優れていることを示します。
マシューズ相関係数 (MCC): 真陽性、真陰性、偽陽性、偽陰性の関係を考慮し、バイナリ分類の品質をバランスよく測定するメトリック。
Cohen の Kappa: 分類タスクモデルのパフォーマンスを評価するための重要なツールです。特に複数の評価者がいるシナリオでは、予測とラベル間の一貫性を正確に測定し、偶発的な一貫性を修正できます。

上記の指標はそれぞれ独自の特性があり、さまざまな問題のシナリオに適しています。実際のアプリケーションでは、モデルのパフォーマンスを総合的に評価するために、複数の指標を組み合わせる必要がある場合があります。

<<: Microsoft Bing Chat が GPT-4 Turbo モデルを導入、一部のユーザーは無料で使用可能

>>: Point Transformer V3: よりシンプルに、より速く、より強力に!