機械学習におけるモデルのバイアスを理解する

人工知能 (AI) と機械学習 (ML) の分野では、意思決定プロセスに予測モデルを組み込むことがますます一般的になっていますが、困難なのは、意思決定者がこれらのモデルがモデルの予測に基づいて偏った、または不公平な決定 (意図的または意図的でない差別) を行わないようにする必要があることです。銀行、保険、雇用などの業界では、面接候補者の特定、ローン/クレジットの承認、保険料の格付けなどのソリューションとしてモデルが使用されていると想像してください。最終決定に偏りがあった場合、エンドユーザーにどの程度の損害が発生するでしょうか。したがって、ML の問題に取り組んでいる製品マネージャー、ビジネスアナリスト、データサイエンティストは、モデル予測バイアスのさまざまなニュアンスを理解することが重要です。

MLモデルにおける公平性とバイアスとは何か

機械学習モデルのバイアスは、モデルのトレーニングに使用される十分な機能の欠如と不完全な関連データセットによって発生します。モデルのトレーニングに使用される機能と関連データは人間によって設計および収集されるため、データサイエンティストや製品マネージャーの偏見が、モデルのトレーニング用のデータ準備に影響を与える可能性があります。たとえば、データ特徴の収集プロセス中に 1 つ以上の特徴が欠落したり、トレーニングに使用されるデータセットの範囲が不十分になったりします。言い換えれば、モデルはデータセット内に存在する根本的な規則性を正しく捉えることができず、結果として得られる機械学習モデルは偏ったもの（高バイアス）になってしまう可能性があります。

機械学習モデルのバイアスについては、次の側面からさらに理解することができます。

適切な機能が不足すると、バイアスが生じる可能性があります。このようなモデルは適合不足、つまりバイアスが高く分散が低いモデルです。適切なデータセットの欠如: 機能が適切であっても、適切なデータが不足するとバイアスが生じる可能性があります。異なる性質の大量のデータ（さまざまなシナリオをカバー）により、バイアスの問題を解決できます。ただし、モデルがすべてのタイプのデータセットに一般化できないため、モデルのパフォーマンスに影響する可能性があるため、過度に高い分散を避けるように注意する必要があります。

モデルの偏りが大きいと判断された場合、そのモデルは不公平であると判断され、その逆も同様です。バイアスを減らそうとすると、分散が大きく、複雑度の高いモデルが作成される可能性があることに注意してください。次の図は、バイアスと分散の観点から見たモデルの複雑さを表しています。

注意: バイアスが減少すると、モデルはより複雑になり、大きな分散を示す可能性があります。

ML モデルの公平性/バイアスをテストする方法

ML モデルが公平であるか偏っているかをテストするには、まずモデルにどの程度偏りがあるかを理解する必要があります。一般的なアプローチは、モデルの予測/出力に対する入力値（機能に関連）の相対的な重要性を決定することです。入力値の相対的な重要性を決定すると、モデルがディスカッションセクションの保護された属性 (年齢、性別、肌の色、教育など) に過度に依存するのを防ぐことができます。その他のテクノロジーには、監査データ分析、ML モデリングパイプラインなどがあります。

モデルのバイアスと関連する公平性を判断するには、次のフレームワークを使用できます。

Lime FairML SHAP Google What-If IBM バイアス評価ツールキット

偏差の特徴と性質

バイアスにつながる一般的な特性と特徴は次のとおりです。

人種性別肌の色宗教国籍婚姻状況性的指向学歴収入源年齢

上記の特性に関連するデータが引き起こす可能性のある潜在的なバイアスを考慮して、モデルと関連するパフォーマンスのトレーニングとテストに適切な戦略を採用したいと考えています。

業界におけるAIバイアスの例

銀行業務: システムに導入されたモデルのトレーニングデータ (性別、教育、人種、場所など) に偏りがあったため、有効なローン申請者のローン申請が拒否されました。あるいは、申請者が承認基準を満たしていないにもかかわらず、融資申請が承認される場合もあります。

保険: 予測モデルのデータセットがすべての機能をカバーしていないため、高額の保険料を支払う必要がある場合があります。

雇用: 偏った機械学習モデルが、人種や肌の色などの属性に基づいて候補者の履歴書を誤って選別し、その結果、資格のある候補者が選別されず、企業は優秀な候補者を採用する機会を逃してしまいます。

住宅: 住宅分野では、場所、コミュニティ、地理、その他の関連データの導入により、プロセス中に偏差が発生する可能性があり、その結果、モデルのバイアスが大きくなり、住宅価格について誤った予測が行われ、最終的に所有者と顧客 (購入者) が取引機会を失うことになります。

詐欺（犯罪者/テロリスト）：人種、宗教、国籍などの特性に関するトレーニングモデルの偏りにより、犯罪を犯していない人物が潜在的な犯罪者として分類され、尋問されます。例えば、ある国や地域では、ある宗教の人物がテロ組織であると疑われています。今では、それは個人的な偏見の一部となり、その偏見がモデルに反映されます。

政府: 政府が特定のグループの人々に対して政策を定めていると仮定します。機械学習は、これらの計画の受益者を分類する役割を担います。モデルの偏りにより、関連するポリシーを享受すべき人々がそのポリシーを享受できず、関連するポリシーの資格がない人々がポリシーの受益者になる可能性があります。

教育: モデルのトレーニングに使用されたデータセットが不完全であるため、基礎となる機械学習モデルに偏りがあり、学生の入学申請が拒否されたとします。

金融: 金融業界では、偏ったデータを使用して構築されたモデルにより、ローンの申請者が誤って承認され、信用機会均等法に違反する可能性があります。さらに、誤って承認された後、ユーザーは最終結果に疑問を抱き、企業に不承認の理由を説明するよう求めます。

1974 年に制定された法律により、金融融資において人種、肌の色、宗教、性別などに基づいて個人または組織を差別することが禁止されました。モデル構築プロセス中、プロダクトマネージャー (ビジネスアナリスト) とデータサイエンティストは、モデルの構築 (トレーニングまたはテスト) に使用されるデータが普遍的で正確であることを保証するために、考えられるすべての状況を可能な限り考慮する必要があります。わずかな詳細がバイアスにつながる可能性があります。

要約する

この記事を読むことで、機械学習モデルのバイアス、バイアスに関連するプロパティと特性、さまざまな業界におけるモデルバイアスの例について学びました。バイアスが発生する理由は、製品マネージャーやデータサイエンティストが機械学習の問題を研究する際に、モデルのトレーニングに使用されるデータの特徴、属性、データセットの包括的な概要を把握していないため、機械学習モデルが重要な特徴を捉えることができず、モデルをトレーニングするためにあらゆる種類のデータをカバーできないことが原因であると考えられます。バイアスの大きい機械学習モデルでは、利害関係者が不公平または偏った決定を下す可能性があり、取引プロセス全体、さらには最終顧客の利益に重大な影響を及ぼすことになります。

<<: ビッグデータとAIの未来は1つに集約される

>>: 機械学習ニューラルネットワークとPython実装