機械学習におけるモデルのバイアスを理解する

機械学習におけるモデルのバイアスを理解する

人工知能 (AI) と機械学習 (ML) の分野では、意思決定プロセスに予測モデルを組み込むことがますます一般的になっていますが、困難なのは、意思決定者がこれらのモデルがモデルの予測に基づいて偏った、または不公平な決定 (意図的または意図的でない差別) を行わないようにする必要があることです。銀行、保険、雇用などの業界では、面接候補者の特定、ローン/クレジットの承認、保険料の格付けなどのソリューションとしてモデルが使用されていると想像してください。最終決定に偏りがあった場合、エンドユーザーにどの程度の損害が発生するでしょうか。したがって、ML の問題に取り組んでいる製品マネージャー、ビジネス アナリスト、データ サイエンティストは、モデル予測バイアスのさまざまなニュアンスを理解することが重要です。

MLモデルにおける公平性とバイアスとは何か

機械学習モデルのバイアスは、モデルのトレーニングに使用される十分な機能の欠如と不完全な関連データセットによって発生します。モデルのトレーニングに使用される機能と関連データは人間によって設計および収集されるため、データ サイエンティストや製品マネージャーの偏見が、モデルのトレーニング用のデータ準備に影響を与える可能性があります。たとえば、データ特徴の収集プロセス中に 1 つ以上の特徴が欠落したり、トレーニングに使用されるデータ セットの範囲が不十分になったりします。言い換えれば、モデルはデータセット内に存在する根本的な規則性を正しく捉えることができず、結果として得られる機械学習モデルは偏ったもの(高バイアス)になってしまう可能性があります。

機械学習モデルのバイアスについては、次の側面からさらに理解することができます。

適切な機能が不足すると、バイアスが生じる可能性があります。このようなモデルは適合不足、つまりバイアスが高く分散が低いモデルです。 適切なデータセットの欠如: 機能が適切であっても、適切なデータが不足するとバイアスが生じる可能性があります。異なる性質の大量のデータ(さまざまなシナリオをカバー)により、バイアスの問題を解決できます。ただし、モデルがすべてのタイプのデータセットに一般化できないため、モデルのパフォーマンスに影響する可能性があるため、過度に高い分散を避けるように注意する必要があります。

モデルの偏りが大きいと判断された場合、そのモデルは不公平であると判断され、その逆も同様です。バイアスを減らそうとすると、分散が大きく、複雑度の高いモデルが作成される可能性があることに注意してください。次の図は、バイアスと分散の観点から見たモデルの複雑さを表しています。

注意: バイアスが減少すると、モデルはより複雑になり、大きな分散を示す可能性があります。

ML モデルの公平性/バイアスをテストする方法

ML モデルが公平であるか偏っているかをテストするには、まずモデルにどの程度偏りがあるかを理解する必要があります。一般的なアプローチは、モデルの予測/出力に対する入力値(機能に関連)の相対的な重要性を決定することです。入力値の相対的な重要性を決定すると、モデルがディスカッション セクションの保護された属性 (年齢、性別、肌の色、教育など) に過度に依存するのを防ぐことができます。その他のテクノロジーには、監査データ分析、ML モデリング パイプラインなどがあります。

モデルのバイアスと関連する公平性を判断するには、次のフレームワークを使用できます。

Lime FairML SHAP Google What-If IBM バイアス評価ツールキット

偏差の特徴と性質

バイアスにつながる一般的な特性と特徴は次のとおりです。

人種 性別 肌の色 宗教 国籍 婚姻状況 性的指向 学歴 収入源 年齢

上記の特性に関連するデータが引き起こす可能性のある潜在的なバイアスを考慮して、モデルと関連するパフォーマンスのトレーニングとテストに適切な戦略を採用したいと考えています。

業界におけるAIバイアスの例

銀行業務: システムに導入されたモデルのトレーニング データ (性別、教育、人種、場所など) に偏りがあったため、有効なローン申請者のローン申請が拒否されました。あるいは、申請者が承認基準を満たしていないにもかかわらず、融資申請が承認される場合もあります。

保険: 予測モデルのデータセットがすべての機能をカバーしていないため、高額の保険料を支払う必要がある場合があります。

雇用: 偏った機械学習モデルが、人種や肌の色などの属性に基づいて候補者の履歴書を誤って選別し、その結果、資格のある候補者が選別されず、企業は優秀な候補者を採用する機会を逃してしまいます。

住宅: 住宅分野では、場所、コミュニティ、地理、その他の関連データの導入により、プロセス中に偏差が発生する可能性があり、その結果、モデルのバイアスが大きくなり、住宅価格について誤った予測が行われ、最終的に所有者と顧客 (購入者) が取引機会を失うことになります。

詐欺(犯罪者/テロリスト):人種、宗教、国籍などの特性に関するトレーニング モデルの偏りにより、犯罪を犯していない人物が潜在的な犯罪者として分類され、尋問されます。例えば、ある国や地域では、ある宗教の人物がテロ組織であると疑われています。今では、それは個人的な偏見の一部となり、その偏見がモデルに反映されます。

政府: 政府が特定のグループの人々に対して政策を定めていると仮定します。機械学習は、これらの計画の受益者を分類する役割を担います。モデルの偏りにより、関連するポリシーを享受すべき人々がそのポリシーを享受できず、関連するポリシーの資格がない人々がポリシーの受益者になる可能性があります。

教育: モデルのトレーニングに使用されたデータセットが不完全であるため、基礎となる機械学習モデルに偏りがあり、学生の入学申請が拒否されたとします。

金融: 金融業界では、偏ったデータを使用して構築されたモデルにより、ローンの申請者が誤って承認され、信用機会均等法に違反する可能性があります。さらに、誤って承認された後、ユーザーは最終結果に疑問を抱き、企業に不承認の理由を説明するよう求めます。

1974 年に制定された法律により、金融融資において人種、肌の色、宗教、性別などに基づいて個人または組織を差別することが禁止されました。モデル構築プロセス中、プロダクト マネージャー (ビジネス アナリスト) とデータ サイエンティストは、モデルの構築 (トレーニングまたはテスト) に使用されるデータが普遍的で正確であることを保証するために、考えられるすべての状況を可能な限り考慮する必要があります。わずかな詳細がバイアスにつながる可能性があります。

要約する

この記事を読むことで、機械学習モデルのバイアス、バイアスに関連するプロパティと特性、さまざまな業界におけるモデルバイアスの例について学びました。バイアスが発生する理由は、製品マネージャーやデータ サイエンティストが機械学習の問題を研究する際に、モデルのトレーニングに使用されるデータの特徴、属性、データ セットの包括的な概要を把握していないため、機械学習モデルが重要な特徴を捉えることができず、モデルをトレーニングするためにあらゆる種類のデータをカバーできないことが原因であると考えられます。バイアスの大きい機械学習モデルでは、利害関係者が不公平または偏った決定を下す可能性があり、取引プロセス全体、さらには最終顧客の利益に重大な影響を及ぼすことになります。

<<:  ビッグデータとAIの未来は1つに集約される

>>:  機械学習ニューラルネットワークとPython実装

ブログ    
ブログ    

推薦する

Appleは開発者がアプリのコードを書くのに役立つXcodeのアップデート版を開発中だ

2月18日、海外メディアの報道によると、AppleはXcodeプログラミングソフトウェアの新しい生成...

...

次世代小売テクノロジー: IoT、AI、5G がショッピング体験に与える影響

今日の小売ショッピング体験は、データを活用しカスタマイズと体験を実現することがすべてです。モノのイン...

CreditEase の R&D ディレクター、張振氏: 運用・保守ロボットのタスク決定システムの進化

[51CTO.comより引用] 2018年5月18日〜19日、51CTO主催のグローバルソフトウェア...

リアルタイムデータ同期ソリューション: Java 開発者向け MySQL CDC テクノロジー

インターネットとビッグデータ時代の到来により、リアルタイムのデータ同期は多くの企業が直面する課題とな...

0 コーパスで「ラベル付け」してより良い多言語翻訳結果を得る方法

[[409976]]今日の多言語翻訳モデルのほとんどは、英語中心のデータセットで統合モデルをトレーニ...

2017-2019 AIの3年間の浮き沈み

ガートナーが発表した2017年の「技術成熟度レポート」によると、5G、人工汎用知能、ディープラーニン...

敵対的機械学習の初心者向けガイド

敵対的機械学習とは、主に、攻撃者の能力と攻撃の結果の調査と理解に基づいて、セキュリティ上の課題 (攻...

周浦データの粘り強さと抑制力:有用性はデータインテリジェンスのゴールドスタンダード

IT は遠くありません。DT はすでにここにあります。​​​ DT 時代の到来により、「データ + ...

Google のアルゴリズムが明らかに: 検索リクエストは平均 2,400 キロメートル往復移動します

Google 検索の進化3月12日のニュース: 世界で最も広く使われている検索エンジンであるGoog...

4 つの C# ソート アルゴリズムのコード例

C# のソート アルゴリズムには通常、ループと割り当てが含まれます。ソートにより、簡単な統計と分類を...

デイリーアルゴリズム: 2 つのスタックを持つキューの実装

[[422522]]この記事はWeChatの公開アカウント「3分でフロントエンドを学ぶ」から転載した...

CAPとPaxosコンセンサスアルゴリズムについての簡単な説明

CAPとはCAP理論についてはすでに多くの背景情報が語られているので、ここでは詳しくは触れません。ど...