機械学習におけるモデルのバイアスを理解する

機械学習におけるモデルのバイアスを理解する

人工知能 (AI) と機械学習 (ML) の分野では、意思決定プロセスに予測モデルを組み込むことがますます一般的になっていますが、困難なのは、意思決定者がこれらのモデルがモデルの予測に基づいて偏った、または不公平な決定 (意図的または意図的でない差別) を行わないようにする必要があることです。銀行、保険、雇用などの業界では、面接候補者の特定、ローン/クレジットの承認、保険料の格付けなどのソリューションとしてモデルが使用されていると想像してください。最終決定に偏りがあった場合、エンドユーザーにどの程度の損害が発生するでしょうか。したがって、ML の問題に取り組んでいる製品マネージャー、ビジネス アナリスト、データ サイエンティストは、モデル予測バイアスのさまざまなニュアンスを理解することが重要です。

MLモデルにおける公平性とバイアスとは何か

機械学習モデルのバイアスは、モデルのトレーニングに使用される十分な機能の欠如と不完全な関連データセットによって発生します。モデルのトレーニングに使用される機能と関連データは人間によって設計および収集されるため、データ サイエンティストや製品マネージャーの偏見が、モデルのトレーニング用のデータ準備に影響を与える可能性があります。たとえば、データ特徴の収集プロセス中に 1 つ以上の特徴が欠落したり、トレーニングに使用されるデータ セットの範囲が不十分になったりします。言い換えれば、モデルはデータセット内に存在する根本的な規則性を正しく捉えることができず、結果として得られる機械学習モデルは偏ったもの(高バイアス)になってしまう可能性があります。

機械学習モデルのバイアスについては、次の側面からさらに理解することができます。

適切な機能が不足すると、バイアスが生じる可能性があります。このようなモデルは適合不足、つまりバイアスが高く分散が低いモデルです。 適切なデータセットの欠如: 機能が適切であっても、適切なデータが不足するとバイアスが生じる可能性があります。異なる性質の大量のデータ(さまざまなシナリオをカバー)により、バイアスの問題を解決できます。ただし、モデルがすべてのタイプのデータセットに一般化できないため、モデルのパフォーマンスに影響する可能性があるため、過度に高い分散を避けるように注意する必要があります。

モデルの偏りが大きいと判断された場合、そのモデルは不公平であると判断され、その逆も同様です。バイアスを減らそうとすると、分散が大きく、複雑度の高いモデルが作成される可能性があることに注意してください。次の図は、バイアスと分散の観点から見たモデルの複雑さを表しています。

注意: バイアスが減少すると、モデルはより複雑になり、大きな分散を示す可能性があります。

ML モデルの公平性/バイアスをテストする方法

ML モデルが公平であるか偏っているかをテストするには、まずモデルにどの程度偏りがあるかを理解する必要があります。一般的なアプローチは、モデルの予測/出力に対する入力値(機能に関連)の相対的な重要性を決定することです。入力値の相対的な重要性を決定すると、モデルがディスカッション セクションの保護された属性 (年齢、性別、肌の色、教育など) に過度に依存するのを防ぐことができます。その他のテクノロジーには、監査データ分析、ML モデリング パイプラインなどがあります。

モデルのバイアスと関連する公平性を判断するには、次のフレームワークを使用できます。

Lime FairML SHAP Google What-If IBM バイアス評価ツールキット

偏差の特徴と性質

バイアスにつながる一般的な特性と特徴は次のとおりです。

人種 性別 肌の色 宗教 国籍 婚姻状況 性的指向 学歴 収入源 年齢

上記の特性に関連するデータが引き起こす可能性のある潜在的なバイアスを考慮して、モデルと関連するパフォーマンスのトレーニングとテストに適切な戦略を採用したいと考えています。

業界におけるAIバイアスの例

銀行業務: システムに導入されたモデルのトレーニング データ (性別、教育、人種、場所など) に偏りがあったため、有効なローン申請者のローン申請が拒否されました。あるいは、申請者が承認基準を満たしていないにもかかわらず、融資申請が承認される場合もあります。

保険: 予測モデルのデータセットがすべての機能をカバーしていないため、高額の保険料を支払う必要がある場合があります。

雇用: 偏った機械学習モデルが、人種や肌の色などの属性に基づいて候補者の履歴書を誤って選別し、その結果、資格のある候補者が選別されず、企業は優秀な候補者を採用する機会を逃してしまいます。

住宅: 住宅分野では、場所、コミュニティ、地理、その他の関連データの導入により、プロセス中に偏差が発生する可能性があり、その結果、モデルのバイアスが大きくなり、住宅価格について誤った予測が行われ、最終的に所有者と顧客 (購入者) が取引機会を失うことになります。

詐欺(犯罪者/テロリスト):人種、宗教、国籍などの特性に関するトレーニング モデルの偏りにより、犯罪を犯していない人物が潜在的な犯罪者として分類され、尋問されます。例えば、ある国や地域では、ある宗教の人物がテロ組織であると疑われています。今では、それは個人的な偏見の一部となり、その偏見がモデルに反映されます。

政府: 政府が特定のグループの人々に対して政策を定めていると仮定します。機械学習は、これらの計画の受益者を分類する役割を担います。モデルの偏りにより、関連するポリシーを享受すべき人々がそのポリシーを享受できず、関連するポリシーの資格がない人々がポリシーの受益者になる可能性があります。

教育: モデルのトレーニングに使用されたデータセットが不完全であるため、基礎となる機械学習モデルに偏りがあり、学生の入学申請が拒否されたとします。

金融: 金融業界では、偏ったデータを使用して構築されたモデルにより、ローンの申請者が誤って承認され、信用機会均等法に違反する可能性があります。さらに、誤って承認された後、ユーザーは最終結果に疑問を抱き、企業に不承認の理由を説明するよう求めます。

1974 年に制定された法律により、金融融資において人種、肌の色、宗教、性別などに基づいて個人または組織を差別することが禁止されました。モデル構築プロセス中、プロダクト マネージャー (ビジネス アナリスト) とデータ サイエンティストは、モデルの構築 (トレーニングまたはテスト) に使用されるデータが普遍的で正確であることを保証するために、考えられるすべての状況を可能な限り考慮する必要があります。わずかな詳細がバイアスにつながる可能性があります。

要約する

この記事を読むことで、機械学習モデルのバイアス、バイアスに関連するプロパティと特性、さまざまな業界におけるモデルバイアスの例について学びました。バイアスが発生する理由は、製品マネージャーやデータ サイエンティストが機械学習の問題を研究する際に、モデルのトレーニングに使用されるデータの特徴、属性、データ セットの包括的な概要を把握していないため、機械学習モデルが重要な特徴を捉えることができず、モデルをトレーニングするためにあらゆる種類のデータをカバーできないことが原因であると考えられます。バイアスの大きい機械学習モデルでは、利害関係者が不公平または偏った決定を下す可能性があり、取引プロセス全体、さらには最終顧客の利益に重大な影響を及ぼすことになります。

<<:  ビッグデータとAIの未来は1つに集約される

>>:  機械学習ニューラルネットワークとPython実装

ブログ    
ブログ    

推薦する

人工知能の台頭でIT業界やその他の分野は失業の波に直面するかもしれない

[[237676]]画像ソース @Visual China以前、「AI従業員の最初の一団が解雇された...

顔認識はどれくらい強力ですか? AIFRテクノロジーはあなたを数分で「スター」に変えます

[[195170]] [51CTO.com からのオリジナル記事]最近、私たちの画面には、「どの有名...

...

トヨタが GenAI を活用して IT サービスを変革する方法

「私の大胆な決断の1つは、2025年までに従来のヘルプデスクを廃止したいということだった」とトヨタ自...

インテリジェントなクラウドネイティブアプリケーションの台頭

マーク・アンドリーセンはかつてウォール・ストリート・ジャーナルに「なぜソフトウェアが世界を席巻してい...

自動運転スタートアップのAuroraは、テスト用によりリアルな仮想世界を構築するために元ピクサーのベテランを雇用

来週ナスダックに上場する予定の自動運転車スタートアップ企業、オーロラは、自動運転システムのテストとト...

...

Pythonアルゴリズムの一般的なテクニックと組み込みライブラリ

[[347377]] Pythonアルゴリズムの一般的なテクニックと組み込みライブラリ近年、Pyth...

...

...

あなたの GPU は Llama 2 のような大規模なモデルを実行できますか?このオープンソースプロジェクトを試してみてください

コンピューティング能力が重要視される時代に、GPU は大規模モデル (LLM) をスムーズに実行でき...

AIが写真を見て場所を推測、その精度は90%以上!スタンフォードの最新のPIGEONモデル:予測誤差の40%は25キロメートル未満

インターネット上に何気なく投稿された写真から、どれほどの情報が漏れてしまうのでしょうか?外国人ブロガ...

Tableau の 157 億ドルの買収の背後にある、50 ページの詳細なレポートが BI の未来を明らかにする

レポート概要BIビジネスインテリジェンスの核心は、意思決定の価値を反映することです。 • 企業のデジ...

自動運転におけるトランスフォーマーベースのモデルとハードウェアアクセラレーションの分析

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

ワンクリックで動画をアニメーションに変換できるAIツールが人気。様々な格闘技の動きをスムーズに変換でき、無料でオンラインでプレイできます。

テキスト、画像、ビデオ、すべてをアニメーション化できます。見てください、ほんの少し前まで二人の男が格...